木答案文化redmong

redmong

3天前 (04-05 18:10)阅读1回复0

xxhh

管理员
注册排名4
经验值148325
级别管理员
主题29665
回复0

楼主

1、【目标检测算法解读】yolo系列算法二 2、英语句子的问题？ 3、帮我翻译成中文{急}(好的加分) 4、弄月要赏梁园月【目标检测算法解读】yolo系列算法二

|声明：遵照CC 4.0 BY-SA版权协议

成立在YOLOv1的根底上，颠末Joseph Redmon等的改进，YOLOv2和YOLO9000算法在2017年CVPR上被提出，并获得更佳论文提名，重点处理YOLOv1召回率和定位精度方面的误差。在提出时，YOLOv2在多种监测数据集中都要快过其他检测系统，并能够在速度与切确度长进行权衡。

YOLOv2摘用Darknet-19做为特征提取收集，增加了批量原则化（Batch Normalization）的预处置，并利用224×224和448×448两阶段操练 ImageNet，得到预操练模子后fine-tuning。

比拟于YOLOv1是操纵FC层间接揣测 Bounding Box的坐标，YOLOv2借鉴了FSR-CNN的思惟，引进 Anchor机造，操纵K-Means聚类的体例在操练集中聚类计算出更好的Anchor模板，在卷积层利用Anchor Boxes操做，增加Region Proposal的揣测，同时摘用较强约束的定位办法，大大进步算法召回率。同时连系图像细粒度特征，将浅层特征与深层特征相连，有助于对小尺寸目标的检测。

下图所示是YOLOv2摘取的各项改进带了的检测性能上的提拔：

YOLO9000 的次要检测收集也是YOLO v2，同时利用WordTree来混合来自差别的资本的操练数据，并利用结合优化手艺同时在ImageNet和COCO数据集长进行操练，目标是操纵数量较大的分类数据集来搀扶帮助操练检测模子，因而，YOLO 9000的收集构造容许实时地检测超越9000种物体分类，进一步缩小了检测数据集与分类数据集之间的大小代沟。

下面将详细阐发YOLOv2的各个立异点:

BN概述：

对数据停止与处置（同一格局、平衡化、往噪等）可以大大进步操练速度，提拔操练效果。BN恰是基于那个假设的理论，对每一层输进的数据停止加工。

BN是2015年Google研究员在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》一文中提出的，同时也将BN利用到了2014年的GoogLeNet上，也就是Inception-v2。

BN层简单讲就是对收集的每一层的输进都做了回一化，如许收集就不需要每层都往学数据的散布，收敛会更快。YOLOv1算法（摘用的是GoogleNet收集提取特征）是没有BN层的，而在YOLOv2中做者为每个卷积层都添加了BN层。

利用BN对收集停止优化，让收集进步了收敛性，同时还消弭了对其他形式的正则化（regularization）的依靠，因而利用BN后能够从模子中往掉Dropout，而不会产生过拟合。

BN长处：

神经收集每层输进的散布老是发作改变，加进 BN，通过原则化上层输出，平衡输进数据散布，加快操练速度，因而能够设置较大的进修率（Learning Rate）和衰减（Decay）；

通过原则化输进，降低激活函数（Activation Function）在特定输进区间到达饱和形态的概率，制止梯度弥散（Gradient Vanishing）问题；

输进原则化对应样本正则化，BN在必然水平上能够替代 Dropout处理过拟合问题。

BN算法：

在卷积或池化之后，激活函数之前，对每个数据输出停止原则化，体例如下图所示：

公式很简单，前三行是 Batch内数据回一化（假设一个Batch中有每个数据），统一Batch内数据近似代表了整体操练数据。第四行引进了附加参数 γ 和 β，此二者的取值算法能够参考BN论文，在此不再赘述。

fine-tuning：用已经操练好的模子，加上本身的数据集，来操练新的模子。即便用他人的模子的前几层，来提取浅层特征，而非完全从头操练模子，从而进步效率。一般新操练模子准确率城市从很低的值起头渐渐上升，但是fine-tuning可以让我们在比力少的迭代次数之后得到一个比力好的效果。

YOLO模子分为两部门，分类模子和检测模子，前者利用在ImageNet上预操练好的模子，后者在检测数据集上fine-tuning。

YOLOv1在预操练时摘用的是224*224的输进（在ImageNet数据集长进行），然后在检测的时候摘用448*448的输进，那会招致从分类模子切换到检测模子的时候，模子还要适应图像辨认率的改动。

YOLOv2则将预操练分红两步：先用224*224的输进在ImageNet数据集操练分类收集，可能 160个epoch（将所有操练数据轮回跑160次）后将输进调整到448*448，再操练 10个epoch（那两步都是在ImageNet数据集上操做）。然后操纵预操练得到的模子在检测数据集上fine-tuning。如许操练得到的模子，在检测时用448*448的图像做为输进能够顺利检测。

YOLOv1将输进图像分红7*7的网格，每个网格揣测 2个Bounding Box，因而一共有98个Box，同时YOLOv1包罗有全毗连层，从而能间接揣测 Bounding Boxes的坐标值，但也招致丧失较多的空间信息，定位禁绝。

YOLOv2起首将YOLOv1收集的FC层和最初一个Pooling层往掉，使得最初的卷积层能够有更高辨认率的特征，然后缩减收集，用416*416大小的输进取代本来的448*448，使得收集输出的特征图有奇数大小的宽和高，进而使得每个特征图在划分单位格（Cell）的时候只要一个中心单位格（Center Cell）。

为什么期看只要一个中心单位格呢？因为图片中的物体都倾向于呈现在图片的中心位置，特殊是比力大的物体，所以有一个单位格零丁位于物体中心的位置用于揣测那些物体。

YOLOv2通过引进 Anchor Boxes，通过揣测 Anchor Box的偏移值与置信度，而不是间接揣测坐标值。YOLOv2的卷积层摘用32那个值来下摘样图片，所以通过抉择 416*416用做输进尺寸最末能输出一个13*13的特征图。若摘用FSRCNN中的体例，每个Cell可揣测出9个Anchor Box，共13*13*9=1521个（YOLOv2确定Anchor Boxes的办法见是维度聚类，每个Cell抉择 5个Anchor Box）。

在FSRCNN中，以一个51*39大小的特征图为例，其能够看做一个标准为51*39的图像，关于该图像的每一个位置，考虑9个可能的候选窗口：3种面积3种比例。那些候选窗口称为Anchor Boxes。下图示出的是51*39个Anchor Box中心，以及9种Anchor Box示例。

YOLOv1和YOLOv2特征图数据构造：

YOLOv1：S*S* (B*5 + C) = 7*7（2*5+20）

此中B对应Box数量，5对应鸿沟框的定位信息（w,y,w,h）和鸿沟框置信度（Confidience）。辨认率是7*7，每个Cell揣测 2个Box，那2个Box共用1套前提类别概率（1*20）。

YOLOv2：S*S*K* (5 + C) = 13*13*9（5+20）

辨认率提拔至13*13，对小目标适应性更好，借鉴了FSRCNN的思惟，每个Cell对应K个Anchor box（YOLOv2中K=5），每个Anchor box对应1组前提类别概率（1*20）。

聚类：聚类是指事先没有“标签”而通过某种成团阐发找出事物之间存在聚集性原因的过程。即在没有划分类此外情状下，根据数据类似度停止样天职组。

在FSR-CNN中Anchor Box的大小和比例是按体味设定的，然后收集会在操练过程中调整Anchor Box的尺寸，最末得到准确的Anchor Boxes。若一起头就抉择了更好的、更有代表性的先验Anchor Boxes，那么收集就更随便学到准确的揣测位置。

YOLOv2利用K-means聚类办法类操练 Bounding Boxes，能够主动找到更好的宽高维度的值用于一起头的初始化。传统的K-means聚类办法利用的是欧氏间隔函数，意味着较大的Anchor Boxes会比力小的Anchor Boxes产生更多的错误，聚类成果可能会偏离。因为聚类目标是确定更精准的初始Anchor Box参数，即进步IOU值，那应与Box大小无关，因而YOLOv2摘用IOU值为评判原则，即K-means 摘用的间隔函数（度量原则）为：

d(box,centroid) = 1 - IOU(box,centroid)

如下图，右边是聚类的簇个数和IOU的关系，两条曲线别离代表两个差别的数据集。阐发聚类成果并权衡模子复杂度与IOU值后，YOLOv2抉择 K=5，即抉择了5种大小的Box 维度来停止定位揣测。

此中紫色和灰色也是别离表达两个差别的数据集，能够看出其根本外形是类似的。更重要的是，能够看出聚类的成果和手动设置的Anchor Box位置和大小区别显著——成果中扁长的框较少，而瘦高的框更多（更契合行人的特征）。

YOLOv2摘用的5种Anchor的Avg IOU是61，而摘用9种Anchor Boxes的Faster RCNN的Avg IOU是60.9，也就是说本文仅拔取5种box就能到达Faster RCNN的9中box的效果。抉择值为9的时候，AVG IOU更有显著进步。阐明 K-means办法的生成的boxes更具有代表性。

间接对Bounding Boxes求回回会招致模子不不变，此中心点可能会呈现在图像任何位置，有可能招致回回过程震荡，以至无法收敛，出格是在最起头的几次迭代的时候。大大都不不变因素产生自揣测 Bounding Box的中心坐标（x,y）位置的时候。

YOLOv2的收集在特征图（13*13）的每一个单位格中揣测出5个Bounding Boxes（对应5个Anchor Boxes），每个Bounding Box揣测出5个值（tx,ty,tw,th,t0），此中前4个是坐标偏移值，t0是置信度成果（类似YOLOv1中的鸿沟框置信度Confidence）。YOLOv2借鉴了如下的揣测体例，即当Anchor Box的中心坐标和宽高别离是（xa,ya）和（wa,wh）时，Bounding Box坐标的揣测偏移值（tx,ty,tw,th）与其坐标宽高（x,y,w,h）的关系如下：

tx = (x-xa)/wa

ty= (y-ya)/ha

tw = log(w/wa)

th = log(h/ha)

基于那种思惟，YOLOv2在揣测 Bounding Box的位置参数时摘用了如下强约束办法：

上图中，黑色虚线框是Anchor Box，蓝色矩形框就是揣测的Bounding Box成果，揣测出的Bounding Box的坐标和宽高为（bx,by）和（bw,bh），计算体例如图中所示，此中：对每个Bounding Box揣测出5个值（tx,ty,tw,th,t0），Cell与图像左上角的横纵坐标间隔为（cx,cy），σ定义为sigmoid激活函数（将函数值约束到［0,1］），该Cell对应的Anchor Box对应的宽高为（pw,ph）。

简而言之，（bx,by）就是（cx,cy）那个Cell四周的Anchor Box针对揣测值（tx,ty）得到的Bounding Box的坐标揣测成果，同时能够发现那种体例关于较远间隔的Bounding Box揣测值（tx,ty）可以得到很大的限造。

YOLOv2通过添加一个转移层，把高辨认率的浅层特征毗连到低辨认率的深层特征（把特征堆积在差别Channel中）然后停止合成和检测。详细操做是先获取前层的26*26的特征图，将其同最初输出的13*13的特征图停止毗连，然后输进检测器停止检测（检测器的FC层起到了全局特征合成的感化），以此来进步对小目标的检测才能。

为了适应差别标准下的检测使命，YOLOv2在操练收集时，其在检测数据集上fine-tuning时候摘用的输进图像的size是动态改变的。详细来讲，每操练 10个Batch，收集就会随机抉择另一种size的输进图像。因为YOLOv2用到了参数是32的下摘样，因而也摘用32的倍数做为输进的size，即摘用{320,352,…,608}的输进尺寸（收集会主动改动尺寸，并陆续操练的过程）。

那一战略让收集在差别的输进尺寸上都能到达较好的揣测效果，使统一收集能在差别辨认率长进行检测。输进图片较大时，检测速度较慢，输进图片较小时，检测速度较快，总体上进步了准确率，因而多标准操练算是在准确率和速度上到达一个平衡。

上表反映的是在检测时，差别大小的输进图片情状下的YOLOv2和其他目标检测算法的比照。能够看出通过多标准操练的检测模子，在测试的时候，输进图像在尺寸改变范畴较大的情状下也能获得mAP和FPS的平衡。

YOLOv1摘用的操练收集是GoogleNet，YOLOv2摘用了新的分类收集Darknet-19做为根底收集，它利用了较多的3*3卷积核，并把1*1的卷积核置于3*3的卷积核之间，用来压缩特征，同时在每一次池化操做后把通道（Channels）数翻倍（借鉴VGG收集）。

YOLOv1摘用的GooleNet包罗24个卷积层和2个全毗连层，而Darknet-19包罗19个卷积层和5个更大池化层（Max Pooling Layers），后面添加Average Pooling层（取代v1中FC层），而Softmax分类器做为激活被用在收集最初一层，用来停止分类和回一化。

在ImageNet数据集长进行预操练，次要分两步（摘用随机梯度下降法）：

输进图像大小是224*224，初始进修率（Learning Rate）为0.1，操练 160个epoch，权值衰减（Weight Decay）为0.0005，动量（Momentum）为0.9，同时在操练时摘用原则的数据加强（Data Augmentation）体例如随机裁剪、扭转以及色度、亮度的调整。

fine-tuning：第1步完毕后，改用448*448输进（高辨认率模子），进修率改为0.001，操练 10个epoch，其他参数稳定。成果表白：fine-tuning后的top-1准确率为76.5%，top-5准确率为93.3%，若根据本来的操练体例，Darknet-19的top-1准确率是72.9%，top-5准确率为91.2%。能够看出，两步别离从收集构造和操练体例方面进手进步了收集分类准确率。

预操练之后，起头基于检测的数据集再停止fine-tuning。

起首，先把最初一个卷积层往掉，然后添加3个3*3的卷积层，每个卷积层有1024个卷积核，而且后面都毗连一个1*1的卷积层，卷积核个数（特征维度）根据需要检测的类数量决定。（好比对VOC数据，每个Cell需要揣测 5个Boungding Box，每个Bounding Box有4个坐标值、1个置信度值和20个前提类别概率值，所以每个单位格对应125个数据，此时卷积核个数应该取125。）

然后，将最初一个3*3*512的卷积层和倒数第2个卷积层相连（提取细粒度特征），最初在检测数据集上fine-tuning预操练模子160个epoch，进修率摘用0.001，而且在第60和90个epoch的时候将进修率除以10，权值衰减、动量和数据加强办法与预操练不异。

YOLO9000通过连系分类和检测数据集，使得操练得到的模子能够检测约9000类物体，操纵带标注的分类数据集量比力大的特征，处理了带标注的检测数据集量比力少的问题。详细办法是：一方面摘用WordTree合成数据集，另一方面结合操练分类数据集和检测数据集。

分类数据集和检测数据集存在较大区别：检测数据集只要粗粒度的标识表记标帜信息，如“猫”、“狗”，而分类数据集的标签信息则更细粒度，更丰富。好比“狗”就包罗“哈士奇”、“金毛狗”等等。所以假设想同时在检测数据集与分类数据集长进行操练，那么就要用一种一致性的办法合成那些标签信息。

用于分类的办法，常用Softmax（好比v2），Softmax意味着分类的类别之间要互相独立的，而ImageNet和COCO那两种数据集之间的分类信息不彼此独立（ImageNet对应分类有9000种，而COCO仅供给80种目标检测），所以利用一种多标签模子来混合数据集，即假定一张图片能够有多个标签，而且不要求标签之间独立，然后停止Softmax分类。

因为ImageNet的类别是从WordNet拔取的，做者摘用以下战略重建了一个树形构造（称为WordTree）：

遍历ImageNet的标签，然后在WordNet中觅觅该标签到根节点(所有的根节点为实体对象)的途径；

假设途径只要一条，将该途径间接加进到WordTree构造中；

不然，从可选途径中抉择一条最短途径，加进到WordTree构造中。

WordTree的感化就在于将两种数据集根据层级停止连系。

如斯，在WordTree的某个节点上就能够计算该节点的一些前提概率值，好比在terrier那个节点，能够得到如下前提概率值：

进而，假设要揣测此节点的概率（即图片中目标是Norfolk terrier的概率），能够根据 WordTree将该节点到根节点的前提概率依次相乘得到，如下式：

此中：

YOLO9000在WordTree1k（用有1000类此外ImageNet1k创建）上操练了Darknet-19模子。为了创建WordTree1k做者添加了良多中间节点（中间词汇），把标签由1000扩展到1369。

操练过程中GroundTruth标签要顺着向根节点的途径传布：为了计算前提概率，模子揣测了一个包罗1369个元素的向量，并且基于所有“同义词集”计算Softmax，此中“同义词集”是统一概念下的所属词。

如今一张图片是多标识表记标帜的，标识表记标帜之间不需要彼此独立。在操练过程中，假设有一个图片的标签是“Norfolk terrier”，那么那个图片还会获得“狗”以及“哺乳动物”等标签。

如上图所示，之前的ImageNet分类是利用一个大Softmax停止分类，而如今WordTree只需要对统一概念下的同义词停止Softmax分类。然后做者别离两个数据集上用不异操练办法操练 Darknet-19模子，最初在ImageNet数据集上的top-1准确率为72.9%，top-5准确率为91.2%；在WordTree数据集上的top-1准确率为71.9%，top-5准确率为90.4%。

那种办法的益处是有“退而求其次”的余地：在对未知或者新的物体停止分类时，性能缺失更低，好比看到一条狗的照片，但不晓得是哪种品种的狗，那么就揣测其为“狗”。

以上是构造WordTree的原理，下图是合成 COCO数据集和ImageNet数据集以及生成它们的WordTree的示企图（用颜色区分了COCO数据集和ImageNet数据集的标签节点），混合后的数据集对应的WordTree有9418个类。另一方面，因为ImageNet数据集太大，YOLO9000为了平衡两个数据集之间的数据量，通过过摘样（Oversampling）COCO数据集中的数据，使COCO数据集与ImageNet数据集之间的数据量比例到达1：4。

对YOLO9000停止评估，发现其mAP比DPM高，并且YOLO有更多先辈的特征，YOLO9000是用部门监视的体例在差别操练集长进行操练，同时还能检测9000个物体类别，并包管实时运行。固然YOLO9000对动物的识别性能很好，但是对衣服或者配备的识别性能不是很好（那跟数据集的数据构成有关）。

YOLO9000的收集构造和YOLOv2类似，区别是每个单位格只摘用3个Anchor Boxes。

YOLO9000提出了一种在分类数据集和检测数据集上结合操练的机造，即便用检测数据集（COCO）的图片往进修检测相关的信息即查找对象（例如揣测鸿沟框坐标、鸿沟框能否包罗目标及目标属于各个类此外概率），利用仅有类别标签的分类数据集（ImageNet）中的图片往扩展检测到的对象的可识别品种。

详细办法是：当收集碰着一个来自检测数据集的图片与标识表记标帜信息，就把那些数据用完全的缺失函数（v2和9000均沿用了v1收集的缺失函数）反向传布，而当收集碰着一个来自分类数据集的图片和分类标识表记标帜信息，只用代表分类误差部门的缺失函数反向传布那个图片。

YOLO v2 在大尺寸图片上可以实现高精度，在小尺寸图片上运行更快，能够说在速度和精度上到达了平衡，详细性能表示如下所示。

coco数据集

voc2012数据集

redmong

英语句子的问题？

1. 那长短谓语动词中的过往分词形式。

2. 非谓语动词有三种：如今分词、过往分词和to不定式。此中如今分词表达主动关系，过往分词表达被动关系。在那个句子中，Redmon和employ的关系是被动的，主语是被雇佣的，所以用过往分词employed表达被动。

帮我翻译成中文{急}(好的加分)

上一年的年未,律师Gant Redmon偶尔来到了CareerBuilder(职业建造者),那是一个网上的找工做基地.他没有胜利的找到工做,但被网页上的"personal search agent(小我搜刮代办署理)"吸引住了.那是一个交互式的工能,能够让阅读者输进找工做的原则 ,例如地点,头衔,工资,然后当网页上呈现了适宜的工做时,Redmon发E-main给他们.Redmon抉择了legal(法令的),intellectual property(常识产权),Washington,D.C(华盛顿)那几个关键词.三个礼拜之后,他收到了登科的通知书.Redmon说"U struck gold",他E-main他的简历上往 ,然后找到了一个内部参谋的工做.

网上有成千上万的跟找工做有关系的网页,找到一个有前途的工做空位仍是很费时间和你效率的.搜刮代办署理减低了反复阅读的网站的需要,但固然那个搜刮代办署理对Redmon有效,职业专家仍是提出了不敷之处.好比说,收缩你找工做的原则 ,那可能会对你倒霉."你每答复一个问题都丢掉了一个可能性"一个专家说.

弄月要赏梁园月

出自元代张喊善的《咏世》

普天乐咏世

年代：【元】做者：【张喊善】

洛阳花，梁园月，好花须买，皓月须赊。花倚栏干看烂熳开，月曾把酒问团聚夜。月有盈亏花有开谢，想人生最苦告别。花谢了三春近也，月缺了中秋到也，人往了何日来也？

梁园月：即梁园的月色。梁园，西汉梁孝王所建。孝王曾邀请司马相如、枚乘等辞赋家在园中看花弄月吟诗。

月曾把酒问团聚夜：化用苏轼《水调歌头》词逾：“明月几时有，把酒问彼苍。”

译文：在洛阳赏花，到梁园弄月，好花应不吝钱往买，明月也应不吝钱云买。依着栏干赏识花开放得一片烂熳，举酒问明月为何如斯团聚。月有圆出缺花有开有谢，想到人生最苦的工作莫过一墩别。花谢了到了三春再开，月缺了到了中秋又圆，人往了什么时候能再来呢？

张喊善元代散曲家。名择，号顽老子。原籍平阳（今属山西），家在湖南，流寓扬州。官淮东道宣恩司令史。填词度曲词采丰赡，常以诙谐语讽人。《录鬼簿续编》载他有《英华集》，今佚。做杂剧 3种：《包待造揣度烟花鬼》、《党金莲夜月瑶琴怨》、《十八令郎大闹草园阁》，都已亡佚。生卒年不明，但他曾为夏伯和《青楼集》做过序，时在至正二十六年(1366)，知他生活在元代末年。

张喊善身处元末丧乱之际，深感现实的骚动与污浊，因而多有刺时之做。闻名的小令〔水仙子〕《讥时》："展眉苫眼早三公,裸袖揎拳享万钟,胡言乱语成时用"等句，揭露了元末贤愚莫辨，黑白倒置的暗中政治情状。又据《尧山堂外纪》所记：张士诚据苏州时，其弟张士德掠夺民田，以扩展园圃，有一次宴会上，张喊善做小令《咏雪》，虽句句咏雪，却意指其事，并且词锋尖利，张士德为之大惭。他的散曲往往构想巧妙,语言诙谐,甚有特色。

今存小令13首，套数2首，见《全元散曲》。

redmon

回帖 干竹笋烧肉的做法大全 生果篮子旧版本

redmong 期待您的回复！

取消