redmong

3天前 (04-05 18:10)阅读1回复0
xxhh
xxhh
  • 管理员
  • 注册排名4
  • 经验值148325
  • 级别管理员
  • 主题29665
  • 回复0
楼主
1、【目标 检测算法解读】yolo系列算法二 2、英语句子的问题? 3、帮我翻译成中文{急}(好的加分) 4、弄月要赏梁园月 【目标 检测算法解读】yolo系列算法二

|声明:遵照CC 4.0 BY-SA版权协议

    成立在YOLOv1的根底上,颠末Joseph Redmon等的改进 ,YOLOv2和YOLO9000算法在2017年CVPR上被提出,并获得更佳论文提名,重点处理YOLOv1召回率和定位精度方面的误差。在提出时,YOLOv2在多种监测数据集中都要快过其他检测系统,并能够在速度与切确度长进行权衡。

    YOLOv2摘 用Darknet-19做为特征提取收集,增加了批量原则 化(Batch Normalization)的预处置,并利用224×224和448×448两阶段操练 ImageNet,得到预操练 模子后fine-tuning。

    比拟于YOLOv1是操纵FC层间接揣测 Bounding Box的坐标,YOLOv2借鉴了FSR-CNN的思惟,引进 Anchor机造,操纵K-Means聚类的体例在操练 集中聚类计算出更好的Anchor模板,在卷积层利用Anchor Boxes操做,增加Region Proposal的揣测 ,同时摘 用较强约束的定位办法,大大进步算法召回率。同时连系图像细粒度特征,将浅层特征与深层特征相连,有助于对小尺寸目标 的检测。 

    下图所示是YOLOv2摘 取的各项改进 带了的检测性能上的提拔:

    YOLO9000 的次要检测收集也是YOLO v2,同时利用WordTree来混合来自差别的资本的操练 数据,并利用结合优化手艺同时在ImageNet和COCO数据集长进行操练 ,目标是操纵数量较大的分类数据集来搀扶帮助 操练 检测模子,因而,YOLO 9000的收集构造容许 实时地检测超越9000种物体分类,进一步缩小了检测数据集与分类数据集之间的大小代沟。

    下面将详细阐发YOLOv2的各个立异点:

BN概述:

    对数据停止与处置(同一格局、平衡化、往 噪等)可以大大进步操练 速度,提拔操练 效果。BN恰是基于那个假设的理论,对每一层输进 的数据停止加工。

    BN是2015年Google研究员在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》一文中提出的,同时也将BN利用 到了2014年的GoogLeNet上,也就是Inception-v2。

    BN层简单讲就是对收集的每一层的输进 都做了回 一化,如许收集就不需要每层都往 学数据的散布,收敛会更快。YOLOv1算法(摘 用的是GoogleNet收集提取特征)是没有BN层的,而在YOLOv2中做者为每个卷积层都添加了BN层。

    利用BN对收集停止优化,让收集进步了收敛性,同时还消弭了对其他形式的正则化(regularization)的依靠 ,因而利用BN后能够从模子中往 掉Dropout,而不会产生过拟合。

BN长处:

神经收集每层输进 的散布老是发作改变 ,加进 BN,通过原则 化上层输出,平衡输进 数据散布,加快操练 速度,因而能够设置较大的进修率(Learning Rate)和衰减(Decay);

通过原则 化输进 ,降低激活函数(Activation Function)在特定输进 区间到达饱和形态的概率,制止梯度弥散(Gradient Vanishing)问题;

输进 原则 化对应样本正则化,BN在必然水平上能够替代 Dropout处理过拟合问题。

BN算法:

    在卷积或池化之后,激活函数之前,对每个数据输出停止原则 化,体例如下图所示:

    公式很简单,前三行是 Batch内数据回 一化(假设一个Batch中有每个数据),统一Batch内数据近似代表了整体操练 数据。第四行引进 了附加参数 γ 和 β,此二者的取值算法能够参考BN论文,在此不再赘述。

    fine-tuning:用已经操练 好的模子,加上本身的数据集,来操练 新的模子。即便用他人的模子的前几层,来提取浅层特征,而非完全从头操练 模子,从而进步效率。一般新操练 模子准确 率城市从很低的值起头渐渐上升,但是fine-tuning可以让我们在比力少的迭代次数之后得到一个比力好的效果。

    YOLO模子分为两部门,分类模子和检测模子,前者利用在ImageNet上预操练 好的模子,后者在检测数据集上fine-tuning。

    YOLOv1在预操练 时摘 用的是224*224的输进 (在ImageNet数据集长进行),然后在检测的时候摘 用448*448的输进 ,那会招致从分类模子切换到检测模子的时候,模子还要适应图像辨认 率的改动。

    YOLOv2则将预操练 分红两步:先用224*224的输进 在ImageNet数据集操练 分类收集,可能 160个epoch(将所有操练 数据轮回跑160次)后将输进 调整到448*448,再操练 10个epoch(那两步都是在ImageNet数据集上操做)。然后操纵预操练 得到的模子在检测数据集上fine-tuning。如许操练 得到的模子,在检测时用448*448的图像做为输进 能够顺利检测。

    YOLOv1将输进 图像分红7*7的网格,每个网格揣测 2个Bounding Box,因而一共有98个Box,同时YOLOv1包罗有全毗连层,从而能间接揣测 Bounding Boxes的坐标值,但也招致丧失较多的空间信息,定位禁绝。

    YOLOv2起首将YOLOv1收集的FC层和最初一个Pooling层往 掉,使得最初的卷积层能够有更高辨认 率的特征,然后缩减收集,用416*416大小的输进 取代本来的448*448,使得收集输出的特征图有奇数大小的宽和高,进而使得每个特征图在划分单位格(Cell)的时候只要一个中心单位格(Center Cell)。

    为什么期看 只要一个中心单位格呢?因为图片中的物体都倾向于呈现在图片的中心位置,特殊 是比力大的物体,所以有一个单位格零丁位于物体中心的位置用于揣测 那些物体。

    YOLOv2通过引进 Anchor Boxes,通过揣测 Anchor Box的偏移值与置信度,而不是间接揣测 坐标值。YOLOv2的卷积层摘 用32那个值来下摘 样图片,所以通过抉择 416*416用做输进 尺寸最末能输出一个13*13的特征图。若摘 用FSRCNN中的体例,每个Cell可揣测 出9个Anchor Box,共13*13*9=1521个(YOLOv2确定Anchor Boxes的办法见是维度聚类,每个Cell抉择 5个Anchor Box)。

    在FSRCNN中,以一个51*39大小的特征图为例,其能够看做一个标准为51*39的图像,关于该图像的每一个位置,考虑9个可能的候选窗口:3种面积3种比例。那些候选窗口称为Anchor Boxes。下图示出的是51*39个Anchor Box中心,以及9种Anchor Box示例。

YOLOv1和YOLOv2特征图数据构造:

YOLOv1:S*S* (B*5 + C) = 7*7(2*5+20)

    此中B对应Box数量,5对应鸿沟框的定位信息(w,y,w,h)和鸿沟框置信度(Confidience)。辨认 率是7*7,每个Cell揣测 2个Box,那2个Box共用1套前提类别概率(1*20)。

YOLOv2:S*S*K* (5 + C) = 13*13*9(5+20)

    辨认 率提拔至13*13,对小目标 适应性更好,借鉴了FSRCNN的思惟,每个Cell对应K个Anchor box(YOLOv2中K=5),每个Anchor box对应1组前提类别概率(1*20)。

    聚类:聚类是指事先没有“标签”而通过某种成团阐发找出事物之间存在聚集性原因的过程。即在没有划分类此外情状 下,根据 数据类似度停止样天职组。

    在FSR-CNN中Anchor Box的大小和比例是按体味 设定的,然后收集会在操练 过程中调整Anchor Box的尺寸,最末得到准确 的Anchor Boxes。若一起头就抉择 了更好的、更有代表性的先验Anchor Boxes,那么收集就更随便 学到准确 的揣测 位置。

    YOLOv2利用K-means聚类办法类操练 Bounding Boxes,能够主动找到更好的宽高维度的值用于一起头的初始化。传统的K-means聚类办法利用的是欧氏间隔函数,意味着较大的Anchor Boxes会比力小的Anchor Boxes产生更多的错误,聚类成果可能会偏离。因为聚类目标是确定更精准的初始Anchor Box参数,即进步IOU值,那应与Box大小无关,因而YOLOv2摘 用IOU值为评判原则 ,即K-means 摘 用的间隔函数(度量原则 ) 为:

d(box,centroid) = 1 - IOU(box,centroid)

    如下图,右边是聚类的簇个数和IOU的关系,两条曲线别离 代表两个差别的数据集。阐发聚类成果并权衡模子复杂度与IOU值后,YOLOv2抉择 K=5,即抉择 了5种大小的Box 维度来停止定位揣测 。

    此中紫色和灰色也是别离 表达 两个差别的数据集,能够看出其根本外形 是类似的。更重要的是,能够看出聚类的成果和手动设置的Anchor Box位置和大小区别 显著——成果中扁长的框较少,而瘦高的框更多(更契合行人的特征)。

    YOLOv2摘 用的5种Anchor的Avg IOU是61,而摘 用9种Anchor Boxes的Faster RCNN的Avg IOU是60.9,也就是说本文仅拔取5种box就能到达Faster RCNN的9中box的效果。抉择 值为9的时候,AVG IOU更有显著进步。阐明 K-means办法的生成的boxes更具有代表性。

    间接对Bounding Boxes求回回 会招致模子不不变,此中心点可能会呈现在图像任何位置,有可能招致回回 过程震荡,以至无法收敛,出格 是在最起头的几次迭代的时候。大大都不不变因素产生自揣测 Bounding Box的中心坐标(x,y)位置的时候。

    YOLOv2的收集在特征图(13*13)的每一个单位格中揣测 出5个Bounding Boxes(对应5个Anchor Boxes),每个Bounding Box揣测 出5个值(tx,ty,tw,th,t0),此中前4个是坐标偏移值,t0是置信度成果(类似YOLOv1中的鸿沟框置信度Confidence)。YOLOv2借鉴了如下的揣测 体例,即当Anchor Box的中心坐标和宽高别离 是(xa,ya)和(wa,wh)时,Bounding Box坐标的揣测 偏移值(tx,ty,tw,th)与其坐标宽高(x,y,w,h)的关系如下:                         

tx = (x-xa)/wa

ty= (y-ya)/ha

tw = log(w/wa)

th = log(h/ha)

    基于那种思惟,YOLOv2在揣测 Bounding Box的位置参数时摘 用了如下强约束办法:

    上图中,黑色虚线框是Anchor Box,蓝色矩形框就是揣测 的Bounding Box成果,揣测 出的Bounding Box的坐标和宽高为(bx,by)和(bw,bh),计算体例如图中所示,此中:对每个Bounding Box揣测 出5个值(tx,ty,tw,th,t0),Cell与图像左上角的横纵坐标间隔为(cx,cy),σ定义为sigmoid激活函数(将函数值约束到[0,1]),该Cell对应的Anchor Box对应的宽高为(pw,ph)。

    简而言之,(bx,by)就是(cx,cy)那个Cell四周 的Anchor Box针对揣测 值(tx,ty)得到的Bounding Box的坐标揣测 成果,同时能够发现那种体例关于较远间隔的Bounding Box揣测 值(tx,ty)可以得到很大的限造。

    YOLOv2通过添加一个转移层,把高辨认 率的浅层特征毗连到低辨认 率的深层特征(把特征堆积在差别Channel中)然后停止合成 和检测。详细操做是先获取前层的26*26的特征图,将其同最初输出的13*13的特征图停止毗连,然后输进 检测器停止检测(检测器的FC层起到了全局特征合成 的感化),以此来进步对小目标 的检测才能。    

    为了适应差别标准下的检测使命,YOLOv2在操练 收集时,其在检测数据集上fine-tuning时候摘 用的输进 图像的size是动态改变 的。详细来讲,每操练 10个Batch,收集就会随机抉择 另一种size的输进 图像。因为YOLOv2用到了参数是32的下摘 样,因而也摘 用32的倍数做为输进 的size,即摘 用{320,352,…,608}的输进 尺寸(收集会主动改动尺寸,并陆续 操练 的过程)。

那一战略让收集在差别的输进 尺寸上都能到达较好的揣测 效果,使统一收集能在差别辨认 率长进行检测。输进 图片较大时,检测速度较慢,输进 图片较小时,检测速度较快,总体上进步了准确 率,因而多标准操练 算是在准确 率和速度上到达一个平衡。

    上表反映的是在检测时,差别大小的输进 图片情状 下的YOLOv2和其他目标 检测算法的比照。能够看出通过多标准操练 的检测模子,在测试的时候,输进 图像在尺寸改变 范畴 较大的情状 下也能获得mAP和FPS的平衡。

    YOLOv1摘 用的操练 收集是GoogleNet,YOLOv2摘 用了新的分类收集Darknet-19做为根底收集,它利用了较多的3*3卷积核,并把1*1的卷积核置于3*3的卷积核之间,用来压缩特征,同时在每一次池化操做后把通道(Channels)数翻倍(借鉴VGG收集)。

    YOLOv1摘 用的GooleNet包罗24个卷积层和2个全毗连层,而Darknet-19包罗19个卷积层和5个更大池化层(Max Pooling Layers),后面添加Average Pooling层(取代v1中FC层),而Softmax分类器做为激活被用在收集最初一层,用来停止分类和回 一化。

    在ImageNet数据集长进行预操练 ,次要分两步(摘 用随机梯度下降法):

输进 图像大小是224*224,初始进修率(Learning Rate)为0.1,操练 160个epoch,权值衰减(Weight Decay)为0.0005,动量(Momentum)为0.9,同时在操练 时摘 用原则 的数据加强(Data Augmentation)体例如随机裁剪、扭转以及色度、亮度的调整。

fine-tuning:第1步完毕后,改用448*448输进 (高辨认 率模子),进修率改为0.001,操练 10个epoch,其他参数稳定。成果表白:fine-tuning后的top-1准确 率为76.5%,top-5准确 率为93.3%,若根据本来的操练 体例,Darknet-19的top-1准确 率是72.9%,top-5准确 率为91.2%。能够看出,两步别离 从收集构造和操练 体例方面进 手进步了收集分类准确 率。

    预操练 之后,起头基于检测的数据集再停止fine-tuning。    

    起首,先把最初一个卷积层往 掉,然后添加3个3*3的卷积层,每个卷积层有1024个卷积核,而且后面都毗连一个1*1的卷积层,卷积核个数(特征维度)根据 需要检测的类数量决定。(好比对VOC数据,每个Cell需要揣测 5个Boungding Box,每个Bounding Box有4个坐标值、1个置信度值和20个前提类别概率值,所以每个单位格对应125个数据,此时卷积核个数应该取125。)

    然后,将最初一个3*3*512的卷积层和倒数第2个卷积层相连(提取细粒度特征),最初在检测数据集上fine-tuning预操练 模子160个epoch,进修率摘 用0.001,而且在第60和90个epoch的时候将进修率除以10,权值衰减、动量和数据加强办法与预操练 不异。

    YOLO9000通过连系分类和检测数据集,使得操练 得到的模子能够检测约9000类物体,操纵带标注的分类数据集量比力大的特征 ,处理了带标注的检测数据集量比力少的问题。详细办法是:一方面摘 用WordTree合成 数据集,另一方面结合操练 分类数据集和检测数据集。

    分类数据集和检测数据集存在较大区别 :检测数据集只要粗粒度的标识表记标帜信息,如“猫”、“狗”,而分类数据集的标签信息则更细粒度,更丰富 。好比“狗”就包罗“哈士奇”、“金毛狗”等等。所以假设 想同时在检测数据集与分类数据集长进行操练 ,那么就要用一种一致性的办法合成 那些标签信息。

    用于分类的办法,常用Softmax(好比v2),Softmax意味着分类的类别之间要互相独立的,而ImageNet和COCO那两种数据集之间的分类信息不彼此独立(ImageNet对应分类有9000种,而COCO仅供给80种目标 检测),所以利用一种多标签模子来混合数据集,即假定一张图片能够有多个标签,而且不要求标签之间独立,然后停止Softmax分类。

    因为ImageNet的类别是从WordNet拔取的,做者摘 用以下战略重建了一个树形构造(称为WordTree):

遍历ImageNet的标签,然后在WordNet中觅 觅 该标签到根节点(所有的根节点为实体对象)的途径;

假设 途径只要一条,将该途径间接加进 到WordTree构造中;

不然,从可选途径中抉择 一条最短途径,加进 到WordTree构造中。

WordTree的感化就在于将两种数据集根据层级停止连系。

    如斯,在WordTree的某个节点上就能够计算该节点的一些前提概率值,好比在terrier那个节点,能够得到如下前提概率值:

    进而,假设 要揣测 此节点的概率(即图片中目标 是Norfolk terrier的概率),能够根据 WordTree将该节点到根节点的前提概率依次相乘得到,如下式:

此中:        

    YOLO9000在WordTree1k(用有1000类此外ImageNet1k创建)上操练 了Darknet-19模子。为了创建WordTree1k做者添加了良多中间节点(中间词汇),把标签由1000扩展到1369。

    操练 过程中GroundTruth标签要顺着向根节点的途径传布:为了计算前提概率,模子揣测 了一个包罗1369个元素的向量,并且基于所有“同义词集”计算Softmax,此中“同义词集”是统一概念下的所属词。

    如今一张图片是多标识表记标帜的,标识表记标帜之间不需要彼此独立。在操练 过程中,假设 有一个图片的标签是“Norfolk terrier”,那么那个图片还会获得“狗”以及“哺乳动物”等标签。

    如上图所示,之前的ImageNet分类是利用一个大Softmax停止分类,而如今WordTree只需要对统一概念下的同义词停止Softmax分类。然后做者别离 两个数据集上用不异操练 办法操练 Darknet-19模子,最初在ImageNet数据集上的top-1准确 率为72.9%,top-5准确 率为91.2%;在WordTree数据集上的top-1准确 率为71.9%,top-5准确 率为90.4%。

    那种办法的益处是有“退而求其次”的余地:在对未知或者新的物体停止分类时,性能缺失 更低,好比看到一条狗的照片,但不晓得是哪种品种的狗,那么就揣测 其为“狗”。

    以上是构造WordTree的原理,下图是合成 COCO数据集和ImageNet数据集以及生成它们的WordTree的示企图(用颜色区分了COCO数据集和ImageNet数据集的标签节点), 混合后的数据集对应的WordTree有9418个类。另一方面,因为ImageNet数据集太大,YOLO9000为了平衡两个数据集之间的数据量,通过过摘 样(Oversampling)COCO数据集中的数据,使COCO数据集与ImageNet数据集之间的数据量比例到达1:4。

    对YOLO9000停止评估,发现其mAP比DPM高,并且YOLO有更多先辈的特征,YOLO9000是用部门监视的体例在差别操练 集长进行操练 ,同时还能检测9000个物体类别,并包管实时运行。固然YOLO9000对动物的识别性能很好,但是对衣服或者配备的识别性能不是很好(那跟数据集的数据构成有关)。

    YOLO9000的收集构造和YOLOv2类似,区别是每个单位格只摘 用3个Anchor Boxes。

    YOLO9000提出了一种在分类数据集和检测数据集上结合操练 的机造,即便用检测数据集(COCO)的图片往 进修检测相关的信息即查找对象(例如揣测 鸿沟框坐标、鸿沟框能否包罗目标 及目标 属于各个类此外概率),利用仅有类别标签的分类数据集(ImageNet)中的图片往 扩展检测到的对象的可识别品种。

    详细办法是:当收集碰着 一个来自检测数据集的图片与标识表记标帜信息,就把那些数据用完全 的缺失 函数(v2和9000均沿用了v1收集的缺失 函数)反向传布,而当收集碰着 一个来自分类数据集的图片和分类标识表记标帜信息,只用代表分类误差部门的缺失 函数反向传布那个图片。

    YOLO v2 在大尺寸图片上可以实现高精度,在小尺寸图片上运行更快,能够说在速度和精度上到达了平衡,详细性能表示如下所示。

coco数据集

voc2012数据集

英语句子的问题?

1. 那长短谓语动词中的过往 分词形式。

2. 非谓语动词有三种:如今分词、过往 分词和to不定式。 此中如今分词表达 主动关系,过往 分词表达 被动关系。在那个句子中,Redmon和employ的关系是被动的,主语是被雇佣的,所以用过往 分词employed表达 被动。

帮我翻译成中文{急}(好的加分)

上一年的年未,律师Gant Redmon偶尔来到了CareerBuilder(职业建造者),那是一个网上的找工做基地.他没有胜利的找到工做,但被网页上的"personal search agent(小我搜刮代办署理)"吸引住了.那是一个交互式的工能,能够让阅读者输进 找工做的原则 ,例如地点,头衔,工资,然后当网页上呈现了适宜 的工做时,Redmon发E-main给他们.Redmon抉择 了legal(法令的),intellectual property(常识产权),Washington,D.C(华盛顿)那几个关键 词.三个礼拜之后,他收到了登科的通知书.Redmon说"U struck gold",他E-main他的简历上往 ,然后找到了一个内部参谋的工做.

网上有成千上万的跟找工做有关系的网页,找到一个有前途的工做空位仍是很费时间和你效率的.搜刮代办署理减低了反复阅读的网站的需要,但固然那个搜刮代办署理对Redmon有效,职业专家仍是提出了不敷之处.好比说,收缩你找工做的原则 ,那可能会对你倒霉."你每答复一个问题都丢掉了一个可能性"一个专家说.

弄月要赏梁园月

出自元代张喊 善的《咏世》

普天乐 咏世

年代:【元】 做者:【张喊 善】

洛阳花,梁园月,好花须买,皓月须赊。花倚栏干看烂熳开,月曾把酒问团聚夜。月有盈亏花有开谢,想人生最苦告别 。花谢了三春近也,月缺了中秋到也,人往 了何日来也?

梁园月:即梁园的月色。梁园,西汉梁孝王所建。孝王曾邀请司马相如、枚乘等辞赋家在园中看花弄月吟诗。

月曾把酒问团聚夜:化用苏轼《水调歌头》词逾:“明月几时有,把酒问彼苍。”

译文:在洛阳赏花,到梁园弄月,好花应不吝钱往 买,明月也应不吝钱云买。依着栏干赏识 花开放得一片烂熳,举酒问明月为何如斯团聚。月有圆出缺花有开有谢,想到人生最苦的工作莫过一墩别。花谢了到了三春再开,月缺了到了中秋又圆,人往 了什么时候能再来呢?

张喊 善 元代散曲家。名择,号顽老子。原籍平阳(今属山西),家在湖南,流寓扬州。官淮东道宣恩司令史。填词度曲词采丰赡,常以诙谐语讽人。《录鬼簿续编》载他有《英华集》,今佚。做杂剧 3种:《包待造揣度 烟花鬼》、《党金莲夜月瑶琴怨》、《十八令郎大闹草园阁》,都已亡佚。生卒年不明,但他曾为夏伯和《青楼集》做过序,时在至正二十六年(1366),知他生活在元代末年。

张喊 善身处元末丧乱之际,深感现实的骚动与污浊,因而多有刺时之做。闻名 的小令〔水仙子〕《讥时》:"展 眉苫眼早三公,裸袖揎拳享万钟,胡言乱语成时用"等句,揭露了元末贤愚莫辨,黑白倒置的暗中政治情状 。又据《尧山堂外纪》所记:张士诚据苏州时,其弟张士德掠夺民田,以扩展 园圃,有一次宴会上,张喊 善做小令《咏雪》,虽句句咏雪,却意指其事,并且词锋尖利 ,张士德为之大惭。他的散曲往往构想巧妙,语言诙谐,甚有特色。

今存小令13首,套数2首,见《全元散曲》。

0
回帖

redmong 期待您的回复!

取消