YOLO快手直播需要交费吗缴费看得人多吗?

声明:本站所有资源均来自网络版权归原公司及个人所有。如有版权问题请及时与我们网站编辑在线QQ联系,我们在第一时间予以删除谢谢!

  • 首先yolov1存在召回率(即查全率 FN+TPTP?)低和localization不准的问题,针对这些问题提出了一些改进也即

  1. 借鉴faster-rcnn的anchor,而且对每个anchor都预测一个class而改变了之前一个grid只预测一个class的做法这样做的結果是降低了一点map但是提高了召回率
  2. 认为faster-rcnn的anchor shift设计有缺陷,输出的如果是直接对anchor的center的shift会导致一开始飘到很远的地方振荡很久才收敛,所以這里沿用yolov1采用0-1(用grid来归一化)的输出所以输出前要加一个logistics回归。

  3. multi-scale training每10个epoch随机改变一次输入的size(由于只由conv和pooling组成,所以输入理论上只要是某个倍数即可)导致训练出的模型可以适应多种resolution的输入
  • 提出了darknet这个backbone用更快更精简的网络实现了高的准确率
  • 能够用两种dataset的混合来训练,一種是只有class没有bbox标注的用来训练分类器,这时loss只计算并更新与分类有关的参数更新对应置信度最高的bbox的分类输出;另一种是常规的detection输入,这时使用完整的loss
  • 提出一种multi-label的模型(而不使用softmax),是为了使来自不同数据集的输入有较好的兼容性当label的语义有重叠时对模型的训练不會产生不利冲突,这个multi-label的模型如下
  • 将label使用word-tree的形式表示出来而预测每个结点对其子节点的条件概率。所以如果1000个label最后可能要预测1300多维的姠量,因为树的根部是一些不作为label的(比如“名词”、“动词”)之类的单词而对于每一类的概率,需要从该结点沿着路径乘到根节点test时预测的类别为从根节点开始沿着概率值最高一条路径一直走下去直到某个阈值开始输出

  1. motivation:之前的视觉任务大多数考虑使鼡SIFT和HOG特征而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的成功能否迁移到PASCAL VOC的目标检测任务上呢基于这个问题,论文提出了R-CNN
  2. 基本步骤:如下图所示,第一步输入图像第二步使用生成region proposals的方法(有很多,论文使用的是seletivce searchImageNet2013检测任务的冠军UVA也使用了该算法)提取约2000个候选区域。由于CNN固定输入大小所以第二步和第三步之间需要做一个warped region第三步将2000个候选区域分别输入到CNN(AlexNet)计算2000个特征向量,第四步将各个特征向量(4096维相比于之前常用的方法UVA减小了2个量级,4k vs 360k)输入到(类特定的)各个线性SVM中分类(比如VOC的20个类别就有20个SVM)对于特萣类的SVM,由于有2000个候选区域所以有2000个结果,使用非极大值抑制来获得得分较高的一些候选区

我要回帖

更多关于 快手直播需要交费吗 的文章

 

随机推荐