"目标跟踪学习记录"
- 目标检测

"目标跟踪学习记录"

YOLO 笔记

基于Anchor的预测，x,y,w,h都是相对anchor原点的偏移量。YOLO没有使用Anchor box（降性能）用了Location prediction：w,h基于Anchor框算出，x,y基于grid原点计算。

Anchor based输出维度 N,X,Y,A1+A2+...+An+class-one-hot，其中A1...An是n个Anchor，每个长度为5（c,tx,ty,tw,th）。Anchor free输出维度N,X,Y,5 其中5为c,d1,d2,d3,d4。Anchor free 的X,Y远比Anchor based中的X,Y 要大（即grid多，每个grid一般是1个像素）

YOLO更新路程：从直接预测坐标发展为偏移量预测（sigmod函数自变量预测）；宽高计算借鉴Anchor，左边计算不使用Anchor；从单尺度到多尺度(passthrough->3检测头)；从BN到CBN；grid从7x7到13x13，anchor数量从2个到（统计的）5个，每个anchor一个类别；googlenet->darknet19->darknet53->CSP/MwRes+SPP+dropblock；增加neck层spp/pan/fpn；Relu->Mish；数据增强增加cutmix/mosaic/class label smoothing；lr:cos

BN：把X拉入0,1 正态分布 sigmod 函数对应段斜率较大，方便梯度快速下降；再转入b,y 分布使sigmod使用非线性区间激活，提高网络的拟合能力。

VGG模型中的avgpool层是为了把各种形状的输入和后面的fc层连起来，如果输入恒定为224x224则不需要avgpool

目标检测

网络输出的feature map 数值应均值尽可能为零，方差尽可能小。因为各层变量初始化时会采用正态分布，结果也以有正太分布特征的值预测才符合归一化。

目标跟踪

"目标跟踪学习记录"

目标检测

results matching ""

No results matching ""

"目标跟踪 学习记录"

目标检测

results matching ""

No results matching ""

"目标跟踪学习记录"