"目标跟踪 学习记录"
YOLO 笔记
基于Anchor的预测,x,y,w,h都是相对anchor原点的偏移量。YOLO没有使用Anchor box(降性能)用了Location prediction:w,h基于Anchor框算出,x,y基于grid原点计算。
Anchor based输出维度 N,X,Y,A1+A2+...+An+class-one-hot,其中A1...An是n个Anchor,每个长度为5(c,tx,ty,tw,th)。Anchor free输出维度N,X,Y,5 其中5为c,d1,d2,d3,d4。Anchor free 的X,Y远比Anchor based中的X,Y 要大(即grid多,每个grid一般是1个像素)
YOLO更新路程:从直接预测坐标发展为偏移量预测(sigmod函数自变量预测);宽高计算借鉴Anchor,左边计算不使用Anchor;从单尺度到多尺度(passthrough->3检测头);从BN到CBN;grid从7x7到13x13,anchor数量从2个到(统计的)5个,每个anchor一个类别;googlenet->darknet19->darknet53->CSP/MwRes+SPP+dropblock;增加neck层spp/pan/fpn;Relu->Mish;数据增强增加cutmix/mosaic/class label smoothing;lr:cos
BN:把X拉入0,1 正态分布 sigmod 函数对应段斜率较大,方便梯度快速下降;再转入b,y 分布使sigmod使用非线性区间激活,提高网络的拟合能力。
VGG模型中的avgpool层是为了把各种形状的输入和后面的fc层连起来,如果输入恒定为224x224则不需要avgpool
目标检测
网络输出的feature map 数值应均值尽可能为零,方差尽可能小。因为各层变量初始化时会采用正态分布,结果也以有正太分布特征的值预测才符合归一化。