清纯诱惑
人妖 ts你的位置:清纯诱惑 > 人妖 ts > 探花 偷拍 一种低参数的孪生卷积网罗及时地方追踪算法
探花 偷拍 一种低参数的孪生卷积网罗及时地方追踪算法

2024-10-10 04:32    点击次数:112

  

探花 偷拍 一种低参数的孪生卷积网罗及时地方追踪算法

0 详尽

地方追踪是运筹帷幄机视觉范畴的紧迫商讨课题之一探花 偷拍,庸俗应用于东谈主机交互、智能视频监控和医学会诊等场景[1]。地方追踪界说为凭证给定视频中第一帧的地方位置来预估随后帧中的地方位置。在一般情况下,地方追踪时候主要在一语气的视频序列中缔造所要追踪物体的位置关系,然后得到物体完好的畅通轨迹,从而为分析视频推行提供数据依据并对地方行径进行分析。

传统的地方追踪算法在面临地方快速转移、地方朦拢、物体形变和光照变化等复杂场景时,难以准确追踪到地方[2-4],存在较大的局限性。跟着大数据时期的到来,深度学习时候凭借其弥远的特征提真金不怕火才气,在图像识别和地方分割等运筹帷幄机视觉范畴引起庸俗关爱,同期也推进了地方追踪时候的发展。2013年,WANG等东谈主冷落的DLT[5]将深度学习与单地方追踪任务相逢迎,天然后果比某些传统算法差,然则其为深度学习应用于地方追踪提供了新念念路。2016年,BERTINETTO等东谈主冷落了一种新的全卷积孪生网罗追踪算法SiamFC[6],其用孪生网罗进行同样度比较,将追踪问题调遣为同样度学习问题,在ILSVRC15的地方追踪视频数据集上进行端到端的检修,达到了及时追踪的后果。2017年,SONG等东谈主冷落CREST算法[7],其缔造一种端到端的追踪模子,将特征提真金不怕火和反应生成和会在深度学习框架中,仅选用单层卷积的端到端结构就达到了诈骗深度特征的传统协同滤波器的后果。2018年,WANG等东谈主冷落RASNet算法[8],其在SiamFC的基础上加入一般夺目光、残差夺目光、通谈夺目光3种机制,将SiamFC网罗结构改为端到端的网罗,灵验缓解了过拟合问题,擢升了网罗的判别才气和妥当才气。

连年来,越来越多的商讨东谈主员诈骗深度学习弥远的特征提真金不怕火才气来提高追踪精度,其中性能较优的深度学习地方追踪算法包括MDNet、SiamRPN和SiamMask[9-11]等。然则,基于深度学习的追踪算法模子大,参数目多,很难部署于其他镶嵌式开辟上。SiamFC算法天然约略杀青及时追踪,然则其模子仍是很大,且检修时莫得充分诈骗样本之间的关系。

本文冷落一种低参数的孪生卷积网罗及时地方追踪算法,筹划基于非对称卷积模块的孪生网罗框架,使用非对称卷积模块来裁减模子的参数目,同期诈骗三元组亏蚀函数进行检修,提真金不怕火出抒发性较强的深度特征完成地方追踪,从而提高算法的地方追踪精度。

1 SiamFC追踪算法

全卷积孪生网罗SiamFC的中枢念念想是将追踪一个任性地方算作一种同样度学习,通过比较上一帧图像和下一帧图像来复返一个同样度值,该同样度值越高,阐明2个图像越同样。SiamFC选用逻辑亏蚀函数进行检修,其抒发式为:

${L_l}\left( {y, v} \right) = \mathop \sum \limits_{{x_i} \in x} {w_i}{\rm{ln}}\left( {1 + {{\rm{e}}^{ - {y_i}{v_i}}}} \right)$ (1)

其中,y、v、x辨认为标签集、同样性评分集、实例输入集,vi是单个样本中追踪器追踪框的委果得分,${y_i} \in \left\{ {1, - 1} \right\}$是单个样本的参考标签分数,wi为实例xi的权重,在SiamFC中,凭证正负实例的数目将均衡权重应用于亏蚀函数中。均衡权重的界说如下:

${w_i} = \left\{ {\begin{array}{*{20}{l}} {\frac{1}{{2M}}, {y_i} = 1}\\ {\frac{1}{{2N}}, {y_i} = - 1} \end{array}} \right.$ (2)

其中,M为正实例输入集xp的数目,N为负实例输入集xn的数目,$ M=\left|x_{p}\right|, N=\left|x_{n}\right|$。在SiamFC中,M = 13,N = 212。

天然SiamFC诈骗深度网罗来提真金不怕火特征,但其只诈骗了样本之间的两两关系,忽略了正样本和负样本之间的潜在关系,同期,SiamFC模子也存在一定冗余。因此,筹齐截种参数目低且特征提真金不怕火服从高的网罗模子特别有必要。

2 孪生卷积网罗及时地方追踪算法 2.1 网罗结构筹划

SiamFC所用的网罗结构为AlexNet,天然其层数较少,然则模子参数目仍是很大。参数目小的卷积神经网罗模子不错进行更高效的检修,能更节略地部署在镶嵌式开辟上。为了压缩模子大小,文件[12]冷落将d×d的卷积剖析为1×d和d×1卷积的步骤,以减少参数目。文件[13]冷落的ENet也选用上述步骤来筹划高效的语义分割网罗,该网罗天然精度有所下落,然则其裁减了33%的参数目。本文冷落一种基于非对称卷积模块的网罗结构,如图 1所示。

图 1 基于非对称卷积模块的网罗结构 Fig. 1 Network structure based on asymmetric convolution module

图 1所示网罗结构通过检修孪生网罗来学习一个函数f(z,x),将模板图像z与相通大小的搜索图像x进行比较,如若2个图像形色相通的对象,羽田爱吧则复返高分;不然,复返低分。基于非对称模块的卷积神经网罗中有一个特征提真金不怕火器$\varphi$,其对2个输入图像进行相通的特征提真金不怕火,再通过一个卷积镶嵌函数比较上述特征,卷积镶嵌函数不错界说为:

国产视频精品在线偷拍 $f\left( {z, x} \right) = g\left( {\varphi \left( z \right){\rm{}}, {\rm{}}\varphi \left( x \right)} \right)$ (3)

其中,g是一个距离度量或同样度度量。本文华取的神经网罗为全卷积神经网罗,将卷积神经网罗临了的全集结层换成卷积层。全卷积神经网罗应用于地方追踪的上风在于待搜索图像不需要与模板图像具有相通的尺寸,不错为网罗提供更大的搜索图像作为输入,然后在密集网格上钩算悉数平移窗口的同样度。全卷积神经网罗界说为:

$f\left( {z, x} \right) = \varphi \left( z \right){\rm{*}}\varphi \left( x \right) + b$ (4)

其中,b为偏置项。式(4)的输出是一个标量值的分数映射,大小为搜索区域和模板图像经过一系列卷积后的圭臬,得分最高的位置对应搜索区域中需要追踪的地方位置。

一维卷积核频频被用于靠近正方形卷积核的特征提真金不怕火后果,以此进行模子压缩和加快。如若几个大小互为转置的一维卷积核在相通的输入上以相通的步幅进行卷积,产生相通分辨率的特征输出,不错将这些特征与3×3卷积核提真金不怕火后的特征在通谈上进行和会,从而得到一个等效的特征输出,况兼不会加多特殊的运筹帷幄包袱。非对称卷积模块包括压缩层和非对称层2个卷积层,其中,压缩层只包含1×1的卷积核,非对称层则包含1×3、3×1和3×3 3种卷积核。与AlexNet比较,非对称卷积模块使用大宗1×1的卷积核来替换3×3的卷积核,不错将参数裁减为原先的1/9。在压缩层中使用1×1的卷积核裁减输入到3×3卷积核中的通谈数,也不错裁减模子的参数目。在非对称层中应用1×3、3×1和3×3的卷积核进行特征再和会,非对称卷积模块结构如图 2所示,通盘网罗结构参数如表 1所示,其中,S1为压缩层中1×1的卷积核个数,即输入到压缩层中的通谈数。

图 2 非对称卷积模块结构 Fig. 2 Structure of asymmetric convolution module 下载CSV 表 1 网罗结构参数 Table 1 Network structure parameters

通盘网罗的输入通谈数为3,悉数卷积层皆有ReLU非线性激活函数,皆加入了批管束范例化层来进行数据的归一化管束,使得在进行ReLU之前不会因为数据过大而导致网罗性能不踏实。

2.2 三元组亏蚀

三元组亏蚀庸俗应用于运筹帷幄机视觉范畴中的东谈主脸识别、图像检索和行东谈主再识别[14-16]等任务。本文冷落一种新的三元组亏蚀,将其加入到孪生网罗结构中,以充分挖掘输入之间的内在干系。如同分割实例集x,将同样度的评分集v也分割为正评分集vp和负评分集vn,然后奏凯在这些得分对上界说三元组亏蚀。为了测量每个得分对,本文应用匹配概率,即使用softmax函数将正实例分拨给示例的概率。匹配概率的界说如下:

${\rm{prob}}\left( {{v_p}{\rm{}}, {v_n}} \right) = \frac{{{{\rm{e}}^{{v_p}}}}}{{{{\rm{e}}^{{v_p}}} + {{\rm{e}}^{{v_n}}}}}$ (5)

本文地方是使悉数得分对之间的长入概率最大,即悉数概率的乘积最大。通过使用负对数不错得出亏蚀公式如下:

${L_t} = - \frac{1}{{MN}}\mathop \sum \limits_{i = 1}^M \mathop \sum \limits_{j = 1}^N {\rm{ln\;prob}}\left( {{v_p}{\rm{}}, {\rm{}}{v_n}} \right)$ (6)

将式(5)代入式(6)可得:

${L_t} = \frac{1}{{MN}}\mathop \sum \limits_{i = 1}^M \mathop \sum \limits_{j = 1}^N {\rm{ln}}\left( {1 + {{\rm{e}}^{{v_n} - {v_p}}}} \right)$ (7)

将式(2)代入式(1)不错得出逻辑亏蚀函数如下:

${L_l} = \mathop \sum \limits_{i = 1}^M \frac{1}{{2M}}{\rm{ln}}\left( {1 + {{\rm{e}}^{ - {v_p}}}} \right) + \mathop \sum \limits_{j = 1}^N \frac{1}{{2N}}{\rm{ln}}(1 + {{\rm{e}}^{{v_n}}})$ (8)

进一步可得:

${L_l} = \frac{1}{{MN}}\mathop \sum \limits_{i = 1}^M \mathop \sum \limits_{j = 1}^N \frac{1}{2}({\rm{ln}}\left( {1 + {{\rm{e}}^{ - {v_p}}}} \right) + {\rm{ln}}\left( {1 + {{\rm{e}}^{{v_n}}}} \right))$ (9)

从式(8)、式(9)不错看出,2种亏蚀函数的区别在于乞降项不同,可设:

${T_l} = \frac{1}{2}\left( {{\rm{ln}}\left( {1 + {{\rm{e}}^{ - {v_p}}}} \right) + {\rm{ln}}\left( {1 + {{\rm{e}}^{{v_n}}}} \right)} \right)$ (10) ${T_t} = {\rm{ln}}\left( {1 + {{\rm{e}}^{{v_n} - {v_p}}}} \right)$ (11)

梯度在深度学习的检修中起紧迫作用,因为波及反向传播阶段,是以不错通过梯度来分析2个亏蚀函数的特质。关于逻辑亏蚀函数项,梯度为:

$\frac{{\partial {T_l}}}{{\partial {v_p}}} = - \frac{1}{{2\left( {1 + {{\rm{e}}^{{v_p}}}} \right)}}, \frac{{\partial {T_l}}}{{\partial {v_n}}} = \frac{1}{{2\left( {1 + {{\rm{e}}^{{v_n}}}} \right)}}$ (12)

关于三元组亏蚀函数项,其梯度为:

$\frac{{\partial {T_t}}}{{\partial {v_p}}} = - \frac{1}{{1 + {{\rm{e}}^{{v_p} - {v_n}}}}}, \frac{{\partial {T_t}}}{{\partial {v_n}}} = \frac{1}{{1 + {{\rm{e}}^{{v_p} - {v_n}}}}}$ (13)

由式(12)、式(13)不错看出,逻辑亏蚀的梯度$\partial {T_l}/\partial {v_p}$和$\partial {T_l}/\partial {v_n}$辨认只依赖vp和vn,这意味着逻辑亏蚀函数不行充分诈骗vp和vn的信息,而三元组亏蚀的梯度$\partial T_{t} / \partial v_{p}、\partial T_{t} / \partial v_{n}与v_{p}、v_{n}$皆有干系,与逻辑亏蚀比较,三元组亏蚀不错同期诈骗vp和vn的信息,从而杀青更弥远的暗意。同期,因为本文的三元组亏蚀是在原始分数的基础上界说的,使用正分数和负分数的组合,是以不错使用相通的输入来平静网罗,在检修经由中不需要特殊的运筹帷幄也可进行深度网罗的特征提真金不怕火。

3 实验步骤与分析 3.1 检修数据集

GOT-10K数据集[17]是中科院在2018年发布的一个地方追踪数据集,其包含了卓著10 000条视频,分红560多个类别,87种畅通形状,东谈主工标注范围框卓著150万个。数据集又分为检修集、考据集和测试集。GOT-10K数据集与其他数据集的区别在于其子集之间不存在杂乱,不错使得检修出的模子有更强的泛化才气。

3.2 步骤分析

对通盘数据集检修50轮,每个阶段包括9 335对样本,检修的batchsize大小为8,学习率在10-2~10-5之间进行衰减。运筹帷幄机CPU为Intel I7-6800K管束器,主频为3.4 GHz,内存为32 GB,显卡为NVIDIA GeForce GTX1080Ti,实验环境为ubuntu16.04,Pytorch框架。为了充分考据本文算法的性能,取舍在现时比较流行的追踪基准GOT-10K、OTB100[18]和VOT2016[19]上进行测试。

3.2.1 GOT-10K基准

在GOT-10K测试集上考据算法性能,GOT-10K包含180段视频,一共有84个地方类别和32个动作类别。选用平均肖似率(AO)、告捷率(SR)和FPS 3个评价倡导。AO为悉数帧追踪步骤与事实之间肖似率的平均值,SR为肖似率卓著一定阈值的告捷追踪帧所占的百分比,本文取舍0.50和0.75这2个阈值,FPS为每秒传输帧数。GOT-10K基准下的实验步骤如表 2所示。

下载CSV 表 2 GOT-10K基准下的评估步骤 Table 2 Evaluation results under GOT-10K benchmark

在表 2中,本文算法同期使用非卷积模块和阅兵的三元组亏蚀函数。从表 2不错看出,在仅使用非对称卷积模块时,模子大小唯有3.8×106,算法精度略低于SiamFC算法,然则速率擢升了9FPS。在仅使用三元组亏蚀函数时,算法精度有所擢升,模子大小保合手不变。当同期使用非对称卷积模块和三元组亏蚀函数时,模子精度和速率均优于SiamFC算法,其中,AO擢升了1.8个百分点,SR(0.50)与SR(0.75)辨认擢升了1.1和0.9个百分点,速率也擢升了9FPS,模子大小为3.8×106,唯有SiamFC算法的40%。本文算法在精度、速率皆擢升的情况下裁减了模子大小,为追踪算法部署于镶嵌式开辟提供了可能。

3.2.2 OTB基准

OTB亦然视觉追踪范畴庸俗使用的基准库[20],其包括OTB50和OTB100 2个数据集,本文取舍OTB100数据集,该数据集包含100个东谈主工标注的视频帧,每个序列包括11个不同的属性,如圭臬变换、畅通朦拢、光照变化和荫庇等。本文华取准确率和告捷率2个评价倡导,准确率暗意中心点距离小于给定阈值的视频帧所占的百分比,告捷率暗意重合率得分卓著某个阈值的帧所占的百分比。各算法准确率和告捷率对比步骤如图 3所示。图 3(a)中的横坐标为中心点位置间隙的阈值,其为一个像素值,当中心点位置间隙的阈值越大时,算法的准确率越高。图 3(b)中的横坐标为肖似率阈值,肖似率阈值越高,算法的告捷率越低。从图 3不错看出,在仅使用三元组亏蚀函数时,模子的准确率和告捷率辨认达到79.8%和59.5%,本文算法同期使用非卷积模块和三元组亏蚀函数,准确率和告捷率也达到78.9%和59.2%,比较SiamFC算法皆有一定擢升。

图 3 OTB100基准下算法性能对比步骤 Fig. 3 Comparison results of algorithms performance under OTB100 benchmark 3.2.3 VOT2016基准

VOT是一个针对单地方追踪的测试平台,本文取舍在VOT2016数据集上进行测试,评价轨范为预期平均肖似率(Expect Average Overlap rate,EAO)、准确率(Accuracy)、EFO(Equivalent Filter Operations)和鲁棒性(Robustness)。其中,EFO为等效滤波,为了减小不同网罗的编程谈话和硬件确立对追踪速率的影响,本文率先在600像素×600像素的图像上进行30×30的滤波运算,然后将追踪算法管束每帧图像的时期除以滤波运算的时期,得到一个归一化的参数,即EFO,其不错比较客不雅地评价追踪器的性能。鲁棒性数值为追踪经由中的失败总次数。一个性能较优的追踪器应该有较高的EAO、准确率和EFO,但鲁棒性分数应该较低。

在VOT2016中,将本文算法与SiamFC[6]、KCF[21]、SAMF[22]和DAT[23]4个主流追踪算法进行对比,步骤如表 3所示。从表 3不错看出,在VOT2016基准下,本文算法的EAO逾越SiamFC算法0.8个百分点,准确率也提高了1.27个百分点,况兼与其他3个主流算法KCF、SAMF、DAT比较,本文算法皆有很大的性能擢升。天然在速率评价倡导EFO上本文算法低于KCF算法和DAT算法,但也高于SiamFC算法和SAMF算法,达到及时追踪的后果。在EAO倡导上,本文算法得到最高值24.38%,高于KCF的19.35%和DAT的21.67%。在鲁棒性方面,本文算法得到最小的鲁棒性值0.447,追踪失败次数与其他算法比较最少。综上,本文算法EAO和准确率最高,鲁棒性能最佳,在5种算法中具有较好的性能发扬。

下载CSV 表 3 VOT2016基准下的评估步骤 Table 3 Evaluation results under VOT2016 benchmark

图 4所示为5种追踪算法的实验后果对比,左上角标号为测试视频序列中的图片帧数编号。从图 4不错看出,在通盘视频序列中本文算法一直保合手平滑的追踪后果,KCF算法和DAT算法的追踪后果越来越差,SAMF算法临了齐备丢失了追踪地方。

图 4 5种算法的追踪后果比较 Fig. 4 Comparison of tracking effects of five algorithms 4 收尾语

本文冷落一种孪生卷积网罗及时地方追踪算法。构建基于非对称卷积模块的网罗结构探花 偷拍,通过非对称模块减少模子的参数目,使用三元组亏蚀函数进行模子检修以提高算法精度。实验步骤标明,该算法约略大幅裁减模子大小并杀青及时追踪,且追踪精度优于KCF、DAT、SAMF和SiamFC 4种算法。后续将引入再检测机制,逢迎地方检测与地方追踪进一步擢升算法的追踪性能。



Powered by 清纯诱惑 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024