目標(biāo)視覺檢測是計算機視覺領(lǐng)域中一個非常重要的研究問題。隨著電子設(shè)備的應(yīng)用在社會生產(chǎn)和人們生活中越來越普遍,數(shù)字圖像已經(jīng)成為不可缺少的信息媒介,每時每刻都在產(chǎn)生海量的圖像數(shù)據(jù)。與此同時,對圖像中的目標(biāo)進行準確識別變得越來越重要。下面盈泰德科技就來解析深度學(xué)習(xí)在目標(biāo)視覺檢測系統(tǒng)中的應(yīng)用進展。

我們不僅關(guān)注對圖像的簡單分類,而且希望能夠準確獲得圖像中存在的感興趣目標(biāo)及其位置,并將這些信息應(yīng)用到視頻監(jiān)控、自主駕駛、人機交互等一系列現(xiàn)實任務(wù)中,因此目標(biāo)視覺檢測技術(shù)受到了廣泛關(guān)注。

一、傳統(tǒng)的目標(biāo)視覺檢測技術(shù)

傳統(tǒng)的目標(biāo)視覺檢測技術(shù)在流程上大致分為三個步驟: 區(qū)域建議(Region proposal)、特征表示(Feature
representation)和區(qū)域分類(Region
classification),如圖1所示。該基本流程被許多工作所采用,它們在目標(biāo)區(qū)域建議、圖像特征表示、候選區(qū)域分類上分別采用了不同的處理策略。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,很多基于深度學(xué)習(xí)的目標(biāo)視覺檢測算法陸續(xù)被提出,成為研究熱點。

 

深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進展-機器視覺_視覺檢測設(shè)備_3D視覺_缺陷檢測  圖1 目標(biāo)視覺檢測的基本流程

 

 二、基于深度學(xué)習(xí)的目標(biāo)視覺檢測算法

深度學(xué)習(xí)模型具有強大的表征和建模能力,通過監(jiān)督或非監(jiān)督的訓(xùn)練方式,能夠逐層、自動地學(xué)習(xí)目標(biāo)的特征表示,實現(xiàn)對物體層次化的抽象和描述。在圖像識別領(lǐng)域中,Krizhevsky等于2012年構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),在大規(guī)模圖像分類任務(wù)上取得了巨大成功,引起了對CNN模型的高度重視,也因此推動了目標(biāo)檢測的研究進展。本文首先介紹了圖像分類中經(jīng)典的AlexNet及其改進模型ZFNet、VGG、GoogLeNet、ResNet等。隨著模型變得越來越深,圖像分類的Top-5錯誤率也越來越低,目前已經(jīng)降低到3%以下。與圖像分類一樣,目標(biāo)檢測的輸入也是整幅圖像,它們在特征表示、分類器設(shè)計上具有很大的相通性。通過采用這些CNN模型得到更強大的特征表示,然后應(yīng)用到目標(biāo)檢測任務(wù),可以獲得更高的檢測精度。本文從基于區(qū)域建議的方法和無區(qū)域建議的方法兩個方面來介紹深度學(xué)習(xí)在目標(biāo)視覺檢測中的研究現(xiàn)狀,并匯總了公開的實驗結(jié)果進行定量比較。

 

深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進展-機器視覺_視覺檢測設(shè)備_3D視覺_缺陷檢測  圖2 平行視覺的基本框架

然后討論了深度學(xué)習(xí)方法應(yīng)用于目標(biāo)視覺檢測時存在的困難和挑戰(zhàn),例如深度學(xué)習(xí)理論還不完善、大規(guī)模多樣性數(shù)據(jù)集還很缺乏。為了解決這些問題,我們認為可以采用平行視覺的思路來進行研究。通過“平行執(zhí)行”在線優(yōu)化視覺系統(tǒng),能夠激發(fā)深度學(xué)習(xí)的潛力。我們相信,深度學(xué)習(xí)與平行視覺相結(jié)合,必將大力推動目標(biāo)視覺檢測的研究和應(yīng)用進展。

盈泰德科技(深圳)有限公司有著多年的機器視覺行業(yè)經(jīng)驗,在機器視覺的應(yīng)用領(lǐng)域上積累了豐富的經(jīng)驗,有著不少成功的案例和解決方案,盈泰德科技一直以來致力于機器視覺產(chǎn)品的生產(chǎn)、開發(fā)、應(yīng)用以及銷售,為客戶提供整體機器視覺解決方案及服務(wù),把機器視覺技術(shù)應(yīng)用到智能生產(chǎn)中。(http://www.zgfyzs.com/)