幾種典型的物體表達理論(Object representation theories)
正像前面所述,物體表達是計算機視覺的一個核心科學問題。這里,“物體表達理論”與“物體表達模型”需要加以區(qū)別。“表達理論”是指文獻中大家比較認可的方法。“表達模型”容易誤解為“數(shù)學上對物體的某種描述”。計算機視覺領域,比較有名的物體表達理論有以下三種:
1)馬爾的三維物體表達
前面已經(jīng)介紹過,馬爾視覺計算理論認為物體的表達是物體坐標系下的三維表達
2)基于二維圖像的物體表達(View-basedobject representation)
盡管理論上一個三維物體可以成像為無限多不同的二維圖像,但人的視覺系統(tǒng)僅僅可以識別“有限個圖像”。鑒于神經(jīng)科學對于猴子腹部通道(ventral pathway)(注:腹部通道認為是物體識別通道)的研究進展,T. Poggio 等提出了基于圖像的物體表達(Poggio & Bizzi, 2004),即對一個三維物體的表達是該物體的一組典型的二維圖像(view)。目前,也有人認為 Poggio等的”view”不能狹義地理解為二維圖像,也包含以觀測者為坐標系下的三維表示,即馬爾的2.5維表示(Anzai & DeAngelis,2010)。
3)逆生成模型表達(Inversegenerative model representation )
長期以來,人們認為物體識別模型為“鑒別模型”( discriminative model),而不是“生成模型”( generative model )。近期對猴子腹部通道的物體識別研究表明,猴子大腦皮層的IT 區(qū)( Inferior Temporal: 物體表達區(qū)域)可能在于編碼物體及其成像參數(shù)(如光照和姿態(tài),幾何形狀,紋理等)(Yildirim et al. 2015)(Yamins &DiCarlo,2016b.)。由于已知這些參數(shù)就可以生成對應圖像,所以對這些參數(shù)的編碼可以認為是逆生成模型表達。逆生成模型表達可以解釋為什么深度學習中的Encoder-decoder 網(wǎng)絡結(jié)( Badrinarayanan et al. 2015) 可以取得比較好的效果,因為Encoder本質(zhì)上就是圖像的逆生成模型。另外,深度學習中提出的“逆圖形學”概念( Inverse Graphic)( Kulkarniet al. 2015),從原理上也是一種逆生成模型。逆圖形學是指先從圖像學習到圖像生成參數(shù),然后把同一物體在不同參數(shù)下的圖像歸類為同一物體,通過這種“等變物體識別”(Equivariant recognition) 來達到最終的“不變物體識別”(invariantrecognition)。
總之,本文對計算機視覺的理論、現(xiàn)狀和未來發(fā)展趨勢進行了一些總結(jié)和展望,希望能給讀者了解該領域提供一些幫助。特別需要指出的是,這里很多內(nèi)容也僅僅是筆者的一些“個人觀點”和“個人偏好”下總結(jié)的一些內(nèi)容,以期對讀者有所幫助但不引起誤導。另外,筆者始終認為,任何一門學科的核心關(guān)鍵文獻并不多,為了讀者閱讀方便,所以本文也僅僅給出了一些必要的代表性文獻。(來源:網(wǎng)絡)