新聞資訊

News

新聞資訊>

智能視覺分析技術(shù)應(yīng)用而生未來市場(chǎng)可觀

發(fā)布時(shí)間: 2015-03-27 瀏覽：181次

淺談智能視覺技術(shù)應(yīng)用與發(fā)展
【CPS中安網(wǎng) cps.com.cn】通俗地說，智能視覺技術(shù)，就是通過計(jì)算機(jī)自動(dòng)對(duì)攝像頭采集的視頻信息進(jìn)行分析處理，從視頻序列中捕捉存在的感興趣區(qū)域及目標(biāo)，并進(jìn)一步獲取目標(biāo)的出現(xiàn)時(shí)間、運(yùn)動(dòng)軌跡、顏色等諸多信息，通過對(duì)各個(gè)目標(biāo)的上述信息的分析。
智能視覺技術(shù)核心是運(yùn)動(dòng)目標(biāo)檢測(cè)、分類、跟蹤與識(shí)別技術(shù)等。運(yùn)動(dòng)目標(biāo)檢測(cè)是將視頻圖像序列中的感興趣目標(biāo)(如車輛或人)檢測(cè)出來，以備后續(xù)步驟的使用;目標(biāo)檢測(cè)的目的就是準(zhǔn)確地從通過運(yùn)動(dòng)檢測(cè)得到的運(yùn)動(dòng)區(qū)域中提取出與目標(biāo)相對(duì)應(yīng)的團(tuán)點(diǎn)。
研究人員已經(jīng)開發(fā)了多種運(yùn)動(dòng)目標(biāo)檢測(cè)的方法，包括幀間差分法，光流法和背景減除算法。根據(jù)實(shí)際應(yīng)用需求的不同，不同的檢測(cè)算法都是在可靠性、實(shí)時(shí)性和準(zhǔn)確性之間折衷得到的。目標(biāo)分類的目的是從檢測(cè)到的運(yùn)動(dòng)區(qū)域中將對(duì)應(yīng)于人的運(yùn)動(dòng)區(qū)域提取出來.不同的運(yùn)動(dòng)區(qū)域可能對(duì)應(yīng)于不同的運(yùn)動(dòng)目標(biāo)，比如交通道路上監(jiān)控?cái)z像機(jī)所捕捉的序列圖像中可能包含行人、車輛及其它諸如飛鳥、流云、搖動(dòng)的樹枝等運(yùn)動(dòng)物體，為了便于進(jìn)一步對(duì)行人進(jìn)行跟蹤和行為分析，運(yùn)動(dòng)目標(biāo)的正確分類是完全必要的.注意，這個(gè)步驟在一些情況下可能是不必要的(比如已經(jīng)知道場(chǎng)景中僅僅存在人的運(yùn)動(dòng)時(shí))。運(yùn)動(dòng)目標(biāo)跟蹤是在需要監(jiān)控的環(huán)境里，如何能夠判斷出進(jìn)入特定區(qū)域的目標(biāo)，并且能夠跟蹤目標(biāo)的軌跡。
具體可分為兩種情況：一是靜態(tài)背景下的目標(biāo)跟蹤;二是動(dòng)態(tài)背景下的目標(biāo)跟蹤。靜態(tài)背景下的目標(biāo)跟蹤方法具體可分為單目標(biāo)跟蹤與多目標(biāo)跟蹤。單目標(biāo)的靜態(tài)背景下的目標(biāo)跟蹤指的是攝像頭是固定在某一方位，其所觀察的視野也是靜止的。多目標(biāo)跟蹤是指在靜態(tài)環(huán)境下的多目標(biāo)跟蹤，需要確定每個(gè)目標(biāo)的特征，位置，運(yùn)動(dòng)方向，速度等信息。動(dòng)態(tài)背景下的目標(biāo)跟蹤指的是攝像頭在云臺(tái)控制下旋轉(zhuǎn)，會(huì)使得他所采集的圖像時(shí)可在變化，所以，對(duì)于整個(gè)目標(biāo)跟蹤過程來說，背景是變化，目標(biāo)也是在整個(gè)過程中運(yùn)動(dòng)的，所以跟蹤起來較有難度。人的行為理解與描述是越來越被廣泛關(guān)注的研究熱點(diǎn)，它是指對(duì)人的運(yùn)動(dòng)模式進(jìn)行分析和識(shí)別，并用自然語言等加以描述.行為理解可以簡(jiǎn)單地認(rèn)為是時(shí)變數(shù)據(jù)的分類問題，即將測(cè)試序列與預(yù)先標(biāo)定的代表典型行為的參考序列進(jìn)行匹配。
當(dāng)前的智能視覺技術(shù)主要集中在基于RGB光學(xué)圖像的處理上，根據(jù)各種顏色空間、目標(biāo)的紋理結(jié)構(gòu)分析或者灰度特征、運(yùn)動(dòng)特征等來檢測(cè)與跟蹤目標(biāo)，但由于RGB圖像無法獲取物體在三維空間中的距離信息，相關(guān)的算法受到周圍環(huán)境、光照變化、背景等因素的影響，在目標(biāo)檢測(cè)與跟蹤上魯棒性較差，難以實(shí)現(xiàn)復(fù)雜場(chǎng)景下的任意目標(biāo)檢測(cè)和在線跟蹤，應(yīng)用受到很大的限制。
因?yàn)椴噬珨z像頭獲取的圖像只保留了空間的二維信息，所以這些方法都是二維空間上進(jìn)行處理，只能獲得目標(biāo)的二維運(yùn)動(dòng)信息。真實(shí)世界中的目標(biāo)是在三維空間運(yùn)動(dòng)的，如果只獲取二維運(yùn)動(dòng)信息將難以達(dá)到實(shí)際應(yīng)用的魯棒性要求。因此，越來越多的研究者開始利用深度圖像來進(jìn)行目標(biāo)的檢測(cè)、跟蹤與識(shí)別。目前通過圖像感應(yīng)器獲取三維信息主要有兩種方式。其中一種原理與人眼視覺系統(tǒng)類似，采用兩個(gè)彩色攝像頭同時(shí)拍攝同一場(chǎng)景，通過兩個(gè)攝像頭的視差推導(dǎo)出場(chǎng)景中像素離攝像機(jī)的遠(yuǎn)近，即深度(Depth)。這種方式通常稱為雙目立體視覺(BinocularStereoVision)。利用雙目圖像推導(dǎo)深度信息需要先計(jì)算兩幅圖像像素之間的對(duì)應(yīng)關(guān)系，即左邊圖像的像素與右邊圖像的哪個(gè)像素是描述的空間中的同一個(gè)點(diǎn)。根據(jù)投影關(guān)系，距離較遠(yuǎn)的點(diǎn)投射到兩個(gè)圖像平面的坐標(biāo)偏差較小。利用這一原理可以通過坐標(biāo)偏差推導(dǎo)出深度。
然而求左右圖像像素的對(duì)應(yīng)關(guān)系是一個(gè)不適定性問題(Ill-PosedProblem)，因?yàn)楸举|(zhì)上彩色攝像機(jī)捕獲的表面的外觀，并不包含深度信息，求對(duì)應(yīng)關(guān)系只能根據(jù)外觀的相似度來推導(dǎo)，而不是同一位置的外觀也可能是相似的。因此雖然多年來學(xué)者們?cè)谶@個(gè)方向上嘗試了各種可能的手段，仍不能取得滿意的效果。另外，計(jì)算像素對(duì)應(yīng)關(guān)系以及根據(jù)對(duì)應(yīng)關(guān)系并利用像素間的相關(guān)性進(jìn)行優(yōu)化得到深度都需要耗費(fèi)大量的計(jì)算資源。到目前為止，該問題仍是一個(gè)開放性問題，沒有能夠產(chǎn)品化而得到普遍的應(yīng)用。
另一種利用圖像感應(yīng)器獲取三維信息的原理與雷達(dá)類似：采用主動(dòng)的方式由一個(gè)激光發(fā)射器向場(chǎng)景中發(fā)射激光(一般是肉眼不可見的紅外激光)，然后用一個(gè)接受感應(yīng)器接受反射回來。發(fā)射的激光可以是一些特定的規(guī)則模式，遠(yuǎn)近不同的對(duì)象反射回來后模式會(huì)不同(如大小)，這樣通過分析接收到的發(fā)射紅外圖像就可以得到深度信息。這種方式稱之為結(jié)構(gòu)光(StructuredLight)深度獲取方法;發(fā)射的激光也可以是一些相位固定，遠(yuǎn)近不同的對(duì)象發(fā)射會(huì)得到不同的相位，這樣根據(jù)接收到的激光的相位可以分析出激光飛行的時(shí)間，從而得到深度。這種方式稱之為飛行時(shí)間(Time-of-Flight，ToF)深度獲取方式。
不管是結(jié)構(gòu)光還是ToF方式的攝像頭，早期由于其制造工藝復(fù)雜，造價(jià)很貴，而且感應(yīng)速度很慢遠(yuǎn)達(dá)不到實(shí)時(shí)，只能應(yīng)用在一些專業(yè)領(lǐng)域。隨著制造技術(shù)及電子技術(shù)的發(fā)展，最近兩年來，這類利用光源獲取深度信息的技術(shù)取得了突破性的進(jìn)展。一些價(jià)格低廉并且速度很快的三維成像設(shè)備開始面世。不少公司都發(fā)布了可以實(shí)時(shí)采集深度信息的攝像頭(例如MicrosoftKinect、PrimeSense、華碩Xtion)等。這些攝像頭可以以大于30幀每秒的速度采集分辨率超過640480的深度圖像。所謂深度圖像指以像素矩陣的形式組織的場(chǎng)景中的深度信息，與普通圖像不同的是，圖像中的每一個(gè)像素的值不是顏色或者灰度值，而是該像素描述的點(diǎn)離攝像機(jī)的距離。Kinect是微軟在2010年發(fā)布的專為XBOX360游戲機(jī)開發(fā)的體感設(shè)備，它使用結(jié)構(gòu)光產(chǎn)生深度圖像。Kinect的全身體感技術(shù)引發(fā)了基于深度信息的研究熱潮如圖1所示。
深度圖像的處理和識(shí)別雖然不是一個(gè)全新的研究方向，但是以前由于受限于深度攝像頭，其研究都局限在一些專業(yè)的領(lǐng)域，很多地方還是空白。隨著廉價(jià)實(shí)時(shí)的深度攝像頭的出現(xiàn)，對(duì)人機(jī)交互和計(jì)算機(jī)視覺提出了很多新的問題。從近兩年計(jì)算機(jī)視覺和模式識(shí)別的頂級(jí)國(guó)際會(huì)議IEEEConferenceonComputerVisionandPatternRecognition(CVPR)上發(fā)表的論文來看深度圖像處理相關(guān)的論文越來越多并且影響力也越來越大。
其次，由于廉價(jià)、實(shí)時(shí)的深度圖像攝像頭的出現(xiàn)，在視頻監(jiān)控領(lǐng)域也有了不俗的應(yīng)用。韓國(guó)一名程序員利用Kinect開發(fā)出了一款監(jiān)視邊境線的系統(tǒng)，如圖2所示。這個(gè)系統(tǒng)早在去年8月就開始開發(fā)，直到最近才向外界公開，并被韓國(guó)軍方使用。這個(gè)系統(tǒng)利用Kinect攝像頭的紅外線功能檢測(cè)穿過韓朝兩國(guó)邊境線的物體，能夠識(shí)別動(dòng)物和人。如果系統(tǒng)檢測(cè)到穿過邊境線的是人，就會(huì)立即拉響最近的警報(bào)。
微軟表示Kinect最具潛力的一個(gè)新用途就是用來確保家庭安全，它的運(yùn)動(dòng)跟蹤系統(tǒng)完全可以勝任這種類似安防攝像機(jī)的工作。雖然傳統(tǒng)的安防攝像機(jī)也可以很出色的完成安防工作，但Kinect的感應(yīng)功能引入以后就可以更精準(zhǔn)的跟蹤入侵者的活動(dòng)，以便讓記錄下了更有利用價(jià)值的視頻資料。歐洲的一家高端視頻監(jiān)控公司也利用KINECT進(jìn)行安全監(jiān)控，他們開發(fā)的產(chǎn)品使用戶可以通過手勢(shì)來改變監(jiān)控錄像的布局，可進(jìn)行錄像、變焦、快退、孤立片段的操作以及內(nèi)容顯示如地圖和網(wǎng)頁等。
國(guó)內(nèi)不少院校也對(duì)基于深度信息的智能視頻技術(shù)展開了深入研究，武漢大學(xué)計(jì)算機(jī)學(xué)院國(guó)家多媒體軟件工程技術(shù)研究中心采用微軟公司的Kinect傳感器來獲取深度圖像，并重點(diǎn)研究基于深度圖像實(shí)時(shí)徒手交互中的人手檢測(cè)、跟蹤與手勢(shì)識(shí)別技術(shù)，實(shí)現(xiàn)復(fù)雜背景下自然的手勢(shì)交互。人手檢測(cè)指交互系統(tǒng)初始化時(shí)判定場(chǎng)景中出現(xiàn)人手或者出現(xiàn)有交互意愿的人手;人手跟蹤指根據(jù)初始的人手位置判斷后續(xù)幀圖像中人手的位置，手勢(shì)識(shí)別以人手部的動(dòng)作直接控制計(jì)算機(jī)的輸入。
針對(duì)KINECT深度圖在距離變大情況下人手輪廓模糊，無法根據(jù)手部輪廓特點(diǎn)來確認(rèn)候選手區(qū)域，揮手檢測(cè)失敗的問題，根據(jù)人手形狀在距離變化的情況下，長(zhǎng)寬比例滿足長(zhǎng)條形的約束條件，引入人手形狀似長(zhǎng)條型先驗(yàn)知識(shí)，提出基于形狀先驗(yàn)和運(yùn)動(dòng)先驗(yàn)的區(qū)域增長(zhǎng)人手定位模型，形狀先驗(yàn)按手型形狀比例約束為限制，不受用戶與攝像頭距離遠(yuǎn)近變化的影響?？朔耸植枯喞：裏o法獲取候選人手及質(zhì)心的困難。結(jié)合揮手運(yùn)動(dòng)先驗(yàn)，最終定位人手啟動(dòng)人機(jī)交互。將揮手檢測(cè)的適用距離由以前的0.7米到1.8米增加到3.2米，同時(shí)檢測(cè)率達(dá)到95%，提升了揮手檢測(cè)的效率，如圖3所示。針對(duì)人手跟蹤過程中，人手與軀干融合導(dǎo)致跟蹤失敗的問題，提出了基于鄰域深度距離度量的人手跟蹤模型，通過預(yù)判人手與軀干融合情況，來決定是否啟動(dòng)人手運(yùn)動(dòng)檢測(cè)，恢復(fù)人手跟蹤，解決了人手與軀干融合時(shí)，人手跟蹤錯(cuò)誤問題，預(yù)判融合正確率92.9%，跟蹤恢復(fù)正確率92.3%如圖4所示。以上研究結(jié)果在國(guó)內(nèi)外發(fā)表多篇SCI、EI檢索的科技文獻(xiàn)及專利。其成果具有現(xiàn)實(shí)的應(yīng)用價(jià)值。
綜上所述，智能視覺技術(shù)是安防領(lǐng)域中一個(gè)重要的研究分支，它在智能監(jiān)控、虛擬現(xiàn)實(shí)、用戶接口等方面的應(yīng)用前景引起了廣大科研人員的濃厚興趣。更多的研究者們正逐步將其成果推向更加智能的應(yīng)用場(chǎng)合。

新聞資訊 News

新聞資訊>

智能視覺分析技術(shù)應(yīng)用而生 未來市場(chǎng)可觀

新聞資訊

News

智能視覺分析技術(shù)應(yīng)用而生未來市場(chǎng)可觀