導讀:研究人員使用概率編程構建了這個框架,這是一種人工智能方法,能夠讓系統(tǒng)對檢測到的物體與輸入數(shù)據(jù)進行交叉檢查,以查看攝像機記錄的圖像是否與任何候選場景可能匹配。
眾所周知,計算機視覺系統(tǒng)有時會對與常識相悖的場景進行推斷。例如,如果機器人正在處理餐桌的場景,它可能會完全忽略任何人類觀察者都可以看到的碗,認為盤子漂浮在桌子上方,或者誤認為叉子正在穿透碗而不是靠著它。
有鑒于此,如果將計算機視覺系統(tǒng)轉移到自動駕駛汽車上,風險就會高得多——例如,這種系統(tǒng)無法檢測到緊急車輛和過馬路的行人。
為了克服這些錯誤,麻省理工學院(MIT)的研究人員開發(fā)了一個框架,可以幫助機器像人類一樣看世界。他們用于分析場景的新人工智能系統(tǒng)學習僅從幾張圖像中感知真實世界的對象,并根據(jù)這些學習到的對象感知場景。
研究人員使用概率編程構建了這個框架,這是一種人工智能方法,能夠讓系統(tǒng)對檢測到的物體與輸入數(shù)據(jù)進行交叉檢查,以查看攝像機記錄的圖像是否與任何候選場景可能匹配。概率推理允許系統(tǒng)推斷出不匹配是否可能是由于噪聲或場景解釋中的錯誤導致的,需要通過進一步處理來糾正。
這種常識性的保護措施使系統(tǒng)能夠檢測并糾正許多困擾“深度學習”方法的錯誤,這些方法也已用于計算機視覺。概率編程還可以推斷場景中對象之間可能的接觸關系,并使用關于這些接觸的常識推理來推斷對象的更準確位置。
“如果你不知道接觸關系,那么你可以說一個物體漂浮在桌子上方——這將是一個有效的解釋。作為人類,我們很明顯知道這在物理上是不現(xiàn)實的,放在桌子頂部的物體更可能是物體的姿勢。因為我們的推理系統(tǒng)知道這種知識,所以它可以推斷出更準確的姿勢。這是這項工作的一個關鍵見解,”該研究論文的主要作者 Nishad Gothoskar 說,他是概率計算項目的電氣工程和計算機科學(EECS)博士生。
研究人員將上述系統(tǒng)命名為“通過概率編程的3D場景感知(3DP3)”系統(tǒng)。為了分析場景的圖像,3DP3首先了解該場景中的對象。在只顯示物體的五張圖像后,每張圖像都是從不同的角度拍攝的,3DP3會學習物體的形狀并估計它在空間中占據(jù)的體積。
Gothoskar說,“如果我從五個不同的角度向您展示一個對象,您可以很好地表示該對象。您會了解它的顏色、形狀,并且能夠在許多不同的場景中識別該物體。”
“這比深度學習方法的數(shù)據(jù)要少得多。例如,Dense Fusion神經對象檢測系統(tǒng)需要為每種對象類型提供數(shù)千個訓練示例。相比之下,3DP3只需要每個對象幾張圖像,并報告每個對象形狀部分的不確定性?!彼a充說。
3DP3系統(tǒng)會生成一個圖形來表示場景,其中每個對象都是一個節(jié)點,連接節(jié)點的線表示哪些對象彼此接觸。這使3DP3能夠更準確地估計對象的排列方式。(深度學習方法依賴于深度圖像來估計對象姿態(tài),但這些方法不會產生接觸關系的圖結構,因此它們的估計不太準確。)
研究人員指出,除了提高自動駕駛汽車的安全性外,這項工作還可以提高計算機感知系統(tǒng)的性能,這些系統(tǒng)必須解釋物體的復雜排列,例如負責清潔雜亂廚房的機器人。
未來,研究人員希望進一步推動該系統(tǒng),使其能夠從單個圖像或電影中的單個幀中了解對象,然后能夠在不同場景中穩(wěn)健地檢測該對象。他們還想探索使用3DP3為神經網絡收集訓練數(shù)據(jù)。人類通常很難用3D幾何體手動標記圖像,因此3DP3可用于生成更復雜的圖像標簽。