計算機(jī)視覺(CV)和自然語言處理(NLP)早先是兩個較為d立的研究L域。CV 重點關(guān)注如何用計算機(jī)代替人眼對目標(biāo)完成識別、跟蹤、測量等任務(wù),對圖像進(jìn)行處理;NLP 則研究計算機(jī)如何處理、運用自然語言,包括語言生成、問答、對話等任務(wù)。近年來,以深度神經(jīng)網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí)和模式識別技術(shù)被廣泛應(yīng)用于 CV 和 NLP L域,取得了目前先進(jìn)的效果。
近年來,研究者們試圖將動作控制也引入到「視覺-語言」任務(wù)的框架中。吳琦將此類任務(wù)命名為 V3A(Vision, Ask, Answer, Act),在給定視覺輸入后,我們希望機(jī)器能夠提出問題、回答問題、并通過和人以及機(jī)器之間的語言交流執(zhí)行某些動作。
例如,「Vision+Ask」的任務(wù)包含視覺問題生成、根據(jù)問題生成查詢、圖像描述等;「Vision+Answer」的任務(wù)包含視覺問答、視覺對話等;「Vision+Act」的任務(wù)包含指稱表達(dá)、視覺對齊(visual grounding)、語言引導(dǎo)的視覺導(dǎo)航、具身視覺問答、具身指稱表達(dá)等。
![]() |
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤 迎賓機(jī)器人 移動機(jī)器人底盤 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書館機(jī)器人 導(dǎo)引機(jī)器人 移動消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |