登陸成功

積分

首頁

機器人看圖說話能力比肩人類！中國AI超越微軟，打破世界紀(jì)錄

來源：天下網(wǎng)商作者：黃天然 2019-06-28 3442閱讀

[羅戈導(dǎo)讀]正如《2001太空漫游》《流浪地球》等科幻大片中無障礙的人機對話系統(tǒng)所描繪的那樣，擁有智能視覺對話能力的AI隨著技術(shù)的不斷突破，正在向我們走來。

每個人都有這樣的回憶，小時候語文老師教我們看圖說話，許多小朋友腦洞大開，說出來的答案讓人啼笑皆非。實際上，看圖說話的能力在年幼時期需要訓(xùn)練，而對于大一點孩子來說就不成問題了。如今，機器人也能做到看圖說話了。

近日，來自中國AI在這項能力上已經(jīng)打破了世界紀(jì)錄。在第二屆全球AI視覺對話競賽中，阿里AI擊敗了微軟、首爾大學(xué)等十支參賽隊伍，一舉獲得冠軍。

阿里AI在視覺對話競賽中得冠

會“看圖說話”的AI有多聰明？

這場視覺對話競賽由美國佐治亞理工大學(xué)、Facebook人工智能實驗室（FAIR）等機構(gòu)聯(lián)合全球視覺技術(shù)領(lǐng)域頂級學(xué)術(shù)會議CVPR發(fā)起，是目前視覺對話領(lǐng)域最權(quán)威的競賽之一。

該競賽要求參賽的AI在看完近萬張圖片后，回答出人類對于任一圖片任一內(nèi)容的提問。這要求AI不僅能夠描述出圖片中內(nèi)容的概況，還要經(jīng)得起人類對圖片各種細節(jié)的追問。比如，在一張撐著雨傘的人物圖片中，說出傘是什么顏色的，有多少人在圖中，附近有什么物品和建筑物等等信息。

視覺對話中AI可以從容應(yīng)對人類提問（左為AI、右為人類）

競賽結(jié)果顯示，阿里AI以74.57%的準(zhǔn)確率獲得冠軍，將上一屆比賽的紀(jì)錄提高了16.82%，并且超過微軟AI的64.78%的準(zhǔn)確率。而在相同的數(shù)據(jù)集中，人類的準(zhǔn)確率僅為64.27%，AI甚至勝過了人類。

傳統(tǒng)的視覺AI主要針對目標(biāo)的檢測和識別，但對復(fù)雜場景中目標(biāo)之間的邏輯關(guān)系理解、推理能力較弱，無法回答表達圖片對象直接關(guān)系的復(fù)雜問題，也難以將圖片信息轉(zhuǎn)化為人類理解的語言輸出。

這意味著，要實現(xiàn)視覺對話能力，傳統(tǒng)的視覺AI在學(xué)會“看圖”之后，還要有一種語言模型來支撐它“說話”。阿里AI的突破就在于提出了“遞歸探索對話模型”。

視覺對話AI與用戶交流圖像內(nèi)容

這一模型通過標(biāo)注信息學(xué)習(xí)出模仿人類認(rèn)知復(fù)雜場景的思維方式，能識別圖片里的實體以及它們之間的關(guān)系，推理出圖片所描述的事件內(nèi)容，并通過對上下文進行有效建模，綜合集成了圖像識別、關(guān)系推理與自然語言理解三大能力，能理解人類提出的問題及真實意圖，給出自然準(zhǔn)確的回復(fù)。

視覺對話能力讓AI邁上新臺階

AI能“看圖說話”，這樣的應(yīng)用其實距離我們并不遙遠，微軟之前推出了一款年齡測試工具How-old.net ，曾經(jīng)刷爆微博和朋友圈，所應(yīng)用的就是這一技術(shù)的應(yīng)用。

目前微軟還開放了能“看圖說話”的AI系統(tǒng)，用戶進入官網(wǎng)上傳圖片，稍等一會，就能看到系統(tǒng)對于圖片的描述。其準(zhǔn)確率雖然不低但依舊有待提升，以一張曾經(jīng)廣為流傳的黑人問號表情圖片為例，AI很快給出了客觀的回答：“我覺得這是籃球隊員尼克楊露出牙齒微笑?！?/p>