新一代AI會「察言觀色」了?

2020/07/28


       一項可能預示著人工智慧(AI)未來走向的技術已經問世。這項技術叫做「多模態AI」,可以像人類利用五感理解周圍事物那樣,通過圖像、語音和文字等多種數據作出高水準的判斷。AI更加接近人類、給社會各個領域帶來影響的未來即將到來。

 

       「您吃飯了嗎?」「您按時吃藥了嗎?」可愛的機器人一邊跟老奶奶聊天一邊詢問。雖然老人有時回答得模糊不清,有時只是默默點頭,但新AI可以機智地察覺情況,判斷出「沒有問題」。

 

       這是日本內閣府實施的項目一環,由KDDI及日本情報通信研究機構推進由AI看護獨居老人等的研究。其目標是能夠通過每天的對話來發現老人的細微異常變化。

 

 

       重要的是,新AI不僅可以理解對話的內容,還可以通過視頻察覺動作和感情的變化。如果可以感知體溫,就「可以保護老年人免受新冠病毒的侵襲」(日本情報通信研究機構研究員鳥澤健太郎)。

 

       如果是人類的話,即使對方嘴上逞強説「我很好」,也可以根據臉色不佳而察覺出對方「可能有煩心事」等。過去的AI可以對圖像、語音和文字進行分析,但不具備察言觀色的能力。多模態AI被認為將打破這一壁壘。

 

       AI的概念誕生於上世紀50年代。雖經歷了研究衰退的寒冬時期,但一直在進步。2012年左右開始受到關注的深度學習技術,擅長通過相機拍攝的圖像來理解世界。以該技術為契機,掀起了AI熱潮,圖像識別精度等獲得飛躍性的提升。這種情況甚至被比喻為「寒武紀大爆發」,即約40億年前出現的生命在5億年前有了眼睛並快速進化。AI讓曾經被視為夢幻技術的汽車自動駕駛等一下子具有了現實意義。

 


 

       目前,AI技術已經進入新的進化階段。以前只具備視覺能力的AI、只具備聽覺能力的AI,正在變成兼具視覺和聽覺的AI。運用AI技術提供經營支援的日本初創企業Stockmark首席商務工程師岩谷純至評價稱,「多模態AI無疑是AI的新一代核心技術」。該公司已開始將多模態AI運用到營業輔助工具中。

 

       多模態AI展現能力的未來已近在咫尺。日本大成建設和AI開發企業ExaWizards製造的AI機器人正具備接近人類五感的感受能力。

 

 

       AI從人類的動作中學習了處理不同黏性液體的方法。根據攝像頭拍攝的視頻、液體重量、機械臂的角度等,掌握了相關技巧,可以比人類更靈巧地將準確計量的液體從瓶子倒入燒杯中。

 

機器人能夠正確計量不同黏度的液體(照片由大成建設提供)

 

       如果是黏稠的液體,即使快速倒入也不容易灑出來。而像自來水那樣清爽的液體,如果一下子倒入,就比較容易倒得太多而溢出。這一點人類可以憑感覺判斷出來,但對於以前的AI而言則很困難。於是,大成建設等企業採用了多模態AI技術。無論是有泡沫的肥皂水,還是黏稠的鬆餅面糊,倒起來都不費勁。這種技術有望在製藥廠和食品加工廠等發揮作用。

 


 

       預計多模態AI的應用範圍今後將進一步擴大。NTT Data打算有效利用多模態AI進行商標等的調查。AI可以根據圖片和解説文字兩種資訊來確認過去是否出現過類似商標。AI未來有望根據視頻和對話內容自動記錄醫院手術室的治療過程。

 

 

       在美國IBM和麻省理工大學(MIT)設立的「MIT-IBM Watson AI Lab」正在致力於最先進的多模態AI的研究,這項新技術在全球受到關注。

 

       有觀點認為,2045年將迎來AI的能力超越人類智慧的「奇點」(Singularity)。現在的AI被稱為「弱人工智慧」,具備的能力有限,但在特定領域已經表現出了超越人類智力的性能,比如打敗頂尖圍棋手等。多模態AI確實是AI的進化形態之一,未來會實現怎樣的發展呢?這種技術的巨大潛力正在挖掘之中。

 

       日本經濟新聞(中文版:日經中文網)生川曉

 

版權聲明:日本經濟新聞社版權所有,未經授權不得轉載或部分複製,違者必究。