新一代AI會「察言觀色」了？

2020/07/28

一項可能預示著人工智慧（AI）未來走向的技術已經問世。這項技術叫做「多模態AI」，可以像人類利用五感理解周圍事物那樣，通過圖像、語音和文字等多種數據作出高水準的判斷。AI更加接近人類、給社會各個領域帶來影響的未來即將到來。

「您吃飯了嗎？」「您按時吃藥了嗎？」可愛的機器人一邊跟老奶奶聊天一邊詢問。雖然老人有時回答得模糊不清，有時只是默默點頭，但新AI可以機智地察覺情況，判斷出「沒有問題」。

這是日本內閣府實施的項目一環，由KDDI及日本情報通信研究機構推進由AI看護獨居老人等的研究。其目標是能夠通過每天的對話來發現老人的細微異常變化。

重要的是，新AI不僅可以理解對話的內容，還可以通過視頻察覺動作和感情的變化。如果可以感知體溫，就「可以保護老年人免受新冠病毒的侵襲」（日本情報通信研究機構研究員鳥澤健太郎）。

如果是人類的話，即使對方嘴上逞強説「我很好」，也可以根據臉色不佳而察覺出對方「可能有煩心事」等。過去的AI可以對圖像、語音和文字進行分析，但不具備察言觀色的能力。多模態AI被認為將打破這一壁壘。

AI的概念誕生於上世紀50年代。雖經歷了研究衰退的寒冬時期，但一直在進步。2012年左右開始受到關注的深度學習技術，擅長通過相機拍攝的圖像來理解世界。以該技術為契機，掀起了AI熱潮，圖像識別精度等獲得飛躍性的提升。這種情況甚至被比喻為「寒武紀大爆發」，即約40億年前出現的生命在5億年前有了眼睛並快速進化。AI讓曾經被視為夢幻技術的汽車自動駕駛等一下子具有了現實意義。

目前，AI技術已經進入新的進化階段。以前只具備視覺能力的AI、只具備聽覺能力的AI，正在變成兼具視覺和聽覺的AI。運用AI技術提供經營支援的日本初創企業Stockmark首席商務工程師岩谷純至評價稱，「多模態AI無疑是AI的新一代核心技術」。該公司已開始將多模態AI運用到營業輔助工具中。

多模態AI展現能力的未來已近在咫尺。日本大成建設和AI開發企業ExaWizards製造的AI機器人正具備接近人類五感的感受能力。

AI從人類的動作中學習了處理不同黏性液體的方法。根據攝像頭拍攝的視頻、液體重量、機械臂的角度等，掌握了相關技巧，可以比人類更靈巧地將準確計量的液體從瓶子倒入燒杯中。

機器人能夠正確計量不同黏度的液體（照片由大成建設提供）

如果是黏稠的液體，即使快速倒入也不容易灑出來。而像自來水那樣清爽的液體，如果一下子倒入，就比較容易倒得太多而溢出。這一點人類可以憑感覺判斷出來，但對於以前的AI而言則很困難。於是，大成建設等企業採用了多模態AI技術。無論是有泡沫的肥皂水，還是黏稠的鬆餅面糊，倒起來都不費勁。這種技術有望在製藥廠和食品加工廠等發揮作用。

預計多模態AI的應用範圍今後將進一步擴大。NTT Data打算有效利用多模態AI進行商標等的調查。AI可以根據圖片和解説文字兩種資訊來確認過去是否出現過類似商標。AI未來有望根據視頻和對話內容自動記錄醫院手術室的治療過程。

在美國IBM和麻省理工大學（MIT）設立的「MIT-IBM Watson AI Lab」正在致力於最先進的多模態AI的研究，這項新技術在全球受到關注。

有觀點認為，2045年將迎來AI的能力超越人類智慧的「奇點」（Singularity）。現在的AI被稱為「弱人工智慧」，具備的能力有限，但在特定領域已經表現出了超越人類智力的性能，比如打敗頂尖圍棋手等。多模態AI確實是AI的進化形態之一，未來會實現怎樣的發展呢？這種技術的巨大潛力正在挖掘之中。

日本經濟新聞（中文版：日經中文網）生川曉

相關新聞