<menu id="o4o44"></menu>
  • 返回
    當前位置:首頁>產品>正文

    臉書AI開源聊天機器人Blender:KO谷歌AI拿下“最強”稱號?

    來源:TechTMT.Com  作者:整理  日期:2020-05-03 16:00:24

    Facebook AI 近日就公布了一項最新研究成果:擁有 94 億參數的開源 AI 聊天機器人 Blender。

    如今,我們對虛擬語音助手已經十分熟悉。無論是蘋果 Siri、亞馬遜 Alexa,還是百度小度,阿里巴巴天貓精靈,在提供幫助之余,還經常扮演著被無聊人類調戲的對象。

    就在你來我往的博弈之間,語音助手們練就了一身反調戲的本領,甚至還會出其不意,給你驚喜。

    但如果把蘋果推出 Siri 視為消費級虛擬語音助手誕生元年,算下來迄今已經過了近九年,要說它們沒什么長進,恐怕是冤枉了。只不過,跟它們對話似乎總是差點意思。

    當然,如果只是指示語音助手設置鬧鐘,查詢天氣,它們在絕大多數情況下都能完美實現。然而一旦脫離具體任務,以聊天或咨詢為主要目的,因為涉及到對話和交互能力,它們的表現就會一落千丈,經常會出現前言不搭后語的情況,令人沮喪。

    為了改善這一問題,Facebook AI 近日就公布了一項最新研究成果:擁有 94 億參數的開源 AI 聊天機器人 Blender。

    Facebook 研究人員聲稱,Blender 是迄今為止“最先進的”聊天機器人,可以以有趣和連續互動的方式討論幾乎所有內容。在人-人和 Blender-人的對話比較測試中,有 49% 的測試者把 Blender 的對話記錄誤認為是人和人的對話,67% 的測試者認為 Blender 和人的對話更像是人和人的對話。

    “對話有點像 AI 完備問題(AI-Complete),你必須要解決所有 AI 問題才能解決對話。反過來,如果解決了對話問題,所有 AI 問題也就解決了,”Facebook工程師 Stephen Roller 表示。他認為,研究開放式聊天系統將有助于提升虛擬語音助手的交互能力。

    有意思的是,今年 1 月底,谷歌 AI 剛給自家的聊天機器人 Meena 冠上了相似稱號。當時,為了衡量 Meena 的水平,谷歌研究人員發明了名為感知性和特異性平均值(Sensibleness and Specificity Average,SSA)的評估標準。

    該基準給人類真實對話的評分是 86 分,而 Meena 獲得了 79 分,位居第二名,并且遠勝于 Mitsuku 和微軟小冰等同類聊天機器人。“最先進聊天機器人”由此得名。

    圖:谷歌 AI 對自家 Meena 的評價也是“最先進的聊天機器人”(來源:谷歌 AI)

    Facebook AI 在論文中也提到了 Meena,稱“由于谷歌沒有完全公開 Meena 模型和詳細的 SSA 評估標準,因此很難進行 100% 橫向比較。”不過,他們還是盡可能地找到了一些解決辦法,利用公開資料比較兩種模型。

    為了讓對比更公平,Facebook 使用的是擁有 27 億參數的 Blender 版本,因為谷歌 Meena 只有 26 億參數。論文稱其對比了人類測試者對兩個模型生成的對話的看法,最終有近四分之三的人認為 Blender 的對話更有吸引力和互動性,可以視為是“擊敗了 Meena”。

    對此,谷歌尚未公開回應媒體的置評請求。

    圖:Facebook AI 給出的與谷歌 Meena 的對比結果(來源:Facebook AI)

    94億參數很強大Blender 的能力來源于其龐大的訓練數據。

    它首先使用了 15 億份 Reddit 論壇對話進行訓練,為學習如何在對話中回復對方打下基礎。隨后它又接受了三種專項技能培訓,由額外挑選出來的數據組作為微調(fine-tuning)。

    第一項是學習包含某種情感的對話,以表達同理心。例如,如果用戶表示自己剛剛升職加薪,那么 Blender 就會回應“恭喜你!”一類的鼓勵字眼。

    第二項是從電子書或維基百科上學習基礎知識,以獲取有關 1250 種話題的基本常識。這些知識都經過篩選,確保了真實性。

    最后一項培訓專注于塑造友善性格和良性談話氛圍,使對話更具互動性,幫助Blender學習如何更積極地了解用戶喜好,而且在之后的聊天中一定程度上兼顧這些背景信息。

    為了綜合這三項技能,研究團隊還使用了一套額外數據組,專門幫助 Blender 整合和練習所有技能,希望達到在對話中運用自如的目的。

    圖:Blender 對話例子(來源:Facebook AI)

    最終完成的對話模型有三個版本,分別擁有 9 千萬、27 億和 94 億參數,參數越多,性能越強。相比之下,谷歌 Meena 最多擁有 26 億參數。

    不過,94 億參數的 Blender 需要至少兩塊英偉達 32GB V100 GPU 才能運行,27 億參數版本也至少需要一塊 16GB P100 GPU。Facebook 目前沒有開放網頁版互動界面,因此想在家用電腦上體驗 Blender 暫時是不可能了。

    從評估結果來看,在人類測試員中,有 75% 的人認為 Blender 比谷歌 Meena 的互動性更強,更具吸引力,還有 67% 的人認為前者更像是人類。另外有 49% 的測試者誤以為 Blender 是人類,意味著這些人僅憑聊天記錄無法區分 Blender 和人,其真實度和對話質量可見一斑。

    難以攻克核心挑戰
    盡管如此,Blender 仍然存在一些 AI 聊天機器人的通病。舉個例子,如果問它 “ 魯迅說過的名人名言 ”,它可能會給出符合語法卻是自己偽造的假名言,或者是張冠李戴,制造出 “ 魯迅真的沒說過 ” 的尷尬現象。

    原因在于,除了進行過事實驗證的話題之外,AI 終究只是局限于利用單詞的統計相關性生成句子,而非知識數據庫。這一問題同樣存在于 OpenAI 之前公布的文章自動生成模型 GPT-2 中,故意濫用可能會造成誤導用戶的后果。

    此外,在測試中,Blender 參與的對話最多只進行到 14 輪,比通常人和人之間的對話要簡短很多。項目負責人 Emily Dinan 指出,模型無法進行過于深入的對話,不然就會出現無意義回應,因為它幾回合之后就可能忘記歷史信息。

    圖:Facebook AI 在開放式聊天模型上的進步(來源:Facebook AI)

    困擾著 Blender 以及任何開放式聊天系統的另一個主要問題是如何阻止其說出帶有攻擊性的句子。由于訓練數據基于真實的互聯網用戶對話,出現人身攻擊或歧視色彩的詞匯幾乎無法避免,而使用“有毒的”訓練數據顯然會帶壞聊天機器人。

    2016 年 3 月,微軟曾在推特推出聊天機器人 Tay,模仿 19 歲美國女性的說話方式,以開放型對話方式與普通用戶交流并學習如何互動。然而僅僅一天之后,Tay 就開始發表種族歧視等偏激言論。微軟隨后不得不關閉 Tay 的賬號,將原因歸結為部分網民刻意引導其發表惡意言論。

    Facebook AI 研究人員承認,這些問題是開放式聊天機器人普遍面臨的巨大挑戰。他們正在嘗試創造更好的安全機制來改善和規避。比如對三個較小的額外數據集進行敏感詞過濾,剔除惡意詞匯,但來自于 Reddit 的主要訓練集體積過于龐大,難以全面篩查。他們還希望嘗試引入知識數據庫來糾正機器人的錯誤,甚至是在機器人生成句子之后再進行二次檢查。

    不過這些方法并不全面。很多時候,一句話的性質要結合語境才能準確判斷,像是“你說得很好”這樣的句子看似褒義,但在用于回應激進言論時卻會產生截然相反的效果。

    因此目前看來, Blender 雖然在簡單對話時表現很好,互動自然且流暢,但跟其他開放式聊天機器人一樣,離最理想的聊天機器人還有很長的路要走。

    Facebook AI 團隊還透露了未來的研究方向,另一個項目組正在開發一個“有性格的”圖片聊天系統 Image Chat,旨在對用戶發送的圖片進行有意義的對話。

    稿源:麻省理工科技評論

    分類:產品
    編輯:tmt
    版權聲明:除非特別標注,否則均為本站原創文章,轉載時請以鏈接形式注明文章出處。文章版權歸原作者所有,內容不代表本站立場!
    免責聲明: 閣下應知本站所提供的內容不能做為操作依據。本站作為信息內容發布平臺,不對其內容的真實性、完整性、準確性給予任何擔保、暗示和承諾,僅供讀者參考! 如文中內容影響到您的合法權益(含文章中內容、圖片等),請及時聯系本站,我們會及時刪除處理。
    两个人日本高清,牛牛久热免费精品视频,扒开美女的内裤看到它的j
    <menu id="o4o44"></menu>