您的位置:首頁 > 資訊 > 行業(yè)動(dòng)態(tài) > 正文

Facebook最新研究:我們訓(xùn)練機(jī)器人討價(jià)還價(jià),沒想到AI還自己學(xué)會(huì)了“使詐”(附論文)

2017-06-21 05:47 性質(zhì):轉(zhuǎn)載 作者:物聯(lián)網(wǎng)智庫 來源:物聯(lián)網(wǎng)智庫
免責(zé)聲明:中叉網(wǎng)(m.htyl001.com)尊重合法版權(quán),反對侵權(quán)盜版。(凡是我網(wǎng)所轉(zhuǎn)載之文章,文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn),與本網(wǎng)無關(guān)。如有需要?jiǎng)h除,敬請來電商榷!)
【導(dǎo)讀】就是該有這樣的操作~~你跟女票說:“今晚的球賽特別重要,但是為了陪你我勉強(qiáng)放棄不看!”實(shí)際上今晚比賽的球隊(duì)你根本不感興...

【導(dǎo)讀】就是該有這樣的操作~~

  你跟女票說:“今晚的球賽特別重要,但是為了陪你我勉強(qiáng)放棄不看!”實(shí)際上今晚比賽的球隊(duì)你根本不感興趣,這樣做只是讓女票同意你明天和哥們喝酒的談判“小伎倆”。

  這個(gè)“使詐”的技能是不是很熟悉?而這次,學(xué)會(huì)這個(gè)技能的是Facebook的討價(jià)還價(jià)機(jī)器人,而且,這還是人家AI自己獨(dú)立學(xué)會(huì)的技能。
 
  近日,F(xiàn)acebook發(fā)布最新研究,稱他們訓(xùn)練的機(jī)器人已經(jīng)get了談判技能。而且,有些情況下,機(jī)器人最初假裝對無價(jià)值項(xiàng)目感興趣,只有通過放棄它才能“妥協(xié)” - 這是人們經(jīng)常使用的有效談判策略。這個(gè)行為并不是由研究人員編寫的,而是由機(jī)器人發(fā)現(xiàn)的,作為試圖實(shí)現(xiàn)目標(biāo)的方法。
 
下面才是正文啦。

  每天,從我們醒來的那一刻開始,我們的生活就是不斷地與人談判:從討論看什么電視頻道,到說服你的孩子吃蔬菜或試圖買菜時(shí)獲得更好的價(jià)格。所有這些都是共通的,它們需要復(fù)雜的交流和推理技能,這是計(jì)算機(jī)所沒有的屬性。
 
  迄今為止,現(xiàn)有的chatbots(聊天機(jī)器人)上的工作已經(jīng)導(dǎo)致系統(tǒng)可以進(jìn)行短暫的對話,并執(zhí)行簡單的任務(wù),如預(yù)訂餐廳等。但是,與人們進(jìn)行有意義的對話的機(jī)器人還是很具有挑戰(zhàn)性的,因?yàn)樗枰獧C(jī)器人將其對話的理解與其對世界的知識相結(jié)合,然后產(chǎn)生一個(gè)新句子來幫助實(shí)現(xiàn)其目標(biāo)。
 
  Facebook人工智能研究(FAIR)的研究人員已經(jīng)開放源代碼,并發(fā)表論文,介紹機(jī)器人具有的新功能 - 談判能力。
 
  類似于人們有不同的需求,遇到?jīng)_突,然后談判達(dá)成一個(gè)商定的妥協(xié),研究人員已經(jīng)表明,對于具有不同目標(biāo)的對話機(jī)器人(實(shí)現(xiàn)為端對端訓(xùn)練的神經(jīng)網(wǎng)絡(luò))在達(dá)成共同決定或結(jié)果的同時(shí),與其他機(jī)器人或人員可以進(jìn)行從開始到結(jié)束的談判。

任務(wù):多議題討價(jià)還價(jià)

  FAIR研究人員研究了多議題談判任務(wù)。對兩個(gè)機(jī)器人都顯示了相同的項(xiàng)目集合(比如說兩本書,一個(gè)帽子,三個(gè)球),并且被指示他們通過談判把這些物品分配給彼此。

  每個(gè)機(jī)器人都提供自己的價(jià)值函數(shù),它表示對每個(gè)類型的項(xiàng)目關(guān)心多少(比如對于機(jī)器人1,每個(gè)球值得3分)。 在生活中,兩個(gè)機(jī)器人都不知道其他機(jī)器人的價(jià)值函數(shù),必須從對話中推斷出(如果你說你想要球,那你應(yīng)該很重視球)。
 
  FAIR研究人員創(chuàng)造了許多這樣的談判方案,始終確保兩位機(jī)器人商不可能同時(shí)獲得最佳交易。 此外,如果談判進(jìn)行不下去(或者不經(jīng)過10次對話之后的協(xié)議),那這兩個(gè)人都只得0分。 簡單地說,談判是至關(guān)重要的,良好的談判導(dǎo)致更好的表現(xiàn)。

對話框部署

  談判同時(shí)是語言和推理問題,其中必須制定意圖,然后口頭實(shí)現(xiàn)。 這樣的對話包含合作和對抗的要素,要求機(jī)器人了解和制定長期計(jì)劃并產(chǎn)生話語以實(shí)現(xiàn)其目標(biāo)。

  FAIR研究人員在構(gòu)建這樣的長期規(guī)劃對話機(jī)器方面的關(guān)鍵技術(shù)創(chuàng)新是一種稱為對話部署的概念。
 
  當(dāng)聊天人可以建立對方(對話者)的心理模型,提前思考或預(yù)測未來談話的方向時(shí),他們可以選擇避開沒意義的,混亂的或令人沮喪的交流,從而走向成功的談判。
 
  具體來說,F(xiàn)AIR已經(jīng)開發(fā)了對話部署,作為一種新技術(shù),其中機(jī)器通過將對話模型推出到對話結(jié)束來模擬未來的對話,從而可以選擇具有最大預(yù)期未來獎(jiǎng)勵(lì)的話語。

  類似的想法已被用于游戲環(huán)境規(guī)劃中,但從未被應(yīng)用于語言上,因?yàn)檎Z言可能的動(dòng)作數(shù)量要高得多。為了提高效率,研究人員首先產(chǎn)生了一組較小的候選語言來表達(dá),然后對于每個(gè)候選語言,他們反復(fù)模擬對話的完整未來,以估計(jì)它們的成功程度。該模型的預(yù)測精度足夠高,使得該技術(shù)在以下幾個(gè)方面大大提高了談判策略:
 
  談判更加努力:新的機(jī)器人與人類進(jìn)行了長時(shí)間的對話,反過來也會(huì)很快接受交易,這個(gè)模型會(huì)一直談判直到交易成功。
 
  智能機(jī)動(dòng):有些情況下,機(jī)器人最初假裝對無價(jià)值項(xiàng)目感興趣,最后只有通過放棄它才能“妥協(xié)” - 這是人們經(jīng)常使用的有效談判策略。這個(gè)行為并不是由研究人員編寫的,而是由機(jī)器人發(fā)現(xiàn)的,作為試圖實(shí)現(xiàn)目標(biāo)的方法。
 
  創(chuàng)造語句:雖然神經(jīng)模型很容易從訓(xùn)練數(shù)據(jù)中重復(fù)句子,但這項(xiàng)工作表明,模型能夠在必要時(shí)進(jìn)行泛化。

建立和評估談判數(shù)據(jù)集

  為了訓(xùn)練協(xié)商機(jī)器人和進(jìn)行大規(guī)模的定量評估,F(xiàn)AIR團(tuán)隊(duì)協(xié)作收集了一系列人與人之間的談判記錄。這些人被展示了一組物品和每個(gè)物品的價(jià)值,每兩個(gè)人要討論決定,要怎么劃分這些物品。然后研究人員訓(xùn)練一個(gè)遞歸的神經(jīng)網(wǎng)絡(luò),通過教它模仿人們的行為來進(jìn)行談判。在對話框中的任何點(diǎn),模型都試圖猜測人類在這種情況下會(huì)說什么。
 
  不同于先前針對目標(biāo)對話框的工作,這些模型被訓(xùn)練成“端到端”,完全是由人類所做的語言和決定所決定的,這意味著這種方法可以很容易地適應(yīng)其他任務(wù)。

  為了超越簡單地模仿人們,F(xiàn)AIR研究人員允許模型來實(shí)現(xiàn)談判的目標(biāo)。為了訓(xùn)練模型實(shí)現(xiàn)其目標(biāo),研究人員讓模型進(jìn)行了數(shù)千次的自我談判,并使用強(qiáng)化學(xué)習(xí)算法,當(dāng)它取得好的結(jié)果時(shí)給予獎(jiǎng)勵(lì)。為了防止算法開發(fā)自己的語言,它也同時(shí)訓(xùn)練模型產(chǎn)生人類語言。

  為了評估談判機(jī)器人,F(xiàn)AIR團(tuán)隊(duì)測試他們在網(wǎng)上與人交談。大多數(shù)以前的工作避免與真實(shí)的人對話或在較不具挑戰(zhàn)性的領(lǐng)域工作,因?yàn)閷W(xué)習(xí)模型要響應(yīng)人們所說的各種語言非常困難。

  有趣的是,在FAIR團(tuán)隊(duì)的實(shí)驗(yàn)中,大多數(shù)人沒有意識到他們是在與機(jī)器人交談,而不是與另一個(gè)人交談,這表明機(jī)器人已經(jīng)學(xué)會(huì)在這個(gè)領(lǐng)域用英語進(jìn)行流利的對話。FAIR團(tuán)隊(duì)最好的談判機(jī)器人,使用強(qiáng)化學(xué)習(xí)和對話的推出,其性能已經(jīng)可以和人類談判相媲美。它取得了更好的交易的頻率,等同于更糟的交易的頻率,表明FAIR的機(jī)器人不僅可以說英語,也可以聰明地決定想說什么。

強(qiáng)化學(xué)習(xí)用于對話機(jī)器人

  監(jiān)督學(xué)習(xí)的目的是模仿人類用戶的行為,但它并沒有明確地試圖實(shí)現(xiàn)機(jī)器人的目標(biāo)。FAIR團(tuán)隊(duì)采用另一種方法,嘗試預(yù)訓(xùn)練再加監(jiān)督學(xué)習(xí),然后基于評估指標(biāo),利用強(qiáng)化學(xué)習(xí)對模型進(jìn)行微調(diào)。實(shí)際上,他們使用監(jiān)督學(xué)習(xí)來在語言和意義之間進(jìn)行映射,但是使用強(qiáng)化學(xué)習(xí)來幫助決定說什么。

  在強(qiáng)化學(xué)習(xí)過程中,一個(gè)機(jī)器人試圖從與另一個(gè)機(jī)器的對話中改進(jìn)其參數(shù)。而另一個(gè)機(jī)器可能是一個(gè)人,F(xiàn)AIR團(tuán)隊(duì)使用一個(gè)固定的監(jiān)督模型,訓(xùn)練模仿人類。第二個(gè)模型是固定的,因?yàn)檠芯咳藛T發(fā)現(xiàn),隨著機(jī)器開發(fā)自己的語言進(jìn)行談判,更新兩個(gè)機(jī)器模型的參數(shù)導(dǎo)致了模型不收斂。在每一個(gè)對話結(jié)束時(shí),根據(jù)最后達(dá)成的協(xié)議給予獎(jiǎng)勵(lì)。然后,使用策略梯度,這個(gè)獎(jiǎng)勵(lì)通過輸出的每一個(gè)字被回傳網(wǎng)絡(luò),從而增加導(dǎo)致高回報(bào)的行動(dòng)的概率。

下一步

  這一突破對于研究社區(qū)和BOT開發(fā)商是重大的一步,可以創(chuàng)造聊天機(jī)器人推理,交流,洽談的能力,對于建立個(gè)性化的數(shù)字助理至關(guān)重要。與社區(qū)合作使我們有機(jī)會(huì)分享我們的工作和我們要解決的挑戰(zhàn),并鼓勵(lì)有才華的人貢獻(xiàn)他們的想法和努力,推動(dòng)這個(gè)領(lǐng)域向前發(fā)展。


 

網(wǎng)友評論
文明上網(wǎng),理性發(fā)言,拒絕廣告

相關(guān)資訊

關(guān)注官方微信

手機(jī)掃碼看新聞