您的位置:首頁 > 資訊 > 行業(yè)動態(tài) > 正文

專訪 | 前OpenAI科學(xué)家辭職創(chuàng)立智能機器人公司,我們和他們的CEO聊了聊

2017-11-30 08:12 性質(zhì):轉(zhuǎn)載 作者:機器之心 來源:機器之心
免責(zé)聲明:中叉網(wǎng)(m.htyl001.com)尊重合法版權(quán),反對侵權(quán)盜版。(凡是我網(wǎng)所轉(zhuǎn)載之文章,文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機構(gòu)所有。文章內(nèi)容觀點,與本網(wǎng)無關(guān)。如有需要刪除,敬請來電商榷?。?/div>

傳統(tǒng)機器人的硬傷

  傳統(tǒng)工業(yè)機器人的痛點,是每一個想要做智能機器人創(chuàng)業(yè)公司的機會。

  目前,工業(yè)機器人的硬件水準是無可挑剔的。市面上大部分機器人都可以達到百分之一毫米的精確度,而且一個三五十萬的機械臂的耐久度至少是五至十年的時間。機器人可以完成批量地、重復(fù)的動作、在生產(chǎn)線上進行裝配,滿足剛性制造所需的大批量生產(chǎn)。

  但機器人的每一個動作都需要工程師在背后進行精細的編程,從拿起一個元件,到裝配到另一個元件上,編程的過程都需要考量諸如距離、角度這樣的條件。很多在人類看來非常簡單的動作,對機器人來說卻是很大的挑戰(zhàn)。

  比如,將兩個齒輪合在一起,人類只要擰一擰調(diào)整一下角度就可以輕松地將齒輪卡住,但機器人不這么覺得。如果用傳統(tǒng)機械的方法,工程師需要準確的監(jiān)測到兩個齒輪之間的角度差異,然后來回進行轉(zhuǎn)動讓它完美地契合在一起,這立刻就變得變成一個很困難的工程問題。

  「任何需要用眼來看,然后用手來去進行適應(yīng)性的操作,都是對傳統(tǒng)機器人的挑戰(zhàn),」Chen 說。越來越多年輕人不愿意在工廠或者倉庫里做這些枯燥的、重復(fù)的動作,但傳統(tǒng)機器人又無法適應(yīng)柔性的、可以隨時變化操作的工業(yè)制造。Chen 想要在短時間內(nèi)解決的就是,讓機器人既可以組裝齒輪,下一秒也可以去裝備其他的元件或者完成其他的動作。

  智能機器人的解決方法可以有很多。今年受機器人公司關(guān)注的有谷歌提出的自我監(jiān)督模仿(Self-Supervised Imitation)。通過一種叫做時間對比網(wǎng)絡(luò)(Time-Contrastive Networks)的神經(jīng)網(wǎng)絡(luò),機器人能夠自我學(xué)習(xí)視頻里的動作,比如倒水,或者站立。

  Chen 則將希望寄托于深度強化學(xué)習(xí)。這種基于環(huán)境而行動、從而獲得最大化利益的機器學(xué)習(xí)方法,在過去的兩年時間里成功地讓電腦學(xué)會了下圍棋和打游戲。

  2015 年,Chen 過去所在的伯克利機器人實驗室,已經(jīng)通過深度強化學(xué)習(xí)讓機器人獲得了一種類似于視覺肌肉記憶 的能力(Visual Motor Skills)。人類在做很多動作時不會認真經(jīng)過大腦思考。比如在人喝水前,并不會在腦海里提前畫上一個從拿起杯子——轉(zhuǎn)動杯子角度——將水倒入嘴里的草圖,而是根據(jù)條件反射直接拿起杯子喝水。

  這個過程并不復(fù)雜:深度神經(jīng)網(wǎng)絡(luò)就像人類的大腦一樣,它能夠處理視覺數(shù)據(jù),讓機器擁有模擬人類條件反射的能力;模擬之后,接下來就是訓(xùn)練機器的方法。利用深度強化學(xué)習(xí),機器人能通過不斷地試錯和獎勵機制找到學(xué)習(xí)這個動作的「竅門」。這種學(xué)習(xí)動作的過程不需要手把手的編程。

  但是,兩年前的方法最終只停留在理論階段。機器人的深度強化學(xué)習(xí)需要一個引導(dǎo)設(shè)置,而不是漫無目的地試錯,這就需要擁有強化學(xué)習(xí)知識的人才(主力是博士生)完成前期的編程和調(diào)試。一個大學(xué)里的實驗室可以讓幾個博士生沒日沒夜的埋頭苦干,但這顯然不適用于工業(yè)界。

  因此,直到兩年后,Chen 的團隊找到了能夠落地的解決方案——模擬學(xué)習(xí)(Imitation Learning)。

模擬學(xué)習(xí)搭配強化學(xué)習(xí)

  消費級 VR 設(shè)備的出現(xiàn),為很多 AI 公司提供了意外驚喜。Embodied Intelligence 使用了 VR 設(shè)備實現(xiàn)了機器人模擬學(xué)習(xí)的能力。據(jù) Chen 介紹,模擬學(xué)習(xí)的主要研究出自另一位聯(lián)合創(chuàng)始人 Tianhao Zhang 之手。

  任何人帶上 VR 設(shè)備,拿上遙控器,就相當于人在實時遙控一個機器人。機器人只需實時追蹤 VR 設(shè)備的手的運動軌跡,VR 中的示范數(shù)據(jù)則將用來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。在這個過程中,機器人持續(xù)地學(xué)習(xí),直到它表示:「我學(xué)會了。現(xiàn)在我可以自己接手了。」整個過程只需要 30 分鐘。按照 Chen 的話說,即使是這 30 分鐘再乘上 100 倍,也比過去訓(xùn)練機器人動作的成本要小。

  這種方法具有很好的遷移性或者說適用性。即使是不同的動作,它背后的代碼是一模一樣的,包括 VR 的代碼、收集示范動作的代碼、訓(xùn)練的代碼,以及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的代碼,都是一樣的。唯一的不同只是示范的動作而已。

  目前,Embodied Intelligence 的機器人學(xué)過時間最長的動作是將近一分鐘,學(xué)習(xí)動作并沒有明確的規(guī)定,大部分人類憑條件反射就能完成的動作,機器人都可以學(xué)習(xí)。但還不知道機器人是否能學(xué)習(xí)一些非常規(guī)的動作,比如上周波士頓動力機器人 Atlas 的后空翻。

  完成模擬學(xué)習(xí)后,機器人依然需要強化學(xué)習(xí)的介入,讓它能夠繼續(xù)進行自我學(xué)習(xí)。人類的動作有些時候并非最有效的,比如在走路時沿著一個弧線,這可能不是最優(yōu)的結(jié)果,或者人在走路的時候會有一些顫抖也是很有可能的,但對一個機器人來說,通過強化學(xué)習(xí)可以讓動作變得更加高效。

  「近段時間 AI 領(lǐng)域的突破性進展已讓機器人學(xué)會行走,通過反復(fù)試錯學(xué)習(xí)操縱物體,以及從 VR 收集的示范數(shù)據(jù)來學(xué)習(xí)新的技能。但是,這些進展都局限于仿真或?qū)嶒炇噎h(huán)境。」Amplify Partners 合伙人Sunil Dhaliwal 說,「Embodied Intelligence 團隊推動了很多這些進展,而現(xiàn)在他們將把這些最前沿的人工智能和機器人領(lǐng)域的進展引進具體的應(yīng)用場景中?!?/P>

  據(jù) Chen 透露,這套基于模擬學(xué)習(xí)和強化學(xué)習(xí)的機器人應(yīng)用將在明年投身工業(yè)界,通過這套流程,機器人可以輕松地學(xué)會廣泛的技能,尤其在那些傳統(tǒng)解決方案望而卻步的應(yīng)用領(lǐng)域,比如操縱可變形的物體——電線、絲料、布料、服裝、液體包裝、食品等,在不規(guī)則、雜亂環(huán)境中分揀、整理物品,復(fù)雜的拼裝任務(wù)。而隨著材料不規(guī)整程度的增加,以及個性化訂單的增長,傳統(tǒng)硬編碼的方式尤其展現(xiàn)出其局限性。

  只不過,Embodied Intelligence 的藍圖并不盡于此。

五到十年,實現(xiàn)元學(xué)習(xí)

  模擬學(xué)習(xí)+強化學(xué)習(xí)是一個 Embodied Intelligence 能夠短期內(nèi)提供的智能解決方案,元學(xué)習(xí)(Meta Learning)才是這家公司放眼未來五年到十年的核心?!笝C器人和人力的關(guān)鍵區(qū)別是『教』的成本,我們想把機器人變得和人一樣可教。現(xiàn)階段,我們只是在減少教的時間?!?/P>

  什么是元學(xué)習(xí)?簡答來說,就是讓機器人學(xué)會一個學(xué)習(xí)策略。過去的深度學(xué)習(xí)是通過輸入大量的數(shù)據(jù)得到一個結(jié)果,而元學(xué)習(xí)則是從少量數(shù)據(jù)中獲得學(xué)習(xí)這類任務(wù)的方法。換言之,這也是一種體現(xiàn)在機器人上的通用人工智能(Artificial General Intelligence),也是為什么Chen會將公司取名為Embodied(具現(xiàn)) Intelligence(智能)。

  Chen 在元學(xué)習(xí)上已經(jīng)有了一些研究上的成果。今年,Chen 聯(lián)合他的導(dǎo)師在 arXiv 上發(fā)表了兩篇關(guān)于元學(xué)習(xí)的論文。Meta Learning Shared Hierarchies 研究了一種用于學(xué)習(xí)層次結(jié)構(gòu)化策略的元學(xué)習(xí)方法,通過使用共享基元提高未見任務(wù)的樣本效率;另一篇 Meta-Learning with Temporal Convolutions 則提出了一類基于時間卷積的簡單和通用的元學(xué)習(xí)器體系結(jié)構(gòu),這個結(jié)構(gòu)不限領(lǐng)域,而且沒有使用特定的策略或算法進行編碼。

  在 Chen 設(shè)想的藍圖里,Embodied Intelligence 最終實現(xiàn)的智能機器人將同時擁有元學(xué)習(xí)和強化學(xué)習(xí)的能力?!笍娀瘜W(xué)習(xí)在單一任務(wù)上表現(xiàn)的很好,元學(xué)習(xí)是讓機器人掌握快速學(xué)習(xí),這兩者在未來是可以互補的?!?/P>

  身在硅谷的 Chen 面臨的壓力不小,除了像谷歌這樣的科技巨頭發(fā)力智能機器人外,不少初創(chuàng)公司也有這樣的野心,在距離埃默里維爾市開車 20 分鐘的聯(lián)合城市(City),同樣一家機器人公司Vicarious.ai 在為實現(xiàn)具有人類智能的機器人夜以繼日。該公司的 CTO Dileep George 曾告訴機器之心,他們選擇了一條完全不同于深度學(xué)習(xí)和強化學(xué)習(xí)的路徑——通過模擬人類的視覺皮質(zhì),結(jié)合生成模型,讓機器能夠模擬物體的結(jié)構(gòu),從而獲得對物體本身的理解能力。而他們預(yù)期在 2040 年前后實現(xiàn)。

  沒有人能確定哪一條路能通往人工智能的終極圣杯。但從現(xiàn)在來看,帶著伯克利和 OpenAI 最新研究出走的 Embodied Intelligence 是走在了機器人科研的最前沿。


 

12下一頁

網(wǎng)友評論
文明上網(wǎng),理性發(fā)言,拒絕廣告

相關(guān)資訊

關(guān)注官方微信

手機掃碼看新聞