比特派錢包安卓下載|將ChatGPT與物理機器人結(jié)合,波士頓動力開發(fā)了一只怪物! -
原文來源:AIGC開放社區(qū)

圖片來源:由無界AI生成
10月27日,全球頂級機器人開發(fā)商波士頓動力(Boston Dynamics)在官網(wǎng)展示了一項新的研究,通過將ChatGPT、Spot以及其他AI模型相結(jié)合,開發(fā)了一種會說話的導游機器狗。
據(jù)悉,該機器狗能夠根據(jù)文字、語音提示與人類進行交談,同時提供了視覺問答功能,可以分析攝像頭拍攝的畫面,自動生成圖像說明。
波士頓動力表示,ChatGPT等大語言模型展現(xiàn)出了強大的控制和輸出能力,這讓他們大受啟發(fā),可以用于控制物理機器人的行為和決策功能。例如,輸入一些特定景點數(shù)據(jù)、圖片等,可讓機器人提供邏輯清晰、條理分明的導游功能。
此外,這也增強了物理機器人的擬人化能力,如為你講一個冷笑話,做一個逗你開心的滑稽動作。如果采用傳統(tǒng)的發(fā)方法,將是一件非常困難的事情。
導游機器狗技術(shù)原理
波士頓動力使用了自研的四足機器人Spot作為物理機器人框架,實現(xiàn)了行走、監(jiān)控、導航、掃描等基礎(chǔ)功能。

為了能讓機器狗說話與人類互動,研發(fā)人員為其配備了Respeaker V2揚聲器,這是一個帶有 LED 的環(huán)形陣列麥克風,可通過USB將其連接到Spot的EAP 2實現(xiàn)數(shù)據(jù)傳輸。

1)Spot EAP 2)揚聲器3)?藍牙音箱4)點臂和夾具相機
使用了一臺電腦作為機器狗的控制大腦,并通過Spot SDK與其實現(xiàn)數(shù)據(jù)交互。為了讓機器狗具備擬人化動作,例如,點頭,伸脖子等,使用了Spot的點臂和夾具相機。
用ChatGPT讓機器狗說話
物理硬件環(huán)境搭建完成后,為了使機器狗具備對話功能,研發(fā)人員使用了GPT-3.5和GPT-4與Spot SDK相結(jié)合,并進行了簡單的指令微調(diào),讓機器狗具備了初級導游判斷和對話功能。
接下來,為了讓Spot與人類和環(huán)境進行交互,集成了VQA和語音轉(zhuǎn)文本軟件。同時將機器人的抓手攝像頭和前置機身攝像頭輸入BLIP-2,并以視覺問答模式(例如“這張圖片有什么有趣的地方?”等簡單問題)或圖像字幕模式運行它。
該過程大約每秒運行一次,結(jié)果將直接輸入到提示中。

為了讓機器狗可以實現(xiàn)“聽”的功能,研發(fā)人員將麥克風數(shù)據(jù)分塊輸入到OpenAI的語音模型Whisper中轉(zhuǎn)換為英文文本。

為了讓機器狗能與人類實現(xiàn)對話,需要將人類的語音指令轉(zhuǎn)換成文本用于提示ChatGPT,因此還需要一個轉(zhuǎn)換工具。開發(fā)人員在嘗試了多種工具后,決定使用了云服務ElevenLabs。
實驗中的驚奇現(xiàn)象
在多個測試對話過程中,研發(fā)人員發(fā)現(xiàn)了一個令人驚奇的現(xiàn)象,機器狗好像具備了簡單的自我決策能力。
例如,向機器狗詢問Marc Raibert(波士頓動力執(zhí)行董事)是誰時?它回答:“我不知道他是誰,讓我們?nèi)シ张_問一問吧?!?/p>
到了服務臺,機器狗繼續(xù)向服務人員詢問Marc Raibert是誰?
當研發(fā)人員提問:你的父母是誰?機器狗走向了Spot V1和Big Dog的展示區(qū),并認為這些機器人是它的父輩們。實際上,它們之間確實有關(guān)聯(lián)。
機器狗還展現(xiàn)出了有趣的一面,可以主動向路人詢問,周圍是否有神秘的生物。
波士頓動力表示,未來還會持續(xù)優(yōu)化該產(chǎn)品的功能。ChatGPT與實體機器人的相結(jié)合,為大語言模型實現(xiàn)物理化落地打開了大門,可以在導游、娛樂、物流、陪伴等領(lǐng)域得到廣泛應用。
關(guān)于波士頓動力
波士頓動力(Boston Dynamics)成立于1992年,總部位于馬薩諸塞州波士頓。起初是麻省理工學院(MIT)的一個分支機構(gòu),后來發(fā)展成為一家獨立的公司。
波士頓動力以開發(fā)高度先進、靈活且具有實用性的機器人而聞名,其產(chǎn)品在工業(yè)、研究和消費領(lǐng)域都有應用,主要代表機器人包括:BigDog、Atlas、Spot、Handle等。
