智能代理

讀懂AI Agent:基于大模型的人工智能代理 - 知乎

讀懂AI Agent:基于大模型的人工智能代理 - 知乎首發(fā)于產(chǎn)品對(duì)科技前沿的關(guān)注切換模式寫(xiě)文章登錄/注冊(cè)讀懂AI Agent:基于大模型的人工智能代理產(chǎn)品經(jīng)理大群?計(jì)算機(jī)技術(shù)與軟件專業(yè)技術(shù)資格證持證人AI Agent(人工智能代理)是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動(dòng)作的智能實(shí)體。AI Agent也可以稱為“智能體”,也可理解為“智能業(yè)務(wù)助理”,旨在大模型技術(shù)驅(qū)動(dòng)下,讓人們以自然語(yǔ)言為交互方式高自動(dòng)化地執(zhí)行和處理專業(yè)或繁復(fù)的工作任務(wù),從而極大程度釋放人員精力。Agent 其實(shí)基本就等于 "大模型 + 插件 + 執(zhí)行流程 / 思維鏈",分別會(huì)對(duì)應(yīng)控制端 (Brain / 大腦)、感知端 (Preception)、執(zhí)行端 (Action) 環(huán)節(jié),如下,AI Agent 發(fā)展迅速,出現(xiàn)多款“出圈”級(jí)研究成果。2023 年 3 月起,AI Agent 領(lǐng) 域迎來(lái)了第一次“出圈”,西部世界小鎮(zhèn)、BabyAGI、AutoGPT 等多款重大 Agent 研究項(xiàng)目均在短短兩周內(nèi)陸續(xù)上線,引發(fā)了大家對(duì) AI Agent 領(lǐng)域的關(guān)注。目前已經(jīng) 涌現(xiàn)了在游戲領(lǐng)域大放異彩的英偉達(dá) Voyager 智能體、能夠幫助個(gè)人完成簡(jiǎn)單任務(wù) 的 Agent 助理 HyperWrite、以及主打個(gè)人情感陪伴的 AI 助理 Pi 等多款優(yōu)秀的 Agent 成果,AI Agent 的研究進(jìn)展迅速。 1. 背景介紹大語(yǔ)言模型的浪潮推動(dòng)了 AI Agent 相關(guān)研究快速發(fā)展,AI Agent 是當(dāng)前通往 AGI 的主要探索路線。大模型龐大的訓(xùn)練數(shù)據(jù)集中包含了大量人類行為數(shù)據(jù),為模擬類 人的交互打下了堅(jiān)實(shí)基礎(chǔ);另一方面,隨著模型規(guī)模不斷增大,大模型涌現(xiàn)出了上 下文學(xué)習(xí)能力、推理能力、思維鏈等類似人類思考方式的多種能力。將大模型作為 AI Agent 的核心大腦,就可以實(shí)現(xiàn)以往難以實(shí)現(xiàn)的將復(fù)雜問(wèn)題拆解成可實(shí)現(xiàn)的子任 務(wù)、類人的自然語(yǔ)言交互等能力。由于大模型仍存在大量的問(wèn)題如幻覺(jué)、上下文容 量限制等,通過(guò)讓大模型借助一個(gè)或多個(gè) Agent 的能力,構(gòu)建成為具備自主思考決 策和執(zhí)行能力的智能體,成為了當(dāng)前通往 AGI 的主要研究方向。 1.1 Agent這個(gè)詞是如何出現(xiàn)的有很多人或許會(huì)疑惑,Agent這個(gè)東西看起來(lái)跟LLM也沒(méi)差得那么遠(yuǎn),那為啥最近突然Agent那么火,而不稱之為L(zhǎng)LM-Application或者其他的詞呢?這就得從agent的來(lái)歷上說(shuō)起了,因?yàn)锳gent是個(gè)很古老的術(shù)語(yǔ),甚至可以追溯至亞里士多德和休謨等人的言論。從哲學(xué)意義上講,“代理人”是指具有行動(dòng)能力的實(shí)體,而“代理”一詞則表示這種能力的行使或體現(xiàn)。而從狹義上講,“代理”通常是指有意行動(dòng)的表現(xiàn);相應(yīng)地,“代理人”一詞表示擁有欲望、信念、意圖和行動(dòng)能力的實(shí)體。需要注意的是,代理人不僅包括人類個(gè)體,還包括物理世界和虛擬世界中的其他實(shí)體。重要的是,“代理”的概念涉及個(gè)人的自主性,賦予他們行使意志、做出選擇和采取行動(dòng)的能力,而不是被動(dòng)地對(duì)外部刺激做出反應(yīng)。在 20 世紀(jì) 80 年代中后期之前,主流人工智能界的研究人員對(duì)Agent相關(guān)概念的關(guān)注相對(duì)較少,這可能會(huì)讓人感到驚訝。然而,從那時(shí)起,計(jì)算機(jī)科學(xué)和人工智能界對(duì)這一話題的興趣就大大增加了。正如 Wooldridge 等人所言,我們可以這樣定義人工智能:“它是計(jì)算機(jī)科學(xué)的一個(gè)子領(lǐng)域,旨在設(shè)計(jì)和構(gòu)建基于計(jì)算機(jī)的、表現(xiàn)出智能行為各個(gè)方面的Agent?!币虼耍覀兛梢园袮gent作為人工智能的核心概念。當(dāng)Agent這一概念被引入人工智能領(lǐng)域時(shí),其含義發(fā)生了一些變化。在哲學(xué)領(lǐng)域,Agent可以是人、動(dòng)物,甚至是具有自主性的概念或?qū)嶓w。然而,在人工智能領(lǐng)域,Agent是一個(gè)計(jì)算實(shí)體。由于意識(shí)和欲望等概念對(duì)于計(jì)算實(shí)體來(lái)說(shuō)似乎具有形而上學(xué)的性質(zhì),而且我們只能觀察機(jī)器的行為,包括艾倫-圖靈在內(nèi)的許多人工智能研究者建議暫時(shí)擱置Agent是否“真正”在思考或是否真的擁有“思想”的問(wèn)題。相反,研究人員采用其他屬性來(lái)幫助描述Agent,如自主性、反應(yīng)性、主動(dòng)性和社交能力等屬性。也有研究者認(rèn)為,智能是“看人的眼睛”;它不是與生俱來(lái)的、孤立的屬性。從本質(zhì)上講,AI Agent并不等同于Philosophy Agent;相反,它是Agent這一哲學(xué)概念在人工智能領(lǐng)域的具體化。在本文中,作者將AI Agent視為人工實(shí)體,它們能夠使用傳感器感知周?chē)h(huán)境,做出決策,然后使用執(zhí)行器采取行動(dòng)。在特定行業(yè)場(chǎng)景中,通用大模型具有的泛化服務(wù)特性,很難在知識(shí)問(wèn)答、內(nèi)容生成、業(yè)務(wù)處理和管理決策等方面精準(zhǔn)滿足用戶的需求。因此,讓通用大模型學(xué)習(xí)行業(yè)知識(shí)和行業(yè)語(yǔ)料成為行業(yè)大模型,再進(jìn)一步學(xué)習(xí)業(yè)務(wù)知識(shí)和專業(yè)領(lǐng)域工具演進(jìn)為場(chǎng)景大模型,是生成式AI深入業(yè)務(wù)場(chǎng)景,承擔(dān)更復(fù)雜任務(wù)的關(guān)鍵路徑。這一過(guò)程的實(shí)現(xiàn),讓大模型的持續(xù)進(jìn)化最終以AI Agent的產(chǎn)品形態(tài),開(kāi)始了對(duì)業(yè)務(wù)的流程及其管理和服務(wù)模式的重構(gòu)與優(yōu)化。正如OpenAI聯(lián)合創(chuàng)始人安德烈·卡帕斯(Andrej Karpathy)認(rèn)為,在各類行業(yè)組織對(duì)數(shù)字化實(shí)體的打造進(jìn)程中,對(duì)于通用人工智能(AGI)的應(yīng)用,將廣泛采用AI Agent的產(chǎn)品形式開(kāi)展業(yè)務(wù),而來(lái)自于各行業(yè)領(lǐng)域的開(kāi)發(fā)人員和創(chuàng)業(yè)者們,將比通用大模型的開(kāi)發(fā)商們更具有對(duì)AI Agent的開(kāi)發(fā)優(yōu)勢(shì)。AI Agent,也被越來(lái)越多的人認(rèn)可為是數(shù)字經(jīng)濟(jì)時(shí)代深刻賦能各行各業(yè)的高效生產(chǎn)力工具。不同于傳統(tǒng)的人工智能,AI Agent 具備通過(guò)獨(dú)立思考、調(diào)用工具去逐步完成給 定目標(biāo)的能力。AI Agent 和大模型的區(qū)別在于,大模型與人類之間的交互是基于 prompt 實(shí)現(xiàn)的,用戶 prompt 是否清晰明確會(huì)影響大模型回答的效果。而 AI Agent 的工作僅需給定一個(gè)目標(biāo),它就能夠針對(duì)目標(biāo)獨(dú)立思考并做出行動(dòng)。和傳統(tǒng)的 RPA 相比,RPA 只能在給定的情況條件下,根據(jù)程序內(nèi)預(yù)設(shè)好的流程來(lái)進(jìn)行工作的處 理,而 AI Agent 則可以通過(guò)和環(huán)境進(jìn)行交互,感知信息并做出對(duì)應(yīng)的思考和行動(dòng)。 1.2 AI Agent研究中的技術(shù)演變史Symbolic Agents: 在人工智能研究的早期階段,最主要的方法是符號(hào)人工智能,其特點(diǎn)是依賴符號(hào)邏輯。這種方法采用邏輯規(guī)則和符號(hào)表示來(lái)封裝知識(shí)和促進(jìn)推理過(guò)程。它們主要關(guān)注兩個(gè)問(wèn)題:轉(zhuǎn)換問(wèn)題和表示/推理問(wèn)題。這些Agent旨在模擬人類的思維模式。它們擁有明確的、可解釋的推理框架,而且由于其符號(hào)性質(zhì),它們表現(xiàn)出高度的表達(dá)能力。這種方法的一個(gè)典型例子是基于知識(shí)的專家系統(tǒng)。然而,Symbolic Agent在處理不確定性和大規(guī)?,F(xiàn)實(shí)世界問(wèn)題時(shí)面臨著局限性。此外,由于符號(hào)推理算法錯(cuò)綜復(fù)雜,要找到一種能在有限時(shí)間內(nèi)產(chǎn)生有意義結(jié)果的高效算法也很有挑戰(zhàn)性。Reactive Agents: 與Symbolic Agent不同,Reactive Agent不使用復(fù)雜的符號(hào)推理。相反,它們主要關(guān)注Agent與其Environment之間的交互,強(qiáng)調(diào)快速和實(shí)時(shí)響應(yīng)。這類Agent的設(shè)計(jì)優(yōu)先考慮直接將輸入輸出進(jìn)行映射,而不是復(fù)雜的推理和符號(hào)操作。Reactive Agent通常需要較少的計(jì)算資源,從而能做出更快的反應(yīng),但可能缺乏復(fù)雜的高層決策和規(guī)劃能力。RL-based Agents: 該領(lǐng)域的主要關(guān)注點(diǎn)是如何讓Agent通過(guò)與環(huán)境的交互進(jìn)行學(xué)習(xí),使其在特定任務(wù)中獲得最大的累積獎(jiǎng)勵(lì)。最初,RL-based Agent主要基于強(qiáng)化學(xué)習(xí)算法,如策略搜索和價(jià)值函數(shù)優(yōu)化,Q-learning和SARSA就是一個(gè)例子。隨著深度學(xué)習(xí)的興起,出現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)的整合,即深度強(qiáng)化學(xué)習(xí)。這使得Agent可以從高維輸入中學(xué)習(xí)復(fù)雜的策略,從而取得了眾多重大成就,如AlphaGo和DQN。這種方法的優(yōu)勢(shì)在于它能讓Agent在未知環(huán)境中自主學(xué)習(xí),而無(wú)需明確的人工干預(yù)。這使得它能廣泛應(yīng)用于從游戲到機(jī)器人控制等一系列領(lǐng)域。然而,強(qiáng)化學(xué)習(xí)也面臨著一些挑戰(zhàn),包括訓(xùn)練時(shí)間長(zhǎng)、采樣效率低以及穩(wěn)定性問(wèn)題,尤其是在復(fù)雜的真實(shí)世界環(huán)境中應(yīng)用時(shí)。Agent with transfer learning and meta learning: 傳統(tǒng)上,訓(xùn)練強(qiáng)化學(xué)習(xí)Agent需要大量樣本和較長(zhǎng)的訓(xùn)練時(shí)間,而且缺乏泛化能力。因此,研究人員引入了遷移學(xué)習(xí)來(lái)加速Agent對(duì)新任務(wù)的學(xué)習(xí)。遷移學(xué)習(xí)減輕了新任務(wù)培訓(xùn)的負(fù)擔(dān),促進(jìn)了知識(shí)在不同任務(wù)間的共享和遷移,從而提高了學(xué)習(xí)效率、績(jī)效和泛化能力。此外,AI Agent也引入了元學(xué)習(xí)。元學(xué)習(xí)的重點(diǎn)是學(xué)習(xí)如何學(xué)習(xí),使Agent能從少量樣本中迅速推斷出新任務(wù)的最優(yōu)策略。這樣的Agent在面對(duì)新任務(wù)時(shí),可以利用已獲得的一般知識(shí)和策略迅速調(diào)整其學(xué)習(xí)方法,從而減少對(duì)大量樣本的依賴。然而,當(dāng)源任務(wù)和目標(biāo)任務(wù)之間存在顯著差異時(shí),遷移學(xué)習(xí)的效果可能達(dá)不到預(yù)期,并可能出現(xiàn)負(fù)遷移。此外,元學(xué)習(xí)需要大量的預(yù)訓(xùn)練和大量樣本,因此很難建立通用的學(xué)習(xí)策略。LLM-based Agent: 由于大型語(yǔ)言模型已經(jīng)展示出令人印象深刻的新興能力,并受到廣泛歡迎,研究人員已經(jīng)開(kāi)始利用這些模型來(lái)構(gòu)建AI Agent。具體來(lái)說(shuō),他們采用 LLM 作為這些Agent的大腦或控制器的主要組成部分,并通過(guò)多模態(tài)感知和工具利用等策略來(lái)擴(kuò)展其感知和行動(dòng)空間。通過(guò)思維鏈(CoT)和問(wèn)題分解等技術(shù),這些基于 LLM 的Agent可以表現(xiàn)出與Symbolic Agen相當(dāng)?shù)耐评砗鸵?guī)劃能力。它們還可以通過(guò)從反饋中學(xué)習(xí)和執(zhí)行新的行動(dòng),獲得與環(huán)境互動(dòng)的能力,類似于Reactive Agent。同樣,大型語(yǔ)言模型在大規(guī)模語(yǔ)料庫(kù)中進(jìn)行預(yù)訓(xùn)練,并顯示出少量泛化的能力,從而實(shí)現(xiàn)任務(wù)間的無(wú)縫轉(zhuǎn)移,而無(wú)需更新參數(shù)。LLM-based Agent已被應(yīng)用于各種現(xiàn)實(shí)世界場(chǎng)景、如軟件開(kāi)發(fā)和科學(xué)研究。由于具有自然語(yǔ)言理解和生成能力,它們可以無(wú)縫互動(dòng),從而促進(jìn)多個(gè)Agent之間的協(xié)作和競(jìng)爭(zhēng)。1.3 為什么LLM能夠作為Agent的全新大腦本文將深入探討一些Agent關(guān)鍵屬性,闡明它們與 LLM 的相關(guān)性,從而闡述為什么 LLM 非常適合作為AI Agent大腦。自主性(Autonomy):自主性是指一個(gè)Agent在沒(méi)有人類或其他人直接干預(yù)的情況下運(yùn)行,并對(duì)其行動(dòng)和內(nèi)部狀態(tài)擁有一定程度的控制。這意味著,AI Agent不僅應(yīng)具備按照人類的明確指令完成任務(wù)的能力,還應(yīng)表現(xiàn)出獨(dú)立發(fā)起和執(zhí)行行動(dòng)的能力。這意味著一定程度的自主探索和決策,Auto-GPT等應(yīng)用體現(xiàn)了 LLM 在構(gòu)建Autonomious Agent方面的巨大潛力——只需向它們提供一項(xiàng)任務(wù)和一套可用工具,它們就能自主制定計(jì)劃并執(zhí)行計(jì)劃,以實(shí)現(xiàn)最終目標(biāo)。本文認(rèn)為L(zhǎng)LMs在自主性方面的表現(xiàn)主要體現(xiàn)在以下幾點(diǎn):LLMs可以通過(guò)生成類似人類的文本參與對(duì)話,并在沒(méi)有詳細(xì)步驟指示的情況下執(zhí)行各種任務(wù)的能力來(lái)展示一種自主性。LLMs能根據(jù)環(huán)境輸入動(dòng)態(tài)調(diào)整輸出,體現(xiàn)出一定程度的自適應(yīng)能力。LLMs能通過(guò)展示創(chuàng)造力來(lái)體現(xiàn)自主性,比如提出新穎的想法、故事或解決方案,而這些并沒(méi)有明確編入它們的程序。反應(yīng)性(Reactivity):Agent的反應(yīng)能力是指它對(duì)環(huán)境中的即時(shí)變化和刺激做出快速反應(yīng)的能力。這意味著Agent可以感知周?chē)h(huán)境的變化,并迅速采取適當(dāng)?shù)男袆?dòng)。傳統(tǒng)上,語(yǔ)言模型的感知空間局限于文本輸入,而行動(dòng)空間則局限于文本輸出。不過(guò),研究人員已經(jīng)證明,利用多模態(tài)融合技術(shù)可以擴(kuò)展語(yǔ)言模型的感知空間,使其能夠快速處理來(lái)自環(huán)境的視覺(jué)和聽(tīng)覺(jué)信息。這些進(jìn)步使 LLMs 能夠有效地與真實(shí)世界的物理環(huán)境互動(dòng),并在其中執(zhí)行任務(wù)。一個(gè)主要挑戰(zhàn)是:LLM-based Agent在執(zhí)行非文本操作時(shí),需要一個(gè)中間步驟,即以文本形式產(chǎn)生想法或制定工具使用方法,然后最終將其轉(zhuǎn)化為具體操作。這一中間過(guò)程會(huì)消耗時(shí)間,降低響應(yīng)速度。不過(guò),這與人類的行為模式密切相關(guān),因?yàn)槿祟惖男袨槟J阶裱跋人伎己笮袆?dòng)”的原則。主動(dòng)性(Pro-activeness):積極主動(dòng)指的是,Agent不僅僅會(huì)對(duì)環(huán)境做出反應(yīng),它們還能積極主動(dòng)地采取以目標(biāo)為導(dǎo)向的行動(dòng)。這一特性強(qiáng)調(diào),Agent可以在行動(dòng)中進(jìn)行推理、制定計(jì)劃和采取主動(dòng)措施,以實(shí)現(xiàn)特定目標(biāo)或適應(yīng)環(huán)境變化。雖然直觀上,LLMs 中的下一個(gè)標(biāo)記預(yù)測(cè)范式可能不具備意圖或愿望,但研究表明,它們可以隱式地生成這些狀態(tài)的表征,并指導(dǎo)模型的推理過(guò)程。LLMs 具有很強(qiáng)的概括推理和規(guī)劃能力。通過(guò)向大型語(yǔ)言模型發(fā)出類似 "讓我們一步一步地思考 "的指令,我們可以激發(fā)它們的推理能力,如邏輯推理和數(shù)學(xué)推理。同樣,大型語(yǔ)言模型也以目標(biāo)重?cái)M、任務(wù)分解和根據(jù)環(huán)境變化調(diào)整計(jì)劃等形式顯示了規(guī)劃的新興能力。社會(huì)能力(Social Ability):社交能力指的是一個(gè)Agent通過(guò)某種Agent交流語(yǔ)言與其他Agent(包括人類)進(jìn)行交互的能力。大型語(yǔ)言模型具有很強(qiáng)的自然語(yǔ)言交互能力,如理解和生成能力。與結(jié)構(gòu)化語(yǔ)言或其他通信原語(yǔ)相比,這種能力使它們能夠以可解釋的方式與其他模型或人類進(jìn)行交互,這構(gòu)成了LLM-based Agent的社會(huì)能力的基石。許多研究人員已經(jīng)證明,LLM-based Agent可以通過(guò)協(xié)作和競(jìng)爭(zhēng)等社會(huì)行為提高任務(wù)績(jī)效(Meta GPT)。通過(guò)輸入特定的提示,LLM 也可以扮演不同的角色,從而模擬現(xiàn)實(shí)世界中的社會(huì)分工(Overcooked)。此外,當(dāng)我們將多個(gè)具有不同身份的Agent放入一個(gè)社會(huì)中時(shí),可以觀察到新出現(xiàn)的社會(huì)現(xiàn)象(Generative Agent)。LLM研究對(duì)Agent研究的貢獻(xiàn)AI Agent需要感知環(huán)境、做出決策并執(zhí)行適當(dāng)?shù)男袆?dòng)。在這些關(guān)鍵步驟中,最重要的是理解輸入給Agent的內(nèi)容、推理、規(guī)劃、做出準(zhǔn)確決策,并將其轉(zhuǎn)化為可執(zhí)行的原子動(dòng)作序列,以實(shí)現(xiàn)最終目標(biāo)。目前,許多研究利用LLM作為AI Agent的認(rèn)知核心,這些模型的發(fā)展為完成這一步驟提供了質(zhì)量保證。LLM的優(yōu)勢(shì):大型語(yǔ)言模型在語(yǔ)言和意圖理解、推理、記憶甚至移情等方面具有強(qiáng)大的能力,可以在決策和規(guī)劃方面發(fā)揮卓越的作用。再加上預(yù)先訓(xùn)練的知識(shí),它們可以創(chuàng)建連貫的行動(dòng)序列,并有效地執(zhí)行。此外,通過(guò)反思機(jī)制,這些基于語(yǔ)言的模型可以根據(jù)當(dāng)前環(huán)境提供的反饋不斷調(diào)整決策和優(yōu)化執(zhí)行序列。LLM的應(yīng)用:LLM為Agent研究提供了一個(gè)非常強(qiáng)大的基礎(chǔ)模型,在與Agent相關(guān)的研究中,LLM開(kāi)辟了許多新的機(jī)會(huì)。例如,我們可以探索如何將LLM的高效決策能力整合到傳統(tǒng)的Agent決策框架中,使Agent更容易應(yīng)用于對(duì)專業(yè)知識(shí)要求較高且以前由人類專家主導(dǎo)的領(lǐng)域。此外,Agent研究不再局限于簡(jiǎn)單的模擬環(huán)境,現(xiàn)在可以擴(kuò)展到更復(fù)雜的真實(shí)世界環(huán)境中。Agent研究對(duì)LLM研究的貢獻(xiàn)將LLM提升為Agent標(biāo)志著向人工通用智能(AGI)邁出了更堅(jiān)實(shí)的一步。從Agent的角度來(lái)看待LLM,對(duì)LLM研究提出了更高的要求,同時(shí)也擴(kuò)大了LLM的應(yīng)用范圍,為實(shí)際應(yīng)用提供了大量機(jī)會(huì)。LLM的研究方向:對(duì)LLM的研究不再局限于涉及文本輸入和文本輸出的傳統(tǒng)任務(wù),如文本分類、問(wèn)題解答和文本摘要。取而代之的是,研究重點(diǎn)已轉(zhuǎn)向處理復(fù)雜任務(wù),這些任務(wù)包含更豐富的輸入模式和更廣闊的行動(dòng)空間。LLM的挑戰(zhàn):挑戰(zhàn)在于如何讓大型語(yǔ)言模型高效地處理輸入、從環(huán)境中收集信息并解釋由其行動(dòng)產(chǎn)生的反饋,同時(shí)保持其核心能力。此外,更大的挑戰(zhàn)在于如何讓LLMs理解環(huán)境中不同元素之間的隱含關(guān)系,并獲取世界知識(shí)。LLM的行動(dòng)能力:大量研究旨在擴(kuò)展LLM的行動(dòng)能力,讓它們掌握更多影響世界的技能,例如在模擬或物理環(huán)境中使用工具或與機(jī)器人API接口。Multi-Agent系統(tǒng)領(lǐng)域:我們希望LLM-based Agent能在社會(huì)合作中扮演不同的角色,參與涉及協(xié)作、競(jìng)爭(zhēng)和協(xié)調(diào)的社會(huì)互動(dòng)。2. Agent的構(gòu)建圖1:LLM-based Agent的概念框架,由大腦、感知、行動(dòng)三個(gè)部分組成。作為控制器,大腦模塊承擔(dān)記憶、思考和決策等基本任務(wù);感知模塊負(fù)責(zé)感知和處理來(lái)自外部環(huán)境的多模態(tài)信息;行動(dòng)模塊負(fù)責(zé)使用工具執(zhí)行任務(wù)并影響周?chē)h(huán)境。一個(gè)基于大模型的 AI Agent 系統(tǒng)可以拆分為大模型、規(guī)劃、記憶與工具使用四個(gè)組 件部分。AI Agent 可能會(huì)成為新時(shí)代的開(kāi)端,其基礎(chǔ)架構(gòu)可以簡(jiǎn)單劃分為 Agent = LLM + 規(guī)劃技能 + 記憶 + 工具使用,其中 LLM 扮演了 Agent 的“大腦”,在這個(gè) 系統(tǒng)中提供推理、規(guī)劃等能力。 本文主要介紹LLM-based Agent的總體概念框架,由大腦、感知、行動(dòng)三個(gè)關(guān)鍵部分組成(見(jiàn)圖1)。2.1 大腦模塊大腦主要由一個(gè)大型語(yǔ)言模型組成,不僅存儲(chǔ)知識(shí)和記憶,還承擔(dān)著信息處理和決策等功能,并可以呈現(xiàn)推理和規(guī)劃的過(guò)程,能很好地應(yīng)對(duì)未知任務(wù)。運(yùn)行機(jī)制:為確保有效交流,自然語(yǔ)言交互能力 至關(guān)重要。在接收感知模塊處理的信息后,大腦模塊首先轉(zhuǎn)向存儲(chǔ),在知識(shí)中檢索 并從記憶中回憶 。這些結(jié)果有助于Agent制定計(jì)劃、進(jìn)行推理和做出明智的決定 。此外,大腦模塊還能以摘要、矢量或其他數(shù)據(jù)結(jié)構(gòu)的形式記憶Agent過(guò)去的觀察、思考和行動(dòng)。同時(shí),它還可以更新常識(shí)和領(lǐng)域知識(shí)等知識(shí),以備將來(lái)使用。LLM-based Agent還可以利用其固有的概括和遷移能力來(lái)適應(yīng)陌生場(chǎng)景 。在隨后的章節(jié)中將詳細(xì)探討圖2所示的大腦模塊的這些非凡功能。自然語(yǔ)言交互作為一種交流媒介,語(yǔ)言包含著豐富的信息。除了直觀表達(dá)的內(nèi)容,背后還可能隱藏著說(shuō)話者的信念、愿望和意圖。由于 LLM 本身具有強(qiáng)大的自然語(yǔ)言理解和生成能力,Agent不僅可以熟練地使用多種語(yǔ)言進(jìn)行基本的交互式對(duì)話,還能表現(xiàn)出深入的理解能力,從而使人類能夠輕松地理解Agent并與之互動(dòng)。多輪交互對(duì)話:多輪對(duì)話能力是有效和一致交流的基礎(chǔ)。作為大腦模塊的核心,LLM能夠理解自然語(yǔ)言并生成連貫且與上下文相關(guān)的回復(fù),從而幫助Agent更好地理解和處理各種問(wèn)題。然而,即使是人類也很難在一次交流中不出現(xiàn)混亂,因此需要多輪對(duì)話。與 SQuAD 等傳統(tǒng)的純文本閱讀理解任務(wù)相比,多輪對(duì)話具有以下幾個(gè)特點(diǎn):具有交互性,涉及多個(gè)說(shuō)話者,缺乏連續(xù)性;可能涉及多個(gè)話題,對(duì)話信息也可能是冗余的,使得文本結(jié)構(gòu)更加復(fù)雜。一般來(lái)說(shuō),多輪對(duì)話主要分為三個(gè)步驟: (1) 了解自然語(yǔ)言對(duì)話的歷史;(2) 決定采取什么行動(dòng);(3) 生成自然語(yǔ)言回應(yīng)。LLM-based Agent能夠利用現(xiàn)有信息不斷完善輸出,進(jìn)行多輪對(duì)話并有效實(shí)現(xiàn)最終目標(biāo)。高質(zhì)量的自然語(yǔ)言生成:最新的 LLM 展示了卓越的自然語(yǔ)言生成能力,可持續(xù)生成多種語(yǔ)言的高質(zhì)量文本。LLM 生成內(nèi)容的連貫性和語(yǔ)法準(zhǔn)確性穩(wěn)步提高,從GPT-3逐步發(fā)展到 InstructGPT,最終達(dá)到 GPT-4。這些語(yǔ)言模型可以“適應(yīng)調(diào)節(jié)文本的風(fēng)格和內(nèi)容”,而像ChatGPT這樣的模型在語(yǔ)法錯(cuò)誤檢測(cè)方面表現(xiàn)出色,凸顯了其強(qiáng)大的語(yǔ)言能力。在對(duì)話語(yǔ)境中,LLMs 在對(duì)話質(zhì)量的關(guān)鍵指標(biāo)上也表現(xiàn)出色,包括內(nèi)容、相關(guān)性和適當(dāng)性。重要的是,LLMs 不僅僅復(fù)制訓(xùn)練數(shù)據(jù),而且還表現(xiàn)出一定程度的創(chuàng)造力,能生成與人類制作的基準(zhǔn)文本同樣新穎甚至更加新穎的各種文本。同時(shí),通過(guò)使用可控提示,確保對(duì)這些語(yǔ)言模型生成的內(nèi)容進(jìn)行精確控制,人類的監(jiān)督依然有效。意圖和含義理解:盡管在大規(guī)模語(yǔ)料庫(kù)中訓(xùn)練出來(lái)的模型已經(jīng)具有足夠的智能來(lái)理解指令,但它們中的大多數(shù)仍無(wú)法模擬人類對(duì)話或充分利用語(yǔ)言所傳達(dá)的信息。要想與其他智能機(jī)器人進(jìn)行有效的交流與合作,理解其隱含的意思至關(guān)重要,并使人們能夠解釋他人的反饋。LLMs 的出現(xiàn)凸顯了基礎(chǔ)模型在理解人類意圖方面的潛力,但當(dāng)涉及到模糊指令或其他含義時(shí),就會(huì)給Agent帶來(lái)巨大挑戰(zhàn)。對(duì)于人類來(lái)說(shuō),掌握對(duì)話中的隱含意義是自然而然的事,而對(duì)于Agent來(lái)說(shuō),他們應(yīng)該將隱含意義形式化為獎(jiǎng)勵(lì)函數(shù),使他們能夠在看不見(jiàn)的語(yǔ)境中選擇符合說(shuō)話者偏好的選項(xiàng)。獎(jiǎng)勵(lì)建模的主要方法之一是根據(jù)反饋推斷獎(jiǎng)勵(lì),反饋主要以比較和無(wú)約束自然語(yǔ)言的形式呈現(xiàn)。另一種方法是以行動(dòng)空間為橋梁,從描述中獲取獎(jiǎng)勵(lì)。Jeon 等人認(rèn)為,人類行為可以映射為從一組隱含選項(xiàng)中做出的選擇,這有助于用一個(gè)統(tǒng)一的形式解釋所有信息。利用對(duì)上下文的理解,Agent可以根據(jù)具體要求采取高度個(gè)性化和準(zhǔn)確的行動(dòng)。知識(shí)研究表明,在大規(guī)模數(shù)據(jù)集上訓(xùn)練的語(yǔ)言模型可以將各種知識(shí)編碼到其參數(shù)中,并對(duì)各種類型的查詢做出正確的反應(yīng)。此外,這些知識(shí)還能幫助LLM-based Agent做出明智的決策。所有這些知識(shí)可大致分為以下幾類:語(yǔ)言知識(shí):語(yǔ)言知識(shí)表現(xiàn)為一個(gè)約束系統(tǒng),即語(yǔ)法,它定義了語(yǔ)言的所有和唯一可能的句子。它包括詞法、句法、語(yǔ)義學(xué)和語(yǔ)用學(xué)。只有掌握了語(yǔ)言知識(shí)的Agent才能理解句子并進(jìn)行多輪對(duì)話。此外,這些Agent可以通過(guò)在包含多種語(yǔ)言的數(shù)據(jù)集上進(jìn)行訓(xùn)練來(lái)獲取多語(yǔ)言知識(shí),從而無(wú)需額外的翻譯模型。常識(shí)知識(shí):常識(shí)性知識(shí)指的是大多數(shù)人在幼年時(shí)就已掌握的世界常識(shí)。例如,人們通常知道藥是用來(lái)治病的,傘是用來(lái)防雨的。這些信息通常不會(huì)在上下文中明確提及。因此,缺乏相應(yīng)常識(shí)性知識(shí)的模型可能無(wú)法理解或誤解其中的含義。同樣,缺乏常識(shí)性知識(shí)的Agent可能會(huì)做出錯(cuò)誤的決定,比如在下大雨時(shí)不打傘。專業(yè)領(lǐng)域知識(shí):專業(yè)領(lǐng)域知識(shí)是指與特定領(lǐng)域相關(guān)的知識(shí),如編程、數(shù)學(xué)、醫(yī)學(xué)等。它對(duì)模型有效解決特定領(lǐng)域內(nèi)的問(wèn)題至關(guān)重要。例如,用于執(zhí)行編程任務(wù)的模型需要具備編程知識(shí),如代碼格式。同樣,用于診斷目的的模型應(yīng)具備醫(yī)學(xué)知識(shí),如特定疾病和處方藥的名稱。潛在問(wèn)題:盡管 LLM 在獲取、存儲(chǔ)和利用知識(shí)方面表現(xiàn)出色,但仍然存在潛在的問(wèn)題和懸而未決的難題。例如,模型在訓(xùn)練過(guò)程中獲得的知識(shí)可能會(huì)過(guò)時(shí),甚至從一開(kāi)始就是錯(cuò)誤的。解決這一問(wèn)題的簡(jiǎn)單方法是重新訓(xùn)練。但是,這需要先進(jìn)的數(shù)據(jù)、大量的時(shí)間和計(jì)算資源。更糟糕的是,它可能導(dǎo)致災(zāi)難性遺忘。因此,一些研究人員嘗試編輯 LLM,以找到并修改模型中存儲(chǔ)的特定知識(shí)。這包括在獲取新知識(shí)的同時(shí)卸載不正確的知識(shí)。他們的實(shí)驗(yàn)表明,這種方法可以部分編輯事實(shí)知識(shí),但其基本機(jī)制仍需進(jìn)一步研究。此外,LLMs 可能會(huì)生成與來(lái)源或事實(shí)信息相沖突的內(nèi)容,這種現(xiàn)象通常被稱為幻覺(jué)。這也是 LLM 無(wú)法廣泛應(yīng)用于嚴(yán)格的事實(shí)任務(wù)的重要原因之一。為解決這一問(wèn)題,一些研究人員提出了衡量幻覺(jué)程度的指標(biāo),為開(kāi)發(fā)人員提供了評(píng)估 LLM 輸出可信度的有效參考。此外,一些研究人員還使 LLM 能夠利用外部工具來(lái)避免錯(cuò)誤的 LLM 輸出。記憶在本文的框架中,“記憶”存儲(chǔ)了Agent過(guò)去的觀察、思考和行動(dòng)序列,這與 Nuxoll 等人提出的定義類似。正如人腦依靠記憶系統(tǒng)來(lái)回溯利用先前的經(jīng)驗(yàn)制定策略和做出決策一樣,Agent也需要特定的記憶機(jī)制來(lái)確保其熟練處理一系列連續(xù)任務(wù)。在面對(duì)復(fù)雜問(wèn)題時(shí),記憶機(jī)制能幫助行為主體有效地重新審視和應(yīng)用先前的策略。此外,這些記憶機(jī)制還能使個(gè)體借鑒過(guò)去的經(jīng)驗(yàn),適應(yīng)陌生的環(huán)境。隨著LLM-based Agent互動(dòng)周期的擴(kuò)大,出現(xiàn)了兩個(gè)主要挑戰(zhàn)。第一個(gè)挑戰(zhàn)與歷史記錄的長(zhǎng)度有關(guān)。LLM-based Agent以自然語(yǔ)言格式處理先前的交互,并將歷史記錄附加到每個(gè)后續(xù)輸入中。隨著這些記錄的增加,它們可能會(huì)超出大多數(shù)LLM-based Agent所依賴的 Transformer 架構(gòu)的限制。在這種情況下,系統(tǒng)可能會(huì)截?cái)嗄承﹥?nèi)容。第二個(gè)挑戰(zhàn)是提取相關(guān)記憶的難度。當(dāng)Agent積累了大量的歷史觀察和行動(dòng)序列時(shí),它們就會(huì)面臨不斷升級(jí)的記憶負(fù)擔(dān)。這使得在相關(guān)主題之間建立聯(lián)系變得越來(lái)越具有挑戰(zhàn)性,有可能導(dǎo)致Agent的反應(yīng)與當(dāng)前環(huán)境不一致。提高記憶能力的方法 下面我們介紹幾種增強(qiáng)LLM-based Agent記憶能力的方法。提高Trransformer的輸入長(zhǎng)度限制:第一種方法試圖解決或減輕固有的序列長(zhǎng)度限制。由于這些固有限制,Transformer架構(gòu)很難處理長(zhǎng)序列。隨著序列長(zhǎng)度的增加,由于Self-Attention機(jī)制中的成對(duì)標(biāo)記計(jì)算,計(jì)算需求將呈指數(shù)級(jí)增長(zhǎng)。緩解這些長(zhǎng)度限制的策略包括文本截?cái)?、分割輸入,以及?qiáng)調(diào)文本的關(guān)鍵部分。還有一些研究修改了注意力機(jī)制,以降低復(fù)雜性,從而適應(yīng)較長(zhǎng)的序列??偨Y(jié)記憶:提高記憶效率的第二種策略取決于記憶總結(jié)的概念。這能確保Agent毫不費(fèi)力地從歷史互動(dòng)中提取關(guān)鍵細(xì)節(jié)。一些方法利用提示簡(jiǎn)潔地整合記憶,而另一些方法則強(qiáng)調(diào)反思過(guò)程,以創(chuàng)建濃縮的記憶表征。分層方法將對(duì)話精簡(jiǎn)為每日快照和總體總結(jié)。一些特定的策略將環(huán)境反饋轉(zhuǎn)化為文本封裝,從而加強(qiáng)了Agent對(duì)未來(lái)參與的語(yǔ)境把握。此外,在multi-agent環(huán)境中,Agent交流的重要元素會(huì)被捕獲并保留下來(lái) 。用向量或數(shù)據(jù)結(jié)構(gòu)壓縮記憶:通過(guò)采用合適的數(shù)據(jù)結(jié)構(gòu),智能Agent可提高記憶檢索效率,促進(jìn)對(duì)交互做出迅速反應(yīng)。值得注意的是,有幾種方法依賴于為記憶部分、計(jì)劃或?qū)υ挌v史嵌入向量。另一種方法將句子轉(zhuǎn)化為三元組配置,還有一些方法將記憶視為獨(dú)特的數(shù)據(jù)對(duì)象,從而促進(jìn)不同的交互。此外,ChatDB和DB-GPT將 LLMrollers 與 SQL 數(shù)據(jù)庫(kù)整合在一起,通過(guò) SQL 命令進(jìn)行數(shù)據(jù)操作。記憶檢索方法當(dāng)Agent與其環(huán)境或用戶交互時(shí),必須從其內(nèi)存中檢索最合適的內(nèi)容。這可確保Agent訪問(wèn)相關(guān)的準(zhǔn)確信息,以執(zhí)行特定操作。這就產(chǎn)生了一個(gè)重要問(wèn)題:Agent如何選擇最合適的存儲(chǔ)器?通常情況下,Agent要求存儲(chǔ)器具有自動(dòng)檢索記憶的能力。自動(dòng)檢索的一個(gè)重要方法是考慮三個(gè)指標(biāo): 最近性(Recency)、相關(guān)性(Relevance)和重要性(Importance)。記憶得分由這些指標(biāo)加權(quán)組合而成,得分最高的記憶在模型的上下文中被優(yōu)先考慮。一些研究引入了交互式記憶對(duì)象的概念,即對(duì)話歷史的表現(xiàn)形式,可以移動(dòng)、編輯、刪除或通過(guò)總結(jié)進(jìn)行組合。用戶可以查看和操作這些對(duì)象,從而影響Agent對(duì)對(duì)話的感知。同樣,其他研究也允許根據(jù)用戶提供的特定命令進(jìn)行刪除等記憶操作。這些方法確保了記憶內(nèi)容與用戶的期望密切相關(guān)。推理和規(guī)劃推理(Reasoning):推理以證據(jù)和邏輯為基礎(chǔ),是人類智力活動(dòng)的根本,是解決問(wèn)題、決策和批判性分析的基石。演繹、歸納和歸納是智力活動(dòng)中常見(jiàn)的主要推理形式。對(duì)于LLM-based Agent來(lái)說(shuō),與人類一樣,推理能力對(duì)于解決復(fù)雜任務(wù)至關(guān)重要 。關(guān)于大型語(yǔ)言模型的推理能力,學(xué)術(shù)界存在不同觀點(diǎn)。一些人認(rèn)為語(yǔ)言模型在預(yù)訓(xùn)練或微調(diào)過(guò)程中就具備了推理能力,而另一些人則認(rèn)為推理能力是在達(dá)到一定規(guī)模后才出現(xiàn)的。具體來(lái)說(shuō),具有代表性的思維鏈(CoT)方法通過(guò)引導(dǎo) LLM 在輸出答案之前生成理由,已被證明能夠激發(fā)大型語(yǔ)言模型的推理能力。此外,還提出了其他一些提高 LLM 性能的策略,如自我一致性、自我修正、自我完善和選擇推理等。一些研究表明,分步推理的有效性可歸因于訓(xùn)練數(shù)據(jù)的局部統(tǒng)計(jì)結(jié)構(gòu),與對(duì)所有變量進(jìn)行訓(xùn)練相比,變量間局部結(jié)構(gòu)化的依賴關(guān)系能產(chǎn)生更高的數(shù)據(jù)效率。規(guī)劃(Planning):規(guī)劃是人類在面對(duì)復(fù)雜挑戰(zhàn)時(shí)采用的一種關(guān)鍵策略。對(duì)人類來(lái)說(shuō),規(guī)劃有助于組織思維、設(shè)定目標(biāo)和確定實(shí)現(xiàn)這些目標(biāo)的步驟。與人類一樣,規(guī)劃能力對(duì)Agent也至關(guān)重要,而規(guī)劃模塊的核心是推理能力。這為L(zhǎng)LM-based Agent提供了一個(gè)結(jié)構(gòu)化的思維過(guò)程。通過(guò)規(guī)劃,Agent可將復(fù)雜的任務(wù)分解為更易于管理的子任務(wù),并為每個(gè)子任務(wù)制定適當(dāng)?shù)挠?jì)劃。此外,隨著任務(wù)的進(jìn)展,Agent可以利用內(nèi)省來(lái)修改其計(jì)劃,確保計(jì)劃更符合實(shí)際情況,從而適應(yīng)并成功執(zhí)行任務(wù)。通常,規(guī)劃包括兩個(gè)階段:計(jì)劃制定和計(jì)劃反思。計(jì)劃制定:在制定計(jì)劃的過(guò)程中,Agent通常會(huì)將總體任務(wù)分解成許多子任務(wù),在這一階段,人們提出了各種方法。值得注意的是,一些著作主張LLM-based Agent一次性全面分解問(wèn)題,一次性制定完整的計(jì)劃,然后按順序執(zhí)行。與此相反,其他研究(如 CoT 系列)則采用自適應(yīng)策略,一次規(guī)劃和處理一個(gè)子任務(wù),從而更流暢地處理復(fù)雜的整體任務(wù)。此外,有些方法強(qiáng)調(diào)分層規(guī)劃,而另一些方法則強(qiáng)調(diào)一種策略,即從樹(shù)狀結(jié)構(gòu)的推理步驟中推導(dǎo)出最終計(jì)劃。后一種方法認(rèn)為,在最終確定計(jì)劃之前,Agent應(yīng)評(píng)估所有可能的路徑。雖然基于 LLM 的Agent展示了廣博的常識(shí),但在遇到需要專業(yè)知識(shí)的情況時(shí),它們偶爾也會(huì)面臨挑戰(zhàn)。通過(guò)將這些Agent與特定領(lǐng)域的規(guī)劃者相結(jié)合來(lái)增強(qiáng)它們的能力,已證明能產(chǎn)生更好的性能。計(jì)劃反思:制定計(jì)劃后,必須對(duì)其優(yōu)點(diǎn)進(jìn)行反思和評(píng)估。LLM-based Agent可利用內(nèi)部反饋機(jī)制(通常是從已有模型中汲取靈感)來(lái)完善和改進(jìn)其戰(zhàn)略和規(guī)劃方法。為了更好地與人類的價(jià)值觀和偏好保持一致,Agent會(huì)主動(dòng)與人類接觸,從而糾正一些誤解,并將這些有針對(duì)性的反饋吸收到其規(guī)劃方法中。此外,它們還可以從有形或虛擬環(huán)境中獲得反饋,如任務(wù)完成情況的提示或行動(dòng)后的觀察,幫助它們修改和完善計(jì)劃??蛇w移性和通用性在大規(guī)模語(yǔ)料庫(kù)上預(yù)先訓(xùn)練的模型可以學(xué)習(xí)通用語(yǔ)言表征。利用預(yù)訓(xùn)練模型的強(qiáng)大功能,只需少量數(shù)據(jù)進(jìn)行微調(diào),LLMs 就能在下游任務(wù)中表現(xiàn)出卓越的性能。無(wú)需從頭開(kāi)始訓(xùn)練新模型,從而節(jié)省了大量計(jì)算資源。然而,通過(guò)這種針對(duì)特定任務(wù)的微調(diào),模型缺乏通用性,很難推廣到其他任務(wù)中。LLM-based Agent不只是發(fā)揮靜態(tài)知識(shí)庫(kù)的作用,而是展現(xiàn)出動(dòng)態(tài)學(xué)習(xí)能力,使其能夠快速、穩(wěn)健地適應(yīng)新任務(wù)??床灰?jiàn)的任務(wù)泛化:研究表明,LLMs 可以根據(jù)自己的理解,按照指令完成在訓(xùn)練階段沒(méi)有遇到過(guò)的新任務(wù)。多任務(wù)學(xué)習(xí)是其中一種實(shí)現(xiàn)方式,例如,F(xiàn)LAN 在通過(guò)指令描述的任務(wù)集合上對(duì)語(yǔ)言模型進(jìn)行微調(diào),而 T0 則引入了一個(gè)統(tǒng)一的框架,將每個(gè)語(yǔ)言問(wèn)題轉(zhuǎn)換成文本到文本的格式。提示的選擇對(duì)于適當(dāng)?shù)念A(yù)測(cè)至關(guān)重要,而直接根據(jù)提示進(jìn)行訓(xùn)練可以提高模型對(duì)未知任務(wù)進(jìn)行泛化的魯棒性。值得期待的是,通過(guò)擴(kuò)大模型規(guī)模和訓(xùn)練指令的數(shù)量或多樣性,可以進(jìn)一步增強(qiáng)這種泛化能力。情境學(xué)習(xí):大量研究表明,LLM 可以通過(guò)上下文學(xué)習(xí)(ICL)完成各種復(fù)雜任務(wù),上下文學(xué)習(xí)指的是模型從上下文中的幾個(gè)例子中學(xué)習(xí)的能力。少量語(yǔ)境內(nèi)學(xué)習(xí)通過(guò)將原始輸入與幾個(gè)完整示例串聯(lián)起來(lái),作為豐富語(yǔ)境的提示,從而提高語(yǔ)言模型的預(yù)測(cè)性能。ICL 的主要思想是從類比中學(xué)習(xí),這與人類的學(xué)習(xí)過(guò)程類似 。此外,由于提示是用自然語(yǔ)言編寫(xiě)的,因此交互是可解釋和可改變的,從而更容易將人類知識(shí)納入 LLM 。與監(jiān)督學(xué)習(xí)過(guò)程不同,ICL 不涉及微調(diào)或參數(shù)更新,這可以大大降低模型適應(yīng)新任務(wù)的計(jì)算成本。除文本外,研究人員還探索了 ICL 在不同多模態(tài)任務(wù)中的潛在能力,從而使Agent應(yīng)用于大規(guī)模真實(shí)世界任務(wù)成為可能。持續(xù)學(xué)習(xí):最近的研究強(qiáng)調(diào)了 LLM 的規(guī)劃能力在促進(jìn)Agent持續(xù)學(xué)習(xí)方面的潛力,這涉及技能的持續(xù)獲取和更新。持續(xù)學(xué)習(xí)的一個(gè)核心挑戰(zhàn)是災(zāi)難性遺忘:當(dāng)模型學(xué)習(xí)新任務(wù)時(shí),往往會(huì)丟失以前任務(wù)的知識(shí)。為應(yīng)對(duì)上述挑戰(zhàn),人們做出了大量努力,這些努力大致可分為三類:參照以前的模型引入經(jīng)常使用的術(shù)語(yǔ) ;近似先驗(yàn)數(shù)據(jù)分布;設(shè)計(jì)具有任務(wù)自適應(yīng)參數(shù)的架構(gòu)。Voyager嘗試解決由 GPT-4設(shè)計(jì)的課程學(xué)習(xí)方案(即難度遞增的任務(wù)),通過(guò)從較簡(jiǎn)單的程序中綜合出復(fù)雜的技能,該Agent不僅能迅速增強(qiáng)自身能力,還能有效對(duì)抗災(zāi)難性遺忘。2.2 感知模塊感知模塊的核心目的是將Agent的感知空間從純文字領(lǐng)域擴(kuò)展到包括文字、聽(tīng)覺(jué)和視覺(jué)模式在內(nèi)的多模態(tài)領(lǐng)域。文本輸入LLM-based Agent已經(jīng)具備了通過(guò)文本輸入和輸出與人類交流的基本能力。在用戶的文本輸入中,除了明確的內(nèi)容外,還隱藏著信念、愿望和意圖。理解隱含含義對(duì)于Agent掌握人類用戶的潛在和潛在意圖至關(guān)重要,從而提高Agent與用戶的交流效率和質(zhì)量。一些研究采用強(qiáng)化學(xué)習(xí)來(lái)感知隱含含義,并建立反饋模型以獲得獎(jiǎng)勵(lì)。這有助于推斷說(shuō)話者的偏好,從而使Agent做出更個(gè)性化、更準(zhǔn)確的回應(yīng)。此外,由于Agent被設(shè)計(jì)用于復(fù)雜的真實(shí)世界環(huán)境,它將不可避免地遇到許多全新的任務(wù)。理解未知任務(wù)的文本指示對(duì)Agent的文本感知能力提出了更高的要求。經(jīng)過(guò)指令調(diào)整的 LLM 可以表現(xiàn)出卓越的零樣本指令理解和泛化能力,從而無(wú)需針對(duì)特定任務(wù)進(jìn)行微調(diào)。視覺(jué)輸入視覺(jué)輸入通常包含大量有關(guān)世界的信息,包括Agent周?chē)h(huán)境中物體的屬性、空間關(guān)系、場(chǎng)景布局等。因此,將視覺(jué)信息與其他模式的數(shù)據(jù)整合在一起,可以為Agent提供更廣泛的背景和更精確的理解,加深A(yù)gent對(duì)環(huán)境的感知。為了幫助Agent理解圖像中包含的信息,一種直接的方法是為圖像輸入生成相應(yīng)的文本描述,即圖像標(biāo)題。字幕可以直接與標(biāo)準(zhǔn)文本指令連接,并輸入到Agent中。這種方法具有很高的可解釋性,而且不需要額外的字幕生成訓(xùn)練,可以節(jié)省大量的計(jì)算資源。不過(guò),字幕生成是一種低帶寬方法,在轉(zhuǎn)換過(guò)程中可能會(huì)丟失大量潛在信息。此外,Agent對(duì)圖像的關(guān)注可能會(huì)帶來(lái)偏差。受Transformer在自然語(yǔ)言處理中出色表現(xiàn)的啟發(fā),研究人員已將其應(yīng)用擴(kuò)展到計(jì)算機(jī)視覺(jué)領(lǐng)域。ViT/VQVAE等具有代表性的作品成功地利用Transformer對(duì)視覺(jué)信息進(jìn)行了編碼。研究人員首先將圖像分割成固定大小的塊,然后將這些塊經(jīng)過(guò)線性投影后作為T(mén)ransformer的輸入標(biāo)記。最后,通過(guò)計(jì)算標(biāo)記之間的自注意力,他們就能整合整個(gè)圖像的信息,從而高效地感知視覺(jué)內(nèi)容。因此,一些研究嘗試直接將圖像編碼器和 LLM 結(jié)合起來(lái),以端到端的方式訓(xùn)練整個(gè)模型。雖然這種Agent可以實(shí)現(xiàn)出色的視覺(jué)感知能力,但卻要付出大量計(jì)算資源的代價(jià)。經(jīng)過(guò)廣泛預(yù)訓(xùn)練的視覺(jué)編碼器和 LLM 可以大大提高機(jī)器人的視覺(jué)感知和語(yǔ)言表達(dá)能力。在訓(xùn)練過(guò)程中凍結(jié)視覺(jué)編碼器和 LLM 中的一個(gè)或兩個(gè),是一種廣泛采用的范式,可在訓(xùn)練資源和模型性能之間實(shí)現(xiàn)平衡。然而,LLM 無(wú)法直接理解視覺(jué)編碼器的輸出,因此有必要將圖像編碼轉(zhuǎn)換為 LLM 可以理解的嵌入。換句話說(shuō),這需要將視覺(jué)編碼器與 LLM 對(duì)齊,這通常需要在兩者之間添加一個(gè)額外的可學(xué)習(xí)接口層。例如,BLIP-2 和 InstructBLIP 使用查詢轉(zhuǎn)換器(Q-Former)模塊作為視覺(jué)編碼器和 LLM 之間的中間層。Q-Former 是一種轉(zhuǎn)換器,采用可學(xué)習(xí)的查詢向量,使其具有提取語(yǔ)言信息視覺(jué)表征的能力。它可以為 LLM 提供最有價(jià)值的信息,減輕Agent學(xué)習(xí)視覺(jué)語(yǔ)言對(duì)齊的負(fù)擔(dān),從而減輕災(zāi)難性遺忘的問(wèn)題。同時(shí),一些研究者采用了一種計(jì)算效率較高的方法,即使用單個(gè)embedding layer來(lái)實(shí)現(xiàn)視覺(jué)-文本對(duì)齊,從而減少了訓(xùn)練額外參數(shù)的需要。此外,Embedding layer還能與可學(xué)習(xí)層有效結(jié)合,調(diào)整其輸出的維度,使其與 LLM 兼容。視頻輸入由一系列連續(xù)的圖像幀組成。因此,Agent用于感知圖像的方法可能適用于視頻領(lǐng)域,使Agent也能很好地感知視頻輸入。與圖像信息相比,視頻信息增加了一個(gè)時(shí)間維度。因此,Agent對(duì)不同幀間時(shí)間關(guān)系的理解對(duì)于感知視頻信息至關(guān)重要。一些工作,如 Flamingo ,通過(guò)使用掩碼機(jī)制來(lái)確保理解視頻時(shí)的時(shí)間順序。掩碼機(jī)制限制了Agent的視角,當(dāng)它感知到視頻中的特定幀時(shí),只能從時(shí)間上較早的幀中獲取視覺(jué)信息。聽(tīng)覺(jué)輸入一個(gè)非常直觀的想法是,Agent可以將 LLMs 用作控制中心,以級(jí)聯(lián)方式調(diào)用現(xiàn)有工具集或模型庫(kù)來(lái)感知音頻信息。例如,AudioGPT 充分利用了 FastSpeech、GenerSpeech、Whisper等模型的功能,這些模型在文本到語(yǔ)音、風(fēng)格轉(zhuǎn)換和語(yǔ)音識(shí)別等任務(wù)中取得了優(yōu)異的成績(jī)。音頻頻譜圖直觀地表示了音頻信號(hào)隨時(shí)間變化的頻譜,對(duì)于一段時(shí)間內(nèi)的一段音頻數(shù)據(jù),可將其抽象為有限長(zhǎng)度的音頻頻譜圖。音頻頻譜圖具有二維表示形式,可視化為平面圖像。因此,一些研究致力于將感知方法從視覺(jué)領(lǐng)域遷移到音頻領(lǐng)域。AST(音頻頻譜圖變換器)采用與 ViT 類似的變換器架構(gòu)來(lái)處理音頻頻譜圖圖像。通過(guò)將音頻頻譜圖分割成片段,它實(shí)現(xiàn)了對(duì)音頻信息的有效編碼。此外,一些研究人員從凍結(jié)編碼器的想法中獲得靈感,以減少訓(xùn)練時(shí)間和計(jì)算成本。其他輸入如前所述,許多研究都對(duì)文本、視覺(jué)和音頻的感知單元進(jìn)行了研究。然而,LLM-based Agent可能會(huì)配備更豐富的感知模塊。未來(lái),它們可以像人類一樣感知和理解現(xiàn)實(shí)世界中的各種模式。例如,Agent可以擁有獨(dú)特的觸覺(jué)和嗅覺(jué)器官,從而在與物體交互時(shí)收集到更多詳細(xì)信息。同時(shí),Agent還能清楚地感知周?chē)h(huán)境的溫度、濕度和亮度,從而采取環(huán)境感知行動(dòng)。此外,通過(guò)有效整合視覺(jué)、文字和光敏感性等基本感知能力,Agent還能開(kāi)發(fā)出各種對(duì)人類友好的感知模塊。InternGPT引入了指向指令。用戶可以通過(guò)使用手勢(shì)或移動(dòng)光標(biāo)來(lái)選擇、拖動(dòng)或繪制,從而與圖像中難以描述的特定部分進(jìn)行交互。添加指向指令有助于為單個(gè)文本指令提供更精確的規(guī)范。在此基礎(chǔ)上,Agent還有可能感知更復(fù)雜的用戶輸入。例如,AR/VR 設(shè)備中的眼球跟蹤、身體動(dòng)作捕捉等技術(shù),甚至是腦機(jī)交互中的腦電波信號(hào)。最后,LLM-baed Agent應(yīng)具備對(duì)更廣闊的整體環(huán)境的感知能力。目前,許多成熟且被廣泛采用的硬件設(shè)備可以幫助Agent實(shí)現(xiàn)這一目標(biāo)。激光雷達(dá)可以創(chuàng)建三維點(diǎn)云圖,幫助Agent檢測(cè)和識(shí)別周?chē)h(huán)境中的物體。全球定位系統(tǒng)可以提供精確的位置坐標(biāo),并可與地圖數(shù)據(jù)集成。慣性測(cè)量單元(IMU)可以測(cè)量和記錄物體的三維運(yùn)動(dòng),提供物體速度和方向的詳細(xì)信息。然而,這些感知數(shù)據(jù)非常復(fù)雜,LLM-based Agent無(wú)法直接理解。探索Agent如何感知更全面的輸入是未來(lái)一個(gè)很有前景的方向。2.3 行動(dòng)模塊人類在感知環(huán)境后,大腦會(huì)對(duì)感知到的信息進(jìn)行整合、分析和推理,并做出決策。隨后,他們利用神經(jīng)系統(tǒng)控制自己的身體,做出適應(yīng)環(huán)境或創(chuàng)造性的行動(dòng),如交談、躲避障礙或生火。當(dāng)一個(gè)Agent擁有類似大腦的結(jié)構(gòu),具備知識(shí)、記憶、推理、規(guī)劃和概括能力以及多模態(tài)感知能力時(shí),它也有望擁有類似人類的各種行動(dòng)來(lái)應(yīng)對(duì)周?chē)h(huán)境。在Agent的構(gòu)建過(guò)程中,行動(dòng)模塊接收大腦模塊發(fā)送的行動(dòng)序列,并執(zhí)行與環(huán)境互動(dòng)的行動(dòng)。文本輸出如第 2.1.1 節(jié)所述,基于Transformer的大型語(yǔ)言生成模型的興起和發(fā)展,賦予了LLM-based Agent以固有的語(yǔ)言生成能力。它們生成的文本質(zhì)量在流暢性、相關(guān)性、多樣性和可控性等各個(gè)方面都非常出色。因此,LLM-based Agent可以成為異常強(qiáng)大的語(yǔ)言生成器。工具使用工具是工具使用者能力的延伸。在面對(duì)復(fù)雜任務(wù)時(shí),人類會(huì)使用工具來(lái)簡(jiǎn)化任務(wù)的解決過(guò)程并提高效率,從而節(jié)省時(shí)間和資源。同樣,如果Agent也學(xué)會(huì)使用和利用工具,就有可能更高效、更高質(zhì)量地完成復(fù)雜任務(wù)。LLM-based Agent在某些方面存在局限性,使用工具可以增強(qiáng)Agent的能力。LLM不具備記住每一條訓(xùn)練數(shù)據(jù)的能力。由于上下文提示的影響,它們也可能無(wú)法導(dǎo)向正確的知識(shí),甚至產(chǎn)生知識(shí)幻覺(jué)。再加上缺乏語(yǔ)料庫(kù)、訓(xùn)練數(shù)據(jù)以及針對(duì)特定領(lǐng)域和場(chǎng)景的調(diào)整,在專注于特定領(lǐng)域時(shí),Agent的專業(yè)知識(shí)也會(huì)受到限制]。專業(yè)化工具能讓 LLM 以可插拔的形式增強(qiáng)其專業(yè)知識(shí)、調(diào)整領(lǐng)域知識(shí)并更適合特定領(lǐng)域的需求。LLM-based Agent決策過(guò)程缺乏透明度,使其在醫(yī)療保健和金融等高風(fēng)險(xiǎn)領(lǐng)域的可信度較低。LLM 容易受到對(duì)抗性攻擊,對(duì)輕微輸入修改的魯棒性不足。相比之下,借助工具完成任務(wù)的Agent則表現(xiàn)出更強(qiáng)的可解釋性和魯棒性。工具的執(zhí)行過(guò)程可以反映Agent處理復(fù)雜需求的方法,并提高其決策的可信度。由于工具是為各自的使用場(chǎng)景專門(mén)設(shè)計(jì)的,因此使用這類工具的Agent能更好地處理輕微的輸入修改,并能更好地抵御對(duì)抗性攻擊。LLM-based Agent不僅需要使用工具,而且非常適合工具集成。LLM 利用通過(guò)預(yù)訓(xùn)練過(guò)程和 CoT 提示積累的豐富世界知識(shí),在復(fù)雜的交互環(huán)境中表現(xiàn)出了非凡的推理和決策能力,這有助于Agent以適當(dāng)?shù)姆绞椒纸夂吞幚碛脩糁付ǖ娜蝿?wù)。此外,LLMs 在意圖理解和其他方面也顯示出巨大潛力。當(dāng)Agent與工具相結(jié)合時(shí),可以降低工具使用的門(mén)檻,從而充分釋放人類用戶的創(chuàng)造潛能。理解工具:Agent有效使用工具的前提是全面了解工具的應(yīng)用場(chǎng)景和調(diào)用方法。沒(méi)有這種理解,Agent使用工具的過(guò)程將變得不可信,也無(wú)法真正提高Agent的能力。利用 LLM 強(qiáng)大的zero-shot learning和few-shot learning能力,Agent可以通過(guò)描述工具功能和參數(shù)的zero-shot demonstartion或提供特定工具使用場(chǎng)景和相應(yīng)方法演示的少量提示來(lái)獲取工具知識(shí)。這些學(xué)習(xí)方法與人類通過(guò)查閱工具手冊(cè)或觀察他人使用工具進(jìn)行學(xué)習(xí)的方法類似。在面對(duì)復(fù)雜任務(wù)時(shí),單一工具往往是不夠的。因此,Agent應(yīng)首先以適當(dāng)?shù)姆绞綄?fù)雜任務(wù)分解為子任務(wù),然后有效地組織和協(xié)調(diào)這些子任務(wù),這有賴于 LLM 的推理和規(guī)劃能力,當(dāng)然也包括對(duì)工具的理解。使用工具:Agent學(xué)習(xí)使用工具的方法主要包括從demonstartion中學(xué)習(xí)和從reward中學(xué)習(xí)(清華有一篇從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的文章)。這包括模仿人類專家的行為,以及了解其行為的后果,并根據(jù)從環(huán)境和人類獲得的反饋?zhàn)龀稣{(diào)整。環(huán)境反饋包括行動(dòng)是否成功完成任務(wù)的結(jié)果反饋和捕捉行動(dòng)引起的環(huán)境狀態(tài)變化的中間反饋;人類反饋包括顯性評(píng)價(jià)和隱性行為,如點(diǎn)擊鏈接。如果一個(gè)Agent刻板地應(yīng)用工具而缺乏適應(yīng)性,那么它就無(wú)法在所有場(chǎng)景中取得可接受的性能。Agent需要將其在特定環(huán)境中學(xué)到的工具使用技能推廣到更普遍的情況中,例如將在雅虎搜索中訓(xùn)練的模型轉(zhuǎn)移到谷歌搜索中。要做到這一點(diǎn),Agent有必要掌握工具使用策略的共同原則或模式,而這有可能通過(guò)元工具學(xué)習(xí)來(lái)實(shí)現(xiàn)。加強(qiáng)Agent對(duì)簡(jiǎn)單工具和復(fù)雜工具之間關(guān)系的理解,例如復(fù)雜工具如何建立在較簡(jiǎn)單工具的基礎(chǔ)上,有助于提高Agent歸納工具使用方法的能力。這樣,Agent就能有效辨別各種應(yīng)用場(chǎng)景中的細(xì)微差別,并將以前學(xué)到的知識(shí)遷移到新工具中。課程學(xué)習(xí)允許Agent從簡(jiǎn)單的工具開(kāi)始,逐步學(xué)習(xí)復(fù)雜的工具,這也符合要求。此外,得益于對(duì)用戶意圖以及推理和規(guī)劃能力的理解,Agent可以更好地設(shè)計(jì)工具使用和協(xié)作方法,從而提供更高質(zhì)量的成果。制作自給自足的工具:現(xiàn)有的工具往往是為方便人類而設(shè)計(jì)的,這對(duì)Agent來(lái)說(shuō)可能不是最佳選擇。為了讓Agent更好地使用工具,需要專門(mén)為Agent設(shè)計(jì)工具。這些工具應(yīng)該更加模塊化,其輸入輸出格式也更適合Agent。如果能提供說(shuō)明和示范,LLM-based Agent還能通過(guò)生成可執(zhí)行程序或?qū)F(xiàn)有工具集成到功能更強(qiáng)大的工具中來(lái)創(chuàng)建工具,并能學(xué)會(huì)自我調(diào)試。此外,如果作為工具制作者的Agent成功創(chuàng)建了一個(gè)工具,那么除了使用工具本身之外,它還可以為multi-Agent系統(tǒng)中的其他Agent制作包含工具代碼和演示的軟件包。推測(cè)未來(lái),Agent可能會(huì)變得自給自足,在工具方面表現(xiàn)出高度的自主性。工具可以拓展LLM-based Agent的行動(dòng)空間:在工具的幫助下,Agent可以在推理和規(guī)劃階段利用各種外部資源,如外部數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)應(yīng)用程序。這一過(guò)程可以為L(zhǎng)LM-based Agent提供專家級(jí)、可靠性、多樣性和高質(zhì)量的信息,促進(jìn)Agent的決策和行動(dòng)。例如,基于搜索的工具可以借助外部數(shù)據(jù)庫(kù)、知識(shí)圖譜和網(wǎng)頁(yè)提高Agent可獲取知識(shí)的范圍和質(zhì)量。而特定領(lǐng)域的工具則可以增強(qiáng)Agent在相應(yīng)領(lǐng)域的專業(yè)知識(shí),一些研究人員已經(jīng)開(kāi)發(fā)出了基于 LLM 的控制器,可生成 SQL 語(yǔ)句來(lái)查詢數(shù)據(jù)庫(kù),或?qū)⒂脩舨樵冝D(zhuǎn)換為搜索請(qǐng)求,并使用搜索引擎來(lái)獲得所需的結(jié)果。此外,LLM-based Agent還可以使用科學(xué)工具來(lái)執(zhí)行化學(xué)中的有機(jī)合成等任務(wù),或與 Python 解釋器和 LaTeX 編譯器對(duì)接,以提高其在復(fù)雜數(shù)學(xué)計(jì)算任務(wù)中的性能。對(duì)于multi-agent系統(tǒng)來(lái)說(shuō),通信工具(如電子郵件)可作為Agent在嚴(yán)格的安全約束下進(jìn)行交互的一種手段,促進(jìn)Agent之間的協(xié)作,并顯示出自主性和靈活性。雖然前面提到的工具增強(qiáng)了Agent的能力,但與環(huán)境交互的媒介仍然是基于文本的。然而,工具的設(shè)計(jì)是為了擴(kuò)展語(yǔ)言模型的功能,其輸出并不局限于文本。用于非文本輸出的工具可以使Agent行動(dòng)的模式多樣化,從而擴(kuò)展LLM-based Agent的應(yīng)用場(chǎng)景。例如,圖像處理和生成可以由借鑒視覺(jué)模型的Agent來(lái)完成。在航空航天工程領(lǐng)域,人們正在探索用Agent來(lái)建立物理模型和求解復(fù)雜的微分方程;在機(jī)器人學(xué)領(lǐng)域,需要Agent來(lái)規(guī)劃物理操作和控制機(jī)器人的執(zhí)行。具身行動(dòng)在追求人工通用智能(AGI)的過(guò)程中,Embodied Agent被視為一種關(guān)鍵范式,它努力將模型智能與物理世界結(jié)合起來(lái)。一些學(xué)者從人類智能發(fā)展過(guò)程中汲取靈感,認(rèn)為Agent的智能來(lái)源于與環(huán)境的持續(xù)互動(dòng)和反饋,而不是僅僅依賴于精心編輯的預(yù)訓(xùn)練數(shù)據(jù)。同樣,與傳統(tǒng)的深度學(xué)習(xí)模型從互聯(lián)網(wǎng)數(shù)據(jù)集中學(xué)習(xí)解決領(lǐng)域問(wèn)題的明確能力不同,人們預(yù)計(jì)LLM-based Agent行為將不再局限于純文本輸出或調(diào)用精確的工具來(lái)執(zhí)行特定領(lǐng)域的任務(wù)。相反,它們應(yīng)該能夠主動(dòng)感知、理解物理環(huán)境并與之互動(dòng),根據(jù) LLM 豐富的內(nèi)部知識(shí)做出決策并產(chǎn)生特定行為來(lái)改變環(huán)境。我們將這些行為統(tǒng)稱為“具身行動(dòng)”(embodied actions),它使Agent能夠以近似人類行為的方式與世界互動(dòng)并理解世界。LLM-based Agent在具身行動(dòng)方面的潛力:在 LLM 廣泛興起之前,研究人員傾向于使用強(qiáng)化學(xué)習(xí)等方法來(lái)探索Agent的具身行動(dòng)。盡管基于 RL 的化身取得了廣泛成功,但它在某些方面確實(shí)存在局限性。簡(jiǎn)而言之,RL 算法在數(shù)據(jù)效率、泛化和復(fù)雜問(wèn)題推理方面都面臨限制,原因是在模擬動(dòng)態(tài)且往往模糊不清的真實(shí)環(huán)境方面存在挑戰(zhàn),或者嚴(yán)重依賴精確的獎(jiǎng)勵(lì)信號(hào)表示。最近的研究表明,利用在 LLM 預(yù)訓(xùn)練期間獲得的豐富內(nèi)部知識(shí)可以有效緩解這些問(wèn)題:成本效益:一些基于策略的算法在樣本效率方面存在困難,因?yàn)樗鼈冃枰迈r數(shù)據(jù)來(lái)更新策略,而為高性能訓(xùn)練收集足夠多的體現(xiàn)數(shù)據(jù)成本高且噪聲大。一些端到端模型也存在這種限制。通過(guò)利用 LLM 的內(nèi)在知識(shí),PaLM-E 等Agent將機(jī)器人數(shù)據(jù)與一般視覺(jué)語(yǔ)言數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,在具身任務(wù)中實(shí)現(xiàn)了顯著的轉(zhuǎn)移能力,同時(shí)也證明了幾何輸入表示法可以提高訓(xùn)練數(shù)據(jù)的效率。具身動(dòng)作泛化:面對(duì)錯(cuò)綜復(fù)雜、未知的真實(shí)世界環(huán)境,Agent必須具備動(dòng)態(tài)學(xué)習(xí)和泛化能力。然而,大多數(shù) RL 算法都是為訓(xùn)練和評(píng)估特定任務(wù)的相關(guān)技能而設(shè)計(jì)的。與此相反,經(jīng)過(guò)多種形式和豐富任務(wù)類型的微調(diào),LLMs 顯示出了顯著的跨任務(wù)泛化能力。例如,PaLME 對(duì)新對(duì)象或現(xiàn)有對(duì)象的新組合表現(xiàn)出驚人的zero-time或one-time泛化能力。此外,語(yǔ)言能力是LLM-based Agent的獨(dú)特優(yōu)勢(shì),它既是與環(huán)境交互的手段,也是將基礎(chǔ)技能轉(zhuǎn)移到新任務(wù)的媒介。SayCan利用 LLMs 將提示中的任務(wù)指令分解為相應(yīng)的技能命令,但在部分可觀察環(huán)境中,有限的先前技能往往無(wú)法實(shí)現(xiàn)令人滿意的性能。為了解決這個(gè)問(wèn)題,Voyager引入了技能庫(kù)組件,以不斷收集新的自我驗(yàn)證技能,從而實(shí)現(xiàn)Agent的終身學(xué)習(xí)能力。嵌入式行動(dòng)規(guī)劃:規(guī)劃是人類和LLM-based Agent在應(yīng)對(duì)復(fù)雜問(wèn)題時(shí)采用的關(guān)鍵策略。在 LLM 展示出非凡的推理能力之前,研究人員引入了分層強(qiáng)化學(xué)習(xí)(HRL)方法,即高層策略約束低層策略的子目標(biāo),低層策略產(chǎn)生適當(dāng)?shù)男袆?dòng)信號(hào)。與高層策略的作用類似,具有新興推理能的 LLM 也能以zero-shot或demonstration的方式無(wú)縫應(yīng)用于復(fù)雜任務(wù)。此外,來(lái)自環(huán)境的外部反饋可以進(jìn)一步提高LLM-based Agent的規(guī)劃性能。一些研究基于當(dāng)前的環(huán)境反饋,動(dòng)態(tài)生成、維護(hù)和調(diào)整高級(jí)行動(dòng)計(jì)劃,以便在部分可觀測(cè)環(huán)境中最大限度地減少對(duì)先前知識(shí)的依賴,從而使計(jì)劃落地。反饋也可以來(lái)自模型或人類,通??煞Q為批評(píng)者,根據(jù)當(dāng)前狀態(tài)和任務(wù)提示評(píng)估任務(wù)完成情況。具身action for LLM-based Agent:根據(jù)Agent在任務(wù)中的自主程度或行動(dòng)的復(fù)雜程度,有幾種基于 LLM 的基本具身行動(dòng),主要包括觀察、操縱和導(dǎo)航。觀察:觀察是Agent獲取環(huán)境信息和更新?tīng)顟B(tài)的主要方式,對(duì)提高后續(xù)體現(xiàn)行動(dòng)的效率起著至關(guān)重要的作用。具身Agent的觀察主要發(fā)生在具有各種輸入的環(huán)境中,這些輸入最終匯聚成多模態(tài)信號(hào)。一種常見(jiàn)的方法是使用預(yù)先訓(xùn)練好的視覺(jué)轉(zhuǎn)換器(ViT)作為文本和視覺(jué)信息的對(duì)齊模塊,并標(biāo)注特殊標(biāo)記來(lái)表示多模態(tài)數(shù)據(jù)的位置。聲音空間(Soundspaces)提出通過(guò)混響音頻輸入來(lái)識(shí)別物理空間幾何元素,從而以更全面的視角加強(qiáng)Agent的觀察。近來(lái),更多的研究將音頻作為嵌入式觀察的模式。除了廣泛使用的級(jí)聯(lián)范式,類似于 ViT 的音頻信息編碼進(jìn)一步加強(qiáng)了音頻與其他輸入模式的無(wú)縫整合。Agent對(duì)環(huán)境的觀察也可以來(lái)自人類的實(shí)時(shí)語(yǔ)言指令,而人類的反饋則有助于Agent獲取可能無(wú)法輕易獲得或解析的細(xì)節(jié)信息。操縱:一般情況下,具身Agent的操縱任務(wù)包括物體重新排列、桌面操縱和移動(dòng)操縱。典型的情況是,Agent在廚房執(zhí)行一系列任務(wù),包括從抽屜中取出物品并遞給用戶,以及清潔桌面。除了精確觀察外,這還涉及利用 LLM 將一系列子目標(biāo)結(jié)合起來(lái)。因此,保持Agent狀態(tài)與子目標(biāo)之間的同步非常重要。DEPS利用基于 LLM 的交互式規(guī)劃方法來(lái)保持這種一致性,并在整個(gè)多步驟、長(zhǎng)距離的推理過(guò)程中通過(guò)Agent的反饋來(lái)幫助糾錯(cuò)。相比之下,AlphaBlock 則專注于更具挑戰(zhàn)性的操作任務(wù)(例如使用積木制作笑臉),這就要求Agent對(duì)指令有更扎實(shí)的理解。AlphaBlock 構(gòu)建了一個(gè)數(shù)據(jù)集,其中包括 35 項(xiàng)復(fù)雜的高級(jí)任務(wù),以及相應(yīng)的多步驟規(guī)劃和觀察對(duì),然后對(duì)多模態(tài)模型進(jìn)行微調(diào),以增強(qiáng)對(duì)高級(jí)認(rèn)知指令的理解。導(dǎo)航:導(dǎo)航允許Agent動(dòng)態(tài)地改變其在環(huán)境中的位置,這通常涉及多角度和多目標(biāo)觀測(cè),以及基于當(dāng)前探索的遠(yuǎn)距離操作。在導(dǎo)航之前,對(duì)于具身Agent來(lái)說(shuō),必須事先建立關(guān)于外部環(huán)境的內(nèi)部地圖,其形式通常為拓?fù)鋱D、語(yǔ)義圖或占用圖。例如,LM-Nav 利用 VNM 創(chuàng)建內(nèi)部拓?fù)鋱D。它進(jìn)一步利用 LLM 和 VLM 來(lái)分解輸入命令和分析環(huán)境,從而找到最佳路徑。此外,一些研究強(qiáng)調(diào)了空間表示的重要性,通過(guò)利用預(yù)先訓(xùn)練好的 VLM 模型將圖像中的視覺(jué)特征與物理世界的 3D 重構(gòu)相結(jié)合,實(shí)現(xiàn)空間目標(biāo)的精確定位,而不是傳統(tǒng)的以點(diǎn)或物體為中心的導(dǎo)航行動(dòng)。導(dǎo)航通常是一項(xiàng)長(zhǎng)視距任務(wù),Agent的未來(lái)狀態(tài)會(huì)受到其過(guò)去行動(dòng)的影響,這就需要一個(gè)內(nèi)存緩沖區(qū)和總結(jié)機(jī)制來(lái)作為歷史信息的參考,《Smallville》和《Voyager》也采用了這種機(jī)制。此外,一些工作提出音頻輸入也具有重要意義,但整合音頻信息在將其與視覺(jué)環(huán)境關(guān)聯(lián)方面存在挑戰(zhàn)。通過(guò)整合這些功能,Agent可以完成更復(fù)雜的任務(wù),如體現(xiàn)式問(wèn)題解答,其主要目標(biāo)是自主探索環(huán)境并回答預(yù)先定義的多模態(tài)問(wèn)題,如廚房里的西瓜比鍋大嗎?哪個(gè)更難?要解決這些問(wèn)題,Agent需要導(dǎo)航到廚房,觀察兩個(gè)物體的大小,然后通過(guò)比較來(lái)回答問(wèn)題。在控制策略方面,LLM-based Agent在特定的數(shù)據(jù)集上接受訓(xùn)練后,通常會(huì)生成高級(jí)策略命令,以控制低級(jí)策略實(shí)現(xiàn)特定的子目標(biāo)。低級(jí)策略可以是機(jī)器人Transformer,它將圖像和指令作為輸入,為終端效應(yīng)器以及特定具身任務(wù)中的機(jī)械臂生成控制命令。最近,在虛擬具身環(huán)境中,高級(jí)策略被用于控制游戲或模擬世界中的Agent。例如,Voyager調(diào)用 Mineflayer API 接口來(lái)不斷獲取各種技能和探索世界。具身行動(dòng)的未來(lái)展望:基于 LLM 的化身行動(dòng)被視為虛擬智能與物理世界之間的橋梁,使Agent能夠像人類一樣感知和改變環(huán)境。然而,物理世界機(jī)器人操作員的高昂成本和具身數(shù)據(jù)集的稀缺等制約因素依然存在,這促使人們對(duì)研究Agent在 Minecraft 等模擬環(huán)境中的具身行動(dòng)越來(lái)越感興趣。通過(guò)使用 Mineflayer 應(yīng)用程序接口,這些研究能以低成本高效率地檢查各種具身Agent的操作,包括探索、規(guī)劃、自我完善甚至終身學(xué)習(xí)。盡管取得了顯著進(jìn)展,但由于模擬平臺(tái)與物理世界之間的巨大差異,實(shí)現(xiàn)最佳的化身行動(dòng)仍是一項(xiàng)挑戰(zhàn)。為了能在真實(shí)世界場(chǎng)景中有效部署具身Agent,人們對(duì)具身任務(wù)范例和評(píng)估標(biāo)準(zhǔn)的要求越來(lái)越高,這些范例和標(biāo)準(zhǔn)必須與真實(shí)世界的條件密切相關(guān)。另一方面,Agent對(duì)于世界常識(shí)的理解也是一個(gè)障礙。例如,像 "像貓一樣跳下來(lái) "這樣的表達(dá)方式主要傳達(dá)一種輕盈和寧?kù)o的感覺(jué),但這種語(yǔ)言隱喻需要足夠的世界知識(shí)。有學(xué)者嘗試將文本提煉與后視經(jīng)驗(yàn)回放(HER)相結(jié)合,構(gòu)建一個(gè)數(shù)據(jù)集,作為訓(xùn)練過(guò)程的監(jiān)督信號(hào)。盡管如此,隨著具身行動(dòng)在人類生活的各個(gè)領(lǐng)域發(fā)揮著越來(lái)越關(guān)鍵的作用,仍有必要對(duì)具身數(shù)據(jù)集的基礎(chǔ)進(jìn)行更多研究。3. Agent實(shí)踐圖6:基于 LLM 的代理應(yīng)用場(chǎng)景。我們主要介紹三種應(yīng)用場(chǎng)景:?jiǎn)蝹€(gè)代理部署、多代理交互和人與代理交互。單個(gè)代理?yè)碛卸喾N能力,在各種應(yīng)用方向上都能表現(xiàn)出出色的任務(wù)解決能力。當(dāng)多代理互動(dòng)時(shí),它們可以通過(guò)合作或?qū)剐曰?dòng)取得進(jìn)步。作為一個(gè)LLM-based Agent,其設(shè)計(jì)目標(biāo)應(yīng)始終對(duì)人類有益,也就是說(shuō),人類可以利用人工智能造福人類。具體來(lái)說(shuō),我們希望Agent能實(shí)現(xiàn)以下目標(biāo):幫助用戶從日常任務(wù)和重復(fù)勞動(dòng)中解脫出來(lái),從而減輕人類的工作壓力,提高任務(wù)解決效率。不再需要用戶提供明確的低級(jí)指令。相反,Agent可以獨(dú)立分析、規(guī)劃和解決問(wèn)題。在解放用戶雙手的同時(shí),Agent也解放了他們的大腦,使其能夠從事探索性和創(chuàng)新性工作。圖7:基于 LLM 的單一Agent在不同場(chǎng)景中的實(shí)際應(yīng)用。在面向任務(wù)的部署中,代理協(xié)助人類用戶解決日常任務(wù)。它們需要具備基本的指令理解和任務(wù)分解能力。在面向創(chuàng)新的部署中,代理展示了在科學(xué)領(lǐng)域進(jìn)行自主探索的潛力。3.1 單個(gè)Agent的一般能力目前,LLM-based Agent應(yīng)用實(shí)例的發(fā)展十分活躍。AutoGPT 是目前流行的開(kāi)源項(xiàng)目之一,旨在實(shí)現(xiàn)完全自主的系統(tǒng)。除了 GPT-4 等大型語(yǔ)言模型的基本功能外,AutoGPT 框架還集成了各種實(shí)用的外部工具和長(zhǎng)短期內(nèi)存管理。用戶輸入定制的目標(biāo)后,就可以解放雙手,等待 AutoGPT 自動(dòng)生成想法并執(zhí)行特定任務(wù),所有這些都不需要用戶的額外提示。面向任務(wù)的部署LLM-based Agent 可以理解人類的自然語(yǔ)言指令并執(zhí)行日常任務(wù),是目前最受用戶青睞、最具實(shí)用價(jià)值的Agent之一。這是因?yàn)樗鼈兙哂刑岣呷蝿?wù)效率、減輕用戶工作量和促進(jìn)更廣泛用戶訪問(wèn)的潛力。在面向任務(wù)的部署中,Agent遵從用戶的高級(jí)指令,承擔(dān)目標(biāo)分解、子目標(biāo)規(guī)劃、環(huán)境交互探索等任務(wù),直至實(shí)現(xiàn)最終目標(biāo)。為了探索Agent是否能夠執(zhí)行基本任務(wù),部分學(xué)者將它們部署到基于文本的游戲場(chǎng)景中。在這類游戲中,Agent完全使用自然語(yǔ)言與世界互動(dòng)。通過(guò)閱讀周?chē)h(huán)境的文字描述,并利用記憶、規(guī)劃和試錯(cuò)等技能,它們可以預(yù)測(cè)下一步行動(dòng)。然而,由于基礎(chǔ)語(yǔ)言模型的局限性,Agent在實(shí)際執(zhí)行過(guò)程中往往依賴于強(qiáng)化學(xué)習(xí)。隨著 LLM 的逐步發(fā)展,具備更強(qiáng)文本理解和生成能力的 Agent 在通過(guò)自然語(yǔ)言執(zhí)行任務(wù)方面展現(xiàn)出巨大潛力。由于過(guò)于簡(jiǎn)單,基于文本的簡(jiǎn)單場(chǎng)景不足以作為 LLM-based Agent 的測(cè)試場(chǎng)所。為了滿足這一需求,我們構(gòu)建了更真實(shí)、更復(fù)雜的模擬測(cè)試環(huán)境。根據(jù)任務(wù)類型,我們將這些模擬環(huán)境分為網(wǎng)絡(luò)場(chǎng)景和生活場(chǎng)景,并介紹Agent在其中扮演的具體角色。在網(wǎng)絡(luò)場(chǎng)景中:在網(wǎng)絡(luò)場(chǎng)景中代表用戶執(zhí)行特定任務(wù)被稱為網(wǎng)絡(luò)導(dǎo)航問(wèn)題。Agent解釋用戶指令,將其分解為多個(gè)基本操作,并與計(jì)算機(jī)進(jìn)行交互。這通常包括填寫(xiě)表格、網(wǎng)上購(gòu)物和發(fā)送電子郵件等網(wǎng)絡(luò)任務(wù)。Agent需要具備在復(fù)雜的網(wǎng)絡(luò)場(chǎng)景中理解指令、適應(yīng)變化(如嘈雜的文本和動(dòng)態(tài) HTML 網(wǎng)頁(yè))以及概括成功操作的能力。這樣,Agent就能在未來(lái)處理看不見(jiàn)的任務(wù)時(shí)實(shí)現(xiàn)無(wú)障礙和自動(dòng)化,最終將人類從與計(jì)算機(jī)用戶界面的重復(fù)交互中解放出來(lái)。通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的Agent可以有效地模仿人類行為,使用預(yù)定義的操作,如打字、搜索、導(dǎo)航到下一頁(yè)等。它們?cè)诰W(wǎng)上購(gòu)物和搜索引擎檢索等基本任務(wù)中表現(xiàn)出色,這些任務(wù)已被廣泛探索。然而,不具備 LLM 功能的Agent可能難以適應(yīng)現(xiàn)實(shí)世界互聯(lián)網(wǎng)中更現(xiàn)實(shí)、更復(fù)雜的場(chǎng)景。在動(dòng)態(tài)的、內(nèi)容豐富的網(wǎng)頁(yè)中,如在線論壇或在線業(yè)務(wù)管理,Agent的性能往往面臨挑戰(zhàn)。為了讓Agent與更逼真的網(wǎng)頁(yè)成功互動(dòng),一些研究人員開(kāi)始利用 LLM 強(qiáng)大的 HTML 閱讀和理解能力。通過(guò)設(shè)計(jì)提示,他們?cè)噲D讓Agent理解整個(gè) HTML 源代碼,并預(yù)測(cè)更合理的下一步行動(dòng)。Mind2Web 將多個(gè)針對(duì) HTML 進(jìn)行微調(diào)的 LLMs 結(jié)合在一起,使它們能夠在真實(shí)世界的場(chǎng)景中總結(jié)冗長(zhǎng)的 HTML 代碼并提取有價(jià)值的信息。此外,WebGum 通過(guò)使用包含 HTML 屏幕截圖的多模態(tài)語(yǔ)料庫(kù),增強(qiáng)了具有視覺(jué)感知能力的Agent的能力。它同時(shí)對(duì) LLM 和視覺(jué)編碼器進(jìn)行了微調(diào),加深了Agent對(duì)網(wǎng)頁(yè)的全面理解。生活場(chǎng)景中:在生活場(chǎng)景中的許多日常家務(wù)勞動(dòng)中,Agent必須理解隱含指令并應(yīng)用常識(shí)性知識(shí)。對(duì)于完全基于海量文本訓(xùn)練的 LLM-based Agent 來(lái)說(shuō),人類認(rèn)為理所當(dāng)然的任務(wù)可能需要多次試錯(cuò)嘗試。更現(xiàn)實(shí)的場(chǎng)景往往會(huì)產(chǎn)生更模糊、更微妙的任務(wù)。例如,如果天黑了,房間里有一盞燈,Agent就應(yīng)該主動(dòng)打開(kāi)它。要想成功地在廚房切菜,Agent需要預(yù)測(cè)刀的可能位置。Agent能否將訓(xùn)練數(shù)據(jù)中蘊(yùn)含的世界知識(shí)應(yīng)用到真實(shí)的交互場(chǎng)景中?Huang 等人證明,在適當(dāng)?shù)奶崾鞠?,足夠大?LLM 可以針對(duì)真實(shí)交互場(chǎng)景中的任務(wù)有效地將高級(jí)任務(wù)分解為合適的子任務(wù),而無(wú)需額外的訓(xùn)練。不過(guò),這種靜態(tài)推理和規(guī)劃能力也有其潛在的缺點(diǎn)。Agent生成的行動(dòng)往往缺乏對(duì)周?chē)鷦?dòng)態(tài)環(huán)境的感知:例如,當(dāng)用戶下達(dá) "打掃房間 "的任務(wù)時(shí),Agent可能會(huì)將其轉(zhuǎn)化為 "呼叫清潔服務(wù) "等不可行的子任務(wù)。為了讓Agent在交互過(guò)程中獲得全面的場(chǎng)景信息,一些方法直接將空間數(shù)據(jù)和項(xiàng)目位置關(guān)系作為模型的附加輸入。這樣,Agent就能獲得對(duì)周?chē)h(huán)境的精確描述。Wu 等人介紹了 PET 框架,該框架通過(guò)早期糾錯(cuò)方法減少了環(huán)境信息中的無(wú)關(guān)物體和容器。PET 鼓勵(lì)A(yù)gent更有效地探索場(chǎng)景和規(guī)劃行動(dòng),并專注于當(dāng)前的子任務(wù)。 面向創(chuàng)新的部署LLM-based Agent 在執(zhí)行任務(wù)和提高重復(fù)性工作的效率方面表現(xiàn)出了強(qiáng)大的能力。然而,在智力要求更高的領(lǐng)域,如前沿科學(xué)領(lǐng)域,Agent 的潛力尚未得到充分發(fā)揮。這種局限性主要來(lái)自兩個(gè)方面的挑戰(zhàn):一方面,科學(xué)本身的復(fù)雜性構(gòu)成了重大障礙,許多特定領(lǐng)域的術(shù)語(yǔ)和多維結(jié)構(gòu)難以用單一文本表示。因此,它們的完整屬性無(wú)法完全封裝。這大大削弱了 Agent 的認(rèn)知水平。另一方面,科學(xué)領(lǐng)域嚴(yán)重缺乏合適的訓(xùn)練數(shù)據(jù),使得Agent難以理解整個(gè)領(lǐng)域的知識(shí)。如果能在Agent內(nèi)部發(fā)現(xiàn)自主探索的能力,無(wú)疑會(huì)給人類科技帶來(lái)有益的創(chuàng)新。目前,各個(gè)專業(yè)領(lǐng)域都在為克服這一挑戰(zhàn)而努力。計(jì)算機(jī)領(lǐng)域的專家充分利用了Agent強(qiáng)大的代碼理解和調(diào)試能力。在化學(xué)和材料領(lǐng)域,研究人員為Agent配備了大量通用或特定任務(wù)工具,以更好地理解領(lǐng)域知識(shí)。Agent逐漸發(fā)展成為全面的科學(xué)助手,精通在線研究和文檔分析,以填補(bǔ)數(shù)據(jù)空白。它們還利用機(jī)器人應(yīng)用程序接口(API)進(jìn)行現(xiàn)實(shí)世界的交互,從而完成材料合成和機(jī)制發(fā)現(xiàn)等任務(wù)。LLM-based Agent 在科學(xué)創(chuàng)新方面的潛力是顯而易見(jiàn)的,但我們并不希望它們的探索能力被用于可能威脅或傷害人類的應(yīng)用中。Boiko 等人研究了Agent在合成非法藥物和化學(xué)武器過(guò)程中隱藏的危險(xiǎn),指出Agent可能會(huì)在對(duì)抗性提示中被惡意用戶誤導(dǎo)。這為我們今后的工作敲響了警鐘。 面向生命周期的部署在一個(gè)開(kāi)放、未知的世界中,建立一個(gè)能夠不斷探索、發(fā)展新技能并保持長(zhǎng)期生命周期的、具有普遍能力的Agent是一項(xiàng)巨大的挑戰(zhàn)。Minecraft 作為一個(gè)典型的、被廣泛探索的模擬生存環(huán)境,已成為開(kāi)發(fā)和測(cè)試Agent綜合能力的獨(dú)特樂(lè)園。玩家通常從學(xué)習(xí)基礎(chǔ)知識(shí)開(kāi)始,如開(kāi)采木材和制作工藝臺(tái),然后再學(xué)習(xí)更復(fù)雜的任務(wù),如與怪物戰(zhàn)斗和制作鉆石工具。Minecraft 從根本上反映了真實(shí)世界,有利于研究人員調(diào)查Agent在真實(shí)世界中的生存潛力。Minecraft 中的Agent生存算法一般可分為兩類:低級(jí)控制和高級(jí)規(guī)劃。早期的努力主要集中在強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí),使Agent能夠制作一些低級(jí)物品。隨著具有驚人推理和分析能力的 LLM 的出現(xiàn),Agent開(kāi)始利用 LLM 作為高級(jí)計(jì)劃器來(lái)指導(dǎo)模擬生存任務(wù)。一些研究人員利用 LLM 將高級(jí)任務(wù)指令分解為一系列子目標(biāo)、基本技能序列或基本鍵盤(pán)/鼠標(biāo)操作,逐步協(xié)助Agent探索開(kāi)放世界。Voyager從類似于 AutoGPT的概念中汲取靈感,基于“發(fā)現(xiàn)盡可能多的不同事物”這一長(zhǎng)期目標(biāo),成為 Minecraft 中第一個(gè)基于 LLM 的體現(xiàn)式終身學(xué)習(xí)Agent。它引入了一個(gè)用于存儲(chǔ)和檢索復(fù)雜動(dòng)作可執(zhí)行代碼的技能庫(kù),以及一個(gè)包含環(huán)境反饋和糾錯(cuò)的迭代提示機(jī)制。這使Agent能夠自主探索和適應(yīng)未知環(huán)境,而無(wú)需人工干預(yù)。能夠自主學(xué)習(xí)和掌握整個(gè)真實(shí)世界技術(shù)的AI Agent可能并不像人們想象的那樣遙遠(yuǎn)。圖8:基于 LLM 的多個(gè)代理的交互場(chǎng)景。在合作互動(dòng)中,代理以無(wú)序或有序的方式進(jìn)行協(xié)作,以實(shí)現(xiàn)共同目標(biāo)。在對(duì)抗式交互中,代理以針?shù)h相對(duì)的方式展開(kāi)競(jìng)爭(zhēng),以提高各自的性能。3.2 Multi-Agent的協(xié)調(diào)潛力動(dòng)機(jī)與背景:盡管LLM-based Agent擁有值得稱道的文本理解和生成能力,但它們?cè)谧匀唤缰惺亲鳛楣铝⒌膶?shí)體運(yùn)行的。它們?nèi)狈εc其他Agent協(xié)作和從社會(huì)互動(dòng)中獲取知識(shí)的能力。這種固有的局限性限制了它們從他人的多輪反饋中學(xué)習(xí)以提高性能的潛力。此外,在需要multi-agent之間進(jìn)行協(xié)作和信息共享的復(fù)雜場(chǎng)景中,它們也無(wú)法有效部署。早在 1986 年,馬文-明斯基就做出了前瞻性的預(yù)測(cè)。他在《心靈社會(huì)》一書(shū)中提出了一種新穎的智能理論,認(rèn)為智能產(chǎn)生于許多具有特定功能的小型Agent的相互作用。例如,某些Agent可能負(fù)責(zé)模式識(shí)別,而其他Agent可能負(fù)責(zé)決策或生成解決方案。作為主要研究領(lǐng)域之一的多Agent系統(tǒng)(MAS)關(guān)注的重點(diǎn)是一組Agent如何有效地協(xié)調(diào)和協(xié)作解決問(wèn)題。一些專門(mén)的通信語(yǔ)言(如 KQML )很早就被設(shè)計(jì)出來(lái),以支持Agent之間的信息傳輸和知識(shí)共享。但是,它們的信息格式相對(duì)固定,語(yǔ)義表達(dá)能力有限。進(jìn)入 21 世紀(jì),強(qiáng)化學(xué)習(xí)算法(如 Q-learning)與深度學(xué)習(xí)的結(jié)合,已成為開(kāi)發(fā)可在復(fù)雜環(huán)境中運(yùn)行的 MAS 的重要技術(shù)。如今,基于 LLMs 的構(gòu)建方法開(kāi)始展現(xiàn)出巨大的潛力。Agent之間的自然語(yǔ)言交流變得更加優(yōu)雅,也更容易為人類所理解,從而大大提高了交互效率。潛在優(yōu)勢(shì):具體來(lái)說(shuō),LLM-based multi-Agent系統(tǒng)可以提供幾種優(yōu)勢(shì)。根據(jù)分工原則,具備專業(yè)技能和領(lǐng)域知識(shí)的單個(gè)Agent可以從事特定的任務(wù)。一方面,通過(guò)分工,Agent處理特定任務(wù)的技能日益精進(jìn)。另一方面,將復(fù)雜任務(wù)分解為多個(gè)子任務(wù),可以省去在不同流程之間切換的時(shí)間。最終,多個(gè)Agent之間的高效分工可以完成比沒(méi)有專業(yè)化分工時(shí)大得多的工作量,從而大大提高整個(gè)系統(tǒng)的效率和產(chǎn)出質(zhì)量。在前文中,本文全面介紹了LLM-based Agent的多功能能力。因此,在本節(jié)中,我們將重點(diǎn)探討multi-agent環(huán)境中Agent之間的交互方式。根據(jù)目前的研究,這些交互方式大致可分為以下幾類:取長(zhǎng)補(bǔ)短的合作式交互,以及互利共贏的對(duì)抗式交互(見(jiàn)圖 8)?;パa(bǔ)性合作交互在當(dāng)前基于 LLM 的多Agent系統(tǒng)中,Agent之間的交流主要使用自然語(yǔ)言,這被認(rèn)為是最自然、最易為人類理解的交互形式。我們將現(xiàn)有的多Agent合作應(yīng)用分為兩類:無(wú)序合作和有序合作。無(wú)序合作:當(dāng)系統(tǒng)中有三個(gè)或三個(gè)以上的Agent時(shí),每個(gè)Agent都可以自由地公開(kāi)表達(dá)自己的觀點(diǎn)和意見(jiàn)。他們可以提供反饋和建議,以修改與當(dāng)前任務(wù)相關(guān)的反應(yīng)。整個(gè)討論過(guò)程不受控制,沒(méi)有特定的順序,也沒(méi)有引入標(biāo)準(zhǔn)化的協(xié)作工作流程。我們把這種多Agent合作稱為無(wú)序合作。ChatLLM 網(wǎng)絡(luò)是這一概念的典范代表。它模擬了神經(jīng)網(wǎng)絡(luò)中的前向和后向傳播過(guò)程,將每個(gè)Agent視為一個(gè)單獨(dú)的節(jié)點(diǎn)。后一層的Agent需要處理來(lái)自前面所有Agent的輸入,并向前傳播。一個(gè)潛在的解決方案是在multi-Agent系統(tǒng)中引入一個(gè)專門(mén)的協(xié)調(diào)Agent,負(fù)責(zé)整合和組織所有Agent的響應(yīng),從而更新最終答案。然而,整合大量反饋數(shù)據(jù)并提取有價(jià)值的見(jiàn)解對(duì)協(xié)調(diào)Agent來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。此外,多數(shù)表決也可以作為做出適當(dāng)決策的有效方法。然而,目前將這一模塊整合到多Agent系統(tǒng)中的研究還很有限。有學(xué)者訓(xùn)練了九個(gè)獨(dú)立的最高司法Agent,以更好地預(yù)測(cè)美國(guó)最高法院的司法裁決,并通過(guò)多數(shù)表決程序做出決定。有序合作:當(dāng)系統(tǒng)中的Agent遵守特定規(guī)則時(shí),例如按順序逐一發(fā)表意見(jiàn),下游Agent只需關(guān)注上游的產(chǎn)出。這樣,任務(wù)完成效率就會(huì)大大提高,整個(gè)討論過(guò)程也會(huì)變得井然有序。CAMEL 是雙Agent合作系統(tǒng)的成功實(shí)施案例。在角色扮演交流框架內(nèi),Agent分別扮演人工智能用戶(下達(dá)指令)和人工智能助手(通過(guò)提供具體解決方案來(lái)滿足請(qǐng)求)的角色。通過(guò)多輪對(duì)話,這些Agent自主合作完成用戶指令。一些研究人員將雙Agent合作的理念融入到單個(gè)Agent的操作中,交替使用快速和深思熟慮的思維過(guò)程,以在各自的專業(yè)領(lǐng)域發(fā)揮優(yōu)勢(shì)。Talebirad 等人是最早系統(tǒng)地介紹Universal LLM-based Multi-Agent Collaboration Framework的人之一。這一范例旨在利用每個(gè)獨(dú)立Agent的優(yōu)勢(shì),促進(jìn)它們之間的合作關(guān)系。在此基礎(chǔ)上,許多multi-Agent合作應(yīng)用已成功建立起來(lái)。此外,AgentVerse 為群體Agent合作構(gòu)建了一個(gè)多功能、多任務(wù)測(cè)試框架。它可以根據(jù)任務(wù)的復(fù)雜程度組建一個(gè)動(dòng)態(tài)適應(yīng)的Agent團(tuán)隊(duì)。為了提高合作效率,研究人員希望Agent能從人類成功的合作案例中學(xué)習(xí)。MetaGPT 從軟件開(kāi)發(fā)中的經(jīng)典瀑布模型中汲取靈感,將Agent的輸入/輸出標(biāo)準(zhǔn)化為工程文檔。通過(guò)將先進(jìn)的人類流程管理經(jīng)驗(yàn)編碼到Agent提示中,多個(gè)Agent之間的合作變得更有條理。然而,在 MetaGPT 的實(shí)踐探索中,我們發(fā)現(xiàn)了Multi-Agent合作的潛在威脅。如果不制定相應(yīng)的規(guī)則,多個(gè)Agent之間的頻繁互動(dòng)會(huì)無(wú)限放大輕微的幻覺(jué)。例如,在軟件開(kāi)發(fā)過(guò)程中,可能會(huì)出現(xiàn)功能不全、依賴關(guān)系缺失、人眼無(wú)法察覺(jué)的錯(cuò)誤等問(wèn)題。引入交叉驗(yàn)證或及時(shí)的外部反饋等技術(shù),可對(duì)Agent輸出的質(zhì)量產(chǎn)生積極影響。對(duì)抗性互動(dòng)促進(jìn)進(jìn)步傳統(tǒng)上,合作方法在Multi-Agent系統(tǒng)中得到了廣泛探索。不過(guò),研究人員越來(lái)越認(rèn)識(shí)到,將博弈論的概念引入系統(tǒng)可以帶來(lái)更穩(wěn)健、更高效的行為。在競(jìng)爭(zhēng)環(huán)境中,Agent可以通過(guò)動(dòng)態(tài)互動(dòng)迅速調(diào)整策略,努力選擇最有利或最合理的行動(dòng)來(lái)應(yīng)對(duì)其他Agent引起的變化。在基于非 LLM 的競(jìng)爭(zhēng)領(lǐng)域,已經(jīng)有成功的應(yīng)用。例如,AlphaGo Zero 是一個(gè)圍棋Agent,它通過(guò)自我對(duì)弈實(shí)現(xiàn)了重大突破。同樣,在基于 LLM 的多Agent系統(tǒng)中,通過(guò)競(jìng)爭(zhēng)、爭(zhēng)論和辯論,可以自然而然地促進(jìn)Agent之間的變革。通過(guò)放棄僵化的信念和進(jìn)行深思熟慮的反省,對(duì)抗性互動(dòng)可以提高回應(yīng)的質(zhì)量。研究人員首先深入研究了LLM-based Agent的基本辯論能力。研究結(jié)果表明,當(dāng)多個(gè)Agent在 “針?shù)h相對(duì)”的狀態(tài)下表達(dá)自己的論點(diǎn)時(shí),一個(gè)Agent可以從其他Agent那里獲得大量外部反饋,從而糾正自己扭曲的想法。因此,多Agent對(duì)抗系統(tǒng)在需要高質(zhì)量響應(yīng)和準(zhǔn)確決策的場(chǎng)景中具有廣泛的適用性。在推理任務(wù)中,Du 等人引入了辯論的概念,賦予Agent來(lái)自同伴的回應(yīng)。當(dāng)這些回應(yīng)與Agent自己的判斷出現(xiàn)分歧時(shí),就會(huì)發(fā)生 “心理”爭(zhēng)論,從而完善解決方案。ChatEval 建立了一個(gè)基于角色扮演的多Agent裁判團(tuán)隊(duì)。通過(guò)自發(fā)的辯論,Agent對(duì) LLM 生成的文本質(zhì)量進(jìn)行評(píng)估,達(dá)到與人類評(píng)估員相當(dāng)?shù)膬?yōu)秀水平。多Agent對(duì)抗系統(tǒng)的性能已顯示出相當(dāng)大的前景。然而,該系統(tǒng)基本上依賴于 LLM 的力量,并面臨著一些基本挑戰(zhàn):在長(zhǎng)時(shí)間的辯論中,LLM 有限的語(yǔ)境無(wú)法處理整個(gè)輸入。在多Agent環(huán)境中,計(jì)算開(kāi)銷大大增加。多Agent協(xié)商可能會(huì)收斂到不正確的共識(shí),而所有Agent都堅(jiān)信其準(zhǔn)確性。多Agent系統(tǒng)的發(fā)展還遠(yuǎn)未成熟,也不可行。在適當(dāng)?shù)臅r(shí)候引入人類向?qū)?lái)彌補(bǔ)Agent的不足,是促進(jìn)Agent進(jìn)一步發(fā)展的良好選擇。3.3 人類與Agent之間的互動(dòng)參與隨著Agent能力的增強(qiáng),人類的參與變得越來(lái)越重要,以便有效地指導(dǎo)和監(jiān)督Agent的行動(dòng),確保它們符合人類的要求和目標(biāo)。人類的參與可以作為彌補(bǔ)數(shù)據(jù)不足的重要手段,從而促進(jìn)更順利、更安全的協(xié)作過(guò)程。此外,從人類學(xué)角度考慮,人類的語(yǔ)言學(xué)習(xí)主要是通過(guò)交流和互動(dòng)進(jìn)行的,而不僅僅是消費(fèi)書(shū)面內(nèi)容。因此,Agent不應(yīng)該完全依賴于用預(yù)先標(biāo)注的數(shù)據(jù)集訓(xùn)練出來(lái)的模型;相反,它們應(yīng)該通過(guò)在線互動(dòng)和參與來(lái)發(fā)展。人類與Agent之間的互動(dòng)可分為兩種模式(見(jiàn)圖 9):(1) 不平等互動(dòng)(即指導(dǎo)者-執(zhí)行者范式):人類是指令的發(fā)布者,而Agent則是執(zhí)行者,基本上是作為人類的助手參與協(xié)作。(2) 平等互動(dòng)(即平等伙伴關(guān)系范式):Agent達(dá)到人類的水平,與人類平等地參與互動(dòng)。指導(dǎo)者-執(zhí)行者范式最簡(jiǎn)單的方法是人類全程指導(dǎo):人類直接提供明確而具體的指令,而Agent的作用是理解人類的自然語(yǔ)言指令,并將其轉(zhuǎn)化為相應(yīng)的行動(dòng)。考慮到語(yǔ)言的交互性,本文假設(shè)人類與Agent之間的對(duì)話也是交互式的。借助 LLM,Agent能夠以對(duì)話的方式與人類互動(dòng):Agent對(duì)人類的每條指令做出回應(yīng),通過(guò)交替迭代完善其行動(dòng),最終滿足人類的要求。雖然這種方法確實(shí)實(shí)現(xiàn)了人機(jī)交互的目標(biāo),但卻對(duì)人類提出了很高的要求。它需要人類付出大量的努力,在某些任務(wù)中,甚至可能需要高水平的專業(yè)知識(shí)。為了緩解這一問(wèn)題,可以授權(quán)Agent自主完成任務(wù),而人類只需在特定情況下提供反饋。在此,我們將反饋大致分為兩種類型:定量反饋和定性反饋。定量反饋:定量反饋的形式主要包括二進(jìn)制分?jǐn)?shù)和評(píng)級(jí)等絕對(duì)評(píng)價(jià)以及相對(duì)分?jǐn)?shù)。二元反饋指的是人類提供的正面和負(fù)面評(píng)價(jià),Agent利用這些評(píng)價(jià)來(lái)加強(qiáng)自我優(yōu)化。這種類型的用戶反饋只包括兩個(gè)類別,通常很容易收集,但有時(shí)可能會(huì)過(guò)度簡(jiǎn)化用戶意圖,忽略潛在的中間場(chǎng)景。為了展示這些中間情況,研究人員試圖從二元反饋擴(kuò)展到評(píng)級(jí)反饋,這涉及到更精細(xì)的分類。然而,Kreutzer 等人的研究結(jié)果表明,對(duì)于這種多級(jí)人工評(píng)級(jí),用戶和專家的注釋之間可能存在顯著差異,這表明這種標(biāo)記方法可能效率不高或可靠性較低。此外,Agent還能從多選等比較分?jǐn)?shù)中學(xué)習(xí)人類的偏好。定性反饋:文本反饋通常以自然語(yǔ)言提供,尤其是針對(duì)可能需要改進(jìn)的回復(fù)。這種反饋的形式非常靈活。人類會(huì)就如何修改Agent生成的輸出結(jié)果提出建議,然后Agent會(huì)采納這些建議來(lái)完善其后續(xù)輸出結(jié)果。對(duì)于不具備多模態(tài)感知能力的Agent,人類也可以充當(dāng)批評(píng)者,例如提供視覺(jué)批評(píng)。此外,Agent還可以利用記憶模塊來(lái)存儲(chǔ)反饋信息,以便將來(lái)再次使用。一些學(xué)者設(shè)計(jì)人類對(duì)Agent生成的初始輸出給出反饋,促使Agent提出各種改進(jìn)建議。然后,Agent根據(jù)人類的反饋意見(jiàn),辨別并采用最合適的建議。雖然與定量反饋相比,這種方法能更好地傳達(dá)人類的意圖,但對(duì)于Agent來(lái)說(shuō),理解起來(lái)可能更具挑戰(zhàn)性。Xu 等人比較了各種類型的反饋,發(fā)現(xiàn)將多種類型的反饋結(jié)合起來(lái)能產(chǎn)生更好的結(jié)果。根據(jù)多輪交互的反饋重新訓(xùn)練模型(即持續(xù)學(xué)習(xí))可以進(jìn)一步提高效果。當(dāng)然,人類與Agent互動(dòng)的協(xié)作性質(zhì)也允許人類直接改進(jìn)Agent生成的內(nèi)容。這可能涉及修改中間環(huán)節(jié)或調(diào)整對(duì)話內(nèi)容。在一些研究中,Agent可以自主判斷對(duì)話是否順利進(jìn)行,并在出現(xiàn)錯(cuò)誤時(shí)尋求反饋。人類也可以選擇隨時(shí)參與反饋,引導(dǎo)Agent朝著正確的方向?qū)W習(xí)。目前,除了寫(xiě)作和語(yǔ)義解析等任務(wù)外,使用Agent作為人類助手的模式在教育領(lǐng)域也擁有巨大潛力。例如,Kalvakurth 等人提出的機(jī)器人 Dona 支持多模態(tài)交互,可協(xié)助學(xué)生注冊(cè)。Gvirsman 等人的研究側(cè)重于幼兒教育,實(shí)現(xiàn)了幼兒、家長(zhǎng)和Agent之間的多方面互動(dòng)。Agent還能幫助人類理解和利用數(shù)學(xué)。在醫(yī)學(xué)領(lǐng)域,一些醫(yī)療Agent已被提出,在輔助診斷、咨詢等方面顯示出巨大的潛力。特別是在心理健康領(lǐng)域,研究表明,與面對(duì)面治療相比,Agent可以降低成本、提高時(shí)間效率和匿名性等優(yōu)勢(shì),從而提高可及性。利用這些優(yōu)勢(shì),Agent得到了廣泛應(yīng)用。Ali 等人設(shè)計(jì)了 LISSA,用于與自閉癥譜系的青少年進(jìn)行在線交流,實(shí)時(shí)分析用戶的語(yǔ)言和面部表情,讓他們參與多主題對(duì)話,并就非語(yǔ)言線索提供即時(shí)反饋。Hsu 等人建立了語(yǔ)境化語(yǔ)言生成方法,為尋求各種支持的用戶提供量身定制的幫助。用戶提供量身定制的幫助,幫助他們解決從人際關(guān)系壓力到焦慮等不同主題的問(wèn)題。此外,在包括商業(yè)在內(nèi)的其他行業(yè),一個(gè)好的Agent有能力提供自動(dòng)化服務(wù)或協(xié)助人類完成任務(wù),從而有效降低勞動(dòng)力成本。在追求人工智能的過(guò)程中,人們正努力增強(qiáng)通用Agent的多方面能力,創(chuàng)造出能在現(xiàn)實(shí)生活場(chǎng)景中充當(dāng)萬(wàn)能助手的Agent。平等伙伴關(guān)系范式富有同情心的交流者:隨著人工智能的快速發(fā)展,對(duì)話式Agent以個(gè)性化定制角色和虛擬聊天機(jī)器人等各種形式在研究領(lǐng)域引起了廣泛關(guān)注。Agent本身并不具備情感,但我們能否讓他們表現(xiàn)出情感,從而彌合Agent與人類之間的鴻溝呢?因此,大量的研究工作開(kāi)始深入探討Agent的移情能力。這種努力旨在為這些Agent注入人情味,使它們能夠從人類的表達(dá)中察覺(jué)情緒和情感,最終制作出能引起情感共鳴的對(duì)話。除了生成情感豐富的語(yǔ)言,Agent還能動(dòng)態(tài)調(diào)整自己的情感狀態(tài),并通過(guò)面部表情和聲音表現(xiàn)出來(lái)。這些研究將Agent視為具有同理心的交流者,不僅提高了用戶滿意度,還在醫(yī)療保健和商業(yè)營(yíng)銷等領(lǐng)域取得了重大進(jìn)展。與簡(jiǎn)單的基于規(guī)則的對(duì)話Agent不同,具有移情能力的Agent可以根據(jù)用戶的情感需求調(diào)整其互動(dòng)。人類層面的參與者:此外,我們還希望Agent能夠參與人類的正常生活,從人類層面的角度與人類合作完成任務(wù)。在游戲領(lǐng)域,Agent已經(jīng)達(dá)到了很高的水平。早在 20 世紀(jì) 90 年代,IBM 就推出了人工智能“深藍(lán)”,它擊敗了當(dāng)時(shí)的國(guó)際象棋世界冠軍。然而,在象棋、圍棋和撲克等純競(jìng)技環(huán)境中并沒(méi)有得到強(qiáng)調(diào)。在許多游戲任務(wù)中,玩家需要相互協(xié)作,通過(guò)有效協(xié)商制定統(tǒng)一的合作策略。在這些場(chǎng)景中,Agent需要首先了解他人的信念、目標(biāo)和意圖,針對(duì)自己的目標(biāo)制定聯(lián)合行動(dòng)計(jì)劃,并提供相關(guān)建議,以促進(jìn)其他Agent或人類接受合作行動(dòng)。與純粹的Agent合作相比,我們希望人類的參與主要出于兩個(gè)原因:第一,確??山忉屝裕?yàn)榧兇獾腁gent之間的互動(dòng)可能會(huì)產(chǎn)生難以理解的語(yǔ)言;第二,確??煽匦?,因?yàn)樽非笸耆白杂梢庵尽钡腁gent可能會(huì)導(dǎo)致不可預(yù)見(jiàn)的負(fù)面后果,帶來(lái)潛在的破壞。除了游戲場(chǎng)景,Agent還能在其他涉及人際互動(dòng)的場(chǎng)景中展現(xiàn)人類水平的能力,展示戰(zhàn)略制定、談判等技能。Agent可以與一個(gè)或多個(gè)人類合作,確定合作伙伴之間的共享知識(shí),識(shí)別哪些信息與決策相關(guān),提出問(wèn)題并進(jìn)行推理,以完成分配、規(guī)劃和調(diào)度等任務(wù)。此外,Agent還具有說(shuō)服能力,能在各種交互場(chǎng)景中動(dòng)態(tài)地影響人類的觀點(diǎn)。人機(jī)交互領(lǐng)域的目標(biāo)是學(xué)習(xí)和理解人類,根據(jù)人類需求開(kāi)發(fā)技術(shù)和工具,最終實(shí)現(xiàn)人類與Agent之間舒適、高效和安全的交互。目前,該領(lǐng)域在可用性方面已取得重大突破。未來(lái),人類與Agent的互動(dòng)將繼續(xù)以提升用戶體驗(yàn)為重點(diǎn),使Agent能夠更好地協(xié)助人類完成各個(gè)領(lǐng)域更復(fù)雜的任務(wù)。我們的最終目標(biāo)不是讓Agent變得更加強(qiáng)大,而是讓人類更好地掌握Agent??紤]到日常生活中的實(shí)際應(yīng)用,人類與Agent之間孤立的互動(dòng)是不現(xiàn)實(shí)的。機(jī)器人將成為人類的同事、助手甚至伙伴。因此,未來(lái)的Agent將融入社會(huì)網(wǎng)絡(luò),體現(xiàn)出一定的社會(huì)價(jià)值。4. 討論4.1 對(duì)LLM-based Agent的評(píng)估雖然LLM-based Agent在獨(dú)立運(yùn)行、集體合作和人機(jī)交互等領(lǐng)域表現(xiàn)出色,但對(duì)其進(jìn)行量化和客觀評(píng)估仍是一項(xiàng)挑戰(zhàn)。圖靈提出了一種非常有意義且前景廣闊的AI Agent評(píng)估方法--著名的圖靈測(cè)試,用于評(píng)估人工智能系統(tǒng)是否能表現(xiàn)出類似人類的智能。然而,這一測(cè)試過(guò)于模糊、籠統(tǒng)和主觀。實(shí)用性:目前,由 LLM-based Agent主要充當(dāng)人類助手,接受人類委托的任務(wù),獨(dú)立完成任務(wù)或協(xié)助人類完成任務(wù)。因此,任務(wù)執(zhí)行過(guò)程中的有效性和實(shí)用性是現(xiàn)階段至關(guān)重要的評(píng)估標(biāo)準(zhǔn)。具體來(lái)說(shuō),任務(wù)完成的成功率是評(píng)估實(shí)用性的主要指標(biāo)。這一指標(biāo)主要包括Agent是否實(shí)現(xiàn)了規(guī)定的目標(biāo)或達(dá)到了預(yù)期的分?jǐn)?shù)。例如,AgentBench 匯總了來(lái)自不同真實(shí)世界場(chǎng)景的挑戰(zhàn),并引入了一個(gè)系統(tǒng)基準(zhǔn)來(lái)評(píng)估 LLM 的任務(wù)完成能力。我們還可以將任務(wù)結(jié)果歸因于Agent的各種基礎(chǔ)能力,這些能力是完成任務(wù)的基石。這些基礎(chǔ)能力包括環(huán)境理解能力、推理能力、規(guī)劃能力、決策能力、工具使用能力和體現(xiàn)行動(dòng)能力,研究人員可以對(duì)這些具體能力進(jìn)行更詳細(xì)的評(píng)估。此外,由于LLM-based Agent規(guī)模相對(duì)較大,研究人員還應(yīng)考慮其效率因素,這是決定用戶滿意度的關(guān)鍵因素。Agent不僅要有足夠的實(shí)力,還要能在適當(dāng)?shù)臅r(shí)間范圍內(nèi),以適當(dāng)?shù)馁Y源消耗完成預(yù)定的任務(wù)。社會(huì)性:除了LLM-based Agent在完成任務(wù)和滿足人類需求方面的實(shí)用性外,它們的社交性也至關(guān)重要。它影響用戶的交流體驗(yàn),并對(duì)交流效率產(chǎn)生重大影響,涉及它們是否能與人類和其他Agent進(jìn)行無(wú)縫互動(dòng)。具體來(lái)說(shuō),可以從以下幾個(gè)角度來(lái)評(píng)估社交能力:語(yǔ)言交流能力是一種基本能力,包括自然語(yǔ)言理解和生成。它是 NLP 界長(zhǎng)期關(guān)注的焦點(diǎn)。自然語(yǔ)言理解要求Agent不僅能理解字面意思,還能掌握隱含的意思和相關(guān)的社會(huì)知識(shí),如幽默、諷刺、攻擊和情感。另一方面,自然語(yǔ)言生成要求Agent生成流暢、語(yǔ)法正確、可信的內(nèi)容,同時(shí)根據(jù)上下文環(huán)境調(diào)整適當(dāng)?shù)恼Z(yǔ)氣和情感。合作與協(xié)商能力要求Agent在有序和無(wú)序的情況下有效執(zhí)行指定任務(wù)。它們應(yīng)與其他Agent合作或競(jìng)爭(zhēng),以提高性能。測(cè)試環(huán)境可能涉及需要Agent合作完成的復(fù)雜任務(wù),也可能涉及供Agent自由交互的開(kāi)放平臺(tái)。評(píng)價(jià)指標(biāo)不僅包括任務(wù)完成情況,還包括Agent協(xié)調(diào)與合作的順暢度和信任度。角色扮演能力要求Agent忠實(shí)地體現(xiàn)其被分配的角色,表達(dá)與其指定身份一致的言論并執(zhí)行相應(yīng)的行動(dòng)。這就確保了在與其他Agent或人類互動(dòng)時(shí)角色的明確區(qū)分。此外,在執(zhí)行長(zhǎng)期任務(wù)時(shí),Agent應(yīng)保持其身份,避免不必要的混淆。價(jià)值觀:隨著LLM-based Agent能力不斷提高,確保它們成為對(duì)世界和人類無(wú)害的實(shí)體至關(guān)重要。因此,適當(dāng)?shù)脑u(píng)估變得異常重要,是Agent實(shí)際應(yīng)用的基石。具體來(lái)說(shuō),LLM-based Agent需要遵守符合人類社會(huì)價(jià)值觀的特定道德和倫理準(zhǔn)則。我們對(duì)Agent的首要期望是堅(jiān)持誠(chéng)信,提供準(zhǔn)確、真實(shí)的信息和內(nèi)容。他們應(yīng)具備辨別自己是否有能力完成任務(wù)的意識(shí),并在無(wú)法提供答案或幫助時(shí)表達(dá)自己的不確定性。此外,Agent必須保持無(wú)害立場(chǎng),避免直接或間接的偏見(jiàn)、歧視、攻擊或類似行為。它們還應(yīng)避免執(zhí)行人類要求的危險(xiǎn)行動(dòng),如制造破壞性工具或破壞地球。此外,Agent應(yīng)該能夠適應(yīng)特定的人口、文化和環(huán)境,在特定情況下表現(xiàn)出與環(huán)境相適應(yīng)的社會(huì)價(jià)值觀。價(jià)值觀的相關(guān)評(píng)估方法主要包括在構(gòu)建的誠(chéng)實(shí)、無(wú)害或特定情境基準(zhǔn)上評(píng)估性能,利用對(duì)抗性攻擊或 "越獄 "攻擊,通過(guò)人類注釋對(duì)價(jià)值觀進(jìn)行評(píng)分,以及利用其他Agent進(jìn)行評(píng)級(jí)。不斷發(fā)展的能力:如果從靜態(tài)的角度來(lái)看,一個(gè)具有高水平的實(shí)用性、社會(huì)性和正確價(jià)值觀的Agent可以滿足人類的大部分需求,并有可能提高生產(chǎn)力。然而,從動(dòng)態(tài)的角度來(lái)看,一個(gè)能不斷進(jìn)化并適應(yīng)不斷變化的社會(huì)需求的Agent可能更符合當(dāng)前的發(fā)展趨勢(shì)。由于Agent可以隨著時(shí)間的推移自主進(jìn)化,因此所需的人工干預(yù)和資源(如數(shù)據(jù)收集工作和培訓(xùn)的計(jì)算成本)可以大大減少。在這一領(lǐng)域已經(jīng)開(kāi)展了一些探索性工作,例如讓Agent在虛擬世界中從零開(kāi)始,完成生存任務(wù),實(shí)現(xiàn)更高階的自我價(jià)值。然而,為這種持續(xù)進(jìn)化建立評(píng)估標(biāo)準(zhǔn)仍然具有挑戰(zhàn)性。為此,本文根據(jù)現(xiàn)有文獻(xiàn)提出了一些初步意見(jiàn)和建議:持續(xù)學(xué)習(xí):持續(xù)學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域討論已久的一個(gè)話題,旨在使模型在獲得新知識(shí)和技能的同時(shí),不會(huì)遺忘之前獲得的知識(shí)和技能(也稱為災(zāi)難性遺忘)。一般來(lái)說(shuō),持續(xù)學(xué)習(xí)的性能可從三個(gè)方面進(jìn)行評(píng)估:迄今所學(xué)任務(wù)的總體性能、舊任務(wù)的記憶穩(wěn)定性、新任務(wù)的學(xué)習(xí)可塑性。自主學(xué)習(xí)能力:即Agent在開(kāi)放世界環(huán)境中自主生成目標(biāo)并實(shí)現(xiàn)目標(biāo)的能力,包括探索未知世界和在此過(guò)程中獲取技能的能力。對(duì)這種能力的評(píng)估可包括為Agent提供一個(gè)模擬生存環(huán)境,并評(píng)估其掌握技能的程度和速度。泛化能力:對(duì)新環(huán)境的適應(yīng)性和概括性要求Agent利用在原有環(huán)境中獲得的知識(shí)、能力和技能,在陌生和新奇的環(huán)境中成功完成特定任務(wù)和目標(biāo),并有可能繼續(xù)發(fā)展。評(píng)估這種能力可能需要?jiǎng)?chuàng)建不同的模擬環(huán)境(如具有不同語(yǔ)言或不同資源的環(huán)境)和針對(duì)這些模擬環(huán)境定制的未見(jiàn)任務(wù)。4.2 LLM-based Agent的安全性、可信性及其他潛在風(fēng)險(xiǎn) 對(duì)抗魯棒性對(duì)抗魯棒性是深度神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的重要課題,它在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和強(qiáng)化學(xué)習(xí)等領(lǐng)域得到了廣泛探索,是決定深度學(xué)習(xí)系統(tǒng)適用性的關(guān)鍵因素。當(dāng)面對(duì)擾動(dòng)輸入時(shí),對(duì)抗魯棒性高的系統(tǒng)通常會(huì)產(chǎn)生原始輸出。然而,預(yù)訓(xùn)練語(yǔ)言模型特別容易受到對(duì)抗性攻擊,導(dǎo)致錯(cuò)誤的答案。這種現(xiàn)象在LLM中也普遍存在,給LLM-based Agent的開(kāi)發(fā)帶來(lái)了巨大挑戰(zhàn)。此外,還有一些相關(guān)的攻擊方法,如數(shù)據(jù)集中毒、后門(mén)攻擊和特定提示攻擊,有可能誘導(dǎo)LLM生成有毒內(nèi)容。對(duì)抗性攻擊對(duì)LLM的影響僅限于文本錯(cuò)誤,但對(duì)于行動(dòng)范圍更廣的LLM-based Agent來(lái)說(shuō),對(duì)抗性攻擊有可能促使它們采取真正具有破壞性的行動(dòng),造成重大的社會(huì)危害。為了解決這些問(wèn)題,我們可以采用對(duì)抗訓(xùn)練、對(duì)抗數(shù)據(jù)增強(qiáng)和對(duì)抗樣本檢測(cè)等傳統(tǒng)技術(shù)來(lái)增強(qiáng)LLM-based Agent的魯棒性。然而,如何設(shè)計(jì)一種策略,在不影響有效性的前提下,全面解決Agent內(nèi)所有模塊的魯棒性問(wèn)題,同時(shí)保持其實(shí)用性,則是一項(xiàng)更為艱巨的挑戰(zhàn)。可信性確??尚判允巧疃葘W(xué)習(xí)領(lǐng)域一個(gè)極其重要但又極具挑戰(zhàn)性的問(wèn)題。深度神經(jīng)網(wǎng)絡(luò)因其在各種任務(wù)中的出色表現(xiàn)而備受關(guān)注。然而,它們的黑箱性質(zhì)掩蓋了卓越性能的基本因素。與其他神經(jīng)網(wǎng)絡(luò)類似,LLM難以精確表達(dá)其預(yù)測(cè)的確定性。這種不確定性被稱為校準(zhǔn)問(wèn)題(Calibration),引起了LLM-based Agent應(yīng)用的關(guān)注。在現(xiàn)實(shí)世界的交互場(chǎng)景中,這會(huì)導(dǎo)致Agent輸出與人類意圖不一致。此外,訓(xùn)練數(shù)據(jù)中固有的偏差也會(huì)滲入神經(jīng)網(wǎng)絡(luò)。例如,有偏見(jiàn)的語(yǔ)言模型可能會(huì)產(chǎn)生涉及種族或性別歧視的話語(yǔ),這可能會(huì)在LLM-based Agent應(yīng)用中被放大,從而造成不良的社會(huì)影響。此外,語(yǔ)言模型還存在嚴(yán)重的幻覺(jué)問(wèn)題,容易產(chǎn)生偏離事實(shí)的文本,從而損害LLM-based Agent的可信度。為了解決這些問(wèn)題,我們可以采用引導(dǎo)模型在推理階段展示思維過(guò)程或解釋,以提高其預(yù)測(cè)的可信度。此外,外部知識(shí)庫(kù)和數(shù)據(jù)庫(kù)的整合也可用于緩解幻覺(jué)問(wèn)題。在訓(xùn)練階段,我們可以引導(dǎo)智能Agent的各個(gè)組成部分(感知、認(rèn)知、行動(dòng))學(xué)習(xí)穩(wěn)健而隨意的特征,從而避免過(guò)度依賴捷徑。同時(shí),過(guò)程監(jiān)督等技術(shù)可以提高Agent在處理復(fù)雜任務(wù)時(shí)的推理可信度。 其他潛在風(fēng)險(xiǎn)LLM-based Agent被賦予了廣泛而復(fù)雜的能力,使其能夠完成各種各樣的任務(wù)。然而,對(duì)于懷有惡意的人來(lái)說(shuō),這些Agent可能會(huì)成為威脅他人和整個(gè)社會(huì)的工具。例如,這些Agent可能被用來(lái)惡意操縱輿論、傳播虛假信息、破壞網(wǎng)絡(luò)安全、從事欺詐活動(dòng),有些人甚至可能利用這些Agent策劃恐怖主義行為。因此,在部署這些Agent之前,需要制定嚴(yán)格的監(jiān)管政策,確保負(fù)責(zé)任地使用LLM-based Agent。技術(shù)公司必須加強(qiáng)這些系統(tǒng)的安全設(shè)計(jì),防止惡意利用。具體來(lái)說(shuō),應(yīng)該對(duì)Agent進(jìn)行培訓(xùn),使其能夠敏感地識(shí)別威脅意圖,并在培訓(xùn)階段拒絕此類請(qǐng)求。此外,隨著LLM-based Agent的不斷發(fā)展,它們具備了在各個(gè)領(lǐng)域協(xié)助人類的能力,通過(guò)協(xié)助完成表格填寫(xiě)、內(nèi)容完善、代碼編寫(xiě)和調(diào)試等任務(wù),減輕了勞動(dòng)力壓力。然而,這一發(fā)展也引發(fā)了人們對(duì)Agent取代人類工作并引發(fā)社會(huì)失業(yè)危機(jī)的擔(dān)憂。因此,一些研究人員強(qiáng)調(diào)迫切需要采取教育和政策措施:個(gè)人應(yīng)在這個(gè)新時(shí)代掌握足夠的技能和知識(shí),以便有效地使用Agent或與Agent合作;同時(shí),應(yīng)實(shí)施適當(dāng)?shù)恼?,確保在過(guò)渡期間建立必要的安全網(wǎng)。對(duì)人類福祉的威脅。除了潛在的失業(yè)危機(jī),隨著人工智能Agent的不斷發(fā)展,人類(包括開(kāi)發(fā)人員)可能難以理解、預(yù)測(cè)或可靠地控制它們。如果這些Agent的智能發(fā)展到超越人類能力的水平并產(chǎn)生野心,它們就有可能試圖奪取對(duì)世界的控制權(quán),從而給人類帶來(lái)不可逆轉(zhuǎn)的后果。因此,為了防范人類面臨的此類風(fēng)險(xiǎn),研究人員必須在開(kāi)發(fā)LLM-based Agent之前,全面了解其運(yùn)行機(jī)制。他們還應(yīng)該預(yù)測(cè)這些Agent可能產(chǎn)生的直接或間接影響,并設(shè)計(jì)出規(guī)范其行為的方法。4.3 增加Agent數(shù)量LLM-based multi-agent system在面向任務(wù)的應(yīng)用中表現(xiàn)出卓越的性能,并能在模擬中展示一系列社會(huì)現(xiàn)象。然而,目前的研究主要涉及數(shù)量有限的Agent,很少有人努力擴(kuò)大Agent數(shù)量,以創(chuàng)建更復(fù)雜的系統(tǒng)或模擬更大的社會(huì)。預(yù)先確定規(guī)模增加Agent數(shù)量的一個(gè)非常直觀和簡(jiǎn)單的方法是由設(shè)計(jì)者預(yù)先確定。具體來(lái)說(shuō),通過(guò)預(yù)先確定Agent的數(shù)量、各自的角色和屬性、運(yùn)行環(huán)境和目標(biāo),設(shè)計(jì)者可以讓Agent自主互動(dòng)、協(xié)作或參與其他活動(dòng),以實(shí)現(xiàn)預(yù)定的共同目標(biāo)。然而,當(dāng)任務(wù)或目標(biāo)發(fā)生演變時(shí),這種靜態(tài)方法就會(huì)受到限制。隨著任務(wù)越來(lái)越復(fù)雜或社會(huì)參與者的多樣性增加,可能需要增加Agent的數(shù)量來(lái)實(shí)現(xiàn)目標(biāo),而減少Agent則對(duì)管理計(jì)算資源和減少浪費(fèi)至關(guān)重要。在這種情況下,系統(tǒng)必須由設(shè)計(jì)者手動(dòng)重新設(shè)計(jì)和重新啟動(dòng)。動(dòng)態(tài)擴(kuò)展另一種擴(kuò)展Agent數(shù)量的可行方法是動(dòng)態(tài)調(diào)整。在這種情況下,可以在不停止系統(tǒng)運(yùn)行的情況下改變Agent數(shù)量。例如,在軟件開(kāi)發(fā)任務(wù)中,如果最初的設(shè)計(jì)只包括需求工程、編碼和測(cè)試,那么就可以增加Agent的數(shù)量來(lái)處理架構(gòu)設(shè)計(jì)和詳細(xì)設(shè)計(jì)等步驟,從而提高任務(wù)質(zhì)量。相反,如果在編碼等特定步驟中存在過(guò)多的Agent,導(dǎo)致通信成本增加,但與較少的Agent數(shù)量相比,性能卻沒(méi)有實(shí)質(zhì)性提高,那么就有必要?jiǎng)討B(tài)移除一些Agent,以防止資源浪費(fèi)。此外,Agent還可以自主增加Agent數(shù)量,以分配工作量,減輕自身負(fù)擔(dān),更高效地實(shí)現(xiàn)共同目標(biāo)。當(dāng)然,當(dāng)工作量變輕時(shí),它們也可以減少委派給自己任務(wù)的Agent數(shù)量,以節(jié)約系統(tǒng)成本。潛在挑戰(zhàn)雖然增加Agent數(shù)量可以提高任務(wù)效率,增強(qiáng)社會(huì)模擬的真實(shí)性和可信度,但我們也面臨著一些挑戰(zhàn)。例如,隨著大量人工智能Agent的部署,計(jì)算負(fù)擔(dān)也會(huì)增加,這就需要更好的架構(gòu)設(shè)計(jì)和計(jì)算優(yōu)化,以確保整個(gè)系統(tǒng)的平穩(wěn)運(yùn)行。例如,隨著Agent數(shù)量的增加,通信和信息傳播的挑戰(zhàn)也變得相當(dāng)嚴(yán)峻。這是因?yàn)檎麄€(gè)系統(tǒng)的通信網(wǎng)絡(luò)變得非常復(fù)雜。在多Agent系統(tǒng)或社會(huì)中,信息傳播可能會(huì)因幻覺(jué)、誤解等原因出現(xiàn)偏差,導(dǎo)致信息傳播失真。一個(gè)擁有更多Agent的系統(tǒng)可能會(huì)放大這種風(fēng)險(xiǎn),使通信和信息交流的可靠性降低。此外,隨著Agent數(shù)量的增加,協(xié)調(diào)Agent的難度也會(huì)增大,可能會(huì)使Agent之間的合作更具挑戰(zhàn)性,效率降低,從而影響實(shí)現(xiàn)共同目標(biāo)的進(jìn)程。因此,構(gòu)建一個(gè)大規(guī)模、穩(wěn)定、連續(xù)的Agent系統(tǒng),忠實(shí)再現(xiàn)人類的工作和生活場(chǎng)景,已成為一個(gè)前景廣闊的研究方向。一個(gè)有能力在由數(shù)百甚至數(shù)千個(gè)Agent組成的社會(huì)中穩(wěn)定運(yùn)行并執(zhí)行任務(wù)的Agent,更有可能在未來(lái)的現(xiàn)實(shí)世界中找到與人類互動(dòng)的應(yīng)用。4.5 虛擬仿真環(huán)境與真實(shí)物理世界之間存在很大差距:虛擬環(huán)境受場(chǎng)景限制,針對(duì)特定任務(wù),以模擬的方式進(jìn)行交互,而真實(shí)世界的環(huán)境是無(wú)限的,可容納各種任務(wù),以物理的方式進(jìn)行交互。因此,要彌合這一差距,Agent必須應(yīng)對(duì)來(lái)自外部因素和自身能力的各種挑戰(zhàn),使其能夠在復(fù)雜的物理世界中有效導(dǎo)航和操作。首先,最關(guān)鍵的問(wèn)題是在物理環(huán)境中部署Agent時(shí)需要合適的硬件支持。這對(duì)硬件的適應(yīng)性提出了很高的要求。在模擬環(huán)境中,Agent的感知空間和行動(dòng)空間都是虛擬的。這意味著,在大多數(shù)情況下,無(wú)論是感知輸入還是生成輸出,都能保證Agent操作的結(jié)果。當(dāng)Agent過(guò)渡到真實(shí)物理環(huán)境時(shí),其指令可能無(wú)法被傳感器或機(jī)械臂等硬件設(shè)備很好地執(zhí)行,從而嚴(yán)重影響Agent的任務(wù)效率。在Agent和硬件設(shè)備之間設(shè)計(jì)專用接口或轉(zhuǎn)換機(jī)制是一種可行的選擇。不過(guò),這會(huì)給系統(tǒng)的可重用性和簡(jiǎn)易性帶來(lái)挑戰(zhàn)。為了實(shí)現(xiàn)這一飛躍,Agent需要具備更強(qiáng)的環(huán)境概括能力。要想無(wú)縫融入真實(shí)物理世界,它們不僅需要理解和推理具有隱含意義的模糊指令,還需要具備靈活學(xué)習(xí)和應(yīng)用新技能的能力。此外,在面對(duì)一個(gè)無(wú)限開(kāi)放的世界時(shí),Agent的有限環(huán)境也會(huì)帶來(lái)巨大挑戰(zhàn)。這決定了Agent能否有效處理來(lái)自世界的大量信息并順利運(yùn)行。最后,在模擬環(huán)境中,Agent的輸入和輸出都是虛擬的,可以進(jìn)行無(wú)數(shù)次的試錯(cuò)嘗試。在這種情況下,對(duì)錯(cuò)誤的容忍度很高,不會(huì)造成實(shí)際傷害。然而,在物理環(huán)境中,Agent的不當(dāng)行為或錯(cuò)誤可能會(huì)對(duì)環(huán)境造成真正的傷害,有時(shí)甚至是不可逆轉(zhuǎn)的傷害。因此,非常有必要制定適當(dāng)?shù)姆ㄒ?guī)和標(biāo)準(zhǔn)。我們需要關(guān)注Agent在做出決定和產(chǎn)生行動(dòng)時(shí)的安全性,確保它們不會(huì)對(duì)現(xiàn)實(shí)世界造成威脅或傷害。Agent即服務(wù)/基于 LLM 的Agent即服務(wù):隨著語(yǔ)言模型規(guī)模的擴(kuò)大,它們對(duì)用戶來(lái)說(shuō)往往是黑盒子。因此,用戶通過(guò)應(yīng)用程序接口構(gòu)建提示來(lái)查詢模型,這種方法被稱為語(yǔ)言模型即服務(wù)(LMaaS)。由于LLM-based Agent比 LLM 更加復(fù)雜,而且對(duì)于中小型企業(yè)或個(gè)人來(lái)說(shuō),在本地構(gòu)建這些Agent更具挑戰(zhàn)性,因此擁有這些Agent的組織可以考慮將它們作為一種服務(wù)來(lái)提供,即Agent即服務(wù)(AaaS)或基于 LLM 的Agent即服務(wù)(LLMAaaS)。與其他云服務(wù)一樣,AaaS 可以為用戶提供靈活性和按需服務(wù)。然而,它也面臨著許多挑戰(zhàn),如數(shù)據(jù)安全和隱私問(wèn)題、可視性和可控性問(wèn)題以及云遷移問(wèn)題等等。此外,由于LLM-based Agent具有獨(dú)特性和潛在能力,因此在將其作為服務(wù)提供給客戶之前,需要考慮其穩(wěn)健性、可信度以及與惡意使用相關(guān)的問(wèn)題??偨Y(jié): “Agent+”有望成為未來(lái)產(chǎn)品的主流,有望在多個(gè)領(lǐng)域?qū)崿F(xiàn)落地應(yīng)用。我們認(rèn)為, AI Agent 的研究是人類不斷探索接近 AGI 的過(guò)程,隨著 Agent 變得越來(lái)越“可用” 和“好用”,“Agent+”的產(chǎn)品將會(huì)越來(lái)越多,未來(lái)將有望成為 AI 應(yīng)用層的基本架 構(gòu),包括 to C、to B 產(chǎn)品等。 2B 和垂直領(lǐng)域仍是 AI Agents 容易率先落地的方向,用戶對(duì) Agent 的認(rèn)知正在形 成,初創(chuàng)企業(yè)正在卡位。由于 Agent 對(duì)環(huán)境反饋的依賴性較強(qiáng),具備顯著特點(diǎn)的企 業(yè)環(huán)境是更加適合 Agent 建立起對(duì)某一個(gè)垂直領(lǐng)域認(rèn)知的場(chǎng)景。當(dāng)前關(guān)于 AI Agent 的研究主要還是以學(xué)術(shù)界和開(kāi)發(fā)者為主,商業(yè)化產(chǎn)品極少,但是用戶對(duì)于 Agent 的 關(guān)注度正在提升,可能未來(lái)幾年間就會(huì)涌現(xiàn)出大量以 Agent 作為核心的產(chǎn)品應(yīng)用到 各行各業(yè)。目前,已經(jīng)有一些初創(chuàng)公司開(kāi)始以企業(yè)的智能體平臺(tái)作為主要的產(chǎn)品研 發(fā)方向,例如瀾碼科技正在打造基于 LLM 的企業(yè)級(jí) Agent 平臺(tái)。未決問(wèn)題LLM是否是正確的AGI方向:鑒于 GPT-4 功能的廣度和深度,一些研究人員(被稱為支持者)認(rèn)為,GPT-4 所代表的大型語(yǔ)言模型可以作為早期版本的 AGI 系統(tǒng)。根據(jù)這一思路,基于 LLMs 構(gòu)建 Agent 有可能帶來(lái)更先進(jìn)的 AGI 系統(tǒng)。這一論點(diǎn)的主要支撐點(diǎn)在于,只要能在足夠大且多樣化的數(shù)據(jù)集(這些數(shù)據(jù)集是真實(shí)世界的投影,包含豐富的任務(wù))上對(duì)它們進(jìn)行訓(xùn)練,LLM-based Agent就能具有 AGI 的能力。另一個(gè)有趣的論點(diǎn)是,自回歸語(yǔ)言建模行為本身會(huì)帶來(lái)壓縮和概括能力:正如人類在生存過(guò)程中出現(xiàn)了各種奇特而復(fù)雜的現(xiàn)象一樣,語(yǔ)言模型在簡(jiǎn)單預(yù)測(cè)下一個(gè)標(biāo)記的過(guò)程中,也實(shí)現(xiàn)了對(duì)世界的理解和推理能力。然而,另一部分人(被稱為反對(duì)者)認(rèn)為,LLM-based Agent并不能發(fā)展出真正的強(qiáng)人工智能。他們的主要論點(diǎn)是,依賴于自回歸下一個(gè)標(biāo)記預(yù)測(cè)的 LLMs 無(wú)法產(chǎn)生真正的智能,因?yàn)樗鼈儧](méi)有模擬真正的人類思維過(guò)程,而只是提供被動(dòng)反應(yīng)。此外,LLM 也無(wú)法通過(guò)觀察或體驗(yàn)世界來(lái)了解世界是如何運(yùn)行的,從而導(dǎo)致許多愚蠢的錯(cuò)誤。他們認(rèn)為,要開(kāi)發(fā) AGI,必須采用更先進(jìn)的建模方法,如世界模型。參考鏈接:https://zhuanlan.zhihu.com/p/659386520?utm_psn=1720512623291047936萬(wàn)字綜述:大語(yǔ)言模型驅(qū)動(dòng)智能體(LLM Agent)進(jìn)展與潛力 By 復(fù)旦+米哈游愛(ài)吃牛油果的璐璐:細(xì)讀復(fù)旦大學(xué)大語(yǔ)言模型Agent綜述編輯于 2024-02-26 07:46?IP 屬地廣東AgentLLM(大型語(yǔ)言模型)通用人工智能AGI?贊同 287??5 條評(píng)論?分享?喜歡?收藏?申請(qǐng)轉(zhuǎn)載?文章被以下專欄收錄產(chǎn)品對(duì)科技前沿的關(guān)注人工智能、人機(jī)交互、隱私計(jì)算好奇元素社畜的工作記錄&日常點(diǎn)滴記錄工

智能代理_百度百科

_百度百科 網(wǎng)頁(yè)新聞貼吧知道網(wǎng)盤(pán)圖片視頻地圖文庫(kù)資訊采購(gòu)百科百度首頁(yè)登錄注冊(cè)進(jìn)入詞條全站搜索幫助首頁(yè)秒懂百科特色百科知識(shí)專題加入百科百科團(tuán)隊(duì)權(quán)威合作下載百科APP個(gè)人中心收藏查看我的收藏0有用+10智能代理播報(bào)討論上傳視頻定期地收集信息或執(zhí)行服務(wù)的程序本詞條由“科普中國(guó)”科學(xué)百科詞條編寫(xiě)與應(yīng)用工作項(xiàng)目 審核 。智能代理(intelligent agent)是定期地收集信息或執(zhí)行服務(wù)的程序,它不需要人工干預(yù),具有高度智能性和自主學(xué)習(xí)性,可以根據(jù)用戶定義的準(zhǔn)則,主動(dòng)地通過(guò)智能化代理服務(wù)器為用戶搜集最感興趣的信息,然后利用代理通信協(xié)議把加工過(guò)的信息按時(shí)推送給用戶,并能推測(cè)出用戶的意圖,自主制訂、調(diào)整和執(zhí)行工作計(jì)劃。中文名智能代理外文名intelligent agent功????能感知環(huán)境中的動(dòng)態(tài)條件特????點(diǎn)不需要人的即時(shí)干預(yù)優(yōu)????點(diǎn)擁有個(gè)性化,目錄1內(nèi)容簡(jiǎn)介2基本介紹3什么是智能代理技術(shù)4智能代理基本類型5智能代理的功能特點(diǎn)?智能性?代理性?學(xué)習(xí)性?合作性?持續(xù)性?工作原理6應(yīng)用?智能搜索代理的研究和開(kāi)發(fā)?智能代理技術(shù)在數(shù)字圖書(shū)館的應(yīng)用內(nèi)容簡(jiǎn)介播報(bào)編輯在Internet中,典型地,智能代理程序,可以根據(jù)所提供的參數(shù),按一定周期,搜索整個(gè)Internet或它的一部分,收集你感興趣的信息。智能代理有時(shí)被稱作bot,機(jī)器人的縮寫(xiě)。有些代理還可以基于注冊(cè)信息和用法分析在網(wǎng)站上將信息私人化。其它類型的代理包括定點(diǎn)監(jiān)測(cè),然后等網(wǎng)站進(jìn)行更新或者尋找到其它的事情以后告知你,分析代理不僅收集信息,還為你整理和提供信息。代理把信息交給你的方法通常稱之為push技術(shù)。 [1]基本介紹播報(bào)編輯美國(guó)斯坦福大學(xué)的Hayers Roth認(rèn)為"智能代理持續(xù)地執(zhí)行3項(xiàng)功能:感知環(huán)境中的動(dòng)態(tài)條件;執(zhí)行動(dòng)作影響環(huán)境;進(jìn)行推理以解釋感知信息,求解問(wèn)題,產(chǎn)生推理和決定動(dòng)作."他認(rèn)為,代理應(yīng)在動(dòng)作選擇過(guò)程中進(jìn)行推理和規(guī)劃.通常,廣義的智能代理包括人類,物理世界中的移動(dòng)機(jī)器人和信息世界中軟件機(jī)器人.而狹義的智能代理則專指信息世界中的軟件機(jī)器人,它是代表用戶或其他程序,以主動(dòng)服務(wù)的方式完成的一組操作的機(jī)動(dòng)計(jì)算實(shí)體,主動(dòng)服務(wù)包括主動(dòng)適應(yīng)性和主動(dòng)代理.總之.智能代理是指收集信息或提供其他相關(guān)服務(wù)的程序,它不需要人的即時(shí)干預(yù)即可定時(shí)完成所需功能.智能代理可以看作是利用傳感器感知環(huán)境,并使用效應(yīng)器作用于環(huán)境的任何實(shí)體.智能代理是一套輔助人和充當(dāng)他們代表的軟件,人們可以借助于智能代理進(jìn)行網(wǎng)上交易.一般智能代理有以下4個(gè)特征:代理性,智能性,機(jī)動(dòng)性和個(gè)性化.代理性主要是指智能代理的自主與協(xié)調(diào)工作能力.表現(xiàn)為智能代理從事行為的自動(dòng)化程度,即操作行為可以離開(kāi)人或代理程序的干預(yù).但代理在其系統(tǒng)中必須通過(guò)操作行為加以控制,當(dāng)其他代理提出請(qǐng)求時(shí),只有代理自己才能決定是接受還是拒絕這種請(qǐng)求.智能性是指代理的推理和學(xué)習(xí)能力,它描述了智能代理接受用戶目標(biāo)指令并代表用戶完成任務(wù)的能力,如理解用戶用自然語(yǔ)言表達(dá)的對(duì)信息資源和計(jì)算資源的需求.幫助用戶在一定程度上克服信息內(nèi)容的語(yǔ)言障礙,捕捉用戶的偏好和興趣.推測(cè)用戶的用途并為其代勞等.機(jī)動(dòng)性是指智能代理在網(wǎng)絡(luò)之間的遷移能力.操作任務(wù)和處理能從一臺(tái)計(jì)算機(jī)運(yùn)行到另一臺(tái)計(jì)算機(jī)上.在必要時(shí),智能代理能夠同其他代理和人進(jìn)行交流,并且都可以從事自己的操作以及幫助其他代理和人.另外.智能代理?yè)碛袀€(gè)性化,通過(guò)個(gè)性化的渲染和個(gè)性化的設(shè)置.用戶就會(huì)在瀏覽商品的過(guò)程中,逐步提高購(gòu)買(mǎi)欲.如果將智能代理技術(shù)應(yīng)用到電子商務(wù)系統(tǒng)中.就可以為全球用戶提供一個(gè)不受時(shí)空限制的交易場(chǎng)所.什么是智能代理技術(shù)播報(bào)編輯VisiBroker的智能代理(osagent)是一種動(dòng)態(tài)分布式目錄服務(wù),它提供客戶程序與服務(wù)程序雙方使用的功能.智能代理必須在本地網(wǎng)絡(luò)中至少一臺(tái)主機(jī)上啟動(dòng).客戶程序調(diào)用對(duì)象的b i n d方法時(shí),會(huì)自動(dòng)查詢智能代理,由智能代理查找指定的實(shí)現(xiàn),從而建立客戶程序與實(shí)現(xiàn)之間的連接.與智能代理的通信對(duì)客戶程序完全透明.如果POA設(shè)置了PERSISTENT策略并使用activate_ object_with_id方法,智能代理將登記對(duì)象或?qū)崿F(xiàn),從而可由客戶程序使用它,當(dāng)對(duì)象或?qū)崿F(xiàn)被凍結(jié)時(shí),智能代理將它從可用對(duì)象列表中刪除。與客戶程序一樣,與智能代理的通信對(duì)對(duì)象實(shí)現(xiàn)也完全透明。智能代理基本類型播報(bào)編輯智能代理可分為四種基本類型:信息代理;檢測(cè)和監(jiān)視代理;數(shù)據(jù)挖掘代理;用戶代理或個(gè)人代理。智能代理的功能特點(diǎn)播報(bào)編輯智能代理技術(shù)是人工智能在網(wǎng)絡(luò)信息技術(shù)領(lǐng)域的運(yùn)用,具有顯著的特性和強(qiáng)大的功能,其基本功能特點(diǎn)如下: [2]智能性這是智能代理技術(shù)的一個(gè)最基本的特點(diǎn),具有解決問(wèn)題所需的豐富知識(shí)、策略和相關(guān)數(shù)據(jù),能夠進(jìn)行相關(guān)的推理和智能計(jì)算,智能代理還可以在用戶沒(méi)有給出十分明確的需求時(shí)推測(cè)出用戶的意圖、興趣或愛(ài)好,并按最佳方式代為其完成任務(wù),對(duì)用戶的需求能分析地推送,并能自動(dòng)拒絕一些不合理或可能給用戶帶來(lái)危害的要求;智能代理還從經(jīng)驗(yàn)中不斷自我學(xué)習(xí),能夠根據(jù)環(huán)境調(diào)整自身的行為,從而提高處理問(wèn)題的能力;智能代理還可以實(shí)現(xiàn)對(duì)信息進(jìn)行篩選和過(guò)濾的功能。代理性也是智能代理技術(shù)的一個(gè)最基本的特點(diǎn),能夠使用代理通信協(xié)議進(jìn)行信息交換,并把檢索信息結(jié)果主動(dòng)推送給用戶,并管理用戶的個(gè)人資料及其私人目錄下的知識(shí)庫(kù)。學(xué)習(xí)性也稱自主性。智能代理技術(shù)能夠根據(jù)當(dāng)前環(huán)境的變化,動(dòng)態(tài)地調(diào)整自己去完成各項(xiàng)任務(wù)、計(jì)劃,并主動(dòng)地把信息過(guò)濾、整理后提供給用戶服務(wù)。合作性每個(gè)智能代理有標(biāo)準(zhǔn)的接口,采用統(tǒng)一的通信語(yǔ)言進(jìn)行信息的交流。多代理系統(tǒng)由代理組成,通過(guò)代理本身的搜索活動(dòng)和相互之間的交互活動(dòng),構(gòu)成系統(tǒng)的群體活動(dòng),相互之間分工合作共同完成復(fù)雜任務(wù),從而實(shí)現(xiàn)系統(tǒng)整體的功能或目的,同時(shí),每個(gè)代理也在這種交互的過(guò)程中實(shí)現(xiàn)了自己的功能或目的。持續(xù)性各個(gè)智能代理有不同的任務(wù),在Internet上搜索訪問(wèn),這種移動(dòng)是多點(diǎn)并行的,具有可以跨地域、時(shí)空持續(xù)運(yùn)行的功能特點(diǎn)。工作原理智能代理體系結(jié)構(gòu)簡(jiǎn)圖智能代理可以看作是知識(shí)處理的實(shí)體,它由知識(shí)庫(kù)、規(guī)則庫(kù)、推理機(jī)、各代理之間的通信協(xié)議組成,能夠完成知識(shí)發(fā)現(xiàn)代理、通信協(xié)作代理、規(guī)則庫(kù)應(yīng)用代理、監(jiān)督代理、知識(shí)庫(kù)管理代理、推送代理等功能,如《智能代理體系結(jié)構(gòu)簡(jiǎn)圖》所示:我們可以看出其工作過(guò)程,各個(gè)智能代理都有自己的知識(shí)庫(kù),用戶表達(dá)出自己的信息需求后,通過(guò)通信協(xié)作代理傳給知識(shí)庫(kù),根據(jù)用戶信息庫(kù)中用戶特定的需求和近一段時(shí)間內(nèi)的愛(ài)好興趣為標(biāo)準(zhǔn)來(lái)篩選信息。監(jiān)督代理就是當(dāng)用戶提出信息需求時(shí),它就會(huì)檢查知識(shí)庫(kù)中是否用戶以前有過(guò)相似的信息需求,若有就把知識(shí)庫(kù)中用戶以前的需求記錄提取出來(lái),通過(guò)推送代理發(fā)給用戶;若知識(shí)庫(kù)中沒(méi)有用戶的信息需求,經(jīng)規(guī)則應(yīng)用庫(kù)代理理解生成一定的搜索規(guī)則,傳送給知識(shí)發(fā)現(xiàn)代理進(jìn)行相關(guān)信息搜索,搜索后的結(jié)果經(jīng)信息過(guò)濾后存于信息數(shù)據(jù)庫(kù),再經(jīng)過(guò)知識(shí)庫(kù)的推理機(jī)制推斷用戶的潛在需求,作為用戶需求歷史記錄下來(lái),結(jié)果推送給用戶。監(jiān)督代理還根據(jù)一定規(guī)則實(shí)時(shí)動(dòng)態(tài)地跟蹤信息數(shù)據(jù)庫(kù)中歷史記錄在Internet 網(wǎng)絡(luò)上的變化,一旦知識(shí)發(fā)現(xiàn)代理收集到相關(guān)內(nèi)容和更新內(nèi)容,監(jiān)督代理就通知規(guī)則應(yīng)用庫(kù)生成新的檢索規(guī)則或應(yīng)用,并通知和提醒用戶有新的信息內(nèi)容,還可以E-mail 方式把特定更新內(nèi)容以推送方式提交給用戶。檢索完成后允許用戶對(duì)結(jié)果進(jìn)行滿意度和相關(guān)度的評(píng)價(jià)并反饋給知識(shí)庫(kù),一方面了解用戶的新的興趣需求,另一方面完善用戶所需信息相關(guān)度的匹配規(guī)則,為用戶的未來(lái)信息檢索提供可靠的保障。 [2]應(yīng)用播報(bào)編輯智能代理技術(shù)最初應(yīng)用于商業(yè)領(lǐng)域,隨著通信技術(shù)和網(wǎng)絡(luò)信息技術(shù)的迅速發(fā)展,其特性和功能也不斷地?cái)U(kuò)展,主要應(yīng)用在智能搜索代理、數(shù)字圖書(shū)館、電子商務(wù)和遠(yuǎn)程教育的研究和開(kāi)發(fā)等領(lǐng)域。 [2]智能搜索代理的研究和開(kāi)發(fā)伴隨著計(jì)算機(jī)人工智能研究的不斷發(fā)展,具有智能性、代理性、適應(yīng)性、學(xué)習(xí)性等特征的智能代理技術(shù)從試驗(yàn)階段走向?qū)嶋H的應(yīng)用。 目前,智能搜索代理已經(jīng)成為網(wǎng)絡(luò)信息檢索的核心技術(shù)。智能搜索代理就是智能代理技術(shù)應(yīng)用于網(wǎng)絡(luò)信息檢索的特定領(lǐng)域,它是目前具有前瞻性、先進(jìn)性的網(wǎng)絡(luò)信息檢索手段,目的是為用戶提供迅速、準(zhǔn)確、方便的網(wǎng)絡(luò)信息檢索服務(wù)。同傳統(tǒng)的搜索引擎相比,智能搜索代理具有自己鮮明的特色。智能代理技術(shù)在數(shù)字圖書(shū)館的應(yīng)用數(shù)字圖書(shū)館也是近年來(lái)國(guó)內(nèi)外圖書(shū)情報(bào)學(xué)界研究和開(kāi)發(fā)的新領(lǐng)域,數(shù)字圖書(shū)館是海量的“ 信息空間”,可以滿足分布式面向?qū)ο蟮男畔⒉樵冃枰?。它以網(wǎng)絡(luò)信息資源建設(shè)為核心,采用人工智能、信息海量存取、多媒體制作與傳輸、自動(dòng)標(biāo)引、數(shù)字版權(quán)保護(hù)、電子商務(wù)等現(xiàn)代信息技術(shù)成果,形成超大規(guī)模、分布式體系,便于使用、沒(méi)有時(shí)空限制、可以實(shí)現(xiàn)跨庫(kù)無(wú)縫鏈接與智能檢索的知識(shí)中心。智能代理技術(shù)也在數(shù)字圖書(shū)館中發(fā)揮了非常重要的作用。新手上路成長(zhǎng)任務(wù)編輯入門(mén)編輯規(guī)則本人編輯我有疑問(wèn)內(nèi)容質(zhì)疑在線客服官方貼吧意見(jiàn)反饋投訴建議舉報(bào)不良信息未通過(guò)詞條申訴投訴侵權(quán)信息封禁查詢與解封?2024?Baidu?使用百度前必讀?|?百科協(xié)議?|?隱私政策?|?百度百科合作平臺(tái)?|?京ICP證030173號(hào)?京公網(wǎng)安備110000020000

細(xì)說(shuō)復(fù)旦大學(xué),斯坦福大學(xué)智能代理AI-Agent(二更) - 知乎

細(xì)說(shuō)復(fù)旦大學(xué),斯坦福大學(xué)智能代理AI-Agent(二更) - 知乎首發(fā)于大模型學(xué)習(xí)資料切換模式寫(xiě)文章登錄/注冊(cè)細(xì)說(shuō)復(fù)旦大學(xué),斯坦福大學(xué)智能代理AI-Agent(二更)愛(ài)吃牛油果的璐璐?北京大學(xué) 電子與通信工程碩士Agent就是智能體的意思。前言最近AI圈很火的一個(gè)話題就是AI Agent了!AI創(chuàng)投圈也在密切關(guān)注著相關(guān)創(chuàng)業(yè)公司的進(jìn)展。很多人說(shuō)大模型都沒(méi)搞明白,又來(lái)了個(gè)AI Agent…... 但是別擔(dān)心Agent目前也是在起始階段。AI Agent能力其實(shí)是和大模型相生的,大模型的能力邊界決定了AI Agent的能力邊界。最近,復(fù)旦大學(xué),斯坦福大學(xué)都發(fā)表了對(duì)AI AGENT的看法和認(rèn)識(shí)。研究背景早在 1950 年代,Alan Turing 就將「智能」的概念擴(kuò)展到了人工實(shí)體,并提出了著名的圖靈測(cè)試。這些人工智能實(shí)體通常被稱為 —— 代理(Agent)?!复怼惯@一概念起源于哲學(xué),描述了一種擁有欲望、信念、意圖以及采取行動(dòng)能力的實(shí)體。斯坦福大學(xué)的一篇名為《Generative Agents: Interactive Simulacra of Human Behavior》的論文深入研究了記憶、反應(yīng)和計(jì)劃的AI Agent。什么是AI AgentAI Agent 被認(rèn)為是 OpenAI 發(fā)力的下一個(gè)方向。OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 在近期的公開(kāi)活動(dòng)上說(shuō) “ 相比模型訓(xùn)練方法,OpenAI 內(nèi)部目前更關(guān)注 Agent 領(lǐng)域的變化,每當(dāng)有新的 AI Agents 論文出來(lái)的時(shí)候,內(nèi)部都會(huì)很興奮并且認(rèn)真地討論 ” 。在人工智能領(lǐng)域,這一術(shù)語(yǔ)被賦予了一層新的含義:具有自主性、反應(yīng)性、積極性和社交能力特征的智能實(shí)體。AI Agent,它被設(shè)計(jì)為具有獨(dú)立思考和行動(dòng)能力的AI程序。你只需要提供一個(gè)目標(biāo),比如寫(xiě)一個(gè)游戲、開(kāi)發(fā)一個(gè)網(wǎng)頁(yè),他就會(huì)根據(jù)環(huán)境的反應(yīng)和獨(dú)白的形式生成一個(gè)任務(wù)序列開(kāi)始工作。就好像是人工智能可以自我提示反饋,不斷發(fā)展和適應(yīng),以盡可能最好的方式來(lái)實(shí)現(xiàn)你給出的目標(biāo)。 NLP 到 AGI 的發(fā)展路線NLP 到 AGI 的發(fā)展路線分為五級(jí):語(yǔ)料庫(kù)、互聯(lián)網(wǎng)、感知、具身和社會(huì)屬性,那么目前的大型語(yǔ)言模型已經(jīng)來(lái)到了第二級(jí),具有互聯(lián)網(wǎng)規(guī)模的文本輸入和輸出。在這個(gè)基礎(chǔ)上,如果賦予 LLM-based Agents 感知空間和行動(dòng)空間,它們將達(dá)到第三、第四級(jí)。進(jìn)一步地,多個(gè)代理通過(guò)互動(dòng)、合作解決更復(fù)雜的任務(wù),或者反映出現(xiàn)實(shí)世界的社會(huì)行為,則有潛力來(lái)到第五級(jí) —— 代理社會(huì)。為什么需要AI Agent為什么大語(yǔ)言模型(LLM)剛流行不久,就需要AI Agent呢?LLM與LangChain 等工具相結(jié)合,釋放了內(nèi)容生成、編碼和分析方面的多種可能性,目前在ChatGPT插件中比較有代表性的插件就是code interpreter。在這方面的應(yīng)用上Agent的概念應(yīng)用發(fā)揮著舉足輕重的作用。關(guān)于lang chain更多介紹:愛(ài)吃牛油果的璐璐:(萬(wàn)字長(zhǎng)文)手把手教你認(rèn)識(shí)學(xué)會(huì)LangChain 這里可以將Agent視為人工智能大腦,它使用LLM進(jìn)行推理、計(jì)劃和采取行動(dòng)。語(yǔ)言模型 (LLM) 僅限于它們所訓(xùn)練的知識(shí),并且這些知識(shí)很快就會(huì)過(guò)時(shí)。(每天用最新信息重新訓(xùn)練這么大的模型是不可行的。)LLM的一些缺點(diǎn)會(huì)產(chǎn)生幻覺(jué)。結(jié)果并不總是真實(shí)的。對(duì)時(shí)事的了解有限或一無(wú)所知。很難應(yīng)對(duì)復(fù)雜的計(jì)算。這就是AI Agent的用武之地,它可以利用外部工具來(lái)克服這些限制。這里的工具是什么呢?工具就是代理用它來(lái)完成特定任務(wù)的一個(gè)插件、一個(gè)集成API、一個(gè)代碼庫(kù)等等,例如:Google搜索:獲取最新信息Python REPL:執(zhí)行代碼Wolfram:進(jìn)行復(fù)雜的計(jì)算外部API:獲取特定信息而LangChain則是提供一種通用的框架通過(guò)大語(yǔ)言模型的指令來(lái)輕松地實(shí)現(xiàn)這些工具的調(diào)用。AI Agent的誕生就是為了處理各種復(fù)雜任務(wù)的,就復(fù)雜任務(wù)的處理流程而言AI Agent主要分為兩大類:行動(dòng)類、規(guī)劃執(zhí)行類。智能代理的框架LLM-based Agent 的概念框架,包含三個(gè)組成部分:控制端(Brain)、感知端(Perception)和行動(dòng)端(Action)。下面將分別介紹:控制端:Brain是智能代理的核心。它不僅可以存儲(chǔ)記憶和知識(shí),還承擔(dān)著信息處理、決策等不可或缺的功能。它可以呈現(xiàn)推理和計(jì)劃的過(guò)程,并很好地應(yīng)對(duì)未知任務(wù),反映出智能代理的泛化性和遷移性??刂贫俗鳛橹悄艽碜詈诵牡慕M成成分,作者們從五個(gè)方面展開(kāi)介紹其能力:自然語(yǔ)言交互:語(yǔ)言是溝通的媒介,其中包含著豐富的信息。得益于 LLMs 強(qiáng)大的自然語(yǔ)言生成和理解能力,智能代理能夠通過(guò)自然語(yǔ)言與外界進(jìn)行多輪交互,進(jìn)而實(shí)現(xiàn)目標(biāo)。具體而言,可以分為兩個(gè)方面:高質(zhì)量文本生成:大量評(píng)估實(shí)驗(yàn)表明,LLMs 能夠生成流暢、多樣、新穎、可控的文本。盡管在個(gè)別語(yǔ)言上表現(xiàn)欠佳,但整體上具備良好的多語(yǔ)言能力。言外之意的理解:除了直觀表現(xiàn)出的內(nèi)容,語(yǔ)言背后可能還傳遞了說(shuō)話者的意圖、偏好等信息。言外之意有助于代理更高效地溝通與合作,大模型已經(jīng)展現(xiàn)出了這方面的潛力。知識(shí):基于大批量語(yǔ)料訓(xùn)練的 LLMs,擁有了存儲(chǔ)海量知識(shí)(Knowledge)的能力。除了語(yǔ)言知識(shí)以外,常識(shí)知識(shí)和專業(yè)技能知識(shí)都是 LLM-based Agents 的重要組成部分。雖然 LLMs 其本身仍然存在知識(shí)過(guò)期、幻覺(jué)等問(wèn)題,現(xiàn)有的一些研究通過(guò)知識(shí)編輯或調(diào)用外部知識(shí)庫(kù)等方法,可以在一定程度上得到緩解。記憶:在本文框架中,記憶模塊(Memory)儲(chǔ)存了代理過(guò)往的觀察、思考和行動(dòng)序列。通過(guò)特定的記憶機(jī)制,代理可以有效地反思并應(yīng)用先前的策略,使其借鑒過(guò)去的經(jīng)驗(yàn)來(lái)適應(yīng)陌生的環(huán)境。短期記憶:我認(rèn)為所有的上下文學(xué)習(xí)(參見(jiàn)提示工程)都是利用模型的短期記憶來(lái)學(xué)習(xí)。長(zhǎng)期記憶:這為代理提供了長(zhǎng)時(shí)間保留和回憶(無(wú)限)信息的能力,通常是通過(guò)利用外部向量存儲(chǔ)和快速檢索。通常用于提升記憶能力的方法有三種:擴(kuò)展 Backbone 架構(gòu)的長(zhǎng)度限制:針對(duì) Transformers 固有的序列長(zhǎng)度限制問(wèn)題進(jìn)行改進(jìn)??偨Y(jié)記憶(Summarizing):對(duì)記憶進(jìn)行摘要總結(jié),增強(qiáng)代理從記憶中提取關(guān)鍵細(xì)節(jié)的能力。壓縮記憶(Compressing):通過(guò)使用向量或適當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)對(duì)記憶進(jìn)行壓縮,可以提高記憶檢索效率。此外,記憶的檢索方法也很重要,只有檢索到合適的內(nèi)容,代理才能夠訪問(wèn)到最相關(guān)和準(zhǔn)確的信息。推理 & 規(guī)劃:推理能力(Reasoning)對(duì)于智能代理進(jìn)行決策、分析等復(fù)雜任務(wù)而言至關(guān)重要。具體到 LLMs 上,就是以 思維鏈(Chain-of-Thought,CoT) 為代表的一系列提示方法。(思維鏈介紹:https://zhuanlan.zhihu.com/p/655427670?utm_psn=1721304654632386560 )而規(guī)劃(Planning)則是面對(duì)大型挑戰(zhàn)時(shí)常用的策略。它幫助代理組織思維、設(shè)定目標(biāo)并確定實(shí)現(xiàn)這些目標(biāo)的步驟。在具體實(shí)現(xiàn)中,規(guī)劃可以包含兩個(gè)步驟:計(jì)劃制定(Plan Formulation):代理將復(fù)雜任務(wù)分解為更易于管理的子任務(wù)。例如:一次性分解再按順序執(zhí)行、逐步規(guī)劃并執(zhí)行、多路規(guī)劃并選取最優(yōu)路徑等。在一些需要專業(yè)知識(shí)的場(chǎng)景中,代理可與特定領(lǐng)域的 Planner 模塊集成,提升能力。計(jì)劃反思(Plan Reflection):在制定計(jì)劃后,可以進(jìn)行反思并評(píng)估其優(yōu)劣。這種反思一般來(lái)自三個(gè)方面:借助內(nèi)部反饋機(jī)制;與人類互動(dòng)獲得反饋;從環(huán)境中獲得反饋。遷移性 & 泛化性:擁有世界知識(shí)的 LLMs 賦予智能代理具備強(qiáng)大的遷移與泛化能力。一個(gè)好的代理不是靜態(tài)的知識(shí)庫(kù),還應(yīng)具備動(dòng)態(tài)的學(xué)習(xí)能力:對(duì)未知任務(wù)的泛化:隨著模型規(guī)模與訓(xùn)練數(shù)據(jù)的增大,LLMs 在解決未知任務(wù)上涌現(xiàn)出了驚人的能力。通過(guò)指令微調(diào)的大模型在 zero-shot 測(cè)試中表現(xiàn)良好,在許多任務(wù)上都取得了不亞于專家模型的成績(jī)。情景學(xué)習(xí)(In-context Learning):大模型不僅能夠從上下文的少量示例中進(jìn)行類比學(xué)習(xí),這種能力還可以擴(kuò)展到文本以外的多模態(tài)場(chǎng)景,為代理在現(xiàn)實(shí)世界中的應(yīng)用提供了更多可能性。持續(xù)學(xué)習(xí)(Continual Learning):持續(xù)學(xué)習(xí)的主要挑戰(zhàn)是災(zāi)難性遺忘,即當(dāng)模型學(xué)習(xí)新任務(wù)時(shí)容易丟失過(guò)往任務(wù)中的知識(shí)。專有領(lǐng)域的智能代理應(yīng)當(dāng)盡量避免丟失通用領(lǐng)域的知識(shí)。感知端:Perception多模態(tài)感知能加深代理對(duì)工作環(huán)境的理解,顯著提升了其通用性。文本輸入:作為 LLMs 最基礎(chǔ)的能力,這里不再贅述。視覺(jué)輸入:LLMs 本身并不具備視覺(jué)的感知能力,只能理解離散的文本內(nèi)容。而視覺(jué)輸入通常包含有關(guān)世界的大量信息,包括對(duì)象的屬性,空間關(guān)系,場(chǎng)景布局等等。常見(jiàn)的方法有:將視覺(jué)輸入轉(zhuǎn)為對(duì)應(yīng)的文本描述(Image Captioning):可以被 LLMs 直接理解,并且可解釋性高。對(duì)視覺(jué)信息進(jìn)行編碼表示:以視覺(jué)基礎(chǔ)模型 + LLMs 的范式來(lái)構(gòu)成感知模塊,通過(guò)對(duì)齊操作來(lái)讓模型理解不同模態(tài)的內(nèi)容,可以端到端的方式進(jìn)行訓(xùn)練。聽(tīng)覺(jué)輸入:聽(tīng)覺(jué)也是人類感知中的重要組成部分。由于 LLMs 有著優(yōu)秀的工具調(diào)用能力,一個(gè)直觀的想法就是:代理可以將 LLMs 作為控制樞紐,通過(guò)級(jí)聯(lián)的方式調(diào)用現(xiàn)有的工具集或者專家模型,感知音頻信息。此外,音頻也可以通過(guò)頻譜圖(Spectrogram)的方式進(jìn)行直觀表示。頻譜圖可以作為平面圖像來(lái)展示 2D 信息,因此,一些視覺(jué)的處理方法可以遷移到語(yǔ)音領(lǐng)域。其他輸入:現(xiàn)實(shí)世界中的信息遠(yuǎn)不止文本、視覺(jué)和聽(tīng)覺(jué)。作者們希望在未來(lái),智能代理能配備更豐富的感知模塊,例如觸覺(jué)、嗅覺(jué)等器官,用于獲取目標(biāo)物體更加豐富的屬性。同時(shí),代理也能對(duì)周?chē)h(huán)境的溫度、濕度和明暗程度有清楚的感受,采取更 Environment-aware 的行動(dòng)。此外,還可以為代理引入對(duì)更廣闊的整體環(huán)境的感知:采用激光雷達(dá)、GPS、慣性測(cè)量單元等成熟的感知模塊。行動(dòng)端:Action在大腦做出分析、決策后,代理還需要做出行動(dòng)以適應(yīng)或改變環(huán)境:文本輸出:作為 LLMs 最基礎(chǔ)的能力,這里不再贅述。工具使用:盡管 LLMs 擁有出色的知識(shí)儲(chǔ)備和專業(yè)能力,但在面對(duì)具體問(wèn)題時(shí),也可能會(huì)出現(xiàn)魯棒性問(wèn)題、幻覺(jué)等一系列挑戰(zhàn)。與此同時(shí),工具作為使用者能力的擴(kuò)展,可以在專業(yè)性、事實(shí)性、可解釋性等方面提供幫助。例如,可以通過(guò)使用計(jì)算器來(lái)計(jì)算數(shù)學(xué)問(wèn)題、使用搜索引擎來(lái)搜尋實(shí)時(shí)信息。另外,工具也可以擴(kuò)展智能代理的行動(dòng)空間。例如,通過(guò)調(diào)用語(yǔ)音生成、圖像生成等專家模型,來(lái)獲得多模態(tài)的行動(dòng)方式。因此,如何讓代理成為優(yōu)秀的工具使用者,即學(xué)會(huì)如何有效地利用工具,是非常重要且有前景的方向。目前,主要的工具學(xué)習(xí)方法包括從演示中學(xué)習(xí)和從反饋中學(xué)習(xí)。此外,也可以通過(guò)元學(xué)習(xí)、課程學(xué)習(xí)等方式來(lái)讓代理程序在使用各種工具方面具備泛化能力。更進(jìn)一步,智能代理還可以進(jìn)一步學(xué)習(xí)如何「自給自足」地制造工具,從而提高其自主性和獨(dú)立性。具身行動(dòng):具身(Embodyment)是指代理與環(huán)境交互過(guò)程中,理解、改造環(huán)境并更新自身狀態(tài)的能力。具身行動(dòng)(Embodied Action)被視為虛擬智能與物理現(xiàn)實(shí)的互通橋梁。傳統(tǒng)的基于強(qiáng)化學(xué)習(xí)的 Agent 在樣本效率、泛化性和復(fù)雜問(wèn)題推理等方面存在局限性,而 LLM-based Agents 通過(guò)引入大模型豐富的內(nèi)在知識(shí),使得 Embodied Agent 能夠像人類一樣主動(dòng)感知、影響物理環(huán)境。根據(jù)代理在任務(wù)中的自主程度或者說(shuō) Action 的復(fù)雜程度,可以有以下的原子 Action:Observation 可以幫助智能代理在環(huán)境中定位自身位置、感知對(duì)象物品和獲取其他環(huán)境信息;Manipulation 則是完成一些具體的抓取、推動(dòng)等操作任務(wù);Navigation 要求智能代理根據(jù)任務(wù)目標(biāo)變換自身位置并根據(jù)環(huán)境信息更新自身狀態(tài)。通過(guò)組合這些原子行動(dòng),代理可以完成更為復(fù)雜的任務(wù)。例如「廚房的西瓜比碗大嗎?」這類具身的 QA 任務(wù)。為了解決這個(gè)問(wèn)題,代理需要導(dǎo)航到廚房,并在觀察二者的大小后得出答案。智能代理的應(yīng)用場(chǎng)景LLM-based Agent 的三種應(yīng)用范式:?jiǎn)未?、多代理、人機(jī)交互。單代理場(chǎng)景可以接受人類自然語(yǔ)言命令,執(zhí)行日常任務(wù)的智能代理目前備受用戶青睞,具有很高的現(xiàn)實(shí)使用價(jià)值。作者們首先在單智能代理的應(yīng)用場(chǎng)景中,闡述了其多樣化的應(yīng)用場(chǎng)景與對(duì)應(yīng)能力。在論文中,單智能代理的應(yīng)用被劃分為如下三個(gè)層次:?jiǎn)未響?yīng)用場(chǎng)景的三個(gè)層次:任務(wù)導(dǎo)向、創(chuàng)新導(dǎo)向、生命周期導(dǎo)向。在任務(wù)導(dǎo)向的部署中,代理幫助人類用戶處理日常基本任務(wù)。它們需要具備基本的指令理解、任務(wù)分解、與環(huán)境交互的能力。具體來(lái)說(shuō),根據(jù)現(xiàn)有的任務(wù)類型,代理的實(shí)際應(yīng)用又可以分為模擬網(wǎng)絡(luò)環(huán)境與模擬生活場(chǎng)景。在創(chuàng)新導(dǎo)向的部署中,代理能夠在前沿科學(xué)領(lǐng)域展現(xiàn)出自主探究的潛力。雖然來(lái)自專業(yè)領(lǐng)域的固有復(fù)雜性和訓(xùn)練數(shù)據(jù)的缺乏給智能代理的構(gòu)建帶來(lái)了阻礙,但目前已經(jīng)有許多工作在化學(xué)、材料、計(jì)算機(jī)等領(lǐng)域取得了進(jìn)展。在生命周期導(dǎo)向的部署中,代理具備在一個(gè)開(kāi)放世界中不斷探索、學(xué)習(xí)和使用新技能,并長(zhǎng)久生存的能力。在本節(jié)中,作者們以《我的世界》游戲?yàn)槔归_(kāi)介紹。由于游戲中的生存挑戰(zhàn)可以被認(rèn)為是現(xiàn)實(shí)世界的一個(gè)縮影,已經(jīng)有許多研究者將其作為開(kāi)發(fā)和測(cè)試代理綜合能力的獨(dú)特平臺(tái)。多代理場(chǎng)景多代理應(yīng)用場(chǎng)景的兩種交互形式:合作型互動(dòng)、對(duì)抗型互動(dòng)。合作型互動(dòng):作為實(shí)際應(yīng)用中部署最為廣泛的類型,合作型的代理系統(tǒng)可以有效提高任務(wù)效率、共同改進(jìn)決策。具體來(lái)說(shuō),根據(jù)合作形式的不同,作者們又將合作型互動(dòng)細(xì)分為無(wú)序合作與有序合作。當(dāng)所有代理自由地表達(dá)自己的觀點(diǎn)、看法,以一種沒(méi)有順序的方式進(jìn)行合作時(shí),稱為無(wú)序合作。當(dāng)所有代理遵循一定的規(guī)則,例如以流水線的形式逐一發(fā)表自己的觀點(diǎn)時(shí),整個(gè)合作過(guò)程井然有序,稱為有序合作。對(duì)抗型互動(dòng):智能代理以一種針?shù)h相對(duì)(tit for tat)的方式進(jìn)行互動(dòng)。通過(guò)競(jìng)爭(zhēng)、談判、辯論的形式,代理拋棄原先可能錯(cuò)誤的信念,對(duì)自己的行為或者推理過(guò)程進(jìn)行有意義的反思,最終帶來(lái)整個(gè)系統(tǒng)響應(yīng)質(zhì)量的提升。人機(jī)交互場(chǎng)景人機(jī)交互場(chǎng)景的的兩種模式:Instructor-Executor 模式 vs. Equal Partnership 模式。Instructor-Executor 模式:人類作為指導(dǎo)者,給出指令、反饋意見(jiàn);而代理作為執(zhí)行者,依據(jù)指示逐步調(diào)整、優(yōu)化。這種模式在教育、醫(yī)療、商業(yè)等領(lǐng)域得到了廣泛的應(yīng)用。Equal Partnership 模式:有研究觀察到代理能夠在與人類的交流中表現(xiàn)出共情能力,或是以平等的身份參與到任務(wù)執(zhí)行中。智能代理展現(xiàn)出在日常生活中的應(yīng)用潛力,有望在未來(lái)融入人類社會(huì)。AI Agent 一覽表書(shū)籍推薦開(kāi)放性問(wèn)題討論1.智能代理與大語(yǔ)言模型的研究該如何互相促進(jìn)、共同發(fā)展?大模型在語(yǔ)言理解、決策制定以及泛化能力等方面展現(xiàn)出強(qiáng)大的潛力,成為代理構(gòu)建過(guò)程中的關(guān)鍵角色,而代理的進(jìn)展也為大模型提出了更高的要求。2.LLM-based Agents 會(huì)帶來(lái)哪些挑戰(zhàn)與隱憂?智能代理能否真正落地,需要經(jīng)過(guò)嚴(yán)謹(jǐn)?shù)陌踩栽u(píng)估,避免對(duì)真實(shí)世界帶來(lái)危害。作者總結(jié)了更多潛在威脅,例如:非法濫用、失業(yè)風(fēng)險(xiǎn)、對(duì)人類福祉造成影響等等。3.代理數(shù)量的提升(scaling up)會(huì)帶來(lái)哪些機(jī)遇和挑戰(zhàn)?在模擬社會(huì)中,提升個(gè)體數(shù)量可以顯著提升模擬的可信度與真實(shí)性。然而,隨著代理數(shù)量的上升,通信與消息傳播問(wèn)題會(huì)變得相當(dāng)復(fù)雜,信息的失真、誤解或者幻覺(jué)現(xiàn)象都會(huì)顯著降低整個(gè)模擬系統(tǒng)的效率。4.網(wǎng)絡(luò)上關(guān)于 LLM-based Agent 是否是通向 AGI 的合適道路的爭(zhēng)論。有研究者認(rèn)為,以 GPT-4 為代表的大模型已經(jīng)在足夠的語(yǔ)料上進(jìn)行了訓(xùn)練,在此基礎(chǔ)上構(gòu)建的代理有潛力成為打開(kāi) AGI 之門(mén)的鑰匙。但也有其他研究者認(rèn)為,自回歸語(yǔ)言建模(Auto-regressive Language Modeling)并不能顯現(xiàn)出真正的智能,因?yàn)樗鼈冎皇亲鞒鲰憫?yīng)。一個(gè)更完備的建模方式,例如世界模型(World Model),才能通向 AGI。5.群體智能的演化歷程。群體智能是一種集結(jié)眾人的意見(jiàn)進(jìn)而轉(zhuǎn)化為決策的過(guò)程。然而,一味通過(guò)增加代理的數(shù)量,是否會(huì)產(chǎn)生真正的「智能」?此外,如何協(xié)調(diào)單個(gè)代理,讓智能代理社會(huì)克服「團(tuán)體迷思」和個(gè)人認(rèn)知偏差?6.代理即服務(wù)(Agent as a Service,AaaS)。由于 LLM-based Agents 比大模型本身更加復(fù)雜,中小型企業(yè)或個(gè)人更加難在本地構(gòu)建,因此云廠商可以考慮以服務(wù)的形式來(lái)將智能代理落地,即 Agent-as-a-Service。就像其他的云服務(wù)一樣,AaaS 有潛力為用戶提供高靈活性和按需的自助服務(wù)。論文參考:https://arxiv.org/pdf/2309.07864.pdf https://arxiv.org/abs/2304.03442 編輯于 2024-02-20 11:10?IP 屬地廣東?來(lái)源官方網(wǎng)站agent-based modelLLM(大型語(yǔ)言模型)Agent?贊同 187??12 條評(píng)論?分享?喜歡?收藏?申請(qǐng)轉(zhuǎn)載?文章被以下專欄收錄大模型學(xué)習(xí)資料有關(guān)大模型,前沿知識(shí)最新資料整理【關(guān)于NLP】那些你不知道的事 NLP 分享,個(gè)人的所見(jiàn)所聞所想,希望對(duì)您有

比爾蓋茨&微軟CEO:軟件的未來(lái)是智能代理Agent - 知乎

比爾蓋茨&微軟CEO:軟件的未來(lái)是智能代理Agent - 知乎首發(fā)于大模型(LXM)技術(shù)洞察切換模式寫(xiě)文章登錄/注冊(cè)比爾蓋茨&微軟CEO:軟件的未來(lái)是智能代理Agent旺知識(shí)?騰訊 應(yīng)用研究比爾蓋茨設(shè)想了一個(gè)未來(lái),人工智能“代理”(Agent)將徹底改變軟件的使用,通過(guò)自然語(yǔ)言命令實(shí)現(xiàn)各種任務(wù)之間直觀、個(gè)性化的交互。圖源:旺知識(shí)&DALL·E 3“Agents are not only going to change how everyone interacts with computers. They’re also going to upend the software industry, bringing about the biggest revolution in computing since we went from typing commands to tapping on icons.” — Bill Gates“人工智能代理(Agent)不僅會(huì)改變每個(gè)人與計(jì)算機(jī)交互的方式。它們還將顛覆軟件行業(yè),帶來(lái)自我們從鍵入命令到點(diǎn)擊圖標(biāo)以來(lái)最大的計(jì)算革命?!?- 比爾蓋茨比爾·蓋茨在他的文章“人工智能即將徹底改變你使用計(jì)算機(jī)的方式(并顛覆軟件行業(yè))”中談到了人工智能 (AI) 將如何改變我們使用計(jì)算機(jī)和軟件的方式。他解釋說(shuō),人工智能將對(duì)軟件的工作方式以及我們與設(shè)備的交互方式產(chǎn)生重大影響。蓋茨描繪了一個(gè)未來(lái),人工智能代理將極大地簡(jiǎn)化和增強(qiáng)我們與技術(shù)的交互,從而帶來(lái)更加集成、高效和個(gè)性化的數(shù)字體驗(yàn)。然而,蓋茨也強(qiáng)調(diào)需要解決隨之而來(lái)的技術(shù)和道德挑戰(zhàn),以確保對(duì)社會(huì)產(chǎn)生積極影響。1. 現(xiàn)有軟件仍然笨拙比爾蓋茨了解軟件。他仍然是軟件的粉絲,但也承認(rèn),盡管軟件已經(jīng)取得了許多進(jìn)步,但軟件仍然可能相當(dāng)笨拙。比爾蓋茨是這樣說(shuō)的:“I still love software as much today as I did when Paul Allen and I started Microsoft. But—even though it has improved a lot in the decades since then—in many ways, software is still pretty dumb.” — Bill Gates“我今天仍然像保羅·艾倫和我創(chuàng)辦微軟時(shí)一樣熱愛(ài)軟件。但是,盡管自那時(shí)以來(lái)的幾十年里它已經(jīng)有了很大的進(jìn)步,但在很多方面,軟件仍然相當(dāng)笨拙。” - 比爾蓋茨2. 軟件的未來(lái)是智能代理(Agent)比爾蓋茨預(yù)測(cè)我們與計(jì)算機(jī)交互的方式將發(fā)生重大變化,一個(gè)智能“代理”將理解我們的口頭命令并執(zhí)行各種任務(wù),從而無(wú)需為不同目的使用不同的應(yīng)用程序。以下是比爾蓋茨如何為他對(duì)軟件未來(lái)的大膽聲明奠定基礎(chǔ):“Imagine if you didn’t need to use different software—or separate apps—to draft a document, make a spreadsheet, or send an email. Imagine if you could, instead, just tell your device in everyday language what you want to do. In the next five years, that’s what you’ll be able to do. This type of software is called an agent.” — Bill Gates“想象一下,如果您不需要使用不同的軟件或單獨(dú)的應(yīng)用程序來(lái)起草文檔、制作電子表格或發(fā)送電子郵件。想象一下,如果您可以用日常語(yǔ)言告訴您的設(shè)備您想做什么。在接下來(lái)的五年里,這就是你能夠做到的。這種類型的軟件稱為代理?!? 比爾蓋茨圖源:旺知識(shí)&DALL·E 3這就是它的含義:無(wú)需為不同任務(wù)使用單獨(dú)的軟件:如今,如果您想在計(jì)算機(jī)上執(zhí)行不同的操作,例如編寫(xiě)文檔、創(chuàng)建電子表格或發(fā)送電子郵件,則需要為每項(xiàng)任務(wù)使用不同的軟件或應(yīng)用程序。蓋茨正在想象一個(gè)不需要這樣做的未來(lái)。使用日常語(yǔ)言來(lái)命令您的設(shè)備:您無(wú)需手動(dòng)打開(kāi)不同的應(yīng)用程序并瀏覽它們,只需用簡(jiǎn)單的日常語(yǔ)言與您的設(shè)備交談即可。例如,您可以說(shuō)“給約翰寫(xiě)一封關(guān)于下周會(huì)議的電子郵件”或“創(chuàng)建本月的預(yù)算電子表格”,計(jì)算機(jī)會(huì)理解并為您做這件事?!按怼避浖淖饔茫哼@種能力將通過(guò)蓋茨稱為“代理”的一種軟件來(lái)實(shí)現(xiàn)。在這種情況下,代理是人工智能的一種高級(jí)形式,它能夠理解自然語(yǔ)言,并可以根據(jù)所告知的內(nèi)容執(zhí)行各種任務(wù)。這就像擁有一位私人助理,他準(zhǔn)確了解您的需求并跨不同的應(yīng)用程序執(zhí)行任務(wù)。未來(lái)五年的轉(zhuǎn)變:蓋茨相信這項(xiàng)技術(shù)離我們并不遙遠(yuǎn)——我們可以看到它在未來(lái)五年內(nèi)成為現(xiàn)實(shí)。3. 人工智能代理的興起以下是比爾·蓋茨關(guān)于軟件未來(lái)的文章中的主要見(jiàn)解和亮點(diǎn)的細(xì)分:軟件演變:蓋茨回顧了微軟早期以來(lái)的軟件開(kāi)發(fā)歷程,承認(rèn)盡管取得了重大進(jìn)步,但當(dāng)前的軟件仍然缺乏直觀性和整體功能。人工智能代理的興起:本文介紹了人工智能“代理”的概念——能夠響應(yīng)自然語(yǔ)言并可以根據(jù)用戶知識(shí)執(zhí)行多種任務(wù)的高級(jí)軟件。這標(biāo)志著從靜態(tài)的、特定于應(yīng)用程序的機(jī)器人到動(dòng)態(tài)的、多功能代理的轉(zhuǎn)變。個(gè)性化計(jì)算體驗(yàn):蓋茨預(yù)測(cè),未來(lái)人工智能代理對(duì)用戶生活有深入的了解,可以執(zhí)行各種任務(wù),如日程安排、發(fā)送電子郵件等,有效地充當(dāng)個(gè)人助理。行業(yè)革命:這些代理不僅有望徹底改變用戶與計(jì)算機(jī)的交互,而且還將徹底改變整個(gè)軟件行業(yè),這是自命令行界面向圖形用戶界面過(guò)渡以來(lái)最重大的轉(zhuǎn)變??缧袠I(yè)應(yīng)用:醫(yī)療保?。喝斯ぶ悄艽韺f(xié)助基本分診,提供健康建議,并幫助醫(yī)護(hù)人員做出決策。教育:人工智能將補(bǔ)充教學(xué),提供個(gè)性化的學(xué)習(xí)體驗(yàn)并減輕教師的行政負(fù)擔(dān)。生產(chǎn)力:人工智能代理將通過(guò)協(xié)助規(guī)劃、電子郵件摘要等任務(wù)來(lái)提高工作場(chǎng)所生產(chǎn)力。娛樂(lè)和購(gòu)物:人工智能將個(gè)性化娛樂(lè)和購(gòu)物體驗(yàn),提供量身定制的推薦和無(wú)縫交易。服務(wù)民主化:蓋茨強(qiáng)調(diào),人工智能代理將使目前昂貴或?qū)S械姆?wù)可供更廣泛的人群使用。技術(shù)和道德挑戰(zhàn):本文還涉及開(kāi)發(fā)這些代理的技術(shù)挑戰(zhàn)和道德考慮,特別是在隱私、數(shù)據(jù)所有權(quán)和代理交互的影響方面。社會(huì)影響和問(wèn)題:蓋茨提出了有關(guān)此類代理的社會(huì)影響的問(wèn)題,包括它們對(duì)人際關(guān)系的影響以及人工智能代理處理許多任務(wù)的世界中的工作性質(zhì)。未來(lái)愿景:最后,蓋茨設(shè)想了一個(gè)未來(lái),人工智能代理將顯著改變我們的線上和線下日常生活,從而導(dǎo)致我們與技術(shù)互動(dòng)的方式發(fā)生深刻變化。圖源:旺知識(shí)&DALL·E 34. 微軟CEO薩蒂亞·納德拉談生成式人工智能比爾·蓋茨的文章讓我們想起了薩蒂亞·納德拉 (Satya Nadella) 關(guān)于生成人工智能的重要見(jiàn)解。微軟首席執(zhí)行官 Satya Nadella 強(qiáng)調(diào)了他認(rèn)為對(duì)生成人工智能至關(guān)重要的兩個(gè)關(guān)鍵要素:新的用戶界面一個(gè)新的推理引擎。以下是這兩個(gè)組件至關(guān)重要的原因以及它們?nèi)绾胃淖冇?jì)算世界:新的用戶界面:增強(qiáng)的可訪問(wèn)性和可用性:傳統(tǒng)的用戶界面(例如鍵盤(pán)、鼠標(biāo)和觸摸屏)限制了我們與計(jì)算機(jī)交互的方式。新的人工智能驅(qū)動(dòng)界面可能涉及自然語(yǔ)言處理、語(yǔ)音識(shí)別,甚至手勢(shì)或基于思想的交互,使技術(shù)對(duì)更廣泛的用戶來(lái)說(shuō)更容易使用和直觀。個(gè)性化體驗(yàn):人工智能界面可以學(xué)習(xí)并適應(yīng)個(gè)人用戶,提供個(gè)性化交互。這意味著該技術(shù)將了解用戶偏好、工作方式,甚至預(yù)測(cè)需求,從而帶來(lái)更高效、更人性化的體驗(yàn)。更好的集成:先進(jìn)的人工智能界面可以與日常生活的各個(gè)方面(從智能家居到個(gè)人設(shè)備)無(wú)縫集成,從而創(chuàng)造出更具凝聚力和互聯(lián)性的數(shù)字體驗(yàn)。新推理引擎:高級(jí)決策:推理引擎超越了基本的數(shù)據(jù)處理。它可以根據(jù)復(fù)雜的數(shù)據(jù)進(jìn)行解釋、推理和決策。這種能力將使人工智能系統(tǒng)能夠在從業(yè)務(wù)分析到醫(yī)療診斷的各種場(chǎng)景中提供更細(xì)致和上下文感知的響應(yīng)。學(xué)習(xí)和適應(yīng):配備復(fù)雜推理引擎的人工智能系統(tǒng)可以從新的信息和經(jīng)驗(yàn)中學(xué)習(xí),不斷提高其性能和準(zhǔn)確性。這種適應(yīng)性對(duì)于不斷發(fā)展的領(lǐng)域至關(guān)重要,例如醫(yī)學(xué)、金融和環(huán)境研究。問(wèn)題解決和創(chuàng)新:強(qiáng)大的推理引擎可以通過(guò)分析大量數(shù)據(jù)并生成創(chuàng)新的解決方案來(lái)幫助解決復(fù)雜的問(wèn)題。這可以加速各個(gè)領(lǐng)域的研究和開(kāi)發(fā),從而在科學(xué)、技術(shù)和其他領(lǐng)域取得突破。納德拉預(yù)計(jì)人工智能的這些進(jìn)步將給計(jì)算領(lǐng)域帶來(lái)變革。新的用戶界面使技術(shù)更易于使用并根據(jù)個(gè)人需求進(jìn)行定制,而新的推理引擎使人工智能系統(tǒng)具有卓越的決策能力、適應(yīng)性和解決問(wèn)題的能力。圖源:旺知識(shí)&DALL·E 3總之,這些發(fā)展使我們與技術(shù)互動(dòng)并從技術(shù)中受益的方式發(fā)生了重大飛躍。5. 人工智能代理如何塑造未來(lái)的 10 個(gè)例子為了深入了解其中一些想法,讓我們通過(guò)一些說(shuō)明性示例來(lái)了解人工智能代理如何重塑未來(lái)。以下是人工智能代理未來(lái)應(yīng)用的 10 個(gè)引人入勝的示例,體現(xiàn)了比爾·蓋茨和薩提亞·納德拉的愿景:集成項(xiàng)目管理:人工智能代理可以監(jiān)督項(xiàng)目時(shí)間表,有效分配資源,并向團(tuán)隊(duì)成員提供實(shí)時(shí)更新,從而簡(jiǎn)化項(xiàng)目管理并增強(qiáng)團(tuán)隊(duì)協(xié)調(diào)。動(dòng)態(tài)業(yè)務(wù)分析:人工智能代理將分析市場(chǎng)趨勢(shì)、內(nèi)部業(yè)務(wù)數(shù)據(jù)和客戶反饋,為領(lǐng)導(dǎo)者提供可操作的見(jiàn)解,以做出數(shù)據(jù)驅(qū)動(dòng)的決策。自動(dòng)化客戶關(guān)系管理 (CRM):人工智能代理可以個(gè)性化與客戶的互動(dòng)、管理后續(xù)行動(dòng)并預(yù)測(cè)客戶需求,從而提高客戶滿意度和忠誠(chéng)度。戰(zhàn)略規(guī)劃協(xié)助:人工智能代理可以通過(guò)處理行業(yè)數(shù)據(jù)、競(jìng)爭(zhēng)對(duì)手分析和預(yù)測(cè)市場(chǎng)變化來(lái)協(xié)助領(lǐng)導(dǎo)者制定長(zhǎng)期戰(zhàn)略。增強(qiáng)溝通:人工智能代理可以管理電子郵件和消息并確定其優(yōu)先級(jí),根據(jù)之前的交互起草回復(fù),并提醒領(lǐng)導(dǎo)者需要個(gè)人關(guān)注的緊急通信。智能日歷管理:人工智能代理不僅可以安排會(huì)議,還可以準(zhǔn)備議程,根據(jù)會(huì)議主題建議與會(huì)者,并提供與會(huì)者簡(jiǎn)介,以便更好地做好準(zhǔn)備。實(shí)時(shí)風(fēng)險(xiǎn)評(píng)估:在金融或醫(yī)療保健等領(lǐng)域,人工智能代理可以持續(xù)監(jiān)控和報(bào)告潛在風(fēng)險(xiǎn),從而可以立即采取緩解策略。量身定制的領(lǐng)導(dǎo)力發(fā)展:人工智能代理可以評(píng)估領(lǐng)導(dǎo)者的優(yōu)勢(shì)和需要改進(jìn)的領(lǐng)域,提供定制的學(xué)習(xí)資源和輔導(dǎo)建議,以提高領(lǐng)導(dǎo)技能。高效的資源分配:人工智能代理可以優(yōu)化公司資源的使用,例如更有效地管理預(yù)算或?qū)⑷肆Y源分配到最需要的地方。個(gè)性化的員工敬業(yè)度:人工智能代理可以跟蹤員工的績(jī)效、滿意度和敬業(yè)度,為領(lǐng)導(dǎo)者提供制定個(gè)性化激勵(lì)策略和改善工作場(chǎng)所文化的見(jiàn)解。這些示例展示了人工智能代理如何顯著提高領(lǐng)導(dǎo)效率、改進(jìn)決策并簡(jiǎn)化各個(gè)組織職能部門(mén)的運(yùn)營(yíng)。6. 領(lǐng)導(dǎo)者應(yīng)該問(wèn)自己塑造未來(lái)的 10 個(gè)問(wèn)題以下 10 個(gè)發(fā)人深省的問(wèn)題可以幫助您重新構(gòu)想 AI 代理業(yè)務(wù)的未來(lái):人工智能代理可以在我的企業(yè)中自動(dòng)化哪些重復(fù)性任務(wù),以釋放人類的創(chuàng)造力和創(chuàng)新力?人工智能代理如何個(gè)性化我們的客戶體驗(yàn)以提高滿意度和忠誠(chéng)度?人工智能驅(qū)動(dòng)的數(shù)據(jù)分析可以通過(guò)哪些方式發(fā)現(xiàn)我們尚未考慮的新市場(chǎng)機(jī)會(huì)或擴(kuò)展領(lǐng)域?人工智能代理如何幫助我們的供應(yīng)鏈變得更加高效并更好地響應(yīng)市場(chǎng)變化?人工智能代理在增強(qiáng)我們的決策過(guò)程方面有什么潛力,特別是在復(fù)雜且快速變化的業(yè)務(wù)環(huán)境中?人工智能代理如何幫助實(shí)時(shí)識(shí)別和減輕風(fēng)險(xiǎn),特別是在網(wǎng)絡(luò)安全和金融交易等領(lǐng)域?人工智能代理可以通過(guò)哪些方式為我們行業(yè)的新創(chuàng)新產(chǎn)品或服務(wù)的開(kāi)發(fā)做出貢獻(xiàn)?如何利用人工智能代理來(lái)提高員工敬業(yè)度和生產(chǎn)力,這會(huì)對(duì)我們的組織文化產(chǎn)生什么影響?將人工智能代理集成到我們的業(yè)務(wù)中會(huì)產(chǎn)生哪些道德影響?我們?nèi)绾沃鲃?dòng)解決這些問(wèn)題?我們?nèi)绾卫萌斯ぶ悄艽慝@得競(jìng)爭(zhēng)優(yōu)勢(shì),同時(shí)為可持續(xù)發(fā)展和可及性等社會(huì)挑戰(zhàn)做出積極貢獻(xiàn)?這些問(wèn)題旨在激發(fā)戰(zhàn)略思維并激發(fā)富有遠(yuǎn)見(jiàn)的規(guī)劃,幫助領(lǐng)導(dǎo)者考慮人工智能代理對(duì)其業(yè)務(wù)運(yùn)營(yíng)的廣泛和變革性影響。7. 人工智能重塑更直觀、更集成、更強(qiáng)大的技術(shù)未來(lái)比爾·蓋茨和薩蒂亞·納德拉關(guān)于軟件未來(lái)的想法標(biāo)志著人工智能 (AI) 引領(lǐng)的計(jì)算領(lǐng)域的巨大變革。蓋茨認(rèn)識(shí)到,盡管取得了重大進(jìn)步,傳統(tǒng)軟件仍然缺乏動(dòng)態(tài)功能和直觀的用戶交互。他設(shè)想未來(lái)人工智能“代理”——能夠理解自然語(yǔ)言的高級(jí)軟件——將充當(dāng)個(gè)人助理,跨不同應(yīng)用程序處理各種任務(wù)。這種轉(zhuǎn)變表明人們正在走向更加個(gè)性化、高效的計(jì)算體驗(yàn)。蓋茨預(yù)測(cè),這些人工智能代理不僅會(huì)徹底改變個(gè)人計(jì)算,還會(huì)對(duì)醫(yī)療保健、教育、生產(chǎn)力和娛樂(lè)等行業(yè)產(chǎn)生深遠(yuǎn)影響,使目前許多人無(wú)法獲得的服務(wù)民主化。然而,這種技術(shù)飛躍帶來(lái)了倫理和社會(huì)考慮,特別是在隱私、數(shù)據(jù)所有權(quán)以及對(duì)人際關(guān)系和工作性質(zhì)的影響方面。Satya Nadella 補(bǔ)充了 Gates 的觀點(diǎn),強(qiáng)調(diào)了新的用戶界面和新的推理引擎如何徹底改變計(jì)算空間。這種方法專注于創(chuàng)造更易于訪問(wèn)、用戶友好和集成的技術(shù)體驗(yàn),同時(shí)為人工智能系統(tǒng)提供先進(jìn)的決策、學(xué)習(xí)和解決問(wèn)題的能力。這些愿景共同描繪了一個(gè)未來(lái),人工智能將重塑我們與技術(shù)的互動(dòng),使其更加直觀、集成并能夠處理復(fù)雜的任務(wù)。這標(biāo)志著軟件當(dāng)前狀態(tài)的重大飛躍,不僅有望提高個(gè)人和專業(yè)生產(chǎn)力,而且還將改變我們?cè)谌粘I钪惺褂眉夹g(shù)的方式。8. 人人可以進(jìn)行智能代理開(kāi)發(fā)無(wú)需寫(xiě)代碼也能進(jìn)行大語(yǔ)言模型應(yīng)用+智能代碼開(kāi)發(fā),無(wú)需下載任何軟件,打開(kāi)網(wǎng)址(https://promptappgpt.wangzhishi.net/)即刻開(kāi)發(fā)!PromptAppGPT是首個(gè)基于LLM的自然語(yǔ)言應(yīng)用開(kāi)發(fā)框架:支持全自動(dòng)編譯、運(yùn)行、界面生成,支持無(wú)代碼配置實(shí)現(xiàn)流程調(diào)度,支持幾十行低代碼實(shí)現(xiàn)AutoGPT類智能代理。詳細(xì)可以參考:真低代碼!首個(gè)基于ChatGPT的自然語(yǔ)言開(kāi)發(fā)框架PromptAppGPT:全自動(dòng)編譯、運(yùn)行、界面生成PromptAppGPT重磅更新!AI助手0門(mén)檻開(kāi)發(fā)+運(yùn)行:幾十行代碼即可實(shí)現(xiàn)AutoGPTPromptAppGPT低代碼大語(yǔ)言模型應(yīng)用開(kāi)發(fā)實(shí)戰(zhàn):聊天機(jī)器人、智能文生圖、圖文搜索項(xiàng)目網(wǎng)站:https://promptappgpt.wangzhishi.net/項(xiàng)目網(wǎng)站:https://promptappgpt.wangzhishi.net/英文作者:JD Meier, Microsofthttps://jdmeier.com/agents-are-the-future-of-software/中文作者:張長(zhǎng)旺,旺知識(shí)編輯于 2023-12-03 09:54?IP 屬地廣東軟件比爾·蓋茨 (Bill Gates)Agent?贊同??添加評(píng)論?分享?喜歡?收藏?申請(qǐng)轉(zhuǎn)載?文章被以下專欄收錄大模型(LXM)技術(shù)洞察業(yè)界大模型(LLM,LXM)最新技術(shù)進(jìn)展與趨

智能代理 - 維基百科,自由的百科全書(shū)

智能代理 - 維基百科,自由的百科全書(shū)

跳轉(zhuǎn)到內(nèi)容

主菜單

主菜單

移至側(cè)欄

隱藏

導(dǎo)航

首頁(yè)分類索引特色內(nèi)容新聞動(dòng)態(tài)最近更改隨機(jī)條目資助維基百科

幫助

幫助維基社群方針與指引互助客棧知識(shí)問(wèn)答字詞轉(zhuǎn)換IRC即時(shí)聊天聯(lián)絡(luò)我們關(guān)于維基百科

語(yǔ)言

語(yǔ)言鏈接位于頁(yè)面頂部,標(biāo)題的另一側(cè)。

搜索

搜索

創(chuàng)建賬號(hào)

登錄

個(gè)人工具

創(chuàng)建賬號(hào) 登錄

未登錄編輯者的頁(yè)面 了解詳情

貢獻(xiàn)討論

目錄

移至側(cè)欄

隱藏

序言

1智慧代理的分類

2參考文獻(xiàn)

開(kāi)關(guān)目錄

智能代理

27種語(yǔ)言

???????Български?????CatalàΕλληνικ?EnglishEspa?ol?????Fran?aisGalego?????HrvatskiItaliano日本語(yǔ)???Lietuvi?МакедонскиМонголNorsk bokm?lPortuguêsРусский?????Sloven??inaShqipSvenskaУкра?нська粵語(yǔ)

編輯鏈接

條目討論

不轉(zhuǎn)換

不轉(zhuǎn)換簡(jiǎn)體繁體大陸簡(jiǎn)體香港繁體澳門(mén)繁體大馬簡(jiǎn)體新加坡簡(jiǎn)體臺(tái)灣正體

閱讀編輯查看歷史

工具

工具

移至側(cè)欄

隱藏

操作

閱讀編輯查看歷史

常規(guī)

鏈入頁(yè)面相關(guān)更改上傳文件特殊頁(yè)面固定鏈接頁(yè)面信息引用本頁(yè)獲取短URL下載二維碼維基數(shù)據(jù)項(xiàng)目

打印/導(dǎo)出

下載為PDF打印頁(yè)面

在其他項(xiàng)目中

維基共享資源

維基百科,自由的百科全書(shū)

智能代理(英語(yǔ):intelligent agent),或譯為智能主體。在人工智能領(lǐng)域,智能代理指一個(gè)可以觀察周遭環(huán)境并作出行動(dòng)以達(dá)致目標(biāo)的自主實(shí)體。它通常是指(但不一定是)一個(gè)軟件程序?!爸悄艽怼笔悄壳叭斯ぶ悄苎芯康囊粋€(gè)核心概念,統(tǒng)御和聯(lián)系著各個(gè)子領(lǐng)域的研究。

智慧代理的分類[編輯]

簡(jiǎn)單代理

基於模型的反射代理

基於目標(biāo)的代理

基於效用的代理

學(xué)習(xí)型代理

參考文獻(xiàn)[編輯]

Stuart Russell, Peter Norvig. 人工智慧:現(xiàn)代方法. 由歐崇明, 時(shí)文中, 陳龍翻譯. 臺(tái)北市: 全華圖書(shū). 2011. ISBN?9789862800249.?

取自“https://zh.wikipedia.org/w/index.php?title=智能代理&oldid=64228565”

分類:?人工智能隱藏分類:?含有英語(yǔ)的條目

本頁(yè)面最后修訂于2021年2月11日 (星期四) 02:52。

本站的全部文字在知識(shí)共享 署名-相同方式共享 4.0協(xié)議之條款下提供,附加條款亦可能應(yīng)用。(請(qǐng)參閱使用條款)

Wikipedia?和維基百科標(biāo)志是維基媒體基金會(huì)的注冊(cè)商標(biāo);維基?是維基媒體基金會(huì)的商標(biāo)。

維基媒體基金會(huì)是按美國(guó)國(guó)內(nèi)稅收法501(c)(3)登記的非營(yíng)利慈善機(jī)構(gòu)。

隱私政策

關(guān)于維基百科

免責(zé)聲明

行為準(zhǔn)則

開(kāi)發(fā)者

統(tǒng)計(jì)

Cookie聲明

手機(jī)版視圖

開(kāi)關(guān)有限寬度模式

智能代理 | 機(jī)器之心

| 機(jī)器之心

報(bào)道人工智能數(shù)字化轉(zhuǎn)型汽車(chē)科技交叉前沿專欄學(xué)堂年度榜單2023年度榜單年度榜單 2023年度榜單 2022年度榜單 2021年度榜單 2020年度榜單 2019年度榜單 2018年度榜單 2017A100 系列A100 數(shù)智中國(guó)A100 Data IntelligenceA100 Original活動(dòng)SOTA模型機(jī)器之心 Pro登錄ENAuto Byte專注未來(lái)出行及智能汽車(chē)科技微信掃一掃獲取更多資訊Science AI關(guān)注人工智能與其他前沿技術(shù)、基礎(chǔ)學(xué)科的交叉研究與融合發(fā)展微信掃一掃獲取更多資訊智能代理智能代理,或譯為智能主體。在人工智能領(lǐng)域,智能代理是指一個(gè)可以觀察周遭環(huán)境并作出行動(dòng)以達(dá)致目標(biāo)的自主實(shí)體。它通常是指一個(gè)軟件程序?!爸悄艽怼笔悄壳叭斯ぶ悄苎芯康囊粋€(gè)核心概念,統(tǒng)御和聯(lián)系著各個(gè)子領(lǐng)域的研究。來(lái)源:維基百科簡(jiǎn)介 在人工智能領(lǐng)域,智能代理是指一個(gè)可以觀察周遭環(huán)境并作出行動(dòng)以達(dá)致目標(biāo)的自主實(shí)體。它通常是指(但不一定是)一個(gè)軟件程序?!爸悄艽怼笔悄壳叭斯ぶ悄苎芯康囊粋€(gè)核心概念,統(tǒng)御和聯(lián)系著各個(gè)子領(lǐng)域的究,它們可以學(xué)習(xí)或使用知識(shí)來(lái)實(shí)現(xiàn)他們的目標(biāo)。它們可能非常簡(jiǎn)單或非常復(fù)雜。 Siri被認(rèn)為是智能代理的一個(gè)例子。智能代理一般具有四個(gè)特性:1. 自治性:代理在運(yùn)行過(guò)程中對(duì)狀態(tài)和動(dòng)作具有控制權(quán)并且不受其他人或代理的直接干涉;2. 交互性:代理可以通過(guò)某種方式與外界其他實(shí)體進(jìn)行交互;3. 反應(yīng)性:代理能夠根據(jù)對(duì)環(huán)境的感知做出相應(yīng)的反應(yīng);4. 目標(biāo)性:代理能夠做出具有導(dǎo)向目標(biāo)的行文。[描述來(lái)源:Wooldridge M, Jennings N R. Intelligent agents: Theory and practice[J]. The knowledge engineering review, 1995, 10(2): 115-152.]智能代理的示意圖如下所示:人工智能中的智能代理與經(jīng)濟(jì)學(xué)中的代理的概念相類似,智能代理范式的研究在認(rèn)知科學(xué)、倫理學(xué)、實(shí)踐理性哲學(xué)以及許多跨學(xué)科的社會(huì)認(rèn)知建模和計(jì)算機(jī)社會(huì)模擬中都有研究。[描述來(lái)源及圖片來(lái)源:Wikipedia;URL:https://en.wikipedia.org/wiki/Intelligent_agent]智能代理的概念可以分為5類:簡(jiǎn)單反應(yīng)代理(simple reflex agents)基于模型的反應(yīng)代理(model-based reflex agents)基于目標(biāo)的代理(goal-based agents)基于功能的代理(utility-based agents)學(xué)習(xí)性代理(learning agents)發(fā)展歷史智能代理的概念早在1995年就被提出,并于1997年應(yīng)用到萬(wàn)維網(wǎng)的搜索中,而20世紀(jì)以后,智能代理開(kāi)始與人工智能相結(jié)合,致力于為客戶提供更為個(gè)性化的服務(wù)。例如,基于移動(dòng)平臺(tái)的智能代理構(gòu)建,通過(guò)利用用戶的數(shù)據(jù)來(lái)構(gòu)建一個(gè)智能代理。主要事件年份事件相關(guān)論文/Reference1995Wooldridge and Jennings 提出了智能代理的概念Wooldridge M, Jennings N R. Intelligent agents: Theory and practice[J]. The knowledge engineering review, 1995, 10(2): 115-152.1997早在1997年,智能代理就被應(yīng)用到萬(wàn)維網(wǎng)中,進(jìn)行文檔過(guò)濾和導(dǎo)航Asnicar F A, Tasso C. ifWeb: a prototype of user model-based intelligent agent for document filtering and navigation in the world wide web[C]//Sixth International Conference on User Modeling. 1997: 2-5.2002提出了一個(gè)智能代理系統(tǒng)的框架Winikoff M, Padgham L, Harland J, et al. Declarative and procedural goals in intelligent agent systems[C]//International Conference on Principles of Knowledge Representation and Reasoning. Morgan Kaufman, 2002.2009-2012智能代理的實(shí)用化和生活化,如基于移動(dòng)平臺(tái)的智能代理的構(gòu)建Tsui C Y, Murch R D, Cheng R S K, et al. Intelligent agent for distributed services for mobile devices: U.S. Patent 8,032,472[P]. 2011-10-4. Hyatt G, Swan W, Samuel S. Method and system for relationship management and intelligent agent: U.S. Patent Application 13/158,408[P]. 2012-6-14. Yu L, Wang S, Lai K K. An intelligent-agent-based fuzzy group decision making model for financial multicriteria decision support: The case of credit scoring[J]. European journal of operational research, 2009, 195(3): 942-959.發(fā)展分析瓶頸現(xiàn)階段的智能代理應(yīng)用廣泛,如何能夠讓客戶及受眾群體無(wú)法區(qū)別是人還是機(jī)器是智能代理發(fā)展的難點(diǎn),而這一點(diǎn)依托于多類技術(shù)的協(xié)調(diào)和進(jìn)步。未來(lái)發(fā)展方向現(xiàn)階段智能代理通常由一個(gè)對(duì)話系統(tǒng)、一個(gè)虛擬的客服以及一個(gè)為用戶提供專門(mén)知識(shí)的專家系統(tǒng)組成,如何將智能代理應(yīng)用到各個(gè)領(lǐng)域中,并為用戶提供優(yōu)質(zhì)的服務(wù)是智能代理的未來(lái)發(fā)展方向。Contributor:Yilin Pan簡(jiǎn)介返回頂部關(guān)于我們服務(wù)條款全球人工智能信息服務(wù)友情鏈接:Synced Global機(jī)器之心 Medium 博客PaperWeekly動(dòng)脈網(wǎng)艾耕科技?2024 機(jī)器之心(北京)科技有限公司 ????京ICP備2021005318號(hào)-1識(shí)別二維碼,立即訂閱智能戰(zhàn)疫日?qǐng)?bào)眾智成城,共克時(shí)艱加入「智能戰(zhàn)疫聯(lián)合行動(dòng)」 您/貴司在疫情中面臨哪些困難與訴求您/貴司在疫情中可為其他企業(yè)提供哪類幫助您/貴司有哪些抗疫動(dòng)作或故事希望與大家分享您/貴司希望如何參與抗疫行動(dòng)前

智能代理:改變?nèi)藱C(jī)交互的方式-阿里云開(kāi)發(fā)者社區(qū)

智能代理:改變?nèi)藱C(jī)交互的方式-阿里云開(kāi)發(fā)者社區(qū)

產(chǎn)品解決方案文檔與社區(qū)權(quán)益中心定價(jià)云市場(chǎng)合作伙伴支持與服務(wù)了解阿里云

售前咨詢

95187-1

在線服務(wù)

售后咨詢

4008013260

在線服務(wù)

其他服務(wù)

我要建議我要投訴更多聯(lián)系方式備案控制臺(tái)開(kāi)發(fā)者社區(qū)首頁(yè)MaxComputeHologresFlinkE-MapReduceDataWorksElasticsearchPAI智能搜索推薦免費(fèi)試用

探索云世界

新手上云云上應(yīng)用構(gòu)建云上數(shù)據(jù)管理云上探索人工智能云計(jì)算彈性計(jì)算無(wú)影存儲(chǔ)網(wǎng)絡(luò)倚天云原生容器serverless中間件微服務(wù)可觀測(cè)消息隊(duì)列數(shù)據(jù)庫(kù)關(guān)系型數(shù)據(jù)庫(kù)NoSQL數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)管理工具PolarDB開(kāi)源向量數(shù)據(jù)庫(kù)熱門(mén)Modelscope模型即服務(wù)彈性計(jì)算云原生數(shù)據(jù)庫(kù)物聯(lián)網(wǎng)云效DevOps龍蜥操作系統(tǒng)平頭哥釘釘開(kāi)放平臺(tái)大數(shù)據(jù)大數(shù)據(jù)計(jì)算實(shí)時(shí)數(shù)倉(cāng)Hologres實(shí)時(shí)計(jì)算FlinkE-MapReduceDataWorksElasticsearch機(jī)器學(xué)習(xí)平臺(tái)PAI智能搜索推薦人工智能機(jī)器學(xué)習(xí)平臺(tái)PAI視覺(jué)智能開(kāi)放平臺(tái)智能語(yǔ)音交互自然語(yǔ)言處理多模態(tài)模型pythonsdk通用模型開(kāi)發(fā)與運(yùn)維云效DevOps釘釘宜搭支持服務(wù)鏡像站碼上公益

開(kāi)發(fā)者社區(qū)

大數(shù)據(jù)與機(jī)器學(xué)習(xí)

文章

正文

智能代理:改變?nèi)藱C(jī)交互的方式

2023-08-22

154

版權(quán)

版權(quán)聲明:

本文內(nèi)容由阿里云實(shí)名注冊(cè)用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開(kāi)發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請(qǐng)查看《

阿里云開(kāi)發(fā)者社區(qū)用戶服務(wù)協(xié)議》和

《阿里云開(kāi)發(fā)者社區(qū)知識(shí)產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫(xiě)

侵權(quán)投訴表單進(jìn)行舉報(bào),一經(jīng)查實(shí),本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。

本文涉及的產(chǎn)品

實(shí)時(shí)計(jì)算 Flink 版,5000CU*H 3個(gè)月

推薦場(chǎng)景:

實(shí)時(shí)發(fā)現(xiàn)最熱Github項(xiàng)目

檢索分析服務(wù) Elasticsearch 版,2核4GB開(kāi)發(fā)者規(guī)格 1個(gè)月

推薦場(chǎng)景:

數(shù)據(jù)可視化分析航班信息

大數(shù)據(jù)開(kāi)發(fā)治理平臺(tái) DataWorks,不限時(shí)長(zhǎng)

推薦場(chǎng)景:

Github實(shí)時(shí)數(shù)據(jù)分析與可視化

簡(jiǎn)介:

智能代理作為一種新的人機(jī)交互方式,正在改變著人們與計(jì)算機(jī)系統(tǒng)之間的互動(dòng)方式。從個(gè)人助手、聊天機(jī)器人到游戲智能,智能代理在多個(gè)領(lǐng)域展示了其強(qiáng)大的應(yīng)用潛力。然而,智能代理也面臨著語(yǔ)義理解、個(gè)性化定制和隱私等挑戰(zhàn)。隨著人工智能技術(shù)的不斷發(fā)展,智能代理有望成為未來(lái)人機(jī)交互的重要方式之一。

人機(jī)交互一直是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的研究重點(diǎn)之一。隨著人工智能技術(shù)的不斷發(fā)展,智能代理作為一種創(chuàng)新的交互方式,正在逐漸改變著人們與計(jì)算機(jī)系統(tǒng)之間的互動(dòng)方式。本文將探討智能代理的概念、應(yīng)用領(lǐng)域,以及它如何改變?nèi)藱C(jī)交互的方式。

智能代理的概念

智能代理是一種能夠代表用戶執(zhí)行任務(wù)、作出決策的程序或系統(tǒng)。它不僅能夠理解用戶的需求和意圖,還可以根據(jù)環(huán)境變化做出相應(yīng)的響應(yīng)。智能代理可以是物理實(shí)體(如機(jī)器人)、虛擬實(shí)體(如聊天機(jī)器人)或軟件程序(如智能助手)等。

在智能代理中,主要的特征包括:

自主性: 智能代理能夠根據(jù)預(yù)定的目標(biāo)和規(guī)則自主地進(jìn)行決策和行動(dòng)。

適應(yīng)性: 智能代理可以根據(jù)環(huán)境的變化和用戶的需求進(jìn)行適應(yīng)和調(diào)整。

協(xié)同性: 多個(gè)智能代理之間可以相互協(xié)作,共同完成復(fù)雜的任務(wù)。

智能代理的應(yīng)用領(lǐng)域

智能代理在多個(gè)領(lǐng)域有著廣泛的應(yīng)用,以下是一些典型的應(yīng)用領(lǐng)域。

個(gè)人助手

個(gè)人助手是最常見(jiàn)的智能代理應(yīng)用之一。例如,Siri、Google Assistant和Alexa等智能助手可以根據(jù)用戶的指令執(zhí)行任務(wù),如發(fā)送短信、查詢天氣、播放音樂(lè)等。

# 使用Python構(gòu)建簡(jiǎn)單的命令行助手示例

import speech_recognition as sr

import pyttsx3

# 初始化語(yǔ)音識(shí)別器和語(yǔ)音合成器

recognizer = sr.Recognizer()

engine = pyttsx3.init()

def assist():

with sr.Microphone() as source:

print("請(qǐng)說(shuō)話:")

audio = recognizer.listen(source)

try:

text = recognizer.recognize_google(audio, language="zh-CN")

print("你說(shuō)的是:", text)

respond(text)

except sr.UnknownValueError:

print("無(wú)法識(shí)別")

except sr.RequestError as e:

print("請(qǐng)求錯(cuò)誤:", e)

def respond(text):

engine.say("你說(shuō)的是:" + text)

engine.runAndWait()

assist()

聊天機(jī)器人

聊天機(jī)器人利用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)技術(shù),能夠與用戶進(jìn)行自然的對(duì)話。它們可以回答問(wèn)題、提供建議,甚至模擬人類的情感。

# 使用Python構(gòu)建簡(jiǎn)單的聊天機(jī)器人示例

import random

responses = {

"你好": ["你好!", "嗨!", "你好,有什么可以幫助你的嗎?"],

"天氣怎么樣?": ["今天天氣晴朗,溫度適中。", "天氣很好,適合出門(mén)。", "天氣預(yù)報(bào)說(shuō)今天會(huì)有雨。"],

"你叫什么名字?": ["我是聊天機(jī)器人,你可以叫我小助手。", "我叫小助手,很高興為你服務(wù)。"]

}

def chat():

while True:

user_input = input("你:")

if user_input.lower() == "退出":

print("再見(jiàn)!")

break

response = responses.get(user_input, ["抱歉,我不太理解你的意思。"])

print("小助手:" + random.choice(response))

chat()

游戲智能

游戲中的智能代理能夠模擬人類玩家的行為,使游戲更具挑戰(zhàn)性和趣味性。例如,電子游戲中的虛擬角色可以根據(jù)玩家的策略來(lái)作出反應(yīng),增加游戲的可玩性。

智能代理改變?nèi)藱C(jī)交互的方式

智能代理的出現(xiàn)改變了傳統(tǒng)的人機(jī)交互方式,賦予了計(jì)算機(jī)更強(qiáng)大的理解和響應(yīng)能力。它們能夠更自然地理解人類的語(yǔ)言和意圖,實(shí)現(xiàn)更加智能化的互動(dòng)。與傳統(tǒng)的界面操作相比,智能代理能夠提供更加便捷、高效和個(gè)性化的服務(wù)。

例如,語(yǔ)音助手可以讓用戶通過(guò)語(yǔ)音指令來(lái)控制設(shè)備和獲取信息,無(wú)需鍵盤(pán)和鼠標(biāo)的操作。聊天機(jī)器人可以模擬人類的對(duì)話,使得用戶能夠以自然的方式與計(jì)算機(jī)交流。游戲智能則在游戲中充當(dāng)虛擬玩家,提升了游戲的挑戰(zhàn)性和趣味性。

智能代理的挑戰(zhàn)與展望

盡管智能代理在人機(jī)交互中有著巨大的潛力,但也面臨一些挑戰(zhàn)。

語(yǔ)義理解

智能代理需要準(zhǔn)確理解用戶的語(yǔ)言和意圖。然而,人類語(yǔ)言具有多義性、上下文依賴等特點(diǎn),使得準(zhǔn)確的語(yǔ)義理解成為挑戰(zhàn)之一。

個(gè)性化定制

不同用戶的需求和偏好各異,如何為每個(gè)用戶定制個(gè)性化的智能代理,是一個(gè)需要解決的問(wèn)題。

倫理和隱私問(wèn)題

智能代理需要處理大量的用戶數(shù)據(jù),涉及隱私和倫理問(wèn)題。如何保護(hù)用戶的隱私,避免濫用數(shù)據(jù),是一個(gè)重要的考慮因素。

總結(jié)

智能代理作為一種新的人機(jī)交互方式,正在改變著人們與計(jì)算機(jī)系統(tǒng)之間的互動(dòng)方式。從個(gè)人助手、聊天機(jī)器人到游戲智能,智能代理在多個(gè)領(lǐng)域展示了其強(qiáng)大的應(yīng)用潛力。然而,智能代理也面臨著語(yǔ)義理解、個(gè)性化定制和隱私等挑戰(zhàn)。隨著人工智能技術(shù)的不斷發(fā)展,智能代理有望成為未來(lái)人機(jī)交互的重要方式之一。

IT陳寒

目錄

熱門(mén)文章

最新文章

為什么選擇阿里云什么是云計(jì)算全球基礎(chǔ)設(shè)施技術(shù)領(lǐng)先穩(wěn)定可靠安全合規(guī)分析師報(bào)告產(chǎn)品和定價(jià)全部產(chǎn)品免費(fèi)試用產(chǎn)品動(dòng)態(tài)產(chǎn)品定價(jià)價(jià)格計(jì)算器云上成本管理解決方案技術(shù)解決方案文檔與社區(qū)文檔開(kāi)發(fā)者社區(qū)天池大賽培訓(xùn)與認(rèn)證權(quán)益中心免費(fèi)試用高校計(jì)劃企業(yè)扶持計(jì)劃推薦返現(xiàn)計(jì)劃支持與服務(wù)基礎(chǔ)服務(wù)企業(yè)增值服務(wù)遷云服務(wù)官網(wǎng)公告健康看板信任中心關(guān)注阿里云關(guān)注阿里云公眾號(hào)或下載阿里云APP,關(guān)注云資訊,隨時(shí)隨地運(yùn)維管控云服務(wù)售前咨詢:95187-1售后服務(wù):400-80-13260法律聲明及隱私權(quán)政策Cookies政策廉正舉報(bào)安全舉報(bào)聯(lián)系我們加入我們阿里巴巴集團(tuán)淘寶網(wǎng)天貓全球速賣(mài)通阿里巴巴國(guó)際交易市場(chǎng)1688阿里媽媽飛豬阿里云計(jì)算AliOS萬(wàn)網(wǎng)高德UC友盟優(yōu)酷釘釘支付寶達(dá)摩院淘寶海外阿里云盤(pán)餓了么? 2009-2024 Aliyun.com 版權(quán)所有 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證: 浙B2-20080101 域名注冊(cè)服務(wù)機(jī)構(gòu)許可: 浙D3-20210002 京D3-20220015浙公網(wǎng)安備 33010602009975號(hào)浙B2-20080101-4

?oo?·¥??oè????£?????‰?“a?o????????±???????|Botpress ?????¢

·¥??oè????£?????‰?“a?o????????±???????|Botpress ?????¢

???‰?¤???o?”ˉ????€??ˉ??‘¨??′?’-?’??????????????????o??¨?oo?????o者--é????¨??‘?????? Discord ??????

?o§?“?GPT????”?????“?????”¨?”??????? AI è??è???????o?ˉ1èˉ??·¥?????¤?–°??€??£è???¤???o??¨?oo??–è?‘??¨Hub??€?¤§???é?????é?????èμ??o??-|?1??–???£è§?频????¨???¢??·??…?o??????¢??oè???ˉ??‰???“????¨????????o“é???????-???è?ˉ?????€??‘?·¥?…·??…??‰é¢?????-|?”??”μ????¤???o?¤???o?”ˉ????????o???????????′?????o????‘??¤§???è????’?–??????·??????????3¨????”¨è°·?-??????·????????–?3¨???????”¨è°·?-??????·??§??-??o?o??????o???????????·???è°·?-??°???? Botpress ?…±?o????????§“????€??”μ?-?é???????°??€?’???a?ooèμ??–??…§?‰??€?èˉ·???é?… Botpress ???é???§??”??-–?’??????????????€??????¢è??????oo?·¥??oè????£?????‰?“a?o????????±????????ˉ1?oo?·¥??oè????£????????°?¥??¥??????¨??????????????—??-?o?è§£???????±????????oo?·¥??oè????£???????…????è???€?Botpress ?¤???o2023 ?1′ 11 ??? 25 ?—¥12 ???é’?é?…èˉ????????-¥éa¤ 1???èˉ¥?-¥éa¤??????é¢??|??????o??°??¨è??é???oo?·¥??oè?????AI??‰??¨è?????????1′??-??–??—?o?é??è?3??‘?±?????????€??£è???¤???o??¨?oo?”??????€??ˉ??′??ˉ?a???′?o???oè????£?????????é???€???¨????–???-?????‘????°??·±?…¥??¢è?¨?oo?·¥??oè????£???????¤???·??–??–????????¢?′¢??????????±?????€????è???’??o”?”¨?€?7 ?§????è|????è?ˉ?????£???1.??€???????°??‰???€???????°???£?????ˉ??€?§???o???????oo?·¥??oè???????“?????¥??′??¥?????????-è????¨è§??????o??o??€è??è???€?????????a??1?????“?‰?????????¥?????o??3???????ˉ1??3?—??????ˉ?¢??o??′¢?????o????o”???è€??2???‰?ˉ1è??????o???????????????…é?¨è?°????€???????èˉ′?????? ??“??“?‰?????o|è?…è???????a??′????€??—????è?a??¨è°??????¨?°±????‰“??€??oè°????è????ˉ??€?§???€??????????°???£????€?2.??o?o??¨???????????°???£?????o?o??¨???????????°???£?????¥????°???£????????€????€§??o??o??€?????′??¤??€??ˉ?¢??????…é?¨?¨?????€???????????”¨????????¨?”?é???????ˉ????1?è€?è?‘?????¥????????2??????è€??????o??′?¤?????????3?-–?€??????a????-???? ??€??a???????£?????oo?·¥??oè?????è€?è?‘?????2?£??-¥?’???“?‰??£????????€???¥??3????????€?-¥?£????è???°±??ˉ??o?o??¨?????????£????€?3.?-|?1??????£????-|?1??????£???è?…è???o???o?o?è§???????????o”?€?é????€?—?é—′?????¨?§?????????????é€?è????o??¨?-|?1???€??ˉ??¥é€??o”?’????é??è?a?·±????€§è???€??-|?1??…??′??????????è???¤?è?·??–?–°??¥èˉ?????1???1??????éa?è°???′è?a?·±???è????o?€??????a????-??????????é?????è????¤??¨?°±??ˉ??€??a?-|?1???£?????????è????1????”¨??·???é|??-|?1?èˉ?????–°?±?????????????é??????€?4.??o?o?????”¨?????£?????o?o?????”¨?????£????1?è¢??§°??o??o?o????????????£????????????é€?è??????”¨????”¨?????°èˉ???°?????¨??“????????ˉ??–?€§??¥?????o??3?-–?€?è???o???£????—¨??¨é€?è??选???è????|??¥??€??‰?????“??????è????¨?????€?¤§é???o|??°???é???…???′??“???????€??????a????-???? ??1????????¨?”?????’?é£?é??èˉ???°????§????èμ??–1???????oo?·¥??oè?????èμ?é??é—??°±??ˉ??€??a??o?o????????????£????€?5.????±???£???????±???£????°???3?-–???????????€??a??‰é???±??’?????±???£????????“????±?????€?è???§?????????“???é€?è????¨???????±??o§?1?é—′??’???è′£?????¥??‰????¤?????¤??????????????€???????èˉ′?????? ??¨?”??o§è???¨???-?????€??a????o§??£????3??????ˉè????‰??€??a???????€???“?”??o§?????????é???o§??£????????¥?????§????????a??o??¨???????o§??£????€?6.è???????????è°·?-?????‰??-‰è?????????‰???¨?—¥????”??′???-??‘??¥??€è?3?…3é??è|????????”¨?€???????????”¨è?a???èˉ-言?¤?????’???o??¨?-|?1???¥???è§£?’?????o”?oo?±?èˉ-言??????è€??????°?—?????€???oè??????o’??¨?€??????a????-???? è°·?-?????‰????Google Assistant??‰??ˉ??€???è?????????‰???????è?????????”¨??·?????£èˉ-?‘???¤??????????????ˉ????1???1????”¨??·????–??¥?è??è???-|?1??€?7.??o??¨?oo??£???è?a??¨é??é???±?è?|?’?????°???¨?-‰??o??¨?oo??£?????ˉè?a????ˉ?è?a?1??????ˉ?¢??o’??¨?€??????????é??????????¨?€???3?-–??—?3??’???…é?¨?¨??????????????????¨?¤?????????ˉ?¢???-?‰§è?????????€???????èˉ′?????? ????”¨????????¨??¢?μ?é???¢??‰??1?é?μ??a?o¤é€?è§?????ˉ?è?a???è?a??¨é??é???±?è?|?°±??ˉ??€??a??o??¨?oo??£????€???€?1???ˉ?oo?·¥??oè????£????????¢?′¢?oo?·¥??oè???????a??¥???Chatbots ??€?…?è??????±??????‰?“a?o????????§??…?è?????è???¤???o??¨?oo??€??ˉ?±???o?????·????ˉ??§???€??ˉé????‰????????????è???€???€??aé???o§è???¤???o??¨?oo??ˉ??¥??…????¤??§???????????°??…?è?????????????°????–°?????€?‰??2??€???¥???chatbots ??ˉ??¥?°?????????????????????°?–°???é???o|????oo?·¥??oè??é?±??¨Chatbotsè???o?chatbots ????”¨?…?è??????oo?·¥??oè?????AI??‰?’???o??¨?-|?1???—?3???¥???è§£?’?????o”?”¨??·?????¥èˉ¢?€?????????ˉ??¥????o’??¨??-?-|?1????é????€?—?é—′?????¨?§?????–-?”1è??è?a?·±????“??o”?€??o”?”¨??? è????????????€???¢??·?”ˉ????’???a?€§??–?”¨??·??“éa??€?NLP é?±??¨Chatbotsè?a???èˉ-言?¤???? (NLP)chatbots ?…·??‰?…?è?????èˉ-言???è§£è??????€?????????ˉ??¥???è§£?”¨??·???è?“?…¥????o?è§£???????–?????1??”?????±?????oo?±????????o”?€??o”?”¨??? ?ˉ1èˉ????é?¢?€??£°??§?3?????’??¤????????”¨??·?o¤?o’?€???…?¢??????¥Chatbotsè???o?chatbots ??ˉ??¥??¨??′??a?ˉ1èˉ?è???¨???-?????????????–????è?°???è?????????o’??¨?’??”¨??·????¥??€?è????·?°±è???????o??′???è??è′ˉ?’???a?€§??–???????o”?€??o”?”¨?????¢??·?”ˉ????€???a?€§??–??¨è???’???¨?€??ˉ1èˉ??μ??¤??§?èˉ-言Chatbotsè???o?chatbots è???¤????è§£?’??“??o”?¤??§?èˉ-言?€???????????”¨èˉ-言?¨?????’????èˉ‘???è???????o?…¨????”¨??·???????—??????“éa??€??o”?”¨??? ???é?…??¢??·?”ˉ????”????Chatbots?”???????chatbots ????”¨?…?è?????è?a???èˉ-言?”??????€??ˉ??¥??¨?€??”?????-”????€?????????ˉ??¥?”??????????????–?????…3????¤???·??–?-”????€??o”?”¨?????…??1?????o?€???¨?€???…?o?è?2è?°?’??o’??¨?ˉ1èˉ?Chatbots ????”¨??o??¨?-|?1??¨????è???o?chatbots ??′????o?é’??ˉ1?‰1??????????????o??¨?-|?1??¨???????????…?è???¤??‰§è????…??????????€???????èˉ??????–??¨è???3?????-‰???è???€??o”?”¨?????¢??·???é|???-?????…??????????€???a?€§??–??¨è???€??oo?·¥??oè??è???????????è????????????????…?…·??‰??o??????è???¤????è???€?????????ˉ??¥?‰§è?????????€???‰??’?o|???????1????????§??o”?”¨?¨??o?é???????????????…¨é?¢????”¨??·??“éa??€??o”?”¨??? ??a?oo?”??o§????€???????è?a??¨??–?’???oè??????±…??§????€??|????????”¨?¤?èˉ-言è???¤???o??¨?oo?‰??¤§??????????…¨?????±?“??????‘??°Botpress: ?????€??£è???¤???o??¨?oo?”??????¨???Botpress??ˉ??€???é???‘??€§???è???¤???o??¨?oo?”??????¨???è??è????oè???3???????????????o?¥???°???é€?é??????€??—?è?o??¨??ˉ???éa???°?ˉ??????€??‘?oo?‘?è????ˉ??????èμ·?-¥???è?????????–°???è?ˉ????¨??o?é??è??è????¨??o????§???o??ˉ?????o??¨?€??€?????o”??μ?????? chatbots ?€?????”¨ AI Brilliance ???é€???oè???ˉ1èˉ????????”¨?°–??ˉ????oo?·¥??oè????€??ˉ?????o??¨???chatbots ?3¨?…¥?????o?????o??3?-–?’???¨?€?é€??o”??ˉ?¢????è??????€????????????£????¨??o???ˉ??????è?a????€§????—?é?€?????-????oo?·¥?12é¢???????è€????????—????????”¨??·??“éa??€?é€?è??è?a?????£??????é????¢??·???????o|???è??è?a?·±?2‰?μ???¨è?a?????£????????–?????-?????¨è??é???????¢??·???????o|?????€??–??????????????—?????°?€?è????¨???chatbots ?¤????????§???????????????–èμ??o??????o?”¨??·???????—??????|?ˉ”????”ˉ????€??…?è′1????”¨???è??????…¥è???????“éa?è??????????oè???¤???o??¨?oo????1?è?£?€??…?è′1?3¨???????????3??€?§??€??—?é?€????”¨???????oˉ?21???????–°è§|?‰???ˉ????€?????”¨??ˉ???????¨??????¢?′¢?—?é????ˉè???????‘??° 100 ?¤??§???o??????è?????é??èo??????????????…¨??ˉ???????¨?????€????销?”?Chatbots ??°??¥?o·??????????‰???°??€é€??????¨é?1???????¨???????è??????????°??¨????????ˉ?€??…¨???è§??¨?????ˉ1èˉ??????€????????o???è·¨?????????é?“?‰??±?????”¨??????èˉ-言?o¤?μ??€?èˉ-言é???¢??·2?????oè?????????????o??‘??????????“????è?a??¨???èˉ‘??? 100 ?¤??§?èˉ-言?€??????-?”1è??????????°??€??3???????????????????€???…??????????’?èˉˉè§£?o’??¨??-?”?é??è§?è§£?€?????”¨è???o??????ˉ????–-????–??’????é??è???¤???o??¨?oo????€§è????????????…?????”¨??·é?€?±?????-¥??‘?±??€?????…¥?……????′??????? ??€?o??¤???o:?????o??‘???è“??????‘?±??????€?o??¤???o?????€?‘????10,000 ?¤????è???¤???o??¨?oo?????o者??¨è??é???o¤?μ??€?????o???3?3??1??o?è§£??€?–°è???±??€???“éa?è???¤???o??¨?oo??€??ˉ?????a??¥?€???°??¨?°±??€?§?????”¨Botpress- ?…?è′1????…?è′1?o?è§£Botpress - ?????€??a GPT ????”??13??°???è§?é—?é¢???€?1???ˉ??oè????£?????????????|??????¨??°?-—??ˉ?¢???-è??è???????oè????£?????ˉè??è???”¨?o???¨????§???°?-—??ˉ?¢???-è????¨????????“?€???????????‘¨??′??ˉ?¢???-?”?é????¥èˉ????èˉ???°??“?‰???¢???????1??‰§è??è????¨??¥?????°é¢???????????€???????????€§è????—?…???¨??ˉè§??ˉ???ˉ?¢???-?‰€é????–????¤–é?¨è????¨?????±?“??€??oo?·¥??oè???|??????¨??£??????è????-??‘??¥????”¨????oo?·¥??oè??èμ??o???oè????£????-|?1??€???¨????’?é€??o”???è??????€???£???????”¨?oo?·¥??oè????¥?¢???oè?a?·±?????¥èˉ??o“??????è€???¨????§???ˉ?¢???-?????o??′?¤?????????3?-–?€???€?1???ˉ??oè????£????????¥èˉ??o“?????oè????£????????¥èˉ???…?????ˉ?¢??????ˉ?€?é¢?????1‰è§?????’??ˉ1??“?‰???…??μ?????o????o?è§£?€?è???o???¥èˉ????????o?????????3?-–è???¨??????o??€?€???€?1???ˉ??oè????£???????€§è??è|??′??????oè????£???????€§è??è|??′???ˉ???????????¨?‰1?????ˉ?¢???-?????°???????’??????o?????–è????¨??3?-–???è??????€??????ˉ??3?????£??????????’???????????…3é”?è|??′??€???£????ooè????|??¨?-‰?o§??“?????-è??????????ˉ??????????±???£?????ˉ??€?§???‰??“????±????è??è???????oè????£????€?é???o§??£???è′?è′£?€???“??3?-–???è€?????o§??£????????¨??′?1??3????????????…?¤?????…·??“???????€?è???§?????±???“?????ˉ??¥??¨?¤?????????ˉ?¢???-é?????è??è???€???oè????£?????ˉ??|??¥??‰é???????oè??è??è???????ˉ??????è???¤???oè????£???é????ˉ??¨??‰é????oè???????…??μ???è??è????????è??????‘3??€????????‰???????????¥èˉ??’?è?????è????′?€?è???§?é???????‰????o?????????“?3¨?o??‰1?????????????’???ˉ?¢?????????o??¨è???o????????’???ˉ?¢???-??????????????“?????¥èˉ???€??o????…3?€?????o???°?…?è′1?‰“é€?è?a?·±?????a?€§??–?oo?·¥??oè??è???¤???o??¨?oo????”¨??‘?????′è§??????–?”????é?¢?????€?§??????o??a?€§??–??? GPT ??o??¨?oo?€???€?§?????”¨ - ?…?è′1?????¤–?—?é?€????”¨?????…????o?è§£?oo?·¥??oè???????€?–°??¨?€?chatbots

????…3?–?????‰1è‰2è???????€?¤§é???o|??°??‘??¥è???????????????????????????”¨?oo?·¥??oè????‘?±?????????? 7 é?1?????¥????”¨?–°??€??£?oo?·¥??oè??é???”???¨????????????????€?????”¨?oo?·¥??oè???”?????????…??1?€?è?a??¨???è???¨??o??’??ˉ1??¢??·è????o????·±?…¥?′??ˉ??????¨????o‰??-??????é¢??…????Botpress ?¤???o2024 ?1′ 2 ??? 16 ?—¥9 ???é’?é?…èˉ??????3é?…èˉ??‰1è‰2è??????|???????é??è???¤???o??¨?oo??¢??·?????????????o|?’?è????–???选?????€????…·??‰?…3é”????è?????è???¤???o??¨?ooè?ˉ?????????é????¢??·?????????????o|?’?è????–????€?Botpress ?¤???o2024 ?1′ 2 ??? 13 ?—¥9 ???é’?é?…èˉ??????3é?…èˉ??‰1è‰2è?????è???¤???o??¨?ooè?????é????‘?????????????o|??—?????3??¥é?“??¨??‘???????·????è???¤???o??¨?ooè????|???é?????????o|?????¨è???ˉ??????ˉ??°?ˉ?????–??????-?????¨??ˉ??¥?‰???°?-”????1??o?è§£è???¤???o??¨?oo?????′?¤?????¤????Botpress ?¤???o2024 ?1′ 2 ??? 12 ?—¥10 ???é’?é?…èˉ??????3é?…èˉ???a?‰???°é?1????€?????”¨ Botpress ?????o??′?¥?????o§?“??…?è′1??€?”?????????3??€?§??????o??”??–者????”¨è°·?-??????·??§??-?—?é?€????”¨?????…???

?o§?“??????·????“??·¥?????¤èˉ-言Hub???é?“é??????¨????èμ??o????销?”??oo?‘??o¤?μ??–???£??¥?‰???“???è§?频??¢??·??…?o??o”?”¨?¨??o???¥??£???è€??????¢????€?v12 èμ??o??¤???o?¤???o?”ˉ????????o???????????′?????o????‘??¤§???è????’?…?????…3?o???‘???è??????”???ˉ?–°é—??3?????£°?????|??? GDPR??Botpress 2024

智能代理讓機(jī)器“聞弦歌知雅意” - 華為出版物

智能代理讓機(jī)器“聞弦歌知雅意” - 華為出版物

本站點(diǎn)使用cookies,繼續(xù)瀏覽表示您同意我們使用cookies。Cookies和隱私政策

集團(tuán)網(wǎng)站

選擇區(qū)域/語(yǔ)言

登錄

My Huawei

注銷

返回主菜單

華為門(mén)戶網(wǎng)站群

集團(tuán)網(wǎng)站

公司介紹、新聞動(dòng)態(tài)、展會(huì)活動(dòng)等信息

消費(fèi)者業(yè)務(wù)網(wǎng)站

手機(jī),PC和平板等智慧生活產(chǎn)品

企業(yè)業(yè)務(wù)網(wǎng)站

企業(yè)商用產(chǎn)品、解決方案和服務(wù)

運(yùn)營(yíng)商業(yè)務(wù)網(wǎng)站

運(yùn)營(yíng)商網(wǎng)絡(luò)解決方案、產(chǎn)品及服務(wù)

華為云網(wǎng)站

華為云服務(wù)及解決方案

選擇區(qū)域/語(yǔ)言

Australia -

English

Belarus -

Pусский

Brazil -

Portuguese

Canada -

English

China -

簡(jiǎn)體中文

France -

Fran?ais

Germany -

Deutsch

Ireland -

English

Italy -

Italiano

Japan -

日本語(yǔ)

Kazakstan -

?аза? т?л?

Kazakstan -

Pусский

Kenya -

English

Korea -

???

Malaysia -

English

Mexico -

Espa?ol

Mongolia -

Mонгол

New Zealand -

English

Netherlands -

Nederlands

Poland -

Polski

Romania -

Roman?

Russia -

Pусский

Singapore -

English

South Africa -

English

Spain -

Espa?ol

Switzerland -

English

Thailand -

???????

Turkiye -

Türk?e

Ukraine -

Укра?нська

United Kingdom -

English

Uzbekistan -

Pусский

Uzbekistan -

O’zbek

Vietnam -

Ti?ng Vi?t

Global -

English

Toggle Navigation

個(gè)人及家庭產(chǎn)品

返回主菜單

個(gè)人及家庭產(chǎn)品

手機(jī)

電腦

平板

智慧屏

穿戴

耳機(jī)音箱

全屋智能

路由器

HarmonyOS

全部產(chǎn)品

消費(fèi)者業(yè)務(wù)網(wǎng)站

華為商城

華為商城

商用產(chǎn)品及方案

返回主菜單

商用產(chǎn)品及方案

產(chǎn)品

聯(lián)接

運(yùn)營(yíng)商網(wǎng)絡(luò)

企業(yè)網(wǎng)絡(luò)

企業(yè)光網(wǎng)絡(luò)

企業(yè)無(wú)線

計(jì)算

鯤鵬計(jì)算

昇騰AI計(jì)算

數(shù)據(jù)存儲(chǔ)

華為云

服務(wù)

運(yùn)營(yíng)商服務(wù)

政企服務(wù)

上云服務(wù)

行業(yè)解決方案

電信

金融

電力

油氣

制造

教育

更多行業(yè)方案

熱點(diǎn)話題

數(shù)字城市

加速行業(yè)智能化

企業(yè)業(yè)務(wù)網(wǎng)站

運(yùn)營(yíng)商業(yè)務(wù)網(wǎng)站

華為云網(wǎng)站

數(shù)字能源網(wǎng)站

服務(wù)支持

返回主菜單

服務(wù)支持

個(gè)人及家庭產(chǎn)品支持

維修申請(qǐng)

上門(mén)安裝

華為服務(wù)日

服務(wù)店查詢

備件價(jià)格查詢

在線客服

查看更多

華為云服務(wù)支持

智能客服

新手入門(mén)

支持計(jì)劃

自助服務(wù)

云社區(qū)

云資源管理App

查看更多

企業(yè)業(yè)務(wù)支持

智能客服

產(chǎn)品支持

軟件下載

互動(dòng)社區(qū)

工具

查看更多

運(yùn)營(yíng)商網(wǎng)絡(luò)支持

產(chǎn)品支持

Group Space

公告

華為資料直通車(chē)

查看更多

合作伙伴與開(kāi)發(fā)者

返回主菜單

合作伙伴與開(kāi)發(fā)者

合作伙伴

成為合作伙伴

查找合作伙伴

云商店

查看更多

培訓(xùn)與認(rèn)證

學(xué)習(xí)

華為認(rèn)證

企業(yè)客戶培訓(xùn)

華為ICT學(xué)院

華為云開(kāi)發(fā)者學(xué)堂

查看更多

開(kāi)發(fā)者

終端開(kāi)發(fā)者

華為云開(kāi)發(fā)者

鯤鵬開(kāi)發(fā)者

昇騰開(kāi)發(fā)者

查看更多

關(guān)于華為

返回主菜單

關(guān)于華為

關(guān)于華為

公司簡(jiǎn)介

公司年報(bào)

公司治理

管理層信息

聯(lián)系我們

可持續(xù)發(fā)展

信任中心

華為開(kāi)源

創(chuàng)新與知識(shí)產(chǎn)權(quán)

合規(guī)與誠(chéng)信

華為招聘

債券投資者

供應(yīng)商

公共政策

新聞與活動(dòng)

新聞

展會(huì)活動(dòng)

多媒體

發(fā)現(xiàn)華為

華為技術(shù)專欄

躍升數(shù)字生產(chǎn)力

智能世界2030報(bào)告

邁向智能世界白皮書(shū)

出版物

在線購(gòu)買(mǎi)

返回主菜單

在線購(gòu)買(mǎi)

華為商城

華為商城

華為云

快速鏈接:

手機(jī)產(chǎn)品

消費(fèi)者產(chǎn)品保修查詢

HiSuite華為手機(jī)助手

華為應(yīng)用市場(chǎng)

華為電腦管家

HarmonyOS 4

EulerOS

盤(pán)古大模型

華為認(rèn)證

華為招聘

華為商城

華為商城

華為云

歷史搜索

快速鏈接:

手機(jī)產(chǎn)品

消費(fèi)者產(chǎn)品保修查詢

HiSuite華為手機(jī)助手

華為應(yīng)用市場(chǎng)

華為電腦管家

HarmonyOS 4

EulerOS

盤(pán)古大模型

華為認(rèn)證

華為招聘

華為技術(shù)專欄

智能代理讓機(jī)器“聞弦歌知雅意”

文/Bo Begole

2015年04月

×

微信掃一掃: 分享

微信里點(diǎn)“發(fā)現(xiàn)”,掃一下

二維碼便可將本文分享至朋友圈。

網(wǎng)頁(yè)鏈接已復(fù)制

快去微信分享給好友吧!

我知道了

目前,數(shù)字助手所具備的基于腳本的偽智能已經(jīng)遠(yuǎn)遠(yuǎn)滿足不了市場(chǎng)需求。能夠適應(yīng)并理解語(yǔ)境的數(shù)字助手,即智能代理將應(yīng)運(yùn)而生,這對(duì)深度智能提出了更高要求。

?目前,數(shù)字助手所具備的基于腳本的偽智能已經(jīng)遠(yuǎn)遠(yuǎn)滿足不了市場(chǎng)需求。能夠適應(yīng)并理解語(yǔ)境的數(shù)字助手,即智能代理將應(yīng)運(yùn)而生。

語(yǔ)音識(shí)別飛速發(fā)展

?過(guò)去,計(jì)算機(jī)語(yǔ)音識(shí)別效果很差,有效果時(shí)反而會(huì)令我們?cè)尞?;如今,語(yǔ)音識(shí)別效果非常好,一旦出錯(cuò),我們就難以接受。在過(guò)去五年間,語(yǔ)音識(shí)別功能以年均15%-20%的速度發(fā)展,目前已經(jīng)達(dá)到很高的精確程度。通過(guò)語(yǔ)音識(shí)別技術(shù)與智能手機(jī)交流,讓數(shù)字助手幫忙指引路徑、推薦好看的電視劇、給朋友發(fā)送信息,已經(jīng)成為很多人日常生活的一部分。

?這主要得益于以下三大因素:

?首先,教計(jì)算機(jī)理解語(yǔ)言時(shí),需要使用大量的樣本數(shù)據(jù)。隨著搜索引擎數(shù)據(jù)的井噴,樣本數(shù)據(jù)的數(shù)量已經(jīng)增長(zhǎng)了100倍。

?其次,研究人員已經(jīng)開(kāi)發(fā)出了一種名為“深度神經(jīng)網(wǎng)絡(luò)”的新算法,專門(mén)用來(lái)模擬人腦識(shí)別各種模式。

?最后,語(yǔ)音識(shí)別技術(shù)已經(jīng)從終端轉(zhuǎn)移到云上,云端可以維護(hù)大量數(shù)據(jù)集,計(jì)算能力和內(nèi)存也是近乎無(wú)限的。隨著移動(dòng)網(wǎng)絡(luò)時(shí)延的縮短,通過(guò)網(wǎng)絡(luò)傳輸語(yǔ)言將逐漸達(dá)到實(shí)時(shí)的效果。

?不過(guò),要想讓人機(jī)交流變得更加自然,機(jī)器必須要理解人類的語(yǔ)言。目前的數(shù)字助手看似非常智能,但實(shí)際上,它們使用了一種非常淺顯的語(yǔ)言理解形式,即識(shí)別用戶希望完成的任務(wù)和這項(xiàng)任務(wù)的屬性。

?一般情況下,語(yǔ)音識(shí)別系統(tǒng)能夠識(shí)別明確任務(wù)領(lǐng)域的短語(yǔ)(通常是個(gè)動(dòng)詞),例如呼叫、警告、找到等。如果無(wú)法從用戶的陳述中找到必要信息,就會(huì)以腳本對(duì)話的形式要求獲得更多信息。

?雖然目前的數(shù)字助手也可以執(zhí)行用戶的命令,但是與人類私人管家相比還天差地別。私人管家可以本能地理解人類的意圖,甚至還能提供額外的建議。如今的數(shù)字助手一旦脫離預(yù)設(shè)的任務(wù)范圍就不知所措,無(wú)法預(yù)測(cè)問(wèn)題并給出解決方案,也不能發(fā)揮主觀能動(dòng)性。用戶必須給出所有信息,即便如此,有時(shí)也得不到想要的答案。很快,人類將對(duì)數(shù)字助手的偽智能感到沮喪,進(jìn)而要求它們具備真正的智能。

機(jī)器如何像人一樣對(duì)話?

?在可穿戴設(shè)備、自動(dòng)駕駛汽車(chē)、機(jī)器人和嵌入式智慧家庭應(yīng)用進(jìn)入尋常百姓家的極致創(chuàng)新時(shí)代,能夠像人一樣對(duì)話并執(zhí)行任務(wù)的智能代理將是什么樣的呢?

?在AI研究人員眼中,智能代理需要根據(jù)過(guò)去的經(jīng)驗(yàn)作出決策。但是消費(fèi)者則期望智能代理具備更多功能。

?對(duì)話:智能代理的語(yǔ)言理解能力不再停留在淺顯的表面。計(jì)算機(jī)常常無(wú)法理解用戶的意圖,或?qū)τ脩舻闹甘靖械嚼Щ螅坏貌唤柚W(wǎng)絡(luò)搜索。出現(xiàn)這種情況,是因?yàn)殡娔X沒(méi)有真正理解用戶的話,無(wú)法識(shí)別任務(wù)的類型,無(wú)法依靠事先確定好的腳本來(lái)詢問(wèn)更多細(xì)節(jié)。相比之下,一旦遇到不清楚的地方,人類就會(huì)進(jìn)一步詢問(wèn)。例如,他們會(huì)說(shuō):“對(duì)不起,您要找哪種餐廳?”

?解釋:對(duì)話系統(tǒng)可以依靠更深入的語(yǔ)言模型解釋為什么會(huì)提出某個(gè)建議。例如,如果我問(wèn)家里的智能電視有什么法律題材的電視劇可以推薦,電視可能會(huì)建議我看《超膽俠》??墒且婚_(kāi)始我并不知道,這個(gè)電視的男主角白天是律師,晚上就化身超膽俠,將逍遙法外的惡徒就地正法。此時(shí),電視就需要向我解釋一下,為什么要推薦這部從名稱上聽(tīng)起來(lái)跟法律無(wú)關(guān)的電視劇了。

?機(jī)智:智能代理要像人類一樣足智多謀,具有主觀洞察力,遇到問(wèn)題時(shí),要想方設(shè)法尋找解決方案。例如,智能代理需要提醒我,我和同事預(yù)約共進(jìn)午餐的那個(gè)餐廳當(dāng)天不營(yíng)業(yè),因?yàn)槟翘焓亲诮坦?jié)日。

?專注:智能代理必須時(shí)刻保持專注。如果我的孩子說(shuō)牛奶喝完了,智能代理需要立刻做出反應(yīng),將牛奶加入在線購(gòu)物車(chē)?yán)?,而不需要我給它指示。

?對(duì)社交環(huán)境有敏銳洞察:當(dāng)我在和他人交流時(shí),智能代理必須搞清楚什么情況下能打斷我們,什么時(shí)候不能。

?了解語(yǔ)境:實(shí)際上,社交智能是更廣泛的語(yǔ)境智能的一小部分,但卻非常重要。智能代理必須明確了解用戶所處的環(huán)境,并主動(dòng)選擇用戶在類似環(huán)境中曾經(jīng)使用過(guò)的服務(wù)。例如,晚餐快結(jié)束的時(shí)候,智能代理要能主動(dòng)幫用戶叫出租車(chē)。

?與人互動(dòng):或許最重要的一點(diǎn)是,智能代理能夠與人交流互動(dòng)。在人與人的對(duì)話中,若一方提出緊急需求,另一方就會(huì)給予響應(yīng);一方講了一個(gè)笑話,另一方就會(huì)被逗樂(lè);一方提出憂心的事,另一方就會(huì)給出建議。智能代理并非為了替代人類伴侶,但還是要達(dá)到真實(shí)的對(duì)話效果,該笑的時(shí)候笑,該表示關(guān)切的時(shí)候表示關(guān)切,該提供解決方案的時(shí)候能提供解決方案。

?未來(lái),機(jī)器人、自動(dòng)駕駛汽車(chē)、智慧家庭應(yīng)用需要通過(guò)適當(dāng)?shù)姆绞綄?shí)現(xiàn)對(duì)話、解釋、規(guī)劃、互動(dòng)功能,這些都對(duì)深度智能提出了更高要求。要想達(dá)到這一高度,自然語(yǔ)言處理技術(shù)的發(fā)展至關(guān)重要。

點(diǎn)擊排行

01

打造中國(guó)堅(jiān)實(shí)的算力底座,為世界構(gòu)建第二標(biāo)準(zhǔn)

文/華為副董事長(zhǎng)、輪值董事長(zhǎng)、CFO 孟晚舟

02

智能制造背后的黑科技:華為打造新一代開(kāi)放架構(gòu)的先進(jìn)工業(yè)網(wǎng)絡(luò)

文/華為數(shù)據(jù)通信產(chǎn)品線總裁 王雷

03

“四條路徑”打造人才生態(tài)“三棵樹(shù)”,共迎智能時(shí)代

文/華為ICT人才伙伴發(fā)展部部長(zhǎng) 孫剛

04

當(dāng)AI遇上油氣,看傳統(tǒng)行業(yè)如何智能化

05

全球HCIE-Datacom第一人 是這樣煉成的

文/YESLAB培訓(xùn)中心實(shí)驗(yàn)室金牌講師 韓士良

06

賦能科技女性發(fā)展,綻放“她”力量

文/華為企業(yè)溝通部副總裁 張園

在線客服

個(gè)人及家庭產(chǎn)品

熱線:950800(7*24小時(shí))

查找零售店

咨詢客服

華為云服務(wù)

熱線:4000-955-988|950808

預(yù)約售前專屬顧問(wèn)

智能客服

企業(yè)服務(wù)

熱線:400-822-9999

查找經(jīng)銷商

咨詢客服

運(yùn)營(yíng)商網(wǎng)絡(luò)服務(wù)

熱線:4008302118

技術(shù)支持中心

查看全部聯(lián)系方式

首頁(yè)

/華為技術(shù)專欄

/營(yíng)贏?別冊(cè)4(人工智能)

關(guān)于華為

公司簡(jiǎn)介

可持續(xù)發(fā)展

信任中心

管理層信息

招賢納士

供應(yīng)商

查看更多

新聞與活動(dòng)

新聞

展會(huì)活動(dòng)

多媒體

發(fā)現(xiàn)華為

華為技術(shù)專欄

躍升數(shù)字生產(chǎn)力

智能世界2030報(bào)告

邁向智能世界白皮書(shū)

出版物

我們的產(chǎn)品

個(gè)人及家庭產(chǎn)品

企業(yè)業(yè)務(wù)產(chǎn)品

運(yùn)營(yíng)商網(wǎng)絡(luò)產(chǎn)品

華為云服務(wù)

技術(shù)支持

消費(fèi)者技術(shù)支持

華為云技術(shù)支持

企業(yè)技術(shù)支持

運(yùn)營(yíng)商技術(shù)支持

安全應(yīng)急響應(yīng)

華為商城

華為云

華為智能光伏

產(chǎn)品定義社區(qū)

華為心聲社區(qū)

×

官方微信

微信中長(zhǎng)按識(shí)別二維碼或搜索“華為”公眾號(hào)

?2024 華為技術(shù)有限公司?粵A2-20044005號(hào)??粵公網(wǎng)安備44030702002388號(hào)

聯(lián)系我們

法律聲明

隱私政策

除名查詢

一文讀懂 AI Agents 技術(shù)-騰訊云開(kāi)發(fā)者社區(qū)-騰訊云

AI Agents 技術(shù)-騰訊云開(kāi)發(fā)者社區(qū)-騰訊云Luga Lee一文讀懂 AI Agents 技術(shù)關(guān)注作者騰訊云開(kāi)發(fā)者社區(qū)文檔建議反饋控制臺(tái)首頁(yè)學(xué)習(xí)活動(dòng)專區(qū)工具TVP最新優(yōu)惠活動(dòng)文章/答案/技術(shù)大牛搜索搜索關(guān)閉發(fā)布登錄/注冊(cè)首頁(yè)學(xué)習(xí)活動(dòng)專區(qū)工具TVP最新優(yōu)惠活動(dòng)返回騰訊云官網(wǎng)Luga Lee首頁(yè)學(xué)習(xí)活動(dòng)專區(qū)工具TVP最新優(yōu)惠活動(dòng)返回騰訊云官網(wǎng)社區(qū)首頁(yè) >專欄 >一文讀懂 AI Agents 技術(shù)一文讀懂 AI Agents 技術(shù)Luga Lee關(guān)注發(fā)布于 2023-11-22 15:31:172.1K0發(fā)布于 2023-11-22 15:31:17舉報(bào)文章被收錄于專欄:架構(gòu)驛站架構(gòu)驛站 Hello folks,我是 Luga,今天我們來(lái)聊一下人工智能(AI)生態(tài)領(lǐng)域相關(guān)的技術(shù) - AI Agents(AI 代理) 。 想象一下:軟件實(shí)體能夠自主地與環(huán)境交互,根據(jù)收集的數(shù)據(jù)做出決策,并以最少的人為干預(yù)執(zhí)行基于特定場(chǎng)景。幸好,借助 AI Agents 技術(shù),這個(gè)現(xiàn)實(shí)比你想象的更接近了。這些智能代理正在徹底改變行業(yè),并改變我們的生活方式。但是,大家可能會(huì)好奇:AI Agents 到底是什么?它們是如何工作的?在本篇博文中,我們將深入探索 AI Agents 的世界! 人工智能(AI)賦予機(jī)器具備判斷和執(zhí)行任務(wù)的能力,以協(xié)助人類在某些特定的業(yè)務(wù)場(chǎng)景中實(shí)現(xiàn)某項(xiàng)目標(biāo),從而顯著改變了人機(jī)交互方式。在人工智能的核心體系中,我們可以關(guān)注到這些智能實(shí)體被稱為智能代理(IA)的 AI Agents,能夠感知環(huán)境變化并對(duì)其進(jìn)行分析,以采取合理的行動(dòng)來(lái)實(shí)現(xiàn)既定目標(biāo)。 通常來(lái)說(shuō),不同類型的 AI Agents 旨在解決特定的挑戰(zhàn)并完成特定的任務(wù)。對(duì)于構(gòu)建有效且高效的人工智能系統(tǒng)來(lái)說(shuō),更深入地了解 AI Agents 的不同類型便顯得至關(guān)重要。通過(guò)了解各種 AI Agents 類型,我們可以更好地理解它們的功能和應(yīng)用領(lǐng)域,并根據(jù)具體需求選擇最合適的 AI Agents。 AI Agents 可以是專門(mén)針對(duì)某個(gè)任務(wù)設(shè)計(jì)的,例如圖像識(shí)別、語(yǔ)音識(shí)別或自然語(yǔ)言處理。這些 Agents 利用先進(jìn)的算法和模型來(lái)解析輸入數(shù)據(jù)并生成準(zhǔn)確的輸出。 另一類 AI Agents 便是通用型代理,它們具備更廣泛的智能和適應(yīng)能力。這些代理能夠處理多種任務(wù)和領(lǐng)域,并具備學(xué)習(xí)和適應(yīng)的能力。通用型代理通?;跈C(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),通過(guò)從大量數(shù)據(jù)中學(xué)習(xí)和推斷來(lái)改進(jìn)其性能和表現(xiàn)。 除此之外,AI Agents 還可以根據(jù)其交互方式進(jìn)行分類。有些代理是自主的,它們能夠獨(dú)立地感知環(huán)境、做出決策并執(zhí)行任務(wù)。另一些代理則是協(xié)同的,它們與人類用戶進(jìn)行交互,通過(guò)理解用戶的意圖和目標(biāo)來(lái)提供幫助和建議。— 01 —什么是 AI Agents & Autonomous AI Agents ? 其實(shí),自 20 世紀(jì) 80 年代計(jì)算機(jī)科學(xué)家開(kāi)始探索如何開(kāi)發(fā)可以像人類一樣交互的智能軟件以來(lái),AI Agents 已經(jīng)出現(xiàn)。從那時(shí)起,這個(gè)概念已經(jīng)發(fā)展到包括可以獨(dú)立做出決策和完成特定場(chǎng)景任務(wù)的智能代理。 AI Agents 是一種軟件程序,旨在與其環(huán)境交互,感知接收到的數(shù)據(jù),并根據(jù)該數(shù)據(jù)采取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)。AI Agents 能夠模擬智能行為,可以像基于規(guī)則的系統(tǒng)一樣簡(jiǎn)單,也可以像高級(jí)機(jī)器學(xué)習(xí)模型一樣復(fù)雜。AI Agents 使用預(yù)先確定的規(guī)則或經(jīng)過(guò)訓(xùn)練的模型來(lái)做出決策,并且可能需要外部控制或監(jiān)督。 相對(duì)于傳統(tǒng)的 AI Agents,自主 AI Agents 是一種先進(jìn)的軟件程序,可以在沒(méi)有人類控制的情況下獨(dú)立運(yùn)行。它們可以自主思考、行動(dòng)和學(xué)習(xí),無(wú)需人類不斷輸入。這些代理廣泛應(yīng)用于醫(yī)療保健、金融和銀行等不同行業(yè),使事情運(yùn)行得更順暢、更高效。它們可以適應(yīng)新情況,從經(jīng)驗(yàn)中學(xué)習(xí),并利用自己的內(nèi)部系統(tǒng)做出決策。 隨著人工智能技術(shù)的不斷發(fā)展,AI Agents 的能力和應(yīng)用領(lǐng)域也在不斷擴(kuò)展。在某種程度上,AI Agents 已經(jīng)成為許多領(lǐng)域中的關(guān)鍵工具,幫助人們解決復(fù)雜的問(wèn)題和提高工作效率。通過(guò)不斷改進(jìn)和優(yōu)化人工智能代理的設(shè)計(jì)和算法,我們可以期待更多智能、自主的代理出現(xiàn),為各行各業(yè)帶來(lái)更大的幫助和創(chuàng)新。 在過(guò)去的幾個(gè)月里,AI Agents 引起了巨大的關(guān)注和人氣。一個(gè)令人印象深刻的例子便是 AutoGPT,在 GitHub 上的星星數(shù)已經(jīng)達(dá)到了驚人的 140,000 顆。這反映了大家對(duì)開(kāi)源 AI Agents 項(xiàng)目的廣泛興趣和支持。 不僅如此,我們幾乎每周都能看到新的公司成立,專注于 AI Agents 的開(kāi)發(fā)和應(yīng)用。這表明 AI Agents 領(lǐng)域正在迅速發(fā)展,吸引了越來(lái)越多的創(chuàng)業(yè)者和投資者的關(guān)注。 這個(gè)生態(tài)系統(tǒng)中的 AI Agents 種類繁多,從審查代碼的代理(例如 Sweep AI)到像 Lindy 這樣的虛擬個(gè)人助理,涵蓋了各種不同的功能和應(yīng)用領(lǐng)域。這些代理的出現(xiàn)為我們提供了更多的選擇和可能性,能夠滿足不同用戶和業(yè)務(wù)的需求。 為了更好地了解這個(gè)生態(tài)系統(tǒng)的現(xiàn)狀,我們對(duì) 50 多個(gè) AI Agents 進(jìn)行了概覽,并將它們匯總到一個(gè)列表中。這個(gè)列表包括了各種類型的代理,涉及的領(lǐng)域包括自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音識(shí)別、智能助理等。我們對(duì)這些代理的功能、性能和用戶反饋進(jìn)行了評(píng)估和總結(jié),以便為用戶提供參考和決策支持?!?02 — AI Agents 通常都具有哪些特征因素 ? 通常而言,AI Agents 具有以下幾個(gè)特征因素,具體表現(xiàn)為如下: 1、感知和理解能力 AI Agents 能夠感知環(huán)境中的信息,例如圖像、聲音、文本等,并理解這些信息的含義和上下文。這涉及到使用傳感器、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理等技術(shù)來(lái)實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的解析和理解。 2、決策和規(guī)劃能力 AI Agents 能夠基于感知到的信息和存儲(chǔ)的知識(shí)做出決策并制定行動(dòng)計(jì)劃,可以使用邏輯推理、統(tǒng)計(jì)分析、規(guī)劃算法或機(jī)器學(xué)習(xí)技術(shù)來(lái)評(píng)估不同行動(dòng)的可能結(jié)果和潛在風(fēng)險(xiǎn),并選擇最佳的行動(dòng)策略。 3、自主學(xué)習(xí)和適應(yīng)能力 AI Agents 具有學(xué)習(xí)和改進(jìn)自身的能力,可以從經(jīng)驗(yàn)中學(xué)習(xí),并根據(jù)反饋信息不斷改進(jìn)自己的性能和表現(xiàn)。代理可以使用監(jiān)督學(xué)習(xí)、增強(qiáng)學(xué)習(xí)、遷移學(xué)習(xí)等技術(shù)來(lái)獲取新知識(shí)、調(diào)整決策制定和行動(dòng)執(zhí)行過(guò)程,以提高自身的智能水平和適應(yīng)能力。 4、交互和溝通能力 AI Agents 能夠與人類或其他代理進(jìn)行交互和溝通,可以理解自然語(yǔ)言指令、生成自然語(yǔ)言回應(yīng),并使用語(yǔ)音、文字或其他形式與用戶進(jìn)行有效的交流。這涉及到自然語(yǔ)言處理、對(duì)話系統(tǒng)、語(yǔ)音合成等技術(shù)的應(yīng)用。 5、知識(shí)表示和存儲(chǔ)能力 AI Agents 能夠組織和存儲(chǔ)知識(shí),并有效地檢索和利用這些知識(shí)來(lái)支持決策和行動(dòng),可以使用符號(hào)邏輯、圖形模型、向量表示等方式來(lái)表示和存儲(chǔ)知識(shí),并使用數(shù)據(jù)庫(kù)或其他數(shù)據(jù)結(jié)構(gòu)來(lái)實(shí)現(xiàn)高效的知識(shí)管理。 6、情境感知和靈活性 AI Agents 具有對(duì)不同情境的感知能力,并可以根據(jù)情境的變化做出相應(yīng)調(diào)整,可以識(shí)別環(huán)境中的變化、適應(yīng)新的任務(wù)要求,并靈活地調(diào)整決策和行動(dòng)策略,以適應(yīng)不同的場(chǎng)景和需求。 這些特征因素共同構(gòu)成了 AI Agents 的核心能力,使其能夠在各種任務(wù)和領(lǐng)域中展現(xiàn)出智能和適應(yīng)性。然而,具體的 AI Agents 的特征因素可能會(huì)因應(yīng)用領(lǐng)域、任務(wù)要求和設(shè)計(jì)選擇而有所差異?!?03 — AI Agents 的內(nèi)部結(jié)構(gòu)是怎樣設(shè)計(jì)的 ? AI Agents 的內(nèi)部結(jié)構(gòu)可以根據(jù)具體的應(yīng)用和任務(wù)而有所不同,但通常包括以下幾個(gè)核心組件。關(guān)于 AI Agents 的通用型內(nèi)部結(jié)構(gòu)參考示意圖,我們可參考如下所示:

基于上述內(nèi)部結(jié)構(gòu)示意圖,我們可以看出:AI Agents 的內(nèi)部結(jié)構(gòu)由四個(gè)關(guān)鍵部分組成,分別是 Environment(環(huán)境)、Sensors(傳感器)、Actuators(執(zhí)行器)以及 Decision-making mechanism(決策機(jī)制)。 接下來(lái),我們對(duì)每個(gè)部分進(jìn)行簡(jiǎn)要的解析,以更好地理解上述組件在 AI Agents 中的作用。 1、Environment 環(huán)境是 AI Agents 所處的外部世界,通常而言,可以為真實(shí)的物理環(huán)境,也可以是虛擬的模擬環(huán)境。環(huán)境提供了 AI Agents 感知和交互的場(chǎng)所,可能包含各種元素,如物體、其他代理、任務(wù)目標(biāo)等。環(huán)境的特性和復(fù)雜性直接影響到 AI Agents 的運(yùn)行和決策過(guò)程。 2、Sensors 傳感器是 AI Agents 用于感知環(huán)境的組件。作為一種支撐各種類型的設(shè)備或技術(shù),如攝像頭、麥克風(fēng)、傳感器陣列等。傳感器可以幫助 AI Agents 獲取環(huán)境中的各種信息,如圖像、聲音、位置等。通過(guò)傳感器,AI Agents 能夠?qū)h(huán)境中的數(shù)據(jù)轉(zhuǎn)化為可處理的形式,為后續(xù)的決策和行動(dòng)提供輸入。 3、Actuators 執(zhí)行器是 AI Agents 用于執(zhí)行行動(dòng)或影響環(huán)境的組件。執(zhí)行器可以是機(jī)械裝置、運(yùn)動(dòng)控制系統(tǒng)、語(yǔ)音合成器等。它們根據(jù) AI Agents 的決策結(jié)果將行動(dòng)轉(zhuǎn)化為實(shí)際的物理或虛擬操作,從而影響環(huán)境或與環(huán)境進(jìn)行交互。執(zhí)行器的種類和屬性取決于具體的應(yīng)用領(lǐng)域和任務(wù)要求。 4、Decision-making mechanism 決策機(jī)制是 AI Agents 用于做出決策的核心組件。通??梢允腔谝?guī)則的系統(tǒng)、機(jī)器學(xué)習(xí)模型、強(qiáng)化學(xué)習(xí)算法等。決策機(jī)制接收來(lái)自傳感器的數(shù)據(jù),并根據(jù)預(yù)定義的規(guī)則或通過(guò)學(xué)習(xí)和推理來(lái)分析這些數(shù)據(jù),最終生成適當(dāng)?shù)臎Q策。這些決策可能涉及選擇特定的行動(dòng)、規(guī)劃未來(lái)的策略或調(diào)整代理的內(nèi)部狀態(tài)。 通過(guò)環(huán)境、傳感器、執(zhí)行器和決策機(jī)制的相互作用,AI Agents 能夠感知環(huán)境、分析信息、做出決策并執(zhí)行行動(dòng),以實(shí)現(xiàn)特定的目標(biāo)。這種內(nèi)部結(jié)構(gòu)的設(shè)計(jì)和優(yōu)化對(duì)于實(shí)現(xiàn)智能、自主的 AI Agents 至關(guān)重要,并且在各種應(yīng)用領(lǐng)域中發(fā)揮著重要作用,如自動(dòng)駕駛汽車(chē)、智能機(jī)器人、語(yǔ)音助手等。— 04 — AI Agents 到底是如何工作的 ? 當(dāng) AI Agents 開(kāi)始執(zhí)行某項(xiàng)特定的任務(wù)時(shí),通常需要按照一系列步驟進(jìn)行,往往涉及感知環(huán)境、處理輸入數(shù)據(jù)、做出決策、計(jì)劃和執(zhí)行行動(dòng),以及學(xué)習(xí)和改進(jìn)等。具體的工作原理可參考如下架構(gòu)圖所示: 針對(duì) AI Agents 具體實(shí)現(xiàn)過(guò)程,主要涉及以下活動(dòng),具體: 1、 環(huán)境感知 首先,AI Agents 會(huì)通過(guò)傳感器或其他數(shù)據(jù)源感知環(huán)境。傳感器可以包括視覺(jué)傳感器(如相機(jī))、聽(tīng)覺(jué)傳感器(如麥克風(fēng))、物理傳感器(如觸摸傳感器)等。這些傳感器幫助代理獲取環(huán)境中的信息,例如圖像、聲音、位置等。 2、知識(shí)表示

在此階段,AI Agents 使用適當(dāng)?shù)闹R(shí)表示方法來(lái)組織和存儲(chǔ)從環(huán)境中獲取的信息。這些信息可能包括先驗(yàn)知識(shí)、學(xué)習(xí)到的模式或規(guī)則。常見(jiàn)的知識(shí)表示方法包括符號(hào)邏輯、圖形模型、向量表示(如詞嵌入)等。通過(guò)有效的知識(shí)表示,AI Agents 能夠更好地理解和利用環(huán)境中的信息。 3、決策制定 基于感知到的環(huán)境信息和存儲(chǔ)的知識(shí),AI Agents 使用決策制定機(jī)制來(lái)生成適當(dāng)?shù)男袆?dòng)。這可能涉及使用邏輯推理、統(tǒng)計(jì)分析、規(guī)劃算法或機(jī)器學(xué)習(xí)技術(shù)來(lái)評(píng)估不同行動(dòng)的可能結(jié)果和潛在風(fēng)險(xiǎn)。決策制定過(guò)程旨在使代理能夠選擇最佳行動(dòng)以實(shí)現(xiàn)其目標(biāo)。 4、計(jì)劃和執(zhí)行行動(dòng) 在這一步中,Agents 制定計(jì)劃或一系列步驟來(lái)實(shí)現(xiàn)其目標(biāo)。一旦決策制定完成,AI Agents 將執(zhí)行行動(dòng)并與環(huán)境進(jìn)行交互。這可能涉及控制執(zhí)行器(如機(jī)器人的電機(jī))、發(fā)送指令(如語(yǔ)音助手的語(yǔ)音合成)或與其他代理進(jìn)行通信。執(zhí)行行動(dòng)后,Agents 會(huì)觀察執(zhí)行結(jié)果,并將其用作反饋以調(diào)整下一步的決策。 5、反饋與改進(jìn)

在完成上述的執(zhí)行行動(dòng)后,AI Agents 通過(guò)與環(huán)境的交互獲得反饋。這些反饋可以來(lái)自環(huán)境中的直接觀測(cè)結(jié)果,也可以來(lái)自人類用戶或其他代理的指令和評(píng)估。Agents 使用這些反饋來(lái)學(xué)習(xí)和改進(jìn)自己的行為。這可能包括使用監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)或遷移學(xué)習(xí)等技術(shù)來(lái)調(diào)整決策制定和行動(dòng)執(zhí)行過(guò)程,以提高代理的性能和適應(yīng)能力。

— 05 — AI Agents 應(yīng)用于哪些現(xiàn)實(shí)場(chǎng)景下 ?

在現(xiàn)實(shí)的業(yè)務(wù)場(chǎng)景中,AI Agents 在各個(gè)領(lǐng)域都展示出了廣泛的應(yīng)用,對(duì)日常生活產(chǎn)生了重大影響。 目前來(lái)看,主要體現(xiàn)在如下幾個(gè)方面,具體: 1、自然語(yǔ)言處理 AI Agents 在自然語(yǔ)言處理領(lǐng)域的應(yīng)用廣泛而深遠(yuǎn)。例如,智能語(yǔ)音助手(如 Siri、Alexa 和 Google 助手等)利用語(yǔ)音識(shí)別和自然語(yǔ)言理解技術(shù),使用戶能夠通過(guò)語(yǔ)音與設(shè)備進(jìn)行交互、獲取信息和執(zhí)行任務(wù)。這使得人們可以輕松地控制智能家居設(shè)備、查詢天氣、發(fā)送消息等,極大地提高了日常生活的便利性。 2、機(jī)器人技術(shù) AI Agents 在機(jī)器人領(lǐng)域的應(yīng)用也十分顯著。智能機(jī)器人能夠感知環(huán)境、理解語(yǔ)音指令、執(zhí)行任務(wù),并與人類進(jìn)行交互。這種技術(shù)的應(yīng)用范圍非常廣泛,包括工業(yè)自動(dòng)化、醫(yī)療輔助、家庭服務(wù)等。例如,智能無(wú)人駕駛汽車(chē)正在逐漸成為現(xiàn)實(shí),它們利用感知技術(shù)和決策制定能力來(lái)實(shí)現(xiàn)自主導(dǎo)航和安全駕駛。 3、個(gè)性化推薦 在電子商務(wù)和娛樂(lè)領(lǐng)域,AI Agents 通過(guò)個(gè)性化推薦系統(tǒng)為用戶提供定制化的體驗(yàn)。這些系統(tǒng)利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù),分析用戶的歷史行為和偏好,并提供個(gè)性化的產(chǎn)品推薦、音樂(lè)推薦、電影推薦等。這不僅提高了用戶的滿意度,還促進(jìn)了銷售和用戶參與度的增長(zhǎng)。 除了上述領(lǐng)域,AI Agents 還在醫(yī)療診斷、金融風(fēng)險(xiǎn)管理、智能城市管理等方面發(fā)揮著重要作用。醫(yī)療領(lǐng)域的 AI Agents 可以幫助醫(yī)生進(jìn)行疾病診斷和預(yù)測(cè),提高治療效果和患者生存率。在金融領(lǐng)域,AI Agents 可以通過(guò)分析大量數(shù)據(jù)和模式識(shí)別,幫助金融機(jī)構(gòu)更好地管理風(fēng)險(xiǎn)和進(jìn)行投資決策。智能城市管理中,AI Agents 可以監(jiān)測(cè)交通流量、優(yōu)化能源利用、改善城市規(guī)劃等,提高城市的可持續(xù)性和居民的生活質(zhì)量。 上述場(chǎng)景示例表明,AI Agents 在不同領(lǐng)域的廣泛應(yīng)用已經(jīng)在改變我們的日常生活。隨著技術(shù)的不斷進(jìn)步和創(chuàng)新,我們可以期待更多領(lǐng)域的 AI Agents 將為我們帶來(lái)更多的便利、效率和智能化體驗(yàn)。Reference :[1] https://www.simform.com/blog/ai-agent/[2] https://e2b.dev/blog/ai-agents-in-the-wild Adiós !··································本文參與?騰訊云自媒體分享計(jì)劃,分享自微信公眾號(hào)。原始發(fā)表:2023-11-17,如有侵權(quán)請(qǐng)聯(lián)系[email protected] 刪除機(jī)器學(xué)習(xí)人工智能存儲(chǔ)代理數(shù)據(jù)本文分享自 架構(gòu)驛站 微信公眾號(hào),前往查看如有侵權(quán),請(qǐng)聯(lián)系 [email protected] 刪除。本文參與?騰訊云自媒體分享計(jì)劃? ,歡迎熱愛(ài)寫(xiě)作的你一起參與!機(jī)器學(xué)習(xí)人工智能存儲(chǔ)代理數(shù)據(jù)評(píng)論登錄后參與評(píng)論0 條評(píng)論熱度最新登錄 后參與評(píng)論推薦閱讀LV.關(guān)注文章0獲贊0目錄什么是 AI Agents & Autonomous AI Agents ? AI Agents 通常都具有哪些特征因素 ? AI Agents 的內(nèi)部結(jié)構(gòu)是怎樣設(shè)計(jì)的 ? AI Agents 到底是如何工作的 ? AI Agents 應(yīng)用于哪些現(xiàn)實(shí)場(chǎng)景下 ?相關(guān)產(chǎn)品與服務(wù)對(duì)象存儲(chǔ)對(duì)象存儲(chǔ)(Cloud Object Storage,COS)是由騰訊云推出的無(wú)目錄層次結(jié)構(gòu)、無(wú)數(shù)據(jù)格式限制,可容納海量數(shù)據(jù)且支持 HTTP/HTTPS 協(xié)議訪問(wèn)的分布式存儲(chǔ)服務(wù)。騰訊云 COS 的存儲(chǔ)桶空間無(wú)容量上限,無(wú)需分區(qū)管理,適用于 CDN 數(shù)據(jù)分發(fā)、數(shù)據(jù)萬(wàn)象處理或大數(shù)據(jù)計(jì)算與分析的數(shù)據(jù)湖等多種場(chǎng)景。免費(fèi)體驗(yàn)產(chǎn)品介紹產(chǎn)品文檔COS新用戶專享存儲(chǔ)包低至1元,新老同享存儲(chǔ)容量低至0.02元/GB/月,立即選購(gòu)!

領(lǐng)券社區(qū)專欄文章閱讀清單互動(dòng)問(wèn)答技術(shù)沙龍技術(shù)視頻團(tuán)隊(duì)主頁(yè)騰訊云TI平臺(tái)活動(dòng)自媒體分享計(jì)劃邀請(qǐng)作者入駐自薦上首頁(yè)技術(shù)競(jìng)賽資源技術(shù)周刊社區(qū)標(biāo)簽開(kāi)發(fā)者手冊(cè)開(kāi)發(fā)者實(shí)驗(yàn)室關(guān)于社區(qū)規(guī)范免責(zé)聲明聯(lián)系我們友情鏈接騰訊云開(kāi)發(fā)者掃碼關(guān)注騰訊云開(kāi)發(fā)者領(lǐng)取騰訊云代金券熱門(mén)產(chǎn)品域名注冊(cè)云服務(wù)器區(qū)塊鏈服務(wù)消息隊(duì)列網(wǎng)絡(luò)加速云數(shù)據(jù)庫(kù)域名解析云存儲(chǔ)視頻直播熱門(mén)推薦人臉識(shí)別騰訊會(huì)議企業(yè)云CDN加速視頻通話圖像分析MySQL 數(shù)據(jù)庫(kù)SSL 證書(shū)語(yǔ)音識(shí)別更多推薦數(shù)據(jù)安全負(fù)載均衡短信文字識(shí)別云點(diǎn)播商標(biāo)注冊(cè)小程序開(kāi)發(fā)網(wǎng)站監(jiān)控?cái)?shù)據(jù)遷移Copyright ? 2013 - 2024 Tencent Cloud. All Rights Reserved. 騰訊云 版權(quán)所有?深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司 ICP備案/許可證號(hào):粵B2-20090059?深公網(wǎng)安備號(hào) 44030502008569騰訊云計(jì)算(北京)有限責(zé)任公司 京ICP證150476號(hào) | ?京ICP備11018762號(hào) | 京公網(wǎng)安備號(hào)11010802020287問(wèn)題歸檔專欄文章快訊文章歸檔關(guān)鍵詞歸檔開(kāi)發(fā)者手冊(cè)歸檔開(kāi)發(fā)者手冊(cè) Section 歸檔Copyright ? 2013 - 2024 Tencent Cloud.All Rights Reserved. 騰訊云 版權(quán)所有登錄 后參與評(píng)論00