OpenAI發佈Operator人工智慧助手

當地時間 1 月 23 日，OpenAI剛剛推出了一款名為Operator的人工智慧助手，它可以自主流覽網頁。該工具目前只提供給美國ChatGPT Pro用戶，它代表著向可以自主工作的人工智慧助手邁出了一步。

操作員可以使用GPT-4的視覺功能“看到”網站，並根據螢幕截圖與網站進行交互——點擊、點擊和滾動網頁，而無需與網站本身進行任何特殊集成。它由一種名為電腦使用代理Computer-Using-Agent（CUA）的新型人工智慧模型驅動，其原理融合了視覺能力、推理能力以及與圖形用戶介面（GUI）的交互能力。

用戶只需告訴Operator他們想要完成什麼，它就會在ChatGPT介面內的一個單獨的流覽器窗口中處理其餘的工作。該系統允許用戶通過添加自己的自定義指令來定制他們的體驗——無論是針對特定頁面還是跨所有站點。這些提示可以保存在主頁上，方便訪問，用戶可以在不同的聊天窗口中同時運行多個任務。

在引擎蓋下，Operator運行在（CUA）的新型人工智慧模型上，該模型通過將螢幕內容作為原始數據處理，並控制虛擬游標和鍵盤來工作。該模型將GPT-4處理圖像的能力與通過強化學習開發的高級推理技能相結合。

該系統分三個階段運行：首先，它捕捉螢幕上看到的內容的截圖。然後，它使用思維鏈推理來決定下一步要做什麼，同時考慮到它當前看到的和之前做過的事情。

這些“內心獨白”有助於它減少錯誤，提高準確性——就像OpenAI的o型模型一樣。最後，它通過單擊、滾動或鍵入來執行操作，直到完成任務或需要用戶介入。

更值得一提的是，CUA模型還具備自我糾錯能力。當遇到問題時，Operator能夠自主分析、調整策略，如果實在無法解決，它會將控制權交還給用戶，確保任務的順利完成。

Operator的發佈不僅僅是一個新產品的問世，更標誌著AI技術發展邁入了一個新的階段。Operator標誌著OpenAI已經從Level 2邁向了Level 3，意味著它的AI技術正式進入了執行任務的階段。在Level 2階段，AI主要是被動地回答問題或解決特定問題。而在Level 3階段，AI開始主動執行任務，不再局限於單一領域，而是能夠綜合運用各種能力來完成複雜的任務鏈。

OpenAI發佈Operator人工智慧助手

熱門頭條新聞

其他動漫資訊

動漫世界網絡中國站