OpenAI發佈Operator人工智慧助手
當地時間 1 月 23 日,OpenAI剛剛推出了一款名為Operator的人工智慧助手,它可以自主流覽網頁。該工具目前只提供給美國ChatGPT Pro用戶,它代表著向可以自主工作的人工智慧助手邁出了一步。
操作員可以使用GPT-4的視覺功能“看到”網站,並根據螢幕截圖與網站進行交互——點擊、點擊和滾動網頁,而無需與網站本身進行任何特殊集成。它由一種名為電腦使用代理Computer-Using-Agent(CUA)的新型人工智慧模型驅動,其原理融合了視覺能力、推理能力以及與圖形用戶介面(GUI)的交互能力。
用戶只需告訴Operator他們想要完成什麼,它就會在ChatGPT介面內的一個單獨的流覽器窗口中處理其餘的工作。該系統允許用戶通過添加自己的自定義指令來定制他們的體驗——無論是針對特定頁面還是跨所有站點。這些提示可以保存在主頁上,方便訪問,用戶可以在不同的聊天窗口中同時運行多個任務。
在引擎蓋下,Operator運行在(CUA)的新型人工智慧模型上,該模型通過將螢幕內容作為原始數據處理,並控制虛擬游標和鍵盤來工作。該模型將GPT-4處理圖像的能力與通過強化學習開發的高級推理技能相結合。
該系統分三個階段運行:首先,它捕捉螢幕上看到的內容的截圖。然後,它使用思維鏈推理來決定下一步要做什麼,同時考慮到它當前看到的和之前做過的事情。
這些“內心獨白”有助於它減少錯誤,提高準確性——就像OpenAI的o型模型一樣。最後,它通過單擊、滾動或鍵入來執行操作,直到完成任務或需要用戶介入。
更值得一提的是,CUA模型還具備自我糾錯能力。當遇到問題時,Operator能夠自主分析、調整策略,如果實在無法解決,它會將控制權交還給用戶,確保任務的順利完成。
Operator的發佈不僅僅是一個新產品的問世,更標誌著AI技術發展邁入了一個新的階段。Operator標誌著OpenAI已經從Level 2邁向了Level 3,意味著它的AI技術正式進入了執行任務的階段。在Level 2階段,AI主要是被動地回答問題或解決特定問題。而在Level 3階段,AI開始主動執行任務,不再局限於單一領域,而是能夠綜合運用各種能力來完成複雜的任務鏈。