OpenAI發佈Operator人工智慧助手

當地時間 1 月 23 日,OpenAI剛剛推出了一款名為Operator的人工智慧助手,它可以自主流覽網頁。該工具目前只提供給美國ChatGPT Pro用戶,它代表著向可以自主工作的人工智慧助手邁出了一步。
操作員可以使用GPT-4的視覺功能“看到”網站,並根據螢幕截圖與網站進行交互——點擊、點擊和滾動網頁,而無需與網站本身進行任何特殊集成。它由一種名為電腦使用代理Computer-Using-Agent(CUA)的新型人工智慧模型驅動,其原理融合了視覺能力、推理能力以及與圖形用戶介面(GUI)的交互能力。
用戶只需告訴Operator他們想要完成什麼,它就會在ChatGPT介面內的一個單獨的流覽器窗口中處理其餘的工作。該系統允許用戶通過添加自己的自定義指令來定制他們的體驗——無論是針對特定頁面還是跨所有站點。這些提示可以保存在主頁上,方便訪問,用戶可以在不同的聊天窗口中同時運行多個任務。
在引擎蓋下,Operator運行在(CUA)的新型人工智慧模型上,該模型通過將螢幕內容作為原始數據處理,並控制虛擬游標和鍵盤來工作。該模型將GPT-4處理圖像的能力與通過強化學習開發的高級推理技能相結合。
該系統分三個階段運行:首先,它捕捉螢幕上看到的內容的截圖。然後,它使用思維鏈推理來決定下一步要做什麼,同時考慮到它當前看到的和之前做過的事情。
這些“內心獨白”有助於它減少錯誤,提高準確性——就像OpenAI的o型模型一樣。最後,它通過單擊、滾動或鍵入來執行操作,直到完成任務或需要用戶介入。
更值得一提的是,CUA模型還具備自我糾錯能力。當遇到問題時,Operator能夠自主分析、調整策略,如果實在無法解決,它會將控制權交還給用戶,確保任務的順利完成。
Operator的發佈不僅僅是一個新產品的問世,更標誌著AI技術發展邁入了一個新的階段。Operator標誌著OpenAI已經從Level 2邁向了Level 3,意味著它的AI技術正式進入了執行任務的階段。在Level 2階段,AI主要是被動地回答問題或解決特定問題。而在Level 3階段,AI開始主動執行任務,不再局限於單一領域,而是能夠綜合運用各種能力來完成複雜的任務鏈。
熱門頭條新聞
- 端午安康
- 生成式 AI 深度滲透遊戲產業:技術賦能創作革新,重塑行業未來格局
- 第 33 屆斯圖加特國際動畫節圓滿落幕 長效聯動全球產業 樹立動畫藝術交流新標杆
- 《仙劍奇俠傳三》動畫圓滿收官 溫情結局圓夢粉絲 為經典國漫 IP 改編樹立新標杆
- 中國願望單排名第三!保加利亞獨遊工作室致謝高燃90年代風FPS《Everything is Gun!》
- 《RUNESCAPE: DRAGONWILDS》將於今年晚些時候登陸 PLAYSTATION 5 及 PLAYSTATION PLUS
- 業餘開發者借力 AI 一夜打造爆款 《38-0-0》登頂英國 iOS 遊戲榜 社交玩法引爆全球
- 多元動畫綻放光影盛宴 第 28 屆上海國際電影節動畫單元搭建全球文化交流橋樑