OpenAI發佈Operator人工智慧助手

當地時間 1 月 23 日,OpenAI剛剛推出了一款名為Operator的人工智慧助手,它可以自主流覽網頁。該工具目前只提供給美國ChatGPT Pro用戶,它代表著向可以自主工作的人工智慧助手邁出了一步。
操作員可以使用GPT-4的視覺功能“看到”網站,並根據螢幕截圖與網站進行交互——點擊、點擊和滾動網頁,而無需與網站本身進行任何特殊集成。它由一種名為電腦使用代理Computer-Using-Agent(CUA)的新型人工智慧模型驅動,其原理融合了視覺能力、推理能力以及與圖形用戶介面(GUI)的交互能力。
用戶只需告訴Operator他們想要完成什麼,它就會在ChatGPT介面內的一個單獨的流覽器窗口中處理其餘的工作。該系統允許用戶通過添加自己的自定義指令來定制他們的體驗——無論是針對特定頁面還是跨所有站點。這些提示可以保存在主頁上,方便訪問,用戶可以在不同的聊天窗口中同時運行多個任務。
在引擎蓋下,Operator運行在(CUA)的新型人工智慧模型上,該模型通過將螢幕內容作為原始數據處理,並控制虛擬游標和鍵盤來工作。該模型將GPT-4處理圖像的能力與通過強化學習開發的高級推理技能相結合。
該系統分三個階段運行:首先,它捕捉螢幕上看到的內容的截圖。然後,它使用思維鏈推理來決定下一步要做什麼,同時考慮到它當前看到的和之前做過的事情。
這些“內心獨白”有助於它減少錯誤,提高準確性——就像OpenAI的o型模型一樣。最後,它通過單擊、滾動或鍵入來執行操作,直到完成任務或需要用戶介入。
更值得一提的是,CUA模型還具備自我糾錯能力。當遇到問題時,Operator能夠自主分析、調整策略,如果實在無法解決,它會將控制權交還給用戶,確保任務的順利完成。
Operator的發佈不僅僅是一個新產品的問世,更標誌著AI技術發展邁入了一個新的階段。Operator標誌著OpenAI已經從Level 2邁向了Level 3,意味著它的AI技術正式進入了執行任務的階段。在Level 2階段,AI主要是被動地回答問題或解決特定問題。而在Level 3階段,AI開始主動執行任務,不再局限於單一領域,而是能夠綜合運用各種能力來完成複雜的任務鏈。
熱門頭條新聞
- 數譜環球 CGGE 代表中國 Blender 社區出席 BCON Austin 2026,美國官方 Blender 大會
- 2026 全球移動應用市場報告:存量提質、AI 驅動,產業邁向高質量增長新週期
- 2026 年 3 月全球手遊收入榜:中國廠商領跑全球,市場穩健增長
- PC遊戲移植手機:移植還是不移植?
- Gamesforum 發佈《2026 年全球手遊核心挑戰報告》:AI 重構增長邏輯,精細化運營成破局關鍵
- IDC 2025H2 遊戲雲報告發佈:騰訊雲用量規模持續領跑,穩居中國與全球雙料領導者
- 漫威裁員 8%:迪士尼全球成本重組風暴來襲,好萊塢超英宇宙與內容產業迎結構性拐點
- 3月國漫風雲錄:仙逆斷層登頂,修仙漫劇集體炸場,市場步入“群雄並起”新時代