OpenAI发布Operator人工智能助手

当地时间 1 月 23 日,OpenAI刚刚推出了一款名为Operator的人工智能助手,它可以自主浏览网页。该工具目前只提供给美国ChatGPT Pro用户,它代表着向可以自主工作的人工智能助手迈出了一步。
操作员可以使用GPT-4的视觉功能“看到”网站,并根据屏幕截图与网站进行交互——点击、点击和滚动网页,而无需与网站本身进行任何特殊集成。它由一种名为计算机使用代理Computer-Using-Agent(CUA)的新型人工智能模型驱动,其原理融合了视觉能力、推理能力以及与图形用户界面(GUI)的交互能力。
用户只需告诉Operator他们想要完成什么,它就会在ChatGPT界面内的一个单独的浏览器窗口中处理其余的工作。该系统允许用户通过添加自己的自定义指令来定制他们的体验——无论是针对特定页面还是跨所有站点。这些提示可以保存在主页上,方便访问,用户可以在不同的聊天窗口中同时运行多个任务。
在引擎盖下,Operator运行在(CUA)的新型人工智能模型上,该模型通过将屏幕内容作为原始数据处理,并控制虚拟光标和键盘来工作。该模型将GPT-4处理图像的能力与通过强化学习开发的高级推理技能相结合。
该系统分三个阶段运行:首先,它捕捉屏幕上看到的内容的截图。然后,它使用思维链推理来决定下一步要做什么,同时考虑到它当前看到的和之前做过的事情。
这些“内心独白”有助于它减少错误,提高准确性——就像OpenAI的o型模型一样。最后,它通过单击、滚动或键入来执行操作,直到完成任务或需要用户介入。
更值得一提的是,CUA模型还具备自我纠错能力。当遇到问题时,Operator能够自主分析、调整策略,如果实在无法解决,它会将控制权交还给用户,确保任务的顺利完成。
Operator的发布不仅仅是一个新产品的问世,更标志着AI技术发展迈入了一个新的阶段。Operator标志着OpenAI已经从Level 2迈向了Level 3,意味着它的AI技术正式进入了执行任务的阶段。在Level 2阶段,AI主要是被动地回答问题或解决特定问题。而在Level 3阶段,AI开始主动执行任务,不再局限于单一领域,而是能够综合运用各种能力来完成复杂的任务链。
熱門頭條新聞
- 数谱环球 CGGE 代表中国 Blender 社区出席 BCON Austin 2026,美国官方 Blender 大会
- 2026 全球移动应用市场报告:存量提质、AI 驱动,产业迈向高质量增长新周期
- 2026 年 3 月全球手游收入榜:中国厂商领跑全球,市场稳健增长
- Gamesforum 发布《2026 年全球手游核心挑战报告》
- IDC 2025H2 游戏云报告发布:腾讯云用量规模持续领跑,稳居中国与全球双料领导者
- 漫威裁员 8%:迪士尼全球成本重组风暴来袭,好莱坞超英宇宙与内容产业迎结构性拐点
- 3月国漫风云录:仙逆断层登顶,修仙漫剧集体炸场,市场步入“群雄并起”新时代
- 北欧游戏 2026 演讲嘉宾更新