OpenAI发布了一款重磅产品—ChatGPT Agent 我们看看它能为我们做些什么

正文上方广告位

朋友们,OpenAI发布了一款重磅产品——ChatGPT Agent。今天我们将深入探讨这一智能体。

我将尝试让这个智能体访问我的邮箱进行测试。

接下来,我们将从三个方面解析最新发布的「ChatGPT Agent」:

1)它目前支持调用哪些工具?
2)它具体能为您提供哪些帮助?
3)它是否真能取代人类?

第一部分将介绍OpenAI新发布的智能体,并对比其与GPT-4GPT-3的区别,重点分析该智能体当前可调用的工具。

随后,我们将通过工作和生活场景的实际测试来评估其使用效果。

最后,我们将探讨该智能体是否具备替代真人的能力。本视频将为您揭晓答案。

ce236f892f431696117440bc0a9020cf

规范文章的这一部分阐述了其原理。经过整理后可以清晰地看出,ChatGPT Agent整合了此前三个工具的优势。其中最早公布的是名为Operator的智能体。

我们此前已进行过测试,该智能体会先对网页进行截图,随后由语言模型分析并确定应点击的按钮位置。

它能浏览网页,但不擅长分析且操作速度较慢。我曾付费使用一个月后立即停止订阅,因为其响应速度令人难以忍受。

其次,它整合了DeepSearch功能。熟悉OpenAI工具的用户都知道,DeepSearch擅长深度分析和综合信息处理。其核心模型是TriGPT,充分发挥了推理能力和自然语言理解能力。从”TriGPT Agent”这个名称也能看出,它采用了首席命名方式。

由此可见,他们对这一智能体的重视程度。它整合了此前训练中每个工具的优势,经过反复优化,最终形成了ChatGPT Agent。

我们将从智能体平台入手,分析其可调用的工具功能。

点击工具,选择Search Connectors。

f4871867544bc6a14e981e8870fae1c7目前可调用的工具包括Box、Canva、Google Calendar和Teams。点击”Create”按钮即可查看相关页面。

接下来我们来看这一行,MCP Server,这表明该智能体能够调用用户所需的任何工具。

只要该工具配备了专属的MCP Server。

d5c6f4740a3e4a394b2b4dcebaa2e34c

该智能体调用了 Gmail的API,访问了我的邮箱并正在查看邮件内容,随后使用中文进行总结。接着,它打开了终端开始分析。整个过程耗时约5分钟,最终提供了十封邮件的摘要。

该邮箱地址是我专门用于注册的,其中多为广告邮件。接下来,我们将验证其整理的准确性。

经过对比,其整理的信息准确性较高。

效果令人惊艳。

0e67ecc302268b44f4372564ae24aa6d它协助我完成了一项简单的调研,并生成了PPT。我要求其寻找Mountainville附近的办公室,特别希望能配备可升降办公桌。系统随即开始浏览相关网站,筛选合适的办公场所。

13分钟后,生成了一份5页的PPT,标题为《Mountainville地区适合10人团队的办公室对比》。

0d357e7d744ddf81f6ccff51d8437269第二页详细介绍了研究方法。

它选择了Star Space、JJ Lake和BootUp World。在第三张PPT中,它提供了一张表格,对比了这三个地点的距离、费用以及是否配备站立式办公桌。最终,它综合推荐了Star Space,理由是性价比高且距离适中。附近的朋友可以验证这一推荐是否合理。

接下来,我们从生活场景测试Agent的功能。假设我们需要预定本周四晚上7点、4人位的餐厅。可以看到,Agent已成功调用Yelp进行查询。

8c9f48112e6e01ba48306b4b644beffc它已协助选定时间和人数,现需提供我的信息以确认预订。

重新获取页面控制权后,该网站的操作界面与我之前测评 Operator 时的情况相同。一旦恢复控制,操作响应会变得迟缓,鼠标移动也明显延迟。原有缺陷依然存在,但它已成功完成预订任务。

那么,它究竟能否真正取代人工服务呢?

我们先来看一下它的性能基准测试。

本次对比颇具趣味性,仅比较了自身的一些模型,并加入了人类作为参照。在数据分析能力方面,其得分为89.9%,而人类平均值为64.1%。从图表中可以清晰地看出,它在数据分析方面远超人类水平。

3e4b8a35f3a0e9799658f4f766f06065

如果智能体的工作内容仅限于互联网数据分析、网页浏览等助理类任务,它完全可以胜任。

然而,若指派的任务涉及线下操作,由于缺乏实体执行能力,它仍存在局限。

我们来看这张 Benchmark 图表,它展示了 Investment Banking Modeling Tasks 的结果。可以清晰地看到,ChatGPT 智能体的表现明显优于 Deep Search 的结果。因此,建议从事投资领域的朋友尝试使用这个智能体。

希望今天的内容对您有所帮助,也欢迎继续关注更多科技和人工智能相关内容。

© 版权声明
正文底部广告位

相关文章

评论上方广告位