沉寂了半年之久的 谷歌,昨天晚上终于再次发力,十几个产品更新,5分钟给你总结清楚。
首先是大家最关心的 Gemini更新,Gemini 3.1直接升级到了Gemini 3.5。先上线的是Gemini 3.5 Flash版,但这次的 Flash 可不是精简版,性能已经全面超越了上一代旗舰Gemini 3.1 Pro,是其他家顶级模型的约九成,但输出速度快4倍。
在 Gravity上甚至能快 12 倍,但成本只有各家上一代旗舰模型的 1/3 到一半。好,分我。不细说了也没意义,最实用的参考是直接看这张图,这是第三方机构Artificial Analysis做的智能与速度指数图。Gemini 3.5 Flash所在的位置,前无古人后无来者。用谷歌 CEO Sundar Pichai 的话说就是:你不再需要在质量和速度之间二选一了。他们要用Gemini 3.5 Flash 这个模型重写游戏规则。明显你的游戏规则,但我请问了,你现在也给整上用量限额了,什么?真把 Pro 用户不当干粮吗?
话说回来,这次发布的新模型 API 价格上也有看头,尤其是。前已经在大量采购 AI 的企业发布会上,谷歌 CEO 直接说:才刚 5 月,很多企业就已经把一整年的 AI 预算都花完了。而俺家的 Gemini 3.5 Flash 就是你们的财务救生所。
发布会上一向对钱没兴趣的谷歌这次也学老黄开始现场算账了,甚至直接跟 AI 采购大户们放话:如果把你们采购的顶尖大模型,其中 80% 都换成 Gemini 3.5 Flash,一年能省 10 亿美金。
这笔钱能给企业带来什么改变?CEO 直说:企业的财务模型可能都得因为这笔钱而改变,其他你们细品吧。
另外就是 Gemini 3.5 Pro版本发布会说下个月见,到时候可能还有重磅更新。Gemini 3.5 之外,就是谷歌家几乎所有产品憋了半年来了一次大爆发。一家传统互联网巨头如果拥有了顶尖大模型,可以多么恐怖如斯呢。
先看两个新的 AI 工具。第一个是谷歌 Agent。你可以理解为运行在云端的小龙虾,不用买一台空电脑,也不用写代码部署,直接对话就能安排工作。而且关了电脑也能用功能,入口就在旁边,网页版、APP 版的上都有。它会砌程 24 小时帮你做一些周期性、持续性或者机械化的工作。
云端智能体这玩意儿其实竞品家早就有了,但谷歌这次最大的区别就是:竞品只有大脑,要用户自己去拼凑躯干,所以你才需要装各种。当龙虾刚出来的时候,很多人光是操作浏览器这一个就换了好几个都不稳定。而谷歌不仅用便宜好用的模型解决了智能体烧钱的问题,还拥有 Chrome 浏览器、邮箱、谷歌地图、谷歌……
等等,甚至连 YouTube 都是谷歌的,相当于大脑和躯干都是本家的适配和驱动的问题,权限的问题几乎都不存在。此时再端出智能体,我感觉时机反而是恰到好处的。
Park 模式下周上线,但坏消息是 20 美元一个月的 Pro 会员暂时不可用,只开放给 Ultra 及以上用户。但原来一个月要 250 美元的Tra,现在改成了两档:100 美元一档,200 美元一档。好一个 Pro Max,谷歌也开始玩刀法了。但就现在预算家这个竞争态势,我觉得这个功能还是会下放给 Pro 会员的。
第二个新品就是 Google Omni,这应该是目前业内第一个全模态模型。什么意思呢?你可以输入一切形式,无论文本、图片、音频、视频,它可以输出一切形式。排列组合一下,相当于 16 个模态了。而且 Omni 底层是一个完整的世界模型,不是智能体也不会在后台切换工具,所有的生成行为都在同一个模型内搞定。
如果单纯把它当做视频生成工具用,目前它可能还比不上 Runway。但我觉得Omni的出现更有意义的是,提出了一种极有新的可能——就是把全世界乱七八糟的各种AI 都集合在一起,不好吗?干一件事儿要换8个工具、充8个会员的日子,我反正是够了。
其他比较有意思且重要的更新,首先就是 Gemini融入更多搜索场景了。比如在谷歌地图里,你可以直接问:“我要去工体看比赛,但附近车位很少、价格又高,球场周围还会封路,堵车出不去,我该怎么办?”它会告诉你,要么坐地铁,要么帮你找一个稍远一点的便宜停车场。发现了吗?你不用在导航之前先切去小红书搜攻略了,这就是生态的力量。YouTube 里也能直接提问。无论你要找教学视频,还是找一个答案,它都能直接给你文字结果,再配上视频片段,你可以直接跳转,还有上下文可以直接追问,拥有永久记忆。
简单说,谷歌近半年的变化,就是把 Gemini 融进了自家现在和未来的所有产品中。跟关键词有关的产品,比如搜索引擎、地图、浏览器、视频网站,关键词都消失了,变成了智能对话、连续对话和永久上下文。
原来需要复杂操作和快捷键的创作工具,比如 Photoshop等等,密密麻麻的工具窗口也消失了。用对话的方式,不仅可以直接绘制一张图片,在Google Photos里,还可以用对话的方式对图片进行二次编辑和修改;在Google Stitch里用对话做UI设计;在Google Flow 里更夸张,上传一张图就能生成16段不同机位的视频。
还是通过简单的对话,它就能修改灯光、修改环境,甚至生成文字和动画、生成 GIF,然后直接剪辑。
还有就是已经被开发者们放弃的 Gravity,这次也升级了2.0版本。细节我就不多讲了,你只需要知道:发布会现场,谷歌的人演示他们用Gravity 2.0配合Gemini 1.5 Flash,从零开始,12个小时,93个智能体同步开拔,居然做出了一个完整的操作系统——能写命令行、能玩游戏、能播视频,token 成本还不到1000刀。
最强的是现场演示的时候,这个系统因为缺少键盘驱动,导致游戏无法运行。工作人员反手给智能体下了指令,Gravity 居然直接在全球直播现场手搓了一个驱动。你没听错,是手搓驱动,不是安装驱动。几秒钟后,游戏成功跑了起来。
整体看起来不难发现,谷歌每年的发布会其实不是在发大模型,而是给整个谷歌宇宙每年做一次大翻修、大升级。很像是我们每过一段时间打开手机应用商店,就会发现有100多个 APP 待更新。