谷歌回击OpenAI:提了121次AI,AI搜索、智能对话、视频生成来了
股市掌舵人
2024-05-24 22:06:41
0

两天时间里,科技界先后迎来两场重要的发布会。前一天,OpenAI刚刚发布了重大更新GPT-4o,号称颠覆语音助手,再度全网刷屏,紧随其后的谷歌压力颇大。

北京时间5月15日凌晨,谷歌在2024年I/O开发者大会上展开回击:一次性掏出十几款产品更新,重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI通用智能体Project Astra、强大的AI搜索、视频生成模型Veo、第六代TPU Trillium等,Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。

在两个小时的主题演讲里,据Gemini统计,"AI"被提及了121次,谷歌官网同步发布了11篇AI相关的博客介绍此次更新。这场不见硝烟的战争,谷歌看起来全力以赴了。5月14日,谷歌美股(GOOGL)涨0.71%,报170.34美元/股,截至发稿其盘后跌0.27%。

反击OpenAI

在发布会前夕,猎豹移动董事长兼CEO傅盛发文表示,"OpenAI发布会虽然惊艳,但谷歌看完应该不慌了。"

相比通过底层技术的革新实现跨越式发展,傅盛认为,这一次OpenAI的发布会是在工程能力上发力,也就是说把原有的东西做得更好,更便宜、更集成化、用户体验更好,"这次OpenAI发布会上最大的亮点就是语音助手,大家都感叹交互起来和人一样,但像谷歌这样的公司做这类语音助手能力一定不差,工程能力的提升是大公司容易做到的事情。"

谷歌不负期待,掏出了类似的视觉识别和语音交互产品Project Astra,被认为是正面交战GPT-4o。

"我们一直希望开发能在日常生活中提供帮助的通用AI智能体。"谷歌DeepMind首席执行官哈萨比斯(Demis Hassabis)第一次出现在I/O大会上,他表示Astra(高级视觉和对话响应智能体)项目是谷歌在构建未来AI助理方面的进展。

Astra项目展示了多模态理解和实时对话能力。在谷歌演示的视频中可以看到,通过摄像头,这个AI助手能完成帮忙理解屏幕中的代码、找眼镜在哪里这样的工作,也可以通过画面理解"薛定谔的猫"这样的概念。

哈萨比斯在演讲中表示,要做到真正实用,智能体需要能够像人一样理解周围复杂多变的环境并作出反应,还需要具备主动性、"会学习"并能满足个性化需求,这样用户才能自然地与它交谈,不会有滞后或延迟,"虽然我们在开发能够理解多模态信息的AI系统方面取得了惊人的进步,但要将回答时间缩短到可对话的程度,仍是一项非常艰巨的工程挑战。"

从演示上看,Astra的对话延迟似乎比GPT-4o长,在提问之后有一定的反应时间,相比昨天GPT-4o近似人类自然快速地对答有差距,此外,谷歌在演示中也没有体现是否能打断智能助手说话,没有表现出GPT-4o那样多的人类情感。

谷歌此次另一回击OpenAI的产品是视频生成模型Veo。今年2月,OpenAI发布视频生成模型Sora引发全网热烈讨论,彼时几小时前才发布Gemini 1.5 Pro大模型的谷歌风头被抢完。

此次,谷歌推出Veo对标Sora,表示这是"我们最强大的视频生成模型",不仅能生成各种电影和视觉风格的高质量1080p分辨率视频,理解"延时拍摄"或"风景空中拍摄"等电影术语,时间还可以超过一分钟。谷歌表示,凭借对自然语言和视觉语义的深入理解,Veo生成的视频能够准确捕捉提示的语气并在较长的提示中呈现细节。

谷歌演示了一段汽车追逐的示例生成视频,从整体画面上看,镜头是一致且连贯的,移动较为真实,但相比Sora以往放出的视频,细节没那么清晰,大全景为主。不过,在官网的博客中,谷歌放出了更多的生成案例概览,其中不乏高清且精致的画面。

在影音领域,除了视频,谷歌还更新了图片生成模型Imagen 3,官方提到,与此前的模型相比,Imagen 3分散注意力的视觉伪影更少,细节逼真。谷歌还发布了一套名为Music AI Sandbox的音乐AI工具,可以让人们从头开始创作新的器乐部分,以新的方式转换声音等等。

变革搜索

I/O大会之后,英伟达高级科学家Jim Fan发表观后感表示,谷歌做对了一件事,"他们终于开始认真努力将人工智能融入搜索框,"他认为,谷歌最强大的护城河是分销,"Gemini不必是最好的模型,就可以成为世界上使用最广泛的模型。"

谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在演讲中提到,Gemini带来的最令人兴奋的变革之一是在Google搜索中。"我们最大的投资和创新领域之一是我们的创始产品——搜索。"皮查伊回顾,25年前谷歌就创建了搜索,如今Gemini时代的搜索提升到了全新的水平。

谷歌搜索此次推出了AI概述(AI Overview)新功能,用户在搜索框输入问题,即可得到一个AI总结的答案,且能处理超长问题,如AI可以帮忙查找波士顿最好的瑜伽或普拉提工作室,并提供入门优惠详情以及步行所需时间,并附带课程标价,地图上的位置也能标记出来。

凭借Gemini的多模态功能,谷歌搜索还可以做到利用图片搜索产品和文字信息,能用"Circle to Secarch"功能圈出图片中的一部分去搜索。具体而言,谷歌推出了新功能Ask Photos,可以一键从图库中找到想要的照片和视频。

谷歌在演示中举例,假设在停车场缴费时,却想不起自己的车牌号。以往,用户可能需要翻找多年积累的照片来寻找车牌,但现在,只需直接询问Photos,它能够识别出照片里经常出现的车辆,并提供车牌号码。

谷歌还支持视频搜索。在演示中,唱片机出故障,带有针头的金属部件在意外漂移,用户只需一边录制视频一边说出疑问,AI就会立刻分析故障原因;数码相机控制杆出现问题,只需要用摄像头对着产品提问,就能得到关于如何修复的解答,省去用户描述问题的时间和麻烦。

谷歌表示,AI Overview功能将在本周开始在美国推出,后面将陆续推至其他国家。

强大的产品和用户群基础是谷歌推出AI应用的优势。皮查伊提到,超过150万的开发者在使用谷歌各种工具中的Gemini模型,谷歌旗下产品中有20亿用户都在使用Gemini。在移动设备上,用户可以通过Android和iOS上的应用程序直接与Gemini互动。

"全球有数十亿Android用户,我们已将Gemini模型整合到Android中,包括我们最新的设备端模型Gemini Nano多模态模型,它可以处理文本、图像、音频和语音,在保证存储在设备上的信息私密性的同时解锁新的体验。"皮查伊介绍。

去年12月,谷歌发布了首款原生多模态模型Gemini 1.0,包含Ultra、Pro和Nano三种不同大小。几个月后,谷歌发布了Gemini 1.5 Pro,性能更强,且拥有100万tokens的长上下文窗口。

此次发布会,谷歌再次更新超长上下文窗口,扩展到了200万tokens(2000K)的级别,并表示将以非公开预览版的方式提供给开发者。相比之下,GPT-4 Turbo的上下文窗口为128K。"这代表着我们朝无限上下文的最终目标又迈出了一步。"皮查伊说。

在1.5 Pro的基础上,哈萨比斯表示,从开发人员那里了解到,有些应用场景需要更低的延迟和更低的部署成本。因此,明天谷歌将推出Gemini 1.5 Flash:一个相较于1.5 Pro更轻量的模型,旨在快速高效地进行规模化服务,它针对以低延迟和成本为重的任务进行了优化。

哈萨比斯在演讲中介绍,尽管比1.5 Pro更轻量级,但Flash版本在处理大量信息时具有强大的多模态推理能力,在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。具体到背后的技术,哈萨比斯透露这是利用1.5 Pro对该模型进行了"蒸馏"(distillation)训练,将较大模型中最核心的知识和技能迁移到了更小、更高效的模型中。

训练最先进的模型需要大量的计算能力。此次发布会,谷歌还宣布推出第六代TPU Trillium,与上一代TPU v5e相比,每个芯片的计算性能提高了4.7倍。皮查伊提到,过去六年中,行业对机器学习计算能力的需求增长了100万倍,且每年都会以十倍的速度增长。谷歌将在2024年底向Cloud客户提供Trillium。

十多年来,谷歌一直在AI领域进行投入,但皮查伊表示,目前谷歌仍处于AI平台转型的初期,"我们看到了为创作者、开发者、初创公司以及每一个人所带来的巨大机遇。帮助推动这些机遇正是我们Gemini时代的意义所在。"

第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者

刘晓洁

相关视频 06'16'' 谷歌年度开发者大会聚焦AI 华尔街大行“给出好评”丨从华尔街到陆家嘴

8小时前 02'18'' 史上首次发放季度股息!谷歌季度营收、广告、云收入均提速

04-26 09:58 02'18'' 史上首次发放季度股息!谷歌季度营收、广告、云收入均提速丨从华尔面到陆家嘴

04-26 09:56 00'38'' 消息称苹果正自研设备端大语言模型

04-22 22:48 04'42'' MBM一席谈丨AI与未来职业发展

04-18 18:15 一财最热 点击关闭

相关内容

2024年医保返款新规发布...
随着2024社保制度的变革,医保报销比例的调整成为人们关心的焦点。...
2024-08-27 22:54:42
仕净科技:子公司签订超1亿...
证券时报e公司讯,仕净科技(301030)3月8日晚间公告,公司下...
2024-06-22 22:46:30
巴克莱发布2024年一季度...
  上证报中国证券网讯(记者 汪友若)日前,巴克莱研究部全球主席A...
2024-06-21 23:31:31
又见招标终止!IPO成功后...
  又一IPO审计服务招标终止。  继财政部“出手”严禁会计师事务...
2024-06-18 23:43:05
大华股份:关于质量回报双提...
  公司表示,作为全球领先的以视频为核心的智慧物联解决方案提供商和...
2024-06-15 22:01:01
苹果不讲武德,iPhone...
作为消费者谁也不喜欢自己买到的产品,今年是一个价,明天又是另一个价...
2024-06-04 23:01:21

热门资讯

期指空头增仓显著 经历前期大幅下探之后,上周国内A股市场全周维持弱势振荡走势,上证综指盘中多次跌破2900点整数关口,...
亚厦股份获得发明专利授权:“一... 证券之星消息,根据企查查数据显示亚厦股份(002375)新获得一项发明专利授权,专利名为“一种带有风...
国务院任免国家工作人员   1月26日电 据人社部网站消息,国务院任免国家工作人员。任命阮健弘(女)为国家统计局副局长;任命...
得润电子(002055SZ):... 格隆汇7月12日丨得润电子(002055)(002055.SZ)在投资者互动平台表示, 2024年上...
年内超140亿元资金买入创业板...   随着A股市场回暖,资金借道ETF流入市场,创业板吸金能力较大。截至4月3日,今年以来超140亿元...
又是一只次新牛!面板龙头连获3... 财联社讯(编辑梓隆),7月18日,上市不久的次新股翔腾新材再次涨停,截至收盘,其获近3000手近16...
Q2季荣耀跌的有点惨啊!直接成... Q2季荣耀跌的有点惨啊!直接成Others了所以,华为如果全面复苏,看出来谁影响最大了吗? ​​​鳳...
2月22日基金净值:中银证券安... 本站消息,2月22日,中银证券安泽债券A最新单位净值为1.118元,累计净值为1.14元,较前一交易...
爱尔眼科淮北被罚 旗下医院开年... 依据《中华人民共和国价格法》第四十条第一款和《价格违法行为行政处罚规定》第七条规定,淮北市市场监督管...
下午14点38分,郭艾伦第二次... 下午14点38分,郭艾伦第二次露脸! 答案再次在线征集,难得又精彩!北京时间3月3日下午14时38分...