|

聚财星
2000活跃值=1元

首页 > 生活分享 > 免费教学 > 只有谷歌受伤的世界达成了，但“全能模型”到底该不该跟？

只有谷歌受伤的世界达成了，但“全能模型”到底该不该跟？

发布时间：2024-05-19 22:00:56来源： 15210273549

最近AI领域备受瞩目的新闻中，OpenAI和谷歌的新品发布会，无疑占据了最多的头条。

我们团队当然也不例外，不仅第一时间观看了两家公司的发布会，还亲身上手体验了号称“颠覆世界”“世界又科幻了”的GPT-4o。

一句话总结：OpenAI发布会，失望；谷歌发布会，无聊。

并不是我们要故作惊人之语。实际上，AI业内专业人士普遍都有类似的看法。

一些国内从事AI工程化项目的人表示，“不关心，因为又用不到”。而AI科学家和专家也有不少人直言，“看着看着睡着了，谷歌几乎所有的东西都是对标和追赶，没有太多的新鲜感”。

只有谷歌受伤的世界达成了，但“全能模型”到底该不该跟？

又又又一次在与OpenAI的较量中处于下风，一个只有谷歌受伤的世界达成了。

尽管两大AI巨头的新技术方向，仍然值得关注，但可以明确的是，随着大型AI模型的产业化进程不断深入，国内外参与者也越来越冷静，更加专注于自身的AI策略与节奏。

有人将这两场发布会比作是一场斗地主游戏，OpenAI打出一对二，谷歌就跟四个王。那么，这一次较量的核心——多模态大模型，国内AI行业是否要跟进呢？如果要跟进，又该提前考量到哪些问题呢？

每一次新产品问世，如果只跟着新闻“震惊”是很难进步的。不妨和我们一起，认真给GPT-4o算笔账。

全能模型究竟“惊艳”在哪里？

谷歌反击OpenAI的发布会，被称为“腹泻式更新”，一口气推出了十来款新品及升级。之所以让人看到睡着，是因为大家已经在前一天被GPT-4o“惊艳”过了。

而这次谷歌开发者大会上所演示的其他产品，OpenAI早都发布过。对标GPT-4o的Gemini Astra，表现又略逊一筹，也难怪大家兴趣缺缺。显然，这是一次针对谷歌的精准狙击。此前，谷歌已经对外放出了语音助手demo演示的预热视频，而GPT-4o最让人惊艳的地方就是“天花板级别”的人机自然语音交互。

那么，OpenAI机关算尽、谷歌有备而来的多模态大模型，究竟有什么神奇之处？

GPT-4o中的“o”代表“omni”，意为“全能”，以此为版本号，凸显了GPT-4o的多功能特性，可以从三个方面理解：

1.多模态。

GPT-4o接受文本、音频和图像的任意组合作为输入，实时对音频、视觉和文本进行推理，生成相应的输出。相比ChatGPT的文生文、文生图，Sora的文生视频等，GPT-4o是一个原生多模态的融合体。这一点，谷歌的Gemini Astra也能实现，支持多模态的推理。在演示视频中，谷歌的智能助手可以理解手机摄像头拍摄的世界（视频、图像），并用文字详细地讲述出来。

当然，多模态大模型并不是什么新鲜事物。不只这俩AI巨头，国内在多模态大模型领域也有一些研究和开发。此前就有浙大校友开源了多模态大模型LLaVA，对标OpenAI的GPT-4V。既然多模态大模型并不稀奇，那GPT-4o凭啥“惊艳”？答案就在第二点。

2.低时延。

GPT-4o是一个端到端、全链路贯穿的多模态大模型。

此前，语音产品一般由三个独立模型组成：SLM1将音频转录为文本——LLM将文本输出为文本——SLM2将生成文本转换为音频。每一步的网络延迟叠加起来，结果就是AI推理速度跟不上人嘴巴说话的速度。大家可能都有过类似的经历，自己都说完了，AI大模型还没识别完全，互动总被打断，有时还会丢失很多信息，连基本的文字都听不清，更别说从笑声、停顿、叹气等因素中分析出人的情绪了，人当然也就没有了说下去的兴致。

而GPT-4o的端到端，就是省去了中间的处理步骤，由同一个神经网络来接受并处理来自不同模态（如文本、视觉和音频）的输入数据，并直接输出结果。这样就可以将语音交互的响应时延，控制在232 毫秒以内，体感上比人类回应还要迅速。

OpenAI演示完GPT-4o，大家纷纷表示，科幻电影中《Her》跟机器谈情说爱的未来就要实现了。不过，谷歌并不这样想。

只有谷歌受伤的世界达成了，但“全能模型”到底该不该跟？

（截图自奥特曼的社交媒体）

在晚一天的谷歌发布会上，谷歌Gemini 1.5 Flash的响应其实也很快速，同样能几乎没有延迟地跟人类流畅互动，但还是比GPT-4o要长一些。不过谷歌声称，自己的两段演示视频均为“单次拍摄、实时录制完成”。

我们猜测，这是在暗示OpenAI又在“贷款领先”了，GPT-4o实际可能无法很快真的落地，毕竟OpenAI搞误导性营销是有前科的，Sora就曾爆出，拿艺术家编辑过的视频当原视频宣传，演示效果并非完全由AI生成。

展示效果是真是假，有待时间验证，不过OpenAI和谷歌在端到端方面的工作，证明了人机语音交互的超低时延是可以实现的，达到媲美人类交流的水平。而这，就为语音交互的多场景应用，打下了新的技术根基。

3.多场景。

大家应该都还记得，ChatGPT问世时举世震惊的效果。大语言模型的强大理解能力和泛化性，可以促成NLP在多种文本任务上带来颠覆式的影响，而这类任务几乎遍布在各行各业。

再看GPT-4o，多模态大模型在音视频理解方面尤其出色，也是一个非常泛在的通用型技术。而毫不夸张地说，GPT-4o将语音交互体验做到了“天花板级别”，这几乎可以给语音场景都带来改变。

比如OpenAI所展示的辅导孩子数学题，可以替代家长辅导作业，让家家都过上和谐的日子；《Her》电影中跟智能语音机器人谈恋爱的场景，可以让人人都拥有自己的网络恋爱/在线情感抚慰师。延展开来，此前曾被嘲笑“人工智障”的手机语音助手，银行、电信等行业的客服机器人，缺乏充足师资力量的偏远学校，游戏里跟玩家互动的NPC纸片人，以及能识别用户情绪的精准营销……

凡有人声处，皆可咏AI，正随着端到端多模态大模型的进化与落地，让更自然、更逼真、富有感情的人机交互成为可能。

从这个角度说，GPT-4o所代表的技术前瞻性，确实配得上“全能o”这个词。既然如此，为什么说只有谷歌一家受伤了呢？

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“聚财星用户上传并发布"，本平台仅提供信息存储服务。

下一篇:iOS 微信 8.0.50 内测已发布，新增多人通话功能

上一篇:戴森两件套999元、美的冰洗空888元京东520晚8点“史低价”现货抢

免费教学更多>>

2025年4月深圳小学光明学校曙光校区、狮山校区赴济南定点面向2025年应届毕业生招聘教师公告 2025年中山翠亨新区翠雅学校初中教师招聘公告（17人） 2025年怀集县卫生健康局赴高校招聘卫生专业技术人员公告（74人） 2025年南雄市中小学、幼儿园教师招聘及选聘公告（106人）风云A9实车抵达上海车展现场！采用1.5T插混动力 2025款丰田埃尔法PHEV来袭，豪华MPV的环保新选择？硬派越野邂逅极致智能抢先实拍东风猛士M817 别克子品牌“至境” “逍遥”超级融合架构发布长城打死不做增程！为啥要跟新势力反着来？苹果：为什么我突然在中国对iPhone 16等降价！华为等国产手机背刺 2500元良心机！骁龙8Gen3+5500mAh+120W，vivo新卷王诞生 REDMI Turbo 4海外版曝光：电池降为6000mAh！从4699元跌至3289元，蔡司100倍变焦+天玑9300+芯片，vivo售价更亲民了雷鸟CEO李宏伟：站在Meta肩膀上超越Meta，雷鸟V3 1799元起 Meta、苹果旗舰头显纷纷停产！价格与体验失衡是最大硬伤？ 2024年中国手机市场大局已定几家欢喜几家愁？英伟达RTX 50系新显卡发布！AI计算又翻开了崭新一页？那些科学家下了大功夫的美食，拼多多希望让更多人吃到京东科技申请服务器自动化测试方法和装置专利，实现大规模服务器自动化测试阿里巴巴：斥资3226.13万美元回购306.53万股经典与潮流并存！27款最具影响力车型回顾，你拥有过哪一款？负债不够存单来凑，年内多家银行同业存单罕见“提额” 菜鸟速递与大润发加深同城配送合作已在41城提供半日达服务社会物流成本稳步下降，实体经济“筋络”更加畅通 589套正式交楼，广州一村村民喜提新房过年明年如何“用力”推动楼市止跌回稳？全国住建工作会议部署了这些重点多方共议房产直播规范监管共促消费者权益保护东风本田烨S7实车展示，Model Y同级别，够实力和自主品牌一战吗？ 2024年广西工业职业技术学院轻工纺织类人才引进公告 2024年湖北宜昌市西陵区事业单位选调14人公告

Copyright 2016-2025 点我98任务网版权所有京ICP备20162561号