近日,智谱AI(人工智能)推出自主智能体AutoGLM,只需接收简单的文字或语音指令,就可以模拟人类操作手机的“Phone use能力”。相关消息引发市场关注,甚至催生出“智谱AI概念股”。
10月29日,二级市场“智谱AI概念股”开盘即延续周一以来的涨势,如豆神教育、思美传媒、正和生态等个股连续两日涨停。
一名接近智谱的人士对《每日经济新闻》记者表示,AutoGLM在开发、适配的过程中,优先考虑了用户使用手机时最频繁的场景,当前,智谱依旧在持续迭代AutoGLM现有功能,并将基于用户使用高频场景,不断拓展AutoGLM的应用边界。
据悉,智谱已与中国三星深度合作,核心是将智谱的GLM大模型与三星的硬件技术相结合,以提升用户的智能体验。其实,AI在手机端的应用探索并非仅此一例,vivo、荣耀等都有类似功能升级,苹果也计划在未来进一步集成ChatGPT服务到Siri中。有学者在受访时指出,AI与手机的结合正逐渐成为行业共识,这背后反映的是生成式AI在提升个性化体验方面的潜力。
但也有业内人士向记者指出,当前的“个人智能助手”与此前的语音交互能力并无太大差别,从长期来看,服务端应该是越弱越好,难点并不在于技术或商业模式,而在于用户习惯。
推出AutoGLM 智谱加速布局个人智能助理
据智谱发布的演示Demo(样本),基于AutoGLM,用户向手机下达“帮我在淘宝下单淘宝里上个月买过的牙膏”的指令,手机就能自动执行“AI打开App—找到历史订单—完成订单筛选—请求用户支付—完成支付”的过程。
智谱方面表示,理论上,AutoGLM可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。
中信证券在研报中提到,随着互联网软件的种类、功能越来越丰富,智能体能否熟练地掌握每个软件的使用方法,满足不同用户的个性化需求,真正成为个人助手值得期待。从以聊天为主的大模型1.0时代迈入个人智能助理的大模型2.0时代,以智谱为代表的国产AI公司完成了从追赶者到领路人的身份转换。
图片来源:视觉中国-VCG41N1256249270
从用户的日常操作到潜在的商业应用,AutoGLM除了在“Phone use能力”层面的想象空间,未来的应用场景会如何拓展?
一名接近智谱的人士对《每日经济新闻》记者表示,AutoGLM在开发、适配的过程中,优先考虑了用户使用手机时最频繁的场景。作为一个内测版本,AutoGLM还存在一些问题,当前智谱依旧在持续迭代AutoGLM现有功能,并将基于用户使用高频场景,不断拓展AutoGLM的应用边界,同时保护用户隐私。
在技术突破层面,上述人士表示,AutoGLM基于智谱自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”。其中的核心技术WebRL,克服了大模型智能体在任务规划与动作执行中存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题,同时,借助自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。“就像一个人,在成长过程中,不断获取新技能。”
共识与非共识:端侧语音交互是进步还是倒退?
大模型在端侧应用的探索正在加速。
华鑫证券在其研报中预测,AI Agent的中国市场规模有望从2023年的554亿元增长至2028年的8520亿元,年复合增长率高达72.7%。中信建投则在研报中表示,预计在不久的将来会进入大模型时代的2.0时代:AI Agent。
在接受《每日经济新闻》采访时,清华大学新闻学院和人工智能学院双聘教授沈阳指出,AI与手机结合正逐渐成为行业共识,而这背后反映的是生成式AI在提升个性化体验方面的潜力。同时,随着硬件与AI服务的一体化设计日趋完善,AI正在引发人机交互的范式变革,推动手机与用户之间的关系从简单的操作工具转变为动态互动。沈阳认为,这一趋势同样将深刻影响国内市场,预计未来将有更多智能设备采用AI驱动的交互模式,从而极大提升用户体验。
在国内,除了智谱推出的AutoGLM,仅今年10月,就有数家厂商在端侧有所动作。vivo推出蓝心端侧大模型3B,称服务超5亿手机用户;字节发布首款AI智能体耳机Ola Friend,与豆包集成;荣耀推出MagicOS 9.0,打造AI OS实现一句话充值、一句话点外卖等服务。
在国际市场上,科技巨头们同样动作频频。苹果在10月28日宣布推出AI功能,并计划在未来进一步集成ChatGPT服务到Siri中;微软则开源了OmniParser工具,为用户提供了如自动订票等便捷功能;谷歌计划将推出Gemini 2.0,并正在开发能自动化执行Chrome网页任务的“Project Jarvis”,该项目将帮助用户执行诸如“收集研究、购买产品或预订航班”等任务。
不过,也有人对当前AI应用在端侧类似“个人智能助手”的探索持反对态度。“在我看来端侧是倒退。”一家AI应用公司创始人在接受《每日经济新闻》记者采访时表示,从长期来看,服务端应该是越弱越好。他认为,当前无论是硬件设备、软件应用,还是交互方式,均未超越上一轮语音交互热潮期间入局企业所进行的探索范畴。或许在某些特定场景下,诸如苹果这样的行业巨头,具备教育用户或改变用户需求的潜力,但极为困难,其难点并不在于技术或商业模式,而在于用户习惯。
上述AI应用公司创始人认为,99%的用户在表达需求时,不可能用一句话阐明具体意图,更多是以一种“挤牙膏式”的互动一步步完成,例如,用户需要订一张北京飞往上海的机票,大部分用户往往发出的第一句指令只有简单的几个字:订机票,余下需求则需要通过提问再完成。“第一是用户没这个需求 ,第二是真正用起来,肯定会出现各种奇奇怪怪的问题,我对语音助手是非常悲观的。”
他进一步补充道,尽管相关技术已经经历了多次迭代,相较于过去已有显著提升,但问题的核心仍在于需求的精准把握与满足。