近期,微软对其Azure AI语音服务进行了重要升级,新上线了9款更真实的AI语音。微软提升了AI语音的自然度,在语调、节奏和情感上更好捕捉了人类语音的细微差别,让合成的语音更加生动和真实,其逼真的效果引发大家的关注讨论。

微软Azure AI语音合成体验页面
但这一次微软并非领先者,早在2个月前,科大讯飞就在讯飞星火V3.5发布会上,率先推出了超拟人语音合成技术,并搭载在讯飞星火APP中开放给全民体验。其拟人度超过83%,MOS分达到4.5分(满分5分,分数越高表示语音质量越好),体验下来它的声音流畅自然,表达已非常接近人类的真实声音。
可以看到,随着大模型的发展如火如荼,作为重要的表达方式,超拟人合成技术成为国内外AI巨头争相布局的重点,一场超拟人合成技术PK赛正在上演。
微软VS科大讯飞:星火拟人度更优
语音合成技术在上世纪九十年代后快速发展,尤其是深度学习技术的出现推动语音合成进入全新阶段,逐步走向规模化应用落地、被大众所熟知。相比字正腔圆的“播音腔”,现在语音合成的风向标更多指向贴近真人日常表达,也就是超拟人。
普通人正常交流对话中会带有一定的语气、情感和口语化表达,也会出现重复、卡顿、叹气、呼吸、说错字词,还有吞音、轻声等习惯说法。考量超拟人语音效果,不仅要看说话的自然度、流畅度,也要看这些口语化和副语言的频率和细节是否更贴近真实,以及语音中的情感是否贴合说话内容等维度。
目前,微软上新的AI语音可以在Azure AI服务页面里进行试听和调用,科大讯飞超拟人合成在讯飞星火APP和讯飞开放平台上均可体验和使用。

近日,也有媒体以相同的文本对两者的超拟人合成技术进行了体验评测,发现微软和科大讯飞在超拟人合成的拟人度上相较传统语音合成效果都有了显著进步,克服了合成声音“板正”、“一丝不苟”的“播音腔”问题;同时在停顿、语速变化等副语言上的表现也相当自然,“哈哈”、“嗯”等常见的口语化词语也和说话内容进行了较好融合。
对比来看,微软上新的9款AI语音覆盖了更多语种和说话风格,说话的自然度和流畅度相对较好,但在语气词等口语化表达上稍显突兀;科大讯飞的超拟人合成在整体的拟人化程度上略胜一筹,交互和表达效果更生活化、也更自然,口语化词语的插入不突兀,遇到一些中英文混杂的词语,也能做到发音自然。
值得一提的是,科大讯飞超拟人合成在情感表达上表现更为突出。在输入表达不同程度开心的相关文字后,讯飞超拟人合成的效果能够根据程度不同展现出可感知的差别;而微软在情感表达上稍逊一筹,合成效果与普通语气基本没有差异。综合来看,科大讯飞的超拟人技术在拟人度与情感表达上更优。
通用大模型+语音大模型 让语音合成更逼真
今年1月30日科大讯飞发布超拟人合成时,也发布了最新的星火语音大模型,它可谓是让语音合成听起来更加自然和逼真的“杀手锏”。
