中国智能语音服务产业,最快冲过终点的将是谁呢?

  阿里云升级实时在线中文语音合成服务,结合传统语音合成技术与深度学习端到端系统各自的优势,显著提升语音合成稳定性及表现力。新智元专访达摩院语音实验室负责人鄢志杰及高级算法专家雷鸣,深度解读核心技术。鄢志杰认为,智能语音正处于爆发前夜,2019年语音AI将在特定领域通过图灵测试。

  鄢志杰,达摩院语音实验室负责人,中国科学技术大学博士,IEEE高级会员。长期担任语音领域顶级学术会议及期刊专家评审。研究领域包括语音识别、语音合成、声纹、语音交互等。曾任微软亚洲研究院语音团队主管研究员。

  开始阅读前,先来听听下面这段机器合成的语音:

  当听到稚嫩的童声念完“鸡蛋鸡蛋……鸡蛋~”的时候,阿里巴巴达摩院语音实验室负责人鄢志杰还有坐在他一旁的高级算法专家雷鸣,都不约而同地激动起来,兴奋之情溢于言表:

  “这在当年我们做学生研究TTS (Text-To-Speech, 文本到语音) 时是完全不可想象的,”鄢志杰和雷鸣感叹道:“有点穿越,机器能够发出这种声音,这种韵律。”

  让机器发出这种声音和韵律的,就是他们向新智元展示的 Knowledge-Aware Neural TTS (KAN-TTS),达摩院最新推出的语音合成技术,现已通过阿里云提供在线的实时中文语音合成服务。

  根据阿里内部测评结果,即便只基于单个发音人 (single speaker) 的数据,KAN-TTS 合成的语音都能达到与原始音频录音 (Recording) 95%以上的相似度;采用多发音人 (multi-speaker) 数据以及迁移学习技术后,特定发音人数据的自然度能获得97%以上的相似度。

  当前业界商用语音合成系统 (红框标识) 合成语音与录音 (Recording) 相似度大约在85~%90%的水平。达摩院内部评测结果显示,KAN-TTS技术令合成语音自然度显著提升。详见后文“详解达摩院KAN-TTS技术”。

  横向比较业界现有的各项中文语音合成服务的效果后,鄢志杰博士认为,达摩院语音实验室这次交出了一份满意的答卷。

  “我们正处于智能语音技术又一次爆发的前夜,感觉就像是2010年前后那段时间,深度学习的出现让 ASR (自动语音识别) 准确率提高了20%~30%,一下子把整个 ASR 能力带向产业,”鄢志杰告诉新智元。

  “现在,大家沿着这一条新的技术路线,不断添砖加瓦,未来几年会看到大量新方法的提出,相关的服务也会再进一步。”

  升级实时在线语音合成服务:传统语音合成+端到端完美融合

  一直以来,在机器学习领域存在一个争论:

  是不是可以完全摒弃领域知识 (domain knowledge),只依靠强大的模型以及海量数据,就能得到足够好的模型?

  “在近几年流行的端到端 (End2End) 技术中,研究人员给出的答案似乎接近于‘是’。”达摩院语音实验室高级算法专家雷鸣告诉新智元。

  雷鸣,达摩院语音实验室高级算法专家,中科大博士,目前负责语音识别、语音合成、语音唤醒等前沿技术研发工作,在加入阿里巴巴之前,他曾任微软STC语音科学家。

  “但在语音合成领域,现在我们给出的答案是‘否’——只有依赖足够多的领域知识,加上强大的模型和海量的数据,才能够构建足够好的语音合成模型。”

  近几年,由深度学习推动的 End2End 技术发展迅速。语音合成 (TTS) 领域,谷歌的 Tacotron、DeepMind 的 WaveNet,还有百度的 ClariNet,研究人员不断提出更好、更快的端到端语音合成模型。

  端到端 (End2End) 技术摒弃了传统语音合成技术前端-后端多模型多模块框架,采用统一的模型,试图直接从输入文本到输出波形。理论上,这样能模拟任何声音 (排除了对声波建模的固有损失),大幅减轻乃至去掉了对语音、语言学专业知识的依赖。

  然而,现实情况是,尽管端到端TTS系统能够得到相对流畅、表现力更好的合成语音,但由于需要大量计算力支持等原因,目前难以在移动端实现。

  此外,语音合成领域,训练数据的获取需要较高的成本投入。除了流程繁琐——从前期准备、选择发音人、找录音场地、录制到数据清洗和标注,更麻烦的是,现在的语音合成数据库往往是单一风格的,而语音合成服务的效果稳定性依赖录音风格的一致性,如何在长期大量录音中始终保持同一风格内部的一致性,对整个录音项目来说是一个不小的挑战。在这种高要求条件下,10小时的有效语音合成数据,可能需要花费数月的录制时间,这也对发音人保持自身状态 (尤其是嗓子的状态) 提出了较高的要求。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

关闭