如何保证大规模语音理解和合成的准确性和响应速度？

如何保证大规模语音理解和合成的准确性和响应速度？

答主

司徒文畅

字节跳动字节跳动智能语音方向工程负责人

字节跳动智能语音方向工程负责人司徒文畅首先分解下，先从准确性上去描述，然后再说响应速度的问题。准确性上其实识别跟合成稍微不同，识别可以分为声学模型的方案，还有语言模型的方案，声学模型主要是通过加数据做数据增强，肯定是加越多场景的数据会越好，可以让整个声学预测的准确率得到很好的提升，然后让模型深度加深，让整个模型具有更好的效果；对于语言模型，除了加数据以外，还能做一些其他方案，像一些比较关键的词的lm boosting，或者如果你专注于某些领域类的数据，也可以做一些领域domain比较小的lm bias方案，都是可以提升准确率的方法。对于合成来讲，准确率主要分成前端文本分析的准确性，以及后端建模的准确性，我觉得在合成里面更重要的是打造一种反馈的闭环，比如在前端包括一些多音字，多音词，还有停顿、边界，这本身也是业界里的难区...

问题来源：大规模音频理解与合成解决方案及应用

其他回答

发布

网友答案仅供其表达个人看法，并不表明智猩猩立场。

相关回答

如何保证大规模语音理解和合成的准确性和响应速度？

请问达到demo里的语音识别效果大概需要多少数据？

您提到的语音合成声码器部分是完全自研的，有可能介绍下吗？或者这部分成果有发表相关论文可以查阅学习下吗?

请问训练服务器用什么型号显卡？

kaldi作为基础平台，用chain训练，对于新的说法，可以做增强吗？还是说需要全语料数据再次训练？如何更好持续提高识别精度

热门问答

请问INT4的算力为什么是INT8的2倍，而不是4倍？

SR-IOV和MIG的关系是什么？A100是否支持SR-IOV？

请教一下，在A100上MPS技术会怎样演进，和MIG技术有哪些结合？

MIG将来是不是会取代vGPU？有大致路线图吗？适配vGPU和适配MIG有没有升级问题？还是无缝升级？

NVLink与NVSwitch是什么关系？

如果不使用MIG，那么就可以使用8个GPU了？还有结构化稀疏支持两个矩阵都是稀疏的么？

NVLink 3.0通过12个X4 Link来支持双向600GB带宽，平均每个X4 link是50GB，这样的话，X16 link的双向带宽就有200GB，这个带宽已经超过PCIe 5.0的标准了，是这样吗？

MIG的各实例是程序员控制还是系统控制？

纹理内存究竟是单独的内存区域？还是gmem的一种特殊访问方式？（即，有限的究竟是纹理缓存还是纹理内存）

陈博士您好，请问MinD-Vis可以用到3D的图像数据生成上吗？在cross attention上和在time embedding上加的条件分别有什么作用呢？除了在cross attention上和在time embedding上加条件之外，还有什么地方可以加条件呢？