深层学习不能解决语音识别问题

< > >

作者:Awni Hannun


自从引入语音识别的深层学习以来,单词错误率迅速下降。然而,虽然您可能已经阅读了一些相关文章,但语言识别还没有达到人类的水平。在语音识别中有许多失败的模式。ASR(自动语音识别)从大部分时间发展到一部分人,随时适用于任何人。唯一的办法就是承认这些失败并采取措施加以解决。
< > >
以上:只有一个前循环可以在转录时计算。
下面:在双向循环的情况下,需要等待所有的单词完成计算转录。
如何在语音识别中有效地结合未来信息仍然是一个悬而未决的问题。
计算声音的计算能力是一个经济约束。在提高语音识别精度的同时,还要考虑语音识别器的性能价格比。如果改进没有达到经济阈值,它就不会被部署。
一个从未被部署的持续改进的典型案例是集成。1%或2%的误差减少很少值得2-8中计算量成倍增加。网络语言的新一代车型也属于这一类,因为他们在束搜索时代是昂贵的,但预期在未来的变化。
需要说明的是,我认为研究如何提高巨大的计算成本的精确度是没有用的。我们看到了“先慢后准”的成功模式。值得一提的一点是,在它得到足够快的改进之前,它仍然是不可用的。
在未来五年内,< > > > >
语音识别领域还存在着许多开放性和挑战性的问题。

    在新的区域、重音、远场和低信噪比的情况下,可以扩展< >的能力。
    在认识过程中引入更多的语境
    分离 diarisation从声源
    对语音识别的语义错误率和创新方法进行评价。

    我期待着今后5年和其他领域所取得的进展。

    资料全部来自网络,如果有问题可以发邮件到站长邮箱