首页 > 新闻动态 > 行业新闻
新业新闻
联系我们

电话:+86-512-65012696

传真:+86-512-65010042

邮箱:www.kanaiji.cn

【亚博】IBM新技术大幅缩短语音识别系统训练时间

    作者:亚博 时间:2019-05-14

据外媒报导,IBM在其新颁发的论文《散布式深度进修主动语音辨认策略》(Distributed Deep Learning Strategies for Automatic Speech RecogniTIon)中提出了一种散布式处置架构,该架构可以在风行的开源基准测试中使练习速度晋升15倍,而且不会损掉正确性。该论文作者暗示,将其摆设在包括有多个显卡的系统上,可以将练习时长从几周的时候削减到几天。

这项工作打算在5月在IEEE声学、语音和旌旗灯号处置国际会议(ICASSP)上发布。

作为进献研究人员Wei Zhang、Xiaodong Cui和Brian Kingsbury在博客中写道:“练习像苹果的Siri、谷歌智能助理和亚马逊的Alexa那样的主动语音辨认(AutomaTIc Speech RecogniTIon,ASR)系统,需要复杂的编码系统将语音转换为深度进修系统息争码系统可以或许理解的功能,这些系统可以将输出转换为人类可读的文本。加倍复杂的模子将使年夜范围的练习加倍坚苦。”

该团队的并行化解决方案需要提高批量巨细,便可以一次处置的样本数目,而不是不加选择地处置,不然就会影响正确性。他们将批量巨细增添到2560个,同时利用一种被称为异步分离并行随机梯度降落(ADPSGD)的散布式深度进修手艺。

正如研究人员注释的那样,年夜大都深度进修模子要末采取同步优化方式,这类方式遭到迟缓系统的不成比例的影响,要末采取基在参数办事器(PS)的异步方式,这类方式常常会致使模子不太切确。比拟之下,ADPSGD(IBM在2018年在一篇论文中初次胪陈的)是异步和分离的,它包管了模子正确性的基线程度,并为某些类型的优化问题供给了加快。

在测试中,该论文的作者暗示,ADPSGD将ASR功课的运行时候,从单个V100图形处置器系统上的一周缩短到32图形处置器系统上的11.5小时。ADPSGD留给将来工作算法的时候,可以处置更年夜的批量和系统优化更壮大的硬件。

Zhang、Cui和Kingsbury写道:“在半天内完成练习工作是可取的,由于它使研究人员可以或许快速迭代开辟新的算法。这也能够使开辟人员快速调剂现有模子以顺应他们的利用,特别是在需要年夜量语音以实现稳健性和可用性所需的高精度的自界说用例中。”

练习天然说话理解模子不但需要壮大的硬件根本和数千小时语音和数以百万的文本单词的语料库,并且全部练习进程中所花费的时候也长短常漫长的。可以说IBM提出的散布式处置架构年夜年夜减轻了计较承担。

返回首页