您的位置首页 >资讯 >

2021年12月30日最新消息:脸书声称wav2vec2.0有10分钟的标签数据

导读 在印前服务器Arxiv org上发表的一篇论文中,脸书的研究人员描述了wav2vec 2 0,这是一个自我监控语音识别的改进框架。他们声称,这第一

在印前服务器Arxiv.org上发表的一篇论文中,脸书的研究人员描述了wav2vec 2.0,这是一个自我监控语音识别的改进框架。他们声称,这第一次证明了从语音中学习表征,然后对转录的语音进行微调,可以超越最好的半监督方法,同时在概念上更简单,只需10分钟就可以得到最新的结果。标记的数据,并对53,000小时的未标记数据进行预训练。

人工智能模型受益于大量有标签的数据——这是它们学习如何推断模式和做出预测的方式。然而,像论文的合著者一样,有标签的数据通常比无标签的数据更难获得。目前的语音识别系统需要数千小时来转录语音,以达到可接受的性能,但世界上近7000种语言中的大多数都无法使用。脸书最初的wav2vec和其他系统试图通过自我监控来避免这种情况,这种监控会根据数据自动生成标签。然而,与半监督方法相比,它们在性能上有所不足。半监督方法在训练过程中结合了少量的已标记数据和大量的未标记数据。

Wav2vec 2.0表面上弥合了编码器模块之间的鸿沟,编码器模块获取原始音频并输出语音表示,然后将这些语音表示提供给Transformer,以确保这些表示捕获整个音频序列信息。变压器网络架构由谷歌研究人员于2017年创建。它最初是作为一种改进机器翻译的方法而设计的。因此,它用注意函数代替递归神经网络来预测序列中的下一步。此功能使wav2vec 2.0能够在连续语音表示的基础上构建上下文表示,并记录音频序列端到端的统计相关性。

为了预训练wav2vec 2.0,研究人员掩盖了一些语音表示(约占所有时间步长的49%,平均跨度为299毫秒),并要求系统正确预测它们。然后,为了对其进行微调以进行语音识别,他们在wav2vec 2.0上添加了一个投影,该投影以字符和单词边界的标记形式表示单词(例如,英语书面单词的单词空间),然后在训练过程中执行额外的掩蔽。

共同作者在128个Nvidia V100显卡上对wav2vec 2.0进行了为期5.2天的培训,这些显卡位于多个未标记和未标记的数据源上,以评估系统的性能。在8到24个显卡之间进行了微调。

根据该团队的说法,在开源Librispeech语料库上,经过最大规模训练的wav2vec 2.0模型(仅微调了10分钟的标记数据(48条记录,平均长度为12.5秒))的单词错误率达到了5.7。(这里的“单词错误率”是指错误数除以单词总数。)在Librispeech的100小时子集中,同型号的错词率比上一级低2.3-45%。在微调更多数据时,训练好的标签数据减少了100倍-1.9倍,这与依赖更复杂架构的顶级半监督方法相比具有竞争力。

研究人员写道:“[这表明超低资源语音识别可以通过对未标记数据的自监督学习来实现。”“我们已经证明,可以使用非常少量的带注释的数据来构建具有非常好准确性的语音识别模型。我们希望我们的工作将使语音识别技术在更多的语言和方言中得到更广泛的应用。”

使用脸书的原始wav2vec为关键词发现和声音事件检测提供更好的音频数据表示,并改进其系统以主动识别违反社区规范的帖子。Wav2vec 2.0可应用于同一任务;此外,该公司还表示,计划提供模型和代码来扩展其fairseq建模工具包。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!