您的位置首页 >资讯 >

HuggingFace深入到机器翻译与发布的1000个模型

导读 给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和互联网的相关知识

给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和互联网的相关知识与大家分享。希望大家看完之后会喜欢。

本周拥抱脸发布了1000多个模型,这是机器翻译的第一步。研究人员使用无监督学习和开放并行语料库(OPUS)来训练模型。OPUS是赫尔辛基大学和全球合作伙伴联合开展的项目,旨在收集和开放各种语言数据集,尤其是资源稀缺的语言。低资源语言是指那些训练数据少于通用语言(如英语)的语言。

自2010年以来,OPUS项目已经集成了流行的数据集,如JW300。耶和华见证会的文字可以支持380种语言,这些资源被许多开源项目用于资源稀缺的语言,如Masahane,以创建从英语到2000种非洲语言的机器翻译。翻译可以让说不同语言的人相互交流,让全世界的人都能参与到线上和面对面的商务活动中,这在可预见的未来尤为重要。

周四的发布意味着,用OPUS数据训练的模型现在构成了Hugging Face和最大贡献组织赫尔辛基大学语言技术与研究小组提供的大部分模型。在本周之前,“拥抱脸”最出名的是它可以轻松访问最新的语言模型和语言生成模型,比如谷歌的BERT,它可以预测下一个将出现在文本中的字符、单词或句子。

Python的拥抱脸变形金刚库已经安装了超过50万个pip,包括高级和最新NLP模型的预训练版本,例如谷歌AI的BERT和XLNet,脸书AI的RoBERTa和OpenAI的GPT-2。

拥抱脸首席执行官ClmentDelangue在接受VentureBeat采访时表示,机器翻译业务是一个社区驱动的计划。该公司在2019年底完成1500万美元的融资后,致力于围绕前沿的NLP建设更多社区。

“由于我们是开源的,很多人都在使用我们的库,所以我们开始看到越来越多来自不同语言的人聚在一起,用不同的语言(尤其是低资源语言)预训练我们的一些模型。就像许多NLP社区的人已经忘记了一样,”他说。“这让我们意识到,在实现NLP民主化的目标中,实现这一目标的很大一部分不仅仅是因为我们一直在英语方面取得最好的成绩,还因为越来越多的人可以在模型中使用其他语言并提供翻译。”

Delangue还表示,这一决定是由于机器翻译和序列到序列(Seq2Seq)模型的最新发展。德兰格说,在过去的几个月里,拥抱脸首次开始使用Seq2Seq模型。最近,著名的机器翻译模型包括谷歌的T5和脸书人工智能研究公司的BART。BART是用于训练Seq2Seq模型的自动编码器。

“即使在一年前,我们可能也不能仅仅因为纯机器翻译的结果不够好。现在,它已经达到了一个有意义的水平,并开始发挥作用。”他说。德兰格补充说,拥抱脸将继续探索翻译的数据增强技术。

该消息是在本周早些时候与权重和偏差集成后发布的,以增强跟踪、记录和比较训练实验的可视化。拥抱脸去年秋天将其变形金刚库带到了TensorFlow。

本文就为大家讲解到这里了。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!