给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和互联网的相关知识与大家分享。希望大家看完之后会喜欢。
谷歌今天宣布,它将在谷歌翻译中发布从英语到西班牙语和芬兰语、匈牙利语和波斯语到英语的性别翻译。这些翻译采用新的范式,通过重写或后编辑最初的译文来解决性别偏见。这家科技巨头声称,这种方法比支持谷歌翻译(Google Translate)按性别区分的土耳其语到英语翻译的早期技术更具可扩展性,主要是因为它不依赖数据密集型的性别中立检测器。
谷歌研究院高级软件工程师梅尔文约翰逊(Melvin Johnson)写道:“自最初发布以来,我们取得了巨大的进步,不仅按性别提高了翻译质量,还将其扩展到了其他四种语言对。”“我们致力于进一步解决谷歌翻译中的性别偏见,并计划将这项工作扩展到文档级翻译。”
正如Johnson解释的那样,用于从土耳其语到英语的性别特定翻译的旧分类器努力适应新语言,但未能使用神经机器翻译(NMT)系统独立生成男性和女性翻译。此外,它不能显示多达40%的合格查询的性别特定翻译,因为这两个翻译通常不完全相同,除了与性别相关的现象。
相比之下,新的基于重写的方法首先生成翻译,然后对它们进行审查,以确定性别中立的源短语生成性别特定翻译的情况。如果是这种情况,句子层面的改写者会选择另一种性别的翻译,然后对第一个和改写后的翻译进行审核,确保唯一的区别是性别。
根据谷歌的说法,构建一个重写器需要生成数百万个由成对短语组成的训练示例,每个短语包含男性和女性的翻译。由于数据不易获取,Google Translate团队不得不从一个庞大的单语数据集入手,通过将性别代词从男性改为女性(或者反过来)来提出候选人改写。对于这个重写的语料库,工程师使用内部语言模型训练数百万个英语句子来选择最佳候选,从而将训练数据从男性输入转换为女性输出,反之亦然。
在合并了来自两个方向的训练数据后,团队使用它来训练基于Transformer的单层序列到序列模型。然后,他们在训练数据中引入标点符号和大小写变体来提高模型的鲁棒性,使得最终的模型可以在99%的时间内可靠地生成所需的男性或女性重写。
约翰逊说,对谷歌开发的一个名为“偏见减少”的指数进行了评估,该指数用于衡量新翻译系统和现有系统之间偏见的相对减少程度(其中“偏见”指的是性别选择,而没有具体说明翻译中的性别)。新方法可以将匈牙利语、芬兰语和波斯语的英译偏差降低90%以上。现有土耳其语-英语系统的偏差从60%降低到95%,系统触发性别特定翻译的平均准确率为97%——也就是说,当它决定显示性别特定翻译时,97%的时间是正确的。
几个月后,谷歌取消了使用云视觉API将图片中的人标记为“男性”或“女性”的功能,从而改进了谷歌翻译系统的部署。此外,2018年1月,谷歌屏蔽了Smart Compose(一个Gmail功能),当用户被提示输入句子时,它会自动向用户建议基于性别的代词。
谷歌为减少人工智能系统的偏见所做的更大努力的一部分是采用不分性别的语言翻译和计算机视觉方法。这家总部位于山景城的公司使用其人工智能道德团队开发的测试来发现偏见,并禁止其预测技术中的任何粗俗言论、种族诽谤、提及商业竞争对手和悲惨事件。
本文就为大家讲解到这里了。标签: