OpenAI的新工具可以听你的声音15秒并克隆它

2024-04-16 10:57:30 来源：用户：

OpenAI 一直在开发一种名为“语音引擎”的新工具。该工具的功能极具争议性，如果公开发布，则会带来多种安全风险。语音引擎是一种人工智能工具，只需 15 秒即可收听语音样本，然后克隆它。这意味着，只要听这么短的时间，它就能够产生相同的声音。这是 OpenAI 尚未公开该功能的主要原因之一。

OpenAI 在一篇博客文章中透露，它最近对一个名为“语音引擎”的模型进行了一次小测试。该模型可以获取文本输入和人声的 15 秒短音频样本，然后生成听起来与原始说话者非常相似的语音。令人印象深刻的是，即使只有一个简短的样本，该模型也可以创建听起来情感丰富且真实的声音。

语音引擎于 2022 年末首次开发，现已用于为 ChatGPT Voice 和 Read Aloud 等文本转语音应用程序中的预设语音提供支持。然而，OpenAI 在广泛发布它时非常谨慎，因为存在人们可能滥用合成声音的风险。他们希望开始一场关于负责任地使用合成声音以及社会如何处理这些新能力的对话。他们将利用这些对话的反馈和测试结果来决定未来是否以及如何向更多人提供这项技术。

那么语音引擎可以用在哪些方面呢?

—语音引擎可以通过提供自然的声音来大声朗读文本，从而帮助阅读能力较差的人(包括儿童)。 Age of Learning 等公司正在使用它来创建教育内容。

—它可以使用原始说话者的声音将视频和播客翻译成不同的语言，这有助于覆盖全球受众。像 HeyGen 这样的公司已经在他们的视觉讲故事平台上使用了这个功能。

—在临床环境中，语音引擎正在试点以帮助患者恢复言语。例如，据 OpenAI 博客报道，医生用它来恢复因脑肿瘤而失去声音的患者的声音。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！