科技趋势：OpenAI“语音引擎” 15秒样本可复制原声

8 4 月, 2024 GMT+0000 6:07 上午

作者：Admin

分享文章

8 4 月, 2024 GMT+0000 6:07 上午

作者：Admin

分享文章

OpenAI 推出了一项名为 Voice Engine 的文本转语音生成平台，可以根据某人的 15 秒声音片段生成合成语音，目前仅公开给用户访问。根据The Verge 的报道，这种由人工智能生成的声音可以按照讲话者的语言或其他多种语言朗读文本提示，OpenAI 在其博客中表示，这些小规模的应用有助于我们思考 Voice Engine 如何在各个行业中发挥作用，并制定相应的方法和安全措施，以确保其良好的使用。

据悉，目前已获得访问权限的公司包括教育科技公司 Age of Learning、视觉叙事平台 HeyGen、前线健康软件开发商 Dimagi、人工智能通讯应用程序创建者 Livox，以及健康系统 Lifespan。

OpenAI 在发布的样本中展示了 Age of Learning 利用该技术生成预先脚本化的配音内容，以及读出由 GPT-4 为学生编写的“实时个性化回答”的实际情况。

OpenAI 表示，Voice Engine 的从 2022 年底开发，该技术已为文本转语音 API 和 ChatGPT 的朗读功能提供了预设声音。OpenAI 的 Voice Engine 产品团队成员 Jeff Harris 在接受媒体 TechCrunch 的采访时表示，该模型是基于“一系列授权和公开可用的数据”进行训练的。OpenAI 还告诉该出版物，该模型将仅向约 10 名开发者提供。

AI 文本转音频生成是生成式人工智能领域不断发展的一个领域。虽然大多数关注的是器乐或自然声音，但很少有人专注于语音生成。该领域的一些公司包括提供 AI 语音克隆技术和工具的 Podcastle 和 ElevenLabs，Vergecast 去年曾探讨过这些技术。

与此同时，美国政府正试图遏制 AI 语音技术的不道德使用。上个月，联邦通信委员会在人们收到以拜登总统 AI 克隆声音发出的垃圾电话后，禁止使用 AI 声音进行电话推销。

根据 OpenAI 的说法，其合作伙伴同意遵守其使用政策，即他们不会未经许可模仿他人或组织的声音。此外，合作伙伴还需获得原始发声者的“明确和知情的同意”，不得建立个人用户创建自己声音的方式，并且必须向听众披露这些声音是由人工智能生成的。OpenAI 还为音频剪辑添加了水印，以追踪其来源并积极监控音频的使用。

OpenAI 提出了几项可以限制此类工具风险的措施，包括逐步淘汰基于语音的银行账户验证、制定保护人们声音在 AI 中使用的政策、加强 AI 深度伪造的教育，以及开发 AI 内容的跟踪系统。

科技趋势：OpenAI“语音引擎” 15秒样本可复制原声

目录

加入我们的通讯录保持最新资讯

加入我们的通讯录
保持最新资讯