据The Verge报道,OpenAI正在为其文本到语音生成平台Voice Engine提供有限的访问权限。这个创新平台可以基于15秒的音频片段合成语音,从而生成逼真的人工语音。OpenAI的博客文章指出,这些AI生成的语音能够用多种语言朗读文本提示,并在多个行业中具有潜在应用。 获得Voice Engine访问权限的公司包括Age of Learning、HeyGen、Dimagi、Livox和Lifespan。OpenAI展示了示例,说明Age of Learning如何利用这项技术生成预设脚本的配音内容,并通过GPT-4为学生生成个性化的回应。 Voice Engine的开发始于2022年底,从那时起,它已为文本到语音API和ChatGPT的朗读功能提供预设语音支持。OpenAI的Voice Engine产品团队的杰夫·哈里斯(Jeff Harris)向TechCrunch透露,该模型是在授权数据和公开数据的基础上训练的。根据OpenAI向媒体透露的信息,该平台将限制在大约10个开发者范围内使用。 尽管AI文本到音频生成技术在不断进步,但由于各种担忧,语音生成技术受到的关注较少,正如OpenAI所指出的那样。然而,像Podcastle和ElevenLabs这样的公司也在探索AI语音克隆技术,这一点在The Vergecast中曾被探讨过。 与此同时,美国政府正在采取措施规范AI语音技术的不道德应用。联邦通信委员会(FCC)最近禁止了利用AI语音的自动电话拨号,此前曾发生过利用总统乔·拜登声音进行的垃圾电话事件。 OpenAI的合作伙伴已承诺遵守使用政策,禁止未经同意的模仿行为,要求原始发言者的明确和知情同意,并向听众披露AI生成的语音。为了确保问责制,OpenAI在音频片段中实施了水印,并积极监控其使用情况。 OpenAI建议采取若干措施以减轻与此类工具相关的风险,包括逐步淘汰用于银行账户的语音认证,实施保护个人语音在AI中使用的政策,加强对AI深度伪造的教育,并开发AI内容追踪系统。
OpenAI的语音克隆AI模型只需15秒样本即可操作
据The Verge报道,OpenAI正在为其文本到语音生成平台Voice Engine提供有限的访问权限。这个创新平台可以基于15秒的音频片段合成语音,从而生成逼真的人工语音。OpenAI的博客文章指出,这些AI生成的语音能够用多种语言朗读文本提示,并在多个行业中具有潜在应用。
获得Voice Engine访问权限的公司包括Age of Learning、HeyGen、Dimagi、Livox和Lifespan。OpenAI展示了示例,说明Age of Learning如何利用这项技术生成预设脚本的配音内容,并通过GPT-4为学生生成个性化的回应。
Voice Engine的开发始于2022年底,从那时起,它已为文本到语音API和ChatGPT的朗读功能提供预设语音支持。OpenAI的Voice Engine产品团队的杰夫·哈里斯(Jeff Harris)向TechCrunch透露,该模型是在授权数据和公开数据的基础上训练的。根据OpenAI向媒体透露的信息,该平台将限制在大约10个开发者范围内使用。
尽管AI文本到音频生成技术在不断进步,但由于各种担忧,语音生成技术受到的关注较少,正如OpenAI所指出的那样。然而,像Podcastle和ElevenLabs这样的公司也在探索AI语音克隆技术,这一点在The Vergecast中曾被探讨过。
与此同时,美国政府正在采取措施规范AI语音技术的不道德应用。联邦通信委员会(FCC)最近禁止了利用AI语音的自动电话拨号,此前曾发生过利用总统乔·拜登声音进行的垃圾电话事件。
OpenAI的合作伙伴已承诺遵守使用政策,禁止未经同意的模仿行为,要求原始发言者的明确和知情同意,并向听众披露AI生成的语音。为了确保问责制,OpenAI在音频片段中实施了水印,并积极监控其使用情况。
OpenAI建议采取若干措施以减轻与此类工具相关的风险,包括逐步淘汰用于银行账户的语音认证,实施保护个人语音在AI中使用的政策,加强对AI深度伪造的教育,并开发AI内容追踪系统。
相关文章
在网络安全和时尚中,旧事物重现新生
评论 分布式拒绝服务(DDoS)攻击和零日威胁在网络安全领域并不新鲜,但它们仍然频繁发生,原因很简单:它们有 …
微软Exchange遭遇重大安全漏洞:“Storm-0558”黑客组织利用漏洞,泄露美国政府官员账户
在2023年,一次重大网络安全事件中,微软的Exchange Online邮件服务被入侵,影响了22个组织和数 …
超越加密货币的区块链:现实世界的应用
介绍 当大多数人听到“区块链”时,他们会想到比特币和以太坊等加密货币。然而,区块链技术的潜力远不止于加密货币 …