随意转换声音,ElevenLabs发布“语音转语音”

专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

语音生成式AI平台Elevenlabs在官网发布了“语音转语音”(STS)功能,可帮助用户将语音自动转换成别的语音,例如,上传了一段男声语音,可以自动转换成女声、老年或者儿童的声音。

传统的语音转换方法是,需要采集音频样本,然后提取基频、共振峰、时域和频域特征等,再进行去噪、归一化,整个流程非常繁琐复杂,而STS直接实现一键语音转换。

此外,STS还能对转换声音的强度、语气、表现力、风格进行可视化控制。不过STS目前只能转换24秒的语音,对于短广告、抖音、快手等短视频平台来说是足够用了。

免费体验地址:https://elevenlabs.io/voice-changer

STS技术简单介绍

Elevenlabs表示,STS的技术灵感来自人脸转换。我们经常会看到人脸合成应用,将自己的图像与某位明星的图像相结合,生成全新的人脸。

简单来说,实现这一技术是获取一张面部图片并映射其属性,然后通过神经网络和深度学习对性别、年龄、发型等属性进行修改、匹配,以完全特定的合成目标。

STS采取了同样的转换策略,提取用户上传语音的情感、语气和表达方式等,然后与转换目标语音进行比对、微调完成音频的过渡与匹配

同时支持用户对语音进行可视化控制,例如,修改强度、音峰、情感等参数。

STS介绍

STS使用方法

STS的使用方法非常简单全程可视化控制,「AIGC开放社区」根据其免费账号体验了一下。

1)登录https://elevenlabs.io/voice-changer然后选择“Speech to Speech”语音到语音转换。

2)上传你要转换的语音,这里我们选择一个男性声音的三国演义介绍。

上传的男声原音
3)对转换目标的参数进行设定,包括稳定器、清晰度、相似度、风格等,也可以直接选择“Add Voice”添加系统内置语音。这里我们选择一个Domi女声。
4)全部设定完毕后,点击下方的“Generate”开始自动合成。完毕后,可以直接下载语音。
目前,只能转换24秒的语音,但Elevenlabs表示,未来会突破这个限制。
转换后的女音

本文素材来源ElevenLabs官网,如有侵权请联系删除

END

《遇见未来 发现AI视觉艺术》故事接龙AI短片大赛