醋醋百科网

Good Luck To You!

Seed-VC :基于 SEED-TTS 架构开发的零样本语音/歌声转换模型!

Seed-VC 是一个先进的零样本语音转换和歌声转换模型,受字节跳动的 SEED-TTS 启发而开发。 它利用上下文学习技术,无需任何训练即可克隆语音。 只需提供 1 到 30 秒的参考语音,Seed-VC 就能将任意语音转换为目标语音风格。 该模型支持零样本语音转换、零样本实时语音转换和零样本歌声转换。

已发布用于不同目的的3个模型:

此外,Seed-VC 支持使用自定义数据进行微调,以提高特定说话人的性能,数据需求门槛极低,每位说话人至少需要 1 条语音,训练速度极快,最少 100 步,在 T4 上只需 2 分钟。实时语音转换支持约 300 毫秒的算法延迟约100 毫秒的设备侧延迟,适用于在线会议、游戏和直播等场景。

实验结果表明,Seed-VC 在零样本语音转换任务中表现优异,在说话人相似度和词错误率方面优于其他强大的基线模型,如 OpenVoice 和 CosyVoice。 此外,通过引入基频条件,Seed-VC 在零样本歌声转换任务中也取得了与当前最先进方法相当的性能。

Github :https://github.com/Plachtaa/seed-vc

#AI开源项目推荐##github##AI技术##开源TTS##语音克隆##AI语音克隆音乐#

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言