- UID
- 21217
- 精华
- 0
- 冰点
- 29
- 阅读权限
- 90
- 主题
- 65
- 回帖
- 799
- 性别
- 男
- 在线时间
- 1086 小时
- 注册时间
- 2015-1-18
- 最后登录
- 2025-4-8
签到天数: 142 天 [LV.7]常住居民III
风之精灵LV.3
  
- 回帖
- 799
- 雪点
- 77581
- 阅读权限
- 90
- 性别
- 男
- 在线时间
- 1086 小时
- 注册时间
- 2015-1-18
- 最后登录
- 2025-4-8
|
使用开源的 GPT-SoVITS v2,比最新的v3稳定。每个角色需要50秒~2分钟纯净独白素材(个人测试50-一分钟出头就差不多了)具体使用教程可以去b站搜一下,看哪个教程写的详细。
课程可能都说生成普通话,粤语也就两部分不同,第二步ASR标记,选择ASR语言选择 yue,而不是zh,最后生成页面右边框上下两个都选择yue,生成夹杂英文就选yue+eng mix
这里提供一些个人经验:
独白素材可以通过 Ultimate Vocal Remover 提取人声获得,尽量选清晰无杂音的,不要高质量+低质量混用(变调的素材也不要用,例如角色阴阳怪气或者转Q版可爱那种语气)。
最后一步生成语音页面,上传3-10秒参考决定了你生成声音语气合不合要求的重要参考,月圆之夜为什么效果欠佳,就是找不到主角轻声细气的独白。你要生成愤怒的句子,参考里面一定要有角色的陈述句+愤怒语气的语句。
最后点击生成那里,如果AI生成某个字经常读不准,请用同音字替换尝试,我生成的大部分句子都是刷了十几次到两三十次,然后找到里面合适的部分杂交而成,能一次生成合适的语气的极少,除非陈述句,陈述语气刷几遍就行了。
生成完放AU感觉还有点不自然,可以选择切开某部分字词,尝试拉伸75%-120%,或者在拉伸选项里有变调选择,-0.25到-0.5,或者+0.25 让某些字词读得低沉或者高昂。 |
|