我来分享|在手机上，如何用huggingface平台提供的seed-vc模型进行歌声推理。

互帮互助 4267

挚爱湘伦 等级:5

和汗青且浅，相去复几许，盈盈一水间，脉脉不得语。

更多操作

跳转楼层

只看楼主

发现近段时间在我发布的有关AI歌声的帖子中总有一些人评论：哎呀这个AI歌声怎么做到的？今天出一期喂饭级教程，想学的赶快进。

教程开始前先回答几个容易被问到的问题。

q：为什么一首歌我推出来的效果和别人不一样？

a：要回答这个问题需要考虑到三个不同的维度。1、原音频方面，原音频通常是只有主唱，没有和声和混响等的干声文件，如果你的干声文件在提取的时候有和声成分或主唱部分频率缺失、残留、电音会导致推理出来发音奇怪的问题。2、参考音频方面，如果参考音频音质太低或者机械味儿太重的话，会导致推理出来机械感过重，另外参考音频通过人工的方式加快语速后，听起来会显得特别压缩。3、扩散步数方面，扩散步数太低或太高都有可能导致哑音。

q：GPU总是报错是什么情况？

a：由于这个平台只能作为demo，不能进行长时间推理，因此个人建议干声文件的片段最好不要超过1分40秒，参考音频文件最好不要超过25秒的mp3，否则就很难推理成功，或者你的干声文件如果是整首歌曲的话，扩散步数最好调在50左右（扩散步数影响最终推理后的结果）。

q：如果我的GPU用完了，但我不想开通Pro，我应该怎么办？

a：这个问题很好解决，你多注册几个账号就可以了，像我的话就五个账号，基本上已经够用了。每天晚上零点会自动重置GPU的配额，理论上一个账号的GPU配额只够做一首歌。

问题回答完了，下面开始喂饭。

PS：你在访问这个网页之前必须要有一个梯子（比如某某VPN、某某加速器等软件），不然你就访问不了，然后手机端提取干声是有混响的，你可以通过下面分享的公众号来提取干声，这样就没有混响了，不过每天只允许处理一个文件。

下面我来说一下这个工具的使用方法，建议耐心看完。干声文件的问题解决完了以后，你需要去安装一个梯子，就是可以连接到国外代理的那种，然后选择延迟最小的节点连接，延迟越小，网速越快。梯子连好以后，用你的Chrome浏览器打开这个网址，成功加载出来以后是一个英文的页面，不过有中文注解应该能看懂，然后摸一下屏幕，听到“Seed voice conversion.”的提示。，上滑屏幕或左滑屏幕两次有一个按钮，点一下，然后点击登录或者注册，先把账号注册一个，这个页面就全是英文的了，没有中文的注解了。此时如果你要翻译也可以用读屏的翻译，也可以用浏览器带的翻译插件（具体操作为：点击右上角更多选项，然后点击翻译，选择中文简体即可。）。在这里注册账号需要填写一些必要信息，比如用户名，邮箱密码等根据提示填写就可以了。图片验证如果过不去可以找人帮忙，这个读屏确实拿他没办法。账号注册完了以后，你就会来到一个欢迎界面，此时退出浏览器再进入，输入刚才的网址打开就可以了。接下来就是工具主页的介绍。由于这个平台只能作为demo，不能进行长时间的推理，所以你的歌儿必须得短，或者你可以分段处理，就是把你的干声文件拆成两段，每段不超过1分40秒即可，但理论上如果你的参考音频在25秒以内，干声文件是可以大于1:40的。接下来讲操作。先在原音频上传一段不大于1分40秒的干声文件，然后再参考音频上传一段不大于等于25秒的参考音频，可以是说话，也可以是唱歌，所以理论上明星的声音都可以拿来克隆。然后我们看下一个参数，这个参数叫“Inference steps”，翻译过来就是扩散步数，默认是25，50~100为最佳质量，如果你的GPU经常报错的话，建议调50或80，不报错的话就调到100。调完以后，下面一个参数是“lang adjust”翻译过来就是长度调整，是用于调整音频生成的速率的，这里可以不用动，在下面一个参数就是“Inference cfg rate”翻译过来就是推断速率，，旁边有一个提示写的“Has subtle influence”，翻译过来是有微小影响的意思，然后它的数值默认是0.7，拉到零即可，因为如果推断速率太快会导致它的音量特别大，从而导致喷麦或者炸麦。最后两个参数特别重要，建议耐心看。第一个参数，“use F0 Condition model.”，这个参数翻译过来就是使用f0输入。如果你勾选这个复选框，它就会自动根据原音频的频率去做出调整。比如你想转换歌声，就建议勾选这个，你想转换说话的内容就取消勾选。下一个参数，“Auto f0Adjust”，这个参数建议取消勾选，因为如果你勾选了以后会根据你上传的参考音频的音域进行f0自动调整，你这个音色就没办法唱原调了。再往下有一个音调变换（key shift）的参数，保持在零不动即可，然后点击Submit提交，有些时候排队可能要点两次提交。当你点击“Submit”提交后，你的任务就放在了服务器上开始处理。此时你的“submit”按钮会变成“Stop”，如果提示GPU什么什么就证明报错了。没报错的情况下，如果你的“Stop”按钮又重新变回了“Submit”按钮，代表推理完毕。此时点击“fool audio”完整输出旁边的下载按钮即可。PS：下载的文件格式是WAV，关注服务号：惠声美音，然后用微信打开这个网址，打开以后摸屏幕上方的点击上传，在这里上传音视频文件，然后点击开始即可。订单下来以后，服务号会有通知，在那里去回复个一，然后把返回的链接复制到浏览器中就可以下载干声文件。注意是数字1。

回复楼主(4) 点赞(0) 打赏(0) 收藏(3)

发表于：2025-02-10 09:43

4个回复

您还没有登录，登录后才可回复。登录注册

我来分享|在手机上，如何用huggingface平台提供的seed-vc模型进行歌声推理。

等待播放