发现近段时间在我发布的有关AI歌声的帖子中总有一些人评论:哎呀 这个AI歌声怎么做到的?今天出一期喂饭级教程,想学的赶快进。
教程开始前先回答几个容易被问到的问题。
q:为什么一首歌我推出来的效果和别人不一样?
a:要回答这个问题需要考虑到三个不同的维度。1、原音频方面,原音频通常是只有主唱,没有和声和混响等的干声文件,如果你的干声文件在提取的时候有和声成分或主唱部分频率缺失、残留、电音会导致推理出来发音奇怪的问题。2、参考音频方面,如果参考音频音质太低或者机械味儿太重的话,会导致推理出来机械感过重,另外参考音频通过人工的方式加快语速后,听起来会显得特别压缩。3、扩散步数方面,扩散步数太低或太高都有可能导致哑音。
q:GPU总是报错是什么情况?
a:由于这个平台只能作为demo,不能进行长时间推理,因此个人建议干声文件的片段最好不要超过1分40秒,参考音频文件最好不要超过25秒的mp3,否则就很难推理成功,或者你的干声文件如果是整首歌曲的话,扩散步数最好调在50左右(扩散步数影响最终推理后的结果)。
q:如果我的GPU用完了,但我不想开通Pro,我应该怎么办?
a:这个问题很好解决,你多注册几个账号就可以了,像我的话就五个账号,基本上已经够用了。每天晚上零点会自动重置GPU的配额,理论上一个账号的GPU配额只够做一首歌。
问题回答完了,下面开始喂饭。
PS:你在访问这个网页之前必须要有一个梯子(比如某某VPN、某某加速器等软件),不然你就访问不了,然后手机端提取干声是有混响的,你可以通过下面分享的公众号来提取干声,这样就没有混响了,不过每天只允许处理一个文件。
下面我来说一下这个工具的使用方法,建议耐心看完。干声文件的问题解决完了以后,你需要去安装一个梯子,就是可以连接到国外代理的那种,然后选择延迟最小的节点连接,延迟越小,网速越快。梯子连好以后,用你的Chrome浏览器打开这个网址,成功加载出来以后是一个英文的页面,不过有中文注解应该能看懂,然后摸一下屏幕,听到“Seed voice conversion.”的提示。,上滑屏幕或左滑屏幕两次有一个按钮,点一下,然后点击登录或者注册,先把账号注册一个,这个页面就全是英文的了,没有中文的注解了。此时如果你要翻译也可以用读屏的翻译,也可以用浏览器带的翻译插件(具体操作为:点击右上角更多选项,然后点击翻译,选择中文简体即可。)。在这里注册账号需要填写一些必要信息,比如用户名,邮箱密码等根据提示填写就可以了。图片验证如果过不去可以找人帮忙,这个读屏确实拿他没办法。账号注册完了以后,你就会来到一个欢迎界面,此时退出浏览器再进入,输入刚才的网址打开就可以了。接下来就是工具主页的介绍。由于这个平台只能作为demo,不能进行长时间的推理,所以你的歌儿必须得短,或者你可以分段处理,就是把你的干声文件拆成两段,每段不超过1分40秒即可,但理论上如果你的参考音频在25秒以内,干声文件是可以大于1:40的。接下来讲操作。先在原音频上传一段不大于1分40秒的干声文件,然后再参考音频上传一段不大于等于25秒的参考音频,可以是说话,也可以是唱歌,所以理论上明星的声音都可以拿来克隆。然后我们看下一个参数,这个参数叫“Inference steps”,翻译过来就是扩散步数 , 默认是25,50~100为最佳质量,如果你的GPU经常报错的话,建议调50或80,不报错的话就调到100。调完以后,下面一个参数是“lang adjust”翻译过来就是长度调整,是用于调整音频生成的速率的,这里可以不用动,在下面一个参数就是“Inference cfg rate”翻译过来就是推断速率,,旁边有一个提示写的“Has subtle influence”,翻译过来是有微小影响的意思,然后它的数值默认是0.7,拉到零即可,因为如果推断速率太快会导致它的音量特别大,从而导致喷麦或者炸麦。最后两个参数特别重要,建议耐心看。第一个参数,“use F0 Condition model.”,这个参数翻译过来就是使用f0输入。如果你勾选这个复选框,它就会自动根据原音频的频率去做出调整。比如你想转换歌声,就建议勾选这个,你想转换说话的内容就取消勾选。下一个参数,“Auto f0Adjust”,这个参数建议取消勾选,因为如果你勾选了以后会根据你上传的参考音频的音域进行f0自动调整,你这个音色就没办法唱原调了。再往下有一个音调变换(key shift)的参数,保持在零不动即可,然后点击Submit提交,有些时候排队可能要点两次提交。当你点击“Submit”提交后,你的任务就放在了服务器上开始处理。此时你的“submit”按钮会变成“Stop”,如果提示GPU什么什么就证明报错了。没报错的情况下,如果你的“Stop”按钮又重新变回了“Submit”按钮,代表推理完毕。此时点击“fool audio”完整输出旁边的下载按钮即可。PS:下载的文件格式是WAV,关注服务号:惠声美音,然后用微信打开这个网址,打开以后摸屏幕上方的点击上传,在这里上传音视频文件,然后点击开始即可。订单下来以后,服务号会有通知,在那里去回复个一,然后把返回的链接复制到浏览器中就可以下载干声文件。注意是数字1。
目录
发现近段时间在我发布的有关AI歌声的帖子中总有一些人评论:哎呀 这个AI歌声怎么做到的?今天出一期喂饭级教程,想学的赶快进。
教程开始前先回答几个容易被问到的问题。
q:为什么一首歌我推出来的效果和别人不一样?
a:要回答这个问题需要考虑到三个不同的维度。1、原音频方面,原音频通常是只有主唱,没有和声和混响等的干声文件,如果你的干声文件在提取的时候有和声成分或主唱部分频率缺失、残留、电音会导致推理出来发音奇怪的问题。2、参考音频方面,如果参考音频音质太低或者机械味儿太重的话,会导致推理出来机械感过重,另外参考音频通过人工的方式加快语速后,听起来会显得特别压缩。3、扩散步数方面,扩散步数太低或太高都有可能导致哑音。
q:GPU总是报错是什么情况?
a:由于这个平台只能作为demo,不能进行长时间推理,因此个人建议干声文件的片段最好不要超过1分40秒,参考音频文件最好不要超过25秒的mp3,否则就很难推理成功,或者你的干声文件如果是整首歌曲的话,扩散步数最好调在50左右(扩散步数影响最终推理后的结果)。
q:如果我的GPU用完了,但我不想开通Pro,我应该怎么办?
a:这个问题很好解决,你多注册几个账号就可以了,像我的话就五个账号,基本上已经够用了。每天晚上零点会自动重置GPU的配额,理论上一个账号的GPU配额只够做一首歌。
问题回答完了,下面开始喂饭。
PS:你在访问这个网页之前必须要有一个梯子(比如某某VPN、某某加速器等软件),不然你就访问不了,然后手机端提取干声是有混响的,你可以通过下面分享的公众号来提取干声,这样就没有混响了,不过每天只允许处理一个文件。
下面我来说一下这个工具的使用方法,建议耐心看完。干声文件的问题解决完了以后,你需要去安装一个梯子,就是可以连接到国外代理的那种,然后选择延迟最小的节点连接,延迟越小,网速越快。梯子连好以后,用你的Chrome浏览器打开这个网址,成功加载出来以后是一个英文的页面,不过有中文注解应该能看懂,然后摸一下屏幕,听到“Seed voice conversion.”的提示。,上滑屏幕或左滑屏幕两次有一个按钮,点一下,然后点击登录或者注册,先把账号注册一个,这个页面就全是英文的了,没有中文的注解了。此时如果你要翻译也可以用读屏的翻译,也可以用浏览器带的翻译插件(具体操作为:点击右上角更多选项,然后点击翻译,选择中文简体即可。)。在这里注册账号需要填写一些必要信息,比如用户名,邮箱密码等根据提示填写就可以了。图片验证如果过不去可以找人帮忙,这个读屏确实拿他没办法。账号注册完了以后,你就会来到一个欢迎界面,此时退出浏览器再进入,输入刚才的网址打开就可以了。接下来就是工具主页的介绍。由于这个平台只能作为demo,不能进行长时间的推理,所以你的歌儿必须得短,或者你可以分段处理,就是把你的干声文件拆成两段,每段不超过1分40秒即可,但理论上如果你的参考音频在25秒以内,干声文件是可以大于1:40的。接下来讲操作。先在原音频上传一段不大于1分40秒的干声文件,然后再参考音频上传一段不大于等于25秒的参考音频,可以是说话,也可以是唱歌,所以理论上明星的声音都可以拿来克隆。然后我们看下一个参数,这个参数叫“Inference steps”,翻译过来就是扩散步数 , 默认是25,50~100为最佳质量,如果你的GPU经常报错的话,建议调50或80,不报错的话就调到100。调完以后,下面一个参数是“lang adjust”翻译过来就是长度调整,是用于调整音频生成的速率的,这里可以不用动,在下面一个参数就是“Inference cfg rate”翻译过来就是推断速率,,旁边有一个提示写的“Has subtle influence”,翻译过来是有微小影响的意思,然后它的数值默认是0.7,拉到零即可,因为如果推断速率太快会导致它的音量特别大,从而导致喷麦或者炸麦。最后两个参数特别重要,建议耐心看。第一个参数,“use F0 Condition model.”,这个参数翻译过来就是使用f0输入。如果你勾选这个复选框,它就会自动根据原音频的频率去做出调整。比如你想转换歌声,就建议勾选这个,你想转换说话的内容就取消勾选。下一个参数,“Auto f0Adjust”,这个参数建议取消勾选,因为如果你勾选了以后会根据你上传的参考音频的音域进行f0自动调整,你这个音色就没办法唱原调了。再往下有一个音调变换(key shift)的参数,保持在零不动即可,然后点击Submit提交,有些时候排队可能要点两次提交。当你点击“Submit”提交后,你的任务就放在了服务器上开始处理。此时你的“submit”按钮会变成“Stop”,如果提示GPU什么什么就证明报错了。没报错的情况下,如果你的“Stop”按钮又重新变回了“Submit”按钮,代表推理完毕。此时点击“fool audio”完整输出旁边的下载按钮即可。PS:下载的文件格式是WAV,关注服务号:惠声美音,然后用微信打开这个网址,打开以后摸屏幕上方的点击上传,在这里上传音视频文件,然后点击开始即可。订单下来以后,服务号会有通知,在那里去回复个一,然后把返回的链接复制到浏览器中就可以下载干声文件。注意是数字1。