深度剖析：语音库自然度与实用性的权衡考量——为何豆包的声音目前尚无法用于读屏语音库？内含真人AI声音复刻试听

读屏江湖 173018

点明圈，看得见的社交圈！！！

更多操作

近期，不断有朋友询问我：读屏软件的语音库使用多年，为何不尝试更换？如今许多大模型采用的声音悦耳动听，如豆包，甚至支持复刻个人声音作为语音库。

你们是否因公司规模小，而无法驾驭这些高端技术呢？若能将此类语音库的能力应用于读屏软件，那该多好啊！

醒醒吧，朋友们。且不论是否具备这样的能力，单就两个问题，你们未必能忍受：

其一，为何觉得这类语音好听？无非是因其更贴近真人。为何贴近真人？是因为声音富有表情。

然而，带有表情的声音加速至三四倍后，还能好听吗？我们可自行尝试：随意朗读一首诗、一篇文章，甚至一段课文，若要情感丰富，是否需放慢语速？若以最快语速朗读，还能否在声音中融入表情？

其二，这些声音之所以相对自然，是经过了云端服务器的合成处理。

这在手机本地离线状态下尚无法实现。若有疑虑，可一同测试：

首先，关闭手机的移动数据和无线网络，或开启飞行模式；

接着，在豆包的聊天界面找到一条回复消息，双击并长按；

然后，在弹出的菜单中选择朗读，看看是否会提示“语音合成失败！”

至此，聪明的朋友们想必已想到，如果读屏每朗读一段语音，都需先将数据上传至服务器，经服务端合成处理后，再传回手机并朗读。以当前方案，这样的速度你能接受吗？

那么，读屏语音库的核心问题究竟何在？其实在于朗读效果和跟手速度。

就朗读效果而言，语音技术发展至今，开发者们一直追求更自然、流畅的语音效果。

然而，此效果与读屏迫切所需的效果略有不同。

语音库追求自然、逼真、贴近真人的效果，而读屏软件首要追求的是流畅，自然度方面，平铺直叙即可，关键在于加快朗读速度时不损失发音质量。

诸多自然的所谓真人语音库，在较慢发音速度时，朗读效果的确更佳，但速度加快后，声音便难以入耳。

此时，各种问题接踵而至，如抖动、丢字、爆音、停顿异常、发音怪异等，几乎无法使用。

不再赘述，仅以上两点，即便声音悦耳，用作读屏语音库，恐怕也无人能忍受。

当然，我所说的仅为当前技术现状。我坚信，随着技术的不断进步，语音合成技术必将日臻成熟。面包会有，牛奶也会有。未来，我们定能使用上更自然、悦耳的语音库声音！

回复楼主(17) 点赞(9) 打赏(0) 收藏(1)

发表于：2024-03-02 22:25

本帖最后由作者于2024-03-02 22:32:21 编辑

17个回复

您还没有登录，登录后才可回复。登录注册