深度剖析:语音库自然度与实用性的权衡考量——为何豆包的声音目前尚无法用于读屏语音库?内含真人AI声音复刻试听

近期,不断有朋友询问我:读屏软件的语音库使用多年,为何不尝试更换?如今许多大模型采用的声音悦耳动听,如豆包,甚至支持复刻个人声音作为语音库。


你们是否因公司规模小,而无法驾驭这些高端技术呢?若能将此类语音库的能力应用于读屏软件,那该多好啊!


醒醒吧,朋友们。且不论是否具备这样的能力,单就两个问题,你们未必能忍受:


其一,为何觉得这类语音好听?无非是因其更贴近真人。为何贴近真人?是因为声音富有表情。


然而,带有表情的声音加速至三四倍后,还能好听吗?我们可自行尝试:随意朗读一首诗、一篇文章,甚至一段课文,若要情感丰富,是否需放慢语速?若以最快语速朗读,还能否在声音中融入表情?


其二,这些声音之所以相对自然,是经过了云端服务器的合成处理。


这在手机本地离线状态下尚无法实现。若有疑虑,可一同测试:


首先,关闭手机的移动数据和无线网络,或开启飞行模式;


接着,在豆包的聊天界面找到一条回复消息,双击并长按;


然后,在弹出的菜单中选择朗读,看看是否会提示“语音合成失败!”


至此,聪明的朋友们想必已想到,如果读屏每朗读一段语音,都需先将数据上传至服务器,经服务端合成处理后,再传回手机并朗读。以当前方案,这样的速度你能接受吗?


那么,读屏语音库的核心问题究竟何在?其实在于朗读效果和跟手速度。


就朗读效果而言,语音技术发展至今,开发者们一直追求更自然、流畅的语音效果。


然而,此效果与读屏迫切所需的效果略有不同。


语音库追求自然、逼真、贴近真人的效果,而读屏软件首要追求的是流畅,自然度方面,平铺直叙即可,关键在于加快朗读速度时不损失发音质量。


诸多自然的所谓真人语音库,在较慢发音速度时,朗读效果的确更佳,但速度加快后,声音便难以入耳。


此时,各种问题接踵而至,如抖动、丢字、爆音、停顿异常、发音怪异等,几乎无法使用。


不再赘述,仅以上两点,即便声音悦耳,用作读屏语音库,恐怕也无人能忍受。


当然,我所说的仅为当前技术现状。我坚信,随着技术的不断进步,语音合成技术必将日臻成熟。面包会有,牛奶也会有。未来,我们定能使用上更自然、悦耳的语音库声音!


试听真人 AI 声音复刻

发表于:2024-03-02 22:25
本帖最后由 作者 于2024-03-02 22:32:21 编辑
17个回复
您还没有登录,登录后才可回复。 登录 注册