近期,不断有朋友询问我:读屏软件的语音库使用多年,为何不尝试更换?如今许多大模型采用的声音悦耳动听,如豆包,甚至支持复刻个人声音作为语音库。
你们是否因公司规模小,而无法驾驭这些高端技术呢?若能将此类语音库的能力应用于读屏软件,那该多好啊!
醒醒吧,朋友们。且不论是否具备这样的能力,单就两个问题,你们未必能忍受:
其一,为何觉得这类语音好听?无非是因其更贴近真人。为何贴近真人?是因为声音富有表情。
然而,带有表情的声音加速至三四倍后,还能好听吗?我们可自行尝试:随意朗读一首诗、一篇文章,甚至一段课文,若要情感丰富,是否需放慢语速?若以最快语速朗读,还能否在声音中融入表情?
其二,这些声音之所以相对自然,是经过了云端服务器的合成处理。
这在手机本地离线状态下尚无法实现。若有疑虑,可一同测试:
首先,关闭手机的移动数据和无线网络,或开启飞行模式;
接着,在豆包的聊天界面找到一条回复消息,双击并长按;
然后,在弹出的菜单中选择朗读,看看是否会提示“语音合成失败!”
至此,聪明的朋友们想必已想到,如果读屏每朗读一段语音,都需先将数据上传至服务器,经服务端合成处理后,再传回手机并朗读。以当前方案,这样的速度你能接受吗?
那么,读屏语音库的核心问题究竟何在?其实在于朗读效果和跟手速度。
就朗读效果而言,语音技术发展至今,开发者们一直追求更自然、流畅的语音效果。
然而,此效果与读屏迫切所需的效果略有不同。
语音库追求自然、逼真、贴近真人的效果,而读屏软件首要追求的是流畅,自然度方面,平铺直叙即可,关键在于加快朗读速度时不损失发音质量。
诸多自然的所谓真人语音库,在较慢发音速度时,朗读效果的确更佳,但速度加快后,声音便难以入耳。
此时,各种问题接踵而至,如抖动、丢字、爆音、停顿异常、发音怪异等,几乎无法使用。
不再赘述,仅以上两点,即便声音悦耳,用作读屏语音库,恐怕也无人能忍受。
当然,我所说的仅为当前技术现状。我坚信,随着技术的不断进步,语音合成技术必将日臻成熟。面包会有,牛奶也会有。未来,我们定能使用上更自然、悦耳的语音库声音!
试听真人 AI 声音复刻
目录
近期,不断有朋友询问我:读屏软件的语音库使用多年,为何不尝试更换?如今许多大模型采用的声音悦耳动听,如豆包,甚至支持复刻个人声音作为语音库。
你们是否因公司规模小,而无法驾驭这些高端技术呢?若能将此类语音库的能力应用于读屏软件,那该多好啊!
醒醒吧,朋友们。且不论是否具备这样的能力,单就两个问题,你们未必能忍受:
其一,为何觉得这类语音好听?无非是因其更贴近真人。为何贴近真人?是因为声音富有表情。
然而,带有表情的声音加速至三四倍后,还能好听吗?我们可自行尝试:随意朗读一首诗、一篇文章,甚至一段课文,若要情感丰富,是否需放慢语速?若以最快语速朗读,还能否在声音中融入表情?
其二,这些声音之所以相对自然,是经过了云端服务器的合成处理。
这在手机本地离线状态下尚无法实现。若有疑虑,可一同测试:
首先,关闭手机的移动数据和无线网络,或开启飞行模式;
接着,在豆包的聊天界面找到一条回复消息,双击并长按;
然后,在弹出的菜单中选择朗读,看看是否会提示“语音合成失败!”
至此,聪明的朋友们想必已想到,如果读屏每朗读一段语音,都需先将数据上传至服务器,经服务端合成处理后,再传回手机并朗读。以当前方案,这样的速度你能接受吗?
那么,读屏语音库的核心问题究竟何在?其实在于朗读效果和跟手速度。
就朗读效果而言,语音技术发展至今,开发者们一直追求更自然、流畅的语音效果。
然而,此效果与读屏迫切所需的效果略有不同。
语音库追求自然、逼真、贴近真人的效果,而读屏软件首要追求的是流畅,自然度方面,平铺直叙即可,关键在于加快朗读速度时不损失发音质量。
诸多自然的所谓真人语音库,在较慢发音速度时,朗读效果的确更佳,但速度加快后,声音便难以入耳。
此时,各种问题接踵而至,如抖动、丢字、爆音、停顿异常、发音怪异等,几乎无法使用。
不再赘述,仅以上两点,即便声音悦耳,用作读屏语音库,恐怕也无人能忍受。
当然,我所说的仅为当前技术现状。我坚信,随着技术的不断进步,语音合成技术必将日臻成熟。面包会有,牛奶也会有。未来,我们定能使用上更自然、悦耳的语音库声音!
试听真人 AI 声音复刻