AI配音“以假乱真”时代已经到来?
2022-8-21 01:20:26 Author: mp.weixin.qq.com(查看原文) 阅读量:1 收藏

先来听听三条音频,做个真假声测试。

上面三条音频的正确答案,会在文章发布后的第二天,于本文留言区公布。欢迎收藏后再回来看,结果相信会打破你的三观。

近日出门问问公司推出了新一代合成引擎MeetHiFiVoice,在发音人音质、韵律节奏等方面均有质的提升。面我们来欣赏一段视频(大部分为魔音工坊用户制作的视频片段),看看目前的技术,做出来的作品配音效果是否足够以假乱真了?

在大众的固有印象中,AI配音总是给人机械的印象。那么人工智能经过这么多年的发展,TTS是否已经摘掉了“一听就是机器人”的帽子呢?

三年前,出门问问有个公众号投票,针对MeetVoice的合成效果进行了一次”以假乱真“的声音鉴别投票,投票结果如下图。投票数据显示,当时的AI和真人的声音已经接近“傻傻分不清”了。不过当时参与投票的发音人比较少,并且投票的时候预先知道了两条音频里“一条为真一条为假”,不够接近真实世界的现状,说服力还不够强。

这次,出门问问升级了技术,推出了MeetHiFiVoice 引擎,技术团队在公司内部组织了近两百人的评测,应用了8位发音人(分别是「魔音工坊」的满超ZN、采采、杨婧、魔千雪、魔小杰、魔天轮、魔小凡、魔丽娘),并且合成的声音不使用训练集里的文本,评测的方式加大了难度,不再是两条音频里一个为真一个为假,而是更加挑战地对32条音频进行独立的真假判断。

比赛规则:

• 邀请超过150人参与比赛;

• 设置奖项,让大家都能够认真听音频投票,而不是应付了事;

• 使用32条音频,设置32个投票。参与的用户只需要听该音频,投票该音频是“真人”还是“合成”。投票前,不告知用户真人和合成的比例等任何额外信息;

• 投票数少于30条音频的用户作废,不计入统计;

以下是某支音频的投票结果:

可以看到,该条音频总共有190人参与投票,投真人106票,投合成84票。

我们先来听听这条音频:

下面再来分析看看最终的评测结果,以下是总体的投票信息:

可以看到,在本次投票中,大家倾向于认为音频是合成的(虽然实际上真人和合成的比例是5:5)。那么,对32支音频的判别准确率怎么样呢?大家接着看下面的详细数据。

对32支音频的投票结果进行分析

从上面的表格可以看到,音频的平均准确率只有59.4%,而盲猜的准确率也会有50%,说明真人的辨别能力,和盲猜结果相差无几。

大概有10条音频,真人和合成的得票数在40%-60%之间,也就是说,大部分人都无法分辨出来。

对176个投票用户的投票结果进行的分析

(投票结果比例图表:指不同得分范围对应的人员比例)

从以上图表可以看出,准确率低于盲猜(50%准确率,即50分)的用户,达到了19.9%,说明对这部分用户而言,合成已经真正达到“以假乱真”。而得分为60分以下的用户,占到了55.7%,也就是说,过半的用户,可以在一定程度上辨别真假,但是接近盲猜(高了不到10分)。176个用户里,最高得分为75分。

另外, 我们还重点看了下四位声音领域的专业用户的投票结果(其中C和D是专门邀请来进行测试的,不在统计的176个用户里)。

专业的主播和配音从业者,也很难有效判断出某个音频是AI还是真人,更何况对声音不太敏感的普通大众?看到这里,你还会认为“AI配音很机械”,或“配音还是得使用真人,否则效果不自然”么?

是的,媲美真人的配音时代已经来临!

下面我们来听几支音频,看看哪些音频是比较容易被AI克隆的,哪些是AI难以逾越的。

先来看看“以假乱真”的合成音频1。上面这支采采的音频,有高达55.8%的用户认为它是真人原声,而不是合成的。有一些投票用户认为,该音频“有吐气之感”,确信它是真人,而不是合成的。

再来看看真人音频2。满超老师的这支音频,目前对AI而言,依然是不可逾越的高峰。由于满超老师的演绎水平很高,可能导致大部分用户认为AI目前做不到这个水平,所以有75%的用户投票“真人”。满超老师已经入驻魔音工坊,他和杨婧老师的《斗罗大陆》有声书,堪称有声小说的标高,有兴趣的朋友可以在“云听”收听两位老师的精彩演绎。

再来听听满超老师激情风格的样音,看看真人可以做到多“真”,张力多强:

当然,主播的演绎越好,风格越多变,对AI来说越是无法逾越的高峰。不过技术在持续进步,路漫漫其修远兮,魔音工坊团队也会持续勇攀高峰,争取开发出更好的AI模型以飨用户。

目前出门问问MeetHiFiVoice 的模型已经落地到魔音工坊中了,可以访问以下发音人,实际听听他们的合成效果:

看完这篇文章,你觉得目前的AI技术,已经做到了“以假乱真”了么?如果没有,又有哪些方面和真人存在差距? 欢迎大家在留言区留下你的看法。也可以在留言区留下你判断一条音频是真人还是合成的“黄金法则,我们来看看,到底这些人类判断的经验法则,是否经得起AI技术的考验!!!


文章来源: https://mp.weixin.qq.com/s?__biz=MzI3NzE1NDcyNQ==&mid=2247485474&idx=1&sn=6127788ef9a468dab71b45d1965b078e&chksm=eb6bd6e8dc1c5ffea800064cdf06abdd713cf3950b25c589fe46d8bc553352d92399e42139dc&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh