RealTalk: 可以完美重建人类声音的语音同步模型

我们非常高兴的宣布,在机器学习工程师Hashaiam Kadhim, Joe Palermo和Rayhane Mama的帮助下,我们成功使用AI人工智能实现了对人类声音的模拟。

RealTalk: 可以完美重建人类声音的语音同步模型

在这段展示视频中,大家听到的是Joe Rogan的声音。(Joe Rogan是一个播主,主持着全球最知名的播客节目之一,目前已经创作了1300集内容,还在持续增加中。)

显然,对于上面的自吹自擂,相信大家不会轻易相信。所以,最好还是直接来听听吧。

注意:以下音频内容百分百使用机器学习模型生成,其中包含了呼吸、断音和杂音。

对Rogan的语音模拟使用了名为RealTalk的语音到文字的深度学习系统,可以仅通过文字输入就生成类似生活中真实对话一样的语音。

听起来有点疯狂?不过首席ML架构师Alex Krizhevsky指出,“这是目前为止我在人工智能领域看到的最令人振奋的事情之一。完全模仿人类真实对话的机器学习模型将很快变成现实,并普及开来。”

RealTalk技术可能带来的社会冲击

对于我们的工程师来说,使用AI完全复制Joe Rogan的声音堪称魔幻。更不用说这种技术可以用来复制任何人的声调,只要有足够的数据输入。

随着AI技术越来越普及和实用化,我们必须认识到这些技术所带来的影响。

虽然如今要让类似RealTalk这样的模型运行起来需要足够的专业知识,算力和数据输入,但今后几年内,我们有可能使用仅仅几秒钟的音频就可以复制出这个星球上任何一个人的声调。

到了那个时候,事情就不光是好玩了。

想想看可能产生的负面后果:

1. 垃圾电话机器人模仿你妈妈的声音让你朝某个特定账户转一大笔钱

2. 出于恶作剧或者骚扰的目的模仿某个人的声调

3. 通过模仿某个政府官员的声音从而窃取高保密的安全信息

4. 通过音频版的deepfake来操控选举结果,甚至引发社会骚乱

当然,如同所有的技术一样,RealTalk技术的应用场景并非都是在暗黑区。个人语音合成模型技术也可以用来造福人类:

1. 跟语音助理的交流如同和朋友聊天一样

2. 自定义的语音应用-比如练习跟某个名人交流,或者简单的学习某种外语

3. 通过文字-语音设备跟残疾人交流,比如患有卢佳雷氏病的患者(著名物理学家霍金就是其中一员)

4. 为任何媒体进行自动配音

我们不会装作已经完全了解如何应对AI技术带来的道德、伦理甚至是法律问题。反之,我们希望公开讨论这些技术可能带来的问题和好处,然后让大家共同决定,今后应该何去何从。

RealTalk技术可能带来的冲击不亚于此前的Deepfakes(视频换脸技术),因此在它普及之前,媒体和大众,政府和政策制定者,以及法律相关人士应该探讨类似技术可能给社会带来的巨大冲击。

关于RealTalk的更多技术细节,请参考这里:

https://medium.com/dessa-news/realtalk-how-it-works-94c1afda62f0
http://fakejoerogan.com/
发表评论

相关文章