谷歌的新 AI 技术可以将两个同时在说话的人声分离出来

作者: nick 分类: 互联网 发布时间: 2018-04-24 14:21 ė 6没有评论

Google/Team Coco, YouTube

人类一个极为强大的能力,是能在一片有着许多人在说话的背景杂音中,精准地「过滤」掉其他人的声音,只留下自己对话的对象。过去一直认为电脑要获得这样的能力不容易,但谷歌的专家们取了个巧,利用深度学习结合脸部辨识,达到了相当好的效果。

简单来说,研究学者先用「干净」的人声与对应的视觉影像混合成一个假想的吵闹场景,然后训练机器去辨识如何从场景中还原出单一的人声来,最后产生一个模型。以这个脸部与声线对应的模型为基础,喂给电脑真实世界的视频时,当脸部侦测到目标嘴巴在动,系统就会试图抓取音频,将相关的部份分离出来。如同下面的脱口秀视频所示,这效果惊人地好,不仅可以把背景的杂音滤掉,就算有两个人同时在大声说话,也可以把目标分离出来。而且,即使讲者用麦克风挡住了嘴巴,似乎也不影响辨识呢。


谷歌目前正在「探索使用这个技术到产品中的方法」,最明显的可能就是像 Hangouts 或 Duo 这样的语音通话中,只要你开着摄像头,系统就能把背景的杂音过滤掉。其他像是自动化的字幕,以及自动翻译等,也都有可能因此而受惠呢。

 

经由: Engadget
引用来源:https://cn.engadget.com/2018/04/13/google-ai-looking-to-listen-voice-separation/

本文出自 传播、沟通、分享,转载时请注明出处及相应链接。

本文永久链接: http://www.db.run/?p=2102

0

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Ɣ回顶部