• 视听号

  • 我在现场

  • 微视频

  • 视听E刊

  • 积分商城

  • 登陆/注册
  • 首页
  • 资讯
  • 产品
  • 企业
  • 访谈
  • 会议
  • 展会
  • 招标
  • 案例
  • 人才
  • 技术
  • 商情
  • 专题
  • 论坛
  • 视听●时尚
  • 耳机
  •  
  • 直播
  •  
  • 智能音响
  • VR眼镜
  •  
  •  
  • 投影机器人
  • 蓝牙音箱
  •  
  • 微投
  •  
  • 播放器
  • 视听●发烧
    视听●家庭
    视听●商用
    视听●工程
    视听●集成
    中国视听网(www.av-china.com) > 行业资讯 > 视听信息(视频监控) > 索尼黑科技专栏——AI声音分离技术
    索尼黑科技专栏——AI声音分离技术
    更新:2021-8-6 9:26:48 稿件:索尼(中国)有限公司 调整大小:【

    建立在坚实技术基础上的创意娱乐公司

    索尼,始终以“人”为本,在前沿技术领域不断探索进取。后疫情时代,索尼黑科技正式确立了3R战略(真实(Reality)、实时(Real-time)和远程(Remote),致力于为内容创作赋能,共同开创前所未有的娱乐表达方式。

    “索尼黑科技”专栏将定期为您介绍最具代表性的索尼技术创新成果,探索如何“用创意和科技的力量感动世界”。本期将为您带来的是——AI声音分离技术

    从混合音源中分离出单个声音

    声音分离技术凭借AI实现巨大飞跃

    声音分离是一种技术,它可以从混合的音源中提取出单个的声音。这原本被认为是一件非常困难的事,但在2013年,我们引入了索尼的AI技术,在这一领域更进一步。例如,在复原经典电影、消除智能手机的噪音、实现音乐流媒体服务的实时卡拉OK功能等方面已经取得了成果,我们期待未来它能应用到更多领域。

    受访人资料

    机器对人类能力的再现

    Q AI声音分离是一种什么样的技术?

    光藤祐基:AI声音分离是一种技术,它可以从音频数据中去除不必要的噪音,只提取人声或其他特定乐器的声音。当人类在聆听一场多种声音混合在一起的表演时,可以分辨出各个乐器,或者在进行对话时,即使被一大群人包围,我们也能自然而然地专注于一个声音。这些都是人类独有的能力,而直到近来,计算机要做到这一点都还是极其困难的。有人将这项任务描述为混合两种果汁,之后提取其中一种。但是在过去的几年里,由于AI新方法的引入,这项技术有了极大的提升。

    尤里奇:以前,人们试图在分离中加入大量的专业知识,例如关于混合过程的知识。此外,人们更喜欢简单的模型,因为它们可以从理论上研究它们。现在这种情况已经改变了,因为使用AI从数据中学习分离体系要好得多。声音分离应用于《阿拉伯的劳伦斯》的三个例子,展示了我们如何提取对话以及各种模拟声音的方法。

    Q 在这个技术上,AI如何被使用?

    光藤祐基:我们的声音分离是由AI来进行的,可以由人来教计算机完成这个任务。例如,一把吉他有一个特定的声音或频率,这一点可被神经网络学习到。无论混合了多少种声音,我们的AI系统都能够识别这些特征。这就像我们可以发现一个苹果,因为我们之前见过很多苹果。AI在声音分离的应用方式而言,无论是机械上还是概念上都大同小异。

    尤里奇:神经网络在所谓的训练中学习识别音频特征。在这个训练中,神经网络会看到很多音乐--比我们一生中听到的音乐还要多--以及我们应该提取的目标声音。这些信息足以让神经网络学习声音分离。

    让时间倒流并重新混音录制

    Q AI声音分离技术有什么特别之处?
    光藤祐基:我们认为这是为数不多的可以让时间倒流的技术。例如,你可以把过去必须要将各部分录在一起的一段录音,拿来专门提取人声来重新混音,或者把所有的乐器的声音分开来重新组合成一个新的格式。

    Q 我们听说这项技术也同样应用在电影中。

    尤里奇:为了给看电影的人提供一个身临其境的声场,需要从多个不同的角度传递声音,重现一个3D音频空间。然而,经典电影的对白和音效都在同一个音轨上,所以我们能提取的声音和声场的沉浸感都是有限的。于是我们开始思考是否可以将这项技术延伸到电影中,在学习了音效(拟声)库之后,我们的AI系统能够成功地从母版中提取出单个音效。在上面的视频中也可以看到,在美国上映的《阿拉伯的劳伦斯》和《甘地》的4K超高清版本中,索尼影视娱乐公司的调音师用这项技术提取出声音,用杜比全景声进行重制,创造了一个沉浸式的声场。

    上图说明了拟声声音分离过程及其在电影混音中的应用

    4K超高清版的《阿拉伯的劳伦斯》和《甘地》录制在哥伦比亚经典系列第一卷中

    将声音分离的价值带给更多的人

    Q 这项技术似乎也可以用在其他各种领域。
    光藤祐基:这项技术也有望应用于电影以外的场景,比如清理通过麦克风记录的人类声音。例如,索尼的自主型娱乐机器人 "小狗 "aibo可以对人类的声音做出回应并进行交流,但如果aibo只是简单地收集周围的声音,其自身的机械声或风噪等噪音也会被接收到。通过使用AI声音分离技术,可以只提取人类的声音,去除其他所有的背景音,以提高其语音识别能力。同样,通过在Xperia智能手机上打电话时仅清理人声,我们就不用再担心聊天时的风噪。最近的另一个例子是,它被用于一款音乐流媒体应用程序的 "卡拉OK模式"。通过使用声音分离技术,可以将原唱的声音从流媒体音乐中实时移除(成为伴奏),并将用户的演唱与音源混合,从而实现类似卡拉OK的体验。

    Q 该技术未来的可能性和前景如何?
    光藤祐基:我们希望我们的技术能够像一台时光机一样,让过去和现在的艺术家能够跨时空合作。索尼PCL和索尼音乐解决方案刚刚开始使用我们的技术对外提供服务,所以肯定会有更多的应用。我非常期待未来的前景。

    尤里奇:从技术角度来看,我们将看到向广泛音源分离的过渡,在这种情况下,不仅音源的数量是未知的,而且音源的类型也是不明确的。人们认识到这是一个具有挑战性但有趣的情景,它将促成更多的商业应用案例。


    关于 索尼(中国)有限公司

           在索尼,我们的使命就是成为一家激发和满足您好奇心的公司。我们在产品、内容和服务方面

    的无限激情,和对创新的不懈追求,让我们创造出只有索尼才能提供前所未有的、新的兴奋和娱

    乐。开创独特的新鲜文化与体验。一切所为,均为与您情感相系。


    联系 索尼(中国)有限公司
    电话 86-10-84586000
     网友评论
     编辑推荐
    • 2019年视听行业大型活动之走进企业(西安)
    • 2019年视听行业大型活动之走进企业(河南)
    • 2019视听行业万里行系列活动——走进河南
    • 2019视听行业全国巡展中国·郑州
    • 2021视听行业高峰论坛暨万里行全国巡展武汉站顺利召开
    • 全国首场!2021京东方晶芯科技有限公司合作伙伴大会亮相魔都
    • 麦克赛尔投影机新品巡展北京站举行!光影盛宴,万里挑一
    • 超清视界,智赢未来 | 雷曼光电2021国内合作伙伴大会成功举办