Fraunhofer IIS让电视节目对白从此清晰明亮

Telos集成MPEG-H制作技术Dialog+,使广播公司能够自动增强其内容旁白

在一个电影夜,你全身心地投入到电视屏幕的冒险中。就在重要情节来临时,他刚才说了什么?为什么在这个关键时刻说话变得模糊不清?还是电影的背景音乐声突然变大了呢?哎,不管了,反正思路已断,只能按下倒带健。

这样的经历是否既似曾相识又很烦人。在这里指责电影的声音设计师没有做好功课其实是不公平的。研究显示,对白和背景声音之间的最佳响度区别是一个非常个人化的问题,不同个体之间差异很大。这就意味着无论声音设计师多么努力也不可能用一种混音来取悦所有人。但这也并不意味着我们必须忍受模糊不清的对白直到电影结束。在现代电影制作中,创作者和广播公司可以通过MPEG-H音频,使听众根据个人喜好调整各个音频对象的响度。

针对老电影的上述需求,Fraunhofer IIS专门开发了MPEG-H Dialog+,即基于文件的对话分离技术。该技术依托人工智能并通过深度神经网络将对白与现有混音的背景声分离,并输出全新的更容易理解的混音效果。Telos的Minnetonka AudioTools服务器现已集成该技术,并作为Dialog+模块发布。

在该产品筹备发布的过程中,Fraunhofer IIS和Telos与德国广播电视公司WDR合作,共同为人工智能创建了最佳的训练环境。首先,Fraunhofer在DVB和VoD平台ARD Mediathek上进行了现场测试,并根据集成的要求和制作工作流程进行改进,以实现提升语音清晰度的对白混音。然后,再将结果输入到Telos产品中。WDR以及其他ARD广播公司为深度神经网络提供了合适的训练材料,并主导了工作流程设计。WDR还在ARD Mediathek中推出了清晰语音(Klare Sprache)服务。得益于多方的密切配合,该软件现已成为WDR制作基础设施中从归档到转码的自动化工作流程的一部分。

将MPEG-H Dialog+集成到Telos Alliance产品系列中,使广播公司能够使用最先进的对话分离算法重新处理他们的存量内容,以便为他们的观众提供可定制的混音效果。工作流程是自动化的,这使其具有可扩展性和成本效益。借助针对不同用例定制的预设,内容提供商可以采用优化的处理,例如针对纪录片、音乐电影和体育内容。MPEG-H Dialog+可以输出两种格式:用于传统工作流程的立体声混音,以及支持下一代音频提供的所有突破性功能的ADM文件,例如适用于所有播放设备的通用交付功能和用户的个性化功能。

对于沉浸在角色世界中的观众来说,这意味着,终于不会再有“这说的是什么?!”,他们可以完全享受其中而不再受到干扰。

This post is also available in: Deutsch English 한국어