© Fraunhofer IIS / Manuela Wamser

Preisgekrönte Fraunhofer IIS-Wissenschaftler

Bei der letzten AES-Konferenz in Dublin (Irland) gingen gleich zwei Auszeichnungen an Wissenschaftler des Fraunhofer IIS: Christian Uhle wurde für seine Verdienste als Co-Vorsitzender bei der 2017 International AES Conference on Semantic Audio der AES Board of Governors Award verliehen; den Preis für das beste Paper erhielten Matteo Torcoli, Jouni Paulus und Christian Simon für ihre Studie “Background Ducking to Produce Esthetically Pleasing Audio for TV with Clear Speech”, die sie zusammen mit Alex Freke-Morin und Professor Ben Shirley von der University of Salford (Großbritannien) erarbeitet haben.

Das Paper beschäftigt sich mit dem bekannten Problem schwer verständlicher Sprache in Fernsehsendungen, wenn der Hintergrund im Verhältnis zu Dialog oder Kommentator zu laut ist. Das Dilemma: Musik und Effekte sind zwar wichtig für das Gesamtbild und den Genuss einer Fernsehsendung, sie können Sprache aber eben auch übertönen und es für die Zuschauer sehr mühsam – oder gar fast unmöglich – machen, alles zu verstehen.

Next Generation Audio-Systeme wie MPEG-H Audio können mithilfe von Audio-Objekten dieses Problem lösen: diese eröffnen den Zuschauern die Möglichkeit, die Dialog-Lautstärke an ihre Bedürfnisse anzupassen. Dennoch braucht es immer noch eine Standard-Mischung, und diese soll so viele Zuhörer wie möglich zufriedenstellen.

Um die Verständlichkeit von Sprache in Standard-Mischungen zu verbessern und gleichzeitig eine gut klingende Mischung anzubieten, können Produzenten auf das sogenannte „Background Ducking“ zurückgreifen. Die Autoren des Papers definieren Ducking als „jedwede zeitlich variable Abschwächung des Hintergrunds, mit dem Ziel, die Sprache im Vordergrund klarer verständlich zu machen.“ Technische Details und Best Practice-Beispiele für gut abgestimmtes Ducking sind bisher allerdings weder in Mixing-Handbüchern noch in Empfehlungen der Rundfunkanstalten dokumentiert worden – meist gab die vorhandene Literatur lediglich den Tipp, dass Sprache im Vordergrund „verständlich“ und „klar“ sein soll. Insbesondere da das Fernsehpublikum immer älter wird und Barrierefreiheit dadurch einen immer höheren Stellenwert einnimmt, war es für die Autoren des Papers höchste Zeit, diese Situation zu ändern. Und so kam es zur ersten Studie über gewünschte Lautheitsunterschiede (loudness differences, LD) beim Ducking.

Frühere Arbeiten haben sich lediglich mit einem statischen Hintergrund-Level beschäftigt, nicht aber mit Ducking. Dieses Paper analysiert daher zunächst gebräuchliche Ducking-Methoden aus einer Stichprobe mehrerer TV-Dokumentationen, und dann die Ergebnisse eines subjektiven Tests, den Alex Freke-Morin im Rahmen seiner Abschlussarbeit am Fraunhofer IIS durchgeführt hat. Hier wurden die Vorlieben von 22 Probanden mit normalem Gehör (elf davon Experten, z.B. Toningenieure) betreffend der Lautheitsunterschiede zwischen Sprache und Hintergrund beim Ducking untersucht. Außerdem wurden Arbeiten, die sich mit ähnlichen Themen beschäftigen, analysiert und mit den eigenen Ergebnissen verglichen.

Eines der hervorstechendsten Ergebnisse des Tests zeigt, dass ein signifikanter Unterschied zwischen den Präferenzen der Experten und Nicht-Experten besteht. Im Durchschnitt bevorzugen die Nicht-Experten Lautheitsunterschiede, die vier LU (loudness units) höher liegen als die präferierten Werte der Experten – letztere produzieren bekanntlich die Audiomixes. Auf diesen Resultaten aufbauend empfehlen die Autoren für einen ästhetisch zufriedenstellenden Standard-Mix mit gleichzeitig klarer Sprache einen Lautheitsunterschied von mindestens 10 LU wenn Musik den Hintergrund bildet, und 15 LU für mit Atmosphäre unterlegtem Kommentar.

“Es gibt so viele Beispiele im TV, die unter diesen Werten bleiben und bei denen darum der Hintergrund sehr laut ist. Das mag zwar wirklich toll gemacht und unterhaltsam sein, aber es ist dann keine Überraschung, wenn die Verständlichkeit nach unten geht. Ein lauter Hintergrund aus künstlerischen Gründen ist absolut in Ordnung, aber Toningenieure müssen sich darüber im Klaren sein, dass sie damit einen Teil der Zuschauer verlieren können – außer diese nutzen zuhause die MPEG-H-Technologie“, schlussfolgert Autor Matteo Torcoli.

Das ausgezeichnete Paper ist als „Open Access“-Dokument in der AES e-Bibliothek verfügbar.

Titelbild © Manuela Wamser – Fraunhofer IIS

This post is also available in: English