Direkt zum Inhalt

KI trifft Audiodeskription – Chancen, Grenzen und die Zukunft des Beschreibens

Posted in Allgemein

Künstliche Intelligenz verändert gerade viele Bereiche unseres Lebens. Bei den Freund*innen der Audiodeskription wirft sie Fragen auf über Chancen und Risiken. Wird es in Zukunft zum Beispiel viel mehr Filme, Videos oder vielleicht sogar Theaterstücke mit Audiodeskription geben? Über einige dieser Fragen haben wir im 21. Theaterclub mit Professor Dr. Gottfried Zimmermann gesprochen. Er ist Professor für mobile Interaktion und Benutzerinteraktion an der Hochschule für Medien in Stuttgart. Dort leitet er das Kompetenzzentrum für digitale Barrierefreiheit. 

Lavinia Knop-Walling: Welche Themen beschäftigen Sie im Kompetenzzentrum aktuell – und wo spielt KI bereits eine Rolle?

Prof. Dr. Zimmermann: Im Kompetenzzentrum beraten wir Organisationen und öffentliche Stellen, etwa Hochschulen, zur digitalen Barrierefreiheit. Wir bieten ein Portfolio an Online-Kursen an; daneben auch die Prüfung von Websites und mobilen Apps auf Barrierefreiheit.

Wir setzen KI ein, um zu erforschen, wie man Zeitressourcen sparen kann – vor allem bei automatischen Tests von Websites. Eine Maschine kann Prüfungen anstoßen und Fehler finden, allerdings nicht alle; es gibt Lücken. Dadurch sind wir in der manuellen Bewertung schneller. Bei Apps ist es schwieriger, weil wir den Code oft nicht haben.

Lavinia Knop-Walling: Vor einigen Jahren haben Sie eine Bachelorarbeit zum Thema personalisierte Audiodeskriptionen betreut. Worum ging es dabei – und was waren die Ergebnisse?

Prof. Dr. Zimmermann: Das war die Arbeit von Franziska Untraut, die sie im März 2023 abgegeben hat(1). Sie interessierte sich besonders für die Frage, wie man synthetische Stimmen erzeugen kann, die möglichst natürlich klingen. Sprachsynthese gibt es zwar schon lange, aber mit KI lässt sich heute deutlich mehr erreichen. Sie hat untersucht, wie man daraus einen Mehrwert für die Audiodeskription schaffen kann: Der Text wird zunächst formuliert und dann über eine synthetische Stimme wiedergegeben. So lassen sich etwa die Sprechgeschwindigkeit variieren oder bei schnellerem Tempo zusätzliche Detailinformationen einfügen, die normalerweise nicht in die Dialogpausen passen würden.

Lavinia Knop-Walling: In einem Artikel über KI und Audiodeskription haben Sie gesagt, dass KI ein großes Potenzial für Barrierefreiheit und Audiodeskription hat. Worin sehen Sie dieses Potenzial?

Prof. Dr. Zimmermann: Besonders bei Prüfungen auf Barrierefreiheit sehe ich großes Potenzial. KI kann dort Routineaufgaben übernehmen, etwa Websites automatisch prüfen. Die Anforderungen sind klar definiert, und mit ausreichend Trainingsdaten – also Beispielen von barrierefreien und nicht-barrierefreien Seiten – kann KI daraus viel lernen. In kleinerem Umfang funktioniert das auch bei Bildbeschreibungen. Ich habe beispielsweise in einem Workshop mit blinden und sehenden Teilnehmenden, Poster mit Nutzererlebnissen gestaltet. Die Beschreibung der Poster mit KI hat mir etwa zwei Stunden Arbeit erspart, und die Qualität war erstaunlich gut.

Bei der Audiodeskription ist es jedoch komplexer: Eine gute Beschreibung besteht nicht nur aus Einzelbildern, sondern muss den Erzählfluss eines Films erfassen. Aktuelle Tools wie „AudibleSight“ können zwar Szenen beschreiben und Vorschläge machen, doch die Ergebnisse sind oft aneinandergereihte Einzelbeschreibungen, keine echten Audiodeskriptionen. 

Lavinia Knop-Walling: Ich habe mir zwei Demos des Tools „PiccyBot“ angesehen, das kurze Videosequenzen automatisch beschreibt. Im Grunde waren das nur Bildbeschreibungen aneinandergereiht. Ist das nur eine Frage des Trainingsmaterials, oder steckt da mehr dahinter?

Prof. Dr. Zimmermann: Natürlich spielt Trainingsmaterial eine Rolle, aber vor allem fehlt der KI das Verständnis für zeitliche Zusammenhänge. Bei Bildern erzielt sie schon beeindruckende Ergebnisse, bei Videos jedoch entstehen leicht Inkonsistenzen: Eine Person trägt in einer Szene einen Ring, in der nächsten ist er plötzlich verschwunden. Das liegt daran, dass KI nicht im Sinne von Kontinuität denken kann. Sie erkennt Objekte, aber nicht, wie sie sich über die Zeit verändern.

Bei der Audiodeskription ist es ähnlich: Gute Beschreibungen vermitteln nicht nur, was in einem Standbild zu sehen ist, sondern auch, was erzählerisch wichtig ist. Aktuelle Tools liefern oft zu viele visuelle Details und übersehen, worauf es wirklich ankommt – etwa Spannung, Rhythmus oder den dramaturgischen Aufbau.

Lavinia Knop-Walling: Wann, glauben Sie, wird KI in der Lage sein, auch Narrative zu erkennen? Fürs Theater wäre das ja besonders relevant – dort müsste eine Beschreibung sogar in Echtzeit entstehen.

Prof. Dr. Zimmermann: Davon sind wir noch weit entfernt. Ich könnte es mir vorstellen, wenn die KI neben dem Filmmaterial auch das Drehbuch kennt – also die gesamte Story und Dramaturgie. Dann könnte sie besser erkennen, welche Elemente wichtig sind, was am Anfang erwähnt werden sollte oder welche Figur gerade eine zentrale Rolle spielt.

Allerdings existieren diese Daten bisher kaum, und auch rechtlich wäre die Nutzung komplex. Ich denke daher, dass die menschliche Komponente auf absehbare Zeit erhalten bleibt, mindestens in den nächsten zehn Jahren.

Audiodeskriptor*innen werden KI-Tools künftig eher als Unterstützung nutzen, etwa um schneller zu arbeiten oder Ideen zu generieren. Dabei wird das sogenannte Prompt Engineering eine wichtige Rolle spielen. Es geht nicht nur darum, „einen Satz einzugeben“, sondern oft um umfangreiche Anleitungen, die der KI helfen, kontextgerechte Beschreibungen zu erzeugen.

Bei Bildern ist das einfacher, weil es dort viel öffentlich zugängliches Trainingsmaterial gibt – etwa Alternativtexte im Web. Für Audiodeskriptionsskripte ist das schwieriger, da sie selten als Text vorliegen und oft urheberrechtlich geschützt sind.

Lavinia Knop-Walling: Ich könnte mir vorstellen, dass KI auch bei der Qualitätssicherung eine Rolle spielt. Im Moment sind ja mehrere Menschen an der Erstellung einer Audiodeskription beteiligt – mindestens eine sehende und eine sehbehinderte Person. Wie ließe sich Qualität künftig sichern?

Prof. Dr. Zimmermann: Die menschliche Qualitätssicherung bleibt entscheidend. Das vermitteln wir auch unseren Studierenden. Man kann KI nutzen, um Texte zu erzeugen, aber die Ergebnisse müssen von Expert*innen überarbeitet und bewertet werden. Wahrscheinlich werden künftig viele Audiodeskriptionen zunächst textbasiert generiert, besonders bei Streaming-Produktionen, die schnell erscheinen.

Diese Texte könnten dann mit synthetischen Stimmen gesprochen werden. Das spart Studiozeit und ermöglicht Versionen in verschiedenen Sprachen oder mit unterschiedlicher Inhaltstiefe.

Lavinia Knop-Walling: Zum Abschluss: Audiodeskription und KI sind derzeit noch kleine Forschungsfelder. Was müsste passieren, damit sie mehr Aufmerksamkeit bekommen.

Prof. Dr. Zimmermann: Generell ist es so, dass Forschungsgelder relativ wenig vorhanden sind für Dinge, die in der Barrierefreiheit liegen. Auch bei Stiftungen habe ich schon die Antwort bekommen: „Das ist ja nur ein ganz kleiner Teil der Leute, die das brauchen.“ Das ist leider ein dickes Brett, was wir noch bohren müssen.

Fazit

Ich finde es spannend, wie viel Künstliche Intelligenz schon kann und dann auch wieder beruhigend, was sie noch nicht kann. Sie kann uns vielleicht helfen, eine Audiodeskription in absehbarer Zeit schneller zu erstellen, aber bis sie das Narrativ eines Theaterstücks erkennt oder es sogar in Echtzeit beschreiben kann, wird es noch eine Weile dauern.

Genau das bleibt unsere Aufgabe: Geschichten, Bilder und Gefühle so zu übersetzen, dass sie wirklich ankommen, selbst wenn das bedeutet, dass es erst einmal nur wenige, aber dafür hochwertige Theaterstücke mit Audiodeskription geben wird.

Unser Newsletter rettet euch vor kultureller Langeweile

Mehrmals monatlich halten wir euch über die aktuellen Vorstellungen mit Audiodeskription auf dem Laufenden. Hier geht’s zum Newsletter.

Relevante Links

Fußnoten

  1. Franziska Untraut (2023, März 27). Personalisierte Audiodeskription mit KI-basierter Sprachsynthese. Bachelorthesis. Hochschule der Medien Stuttgart. Link: https://nbn-resolving.org/urn:nbn:de:bsz:900-opus4-67645

Beitragsbild wurde mithilfe von KI generiert.