Wer da so spricht

„Demnächst rechts abbiegen“,
kündigt die sachlich freundliche Stimme aus den Lautsprecherboxen an.

„Dann quatsch nicht, sondern mach einfach, wenn’s soweit ist“,
liegt mir dann manchmal auf der Zunge. Ob ich wohl jemals in einem selbstfahrenden Auto sitzen werde? Eine verlockende Vorstellung!
Aber ich will nicht ungerecht sein. Die Navi-Tante, wie wir sie nennen, ersparte uns schon einige Megastaus. Sie hat viele Jahre auf dem Buckel und Straßen- und Städtenamen kommen ihr nicht über die Lippen. Dafür kann sie Prosodie.

Intonation (Tonhöhe), Satzmelodie und Rhythmus sind nur drei Eigenschaften der Sprache, die unter den sprachwissenschaftlichen Begriff Prosodie fallen.

Die meist kurzen Sätze spricht die Navi-Tante flüssig und in einem angenehmen Tempo. Am liebsten höre ich von ihr: „Sie haben Ihr Ziel erreicht!“
Wie in der deutschen Sprache üblich, senkt sie die Stimme am Ende einer Redeeinheit, so bei „…abbiegen“ und geht nach oben, wenn sie ruft: „Jetzt rechts!“, um Action zu signalisieren.

„Bonjour“ dröhnt es jeden Morgen aufmunternd und etwas blechern aus meiner französisch sprechenden Waage, sobald ich einen Fuß auf sie setze. Kaum steht der zweite daneben, bekomme ich mit einwandfreiem Accent bis auf 100 Gramm genau das Resultat vorgerechnet. Das „Bonjour“ muß sie aber noch üben. Beim „bon“ geht sie mit der Stimme nach oben und dann beim „jour“ nach unten. Umgekehrt wäre es richtig.

Um auch Rechner und Handy französisch parlieren zu lassen, bin ich in meiner Lieblingsfremdsprache nicht fit genug.
Aus dem Laptop tönt die männliche Standard-Stimme des Screenreaders Jaws. Das Voice Over beim iPhone spricht eine Frauenstimme. Beide pausieren je nach Satzzeichen und verändern den Tonfall leicht. Außerdem haben sie dieselben Sprechfehler: Ich bekomme zum Beispiel bei der Bundesministerin Frau Kloeckner statt ö ein o-e zu hören. Dafür machen sie aus dem e-i bei geimpft ein ei. Das überschmunzel ich dann einfach!
Aber sie können auch mitdenken und erkennen aus dem Zusammenhang, ob „umfahren“ im Sinn von jemanden umfahren oder etwas umfahren, um ihm auszuweichen, gemeint ist, und betonen dementsprechend das „um“ oder das „fahren“.
Es klingt zwar monoton, wenn sie mir die Texte herunterrattern. Meine recht hoch eingestellte Vorlesegeschwindigkeit würde aber auch die schönste menschliche Stimme verhunzen.

Stimme hin oder her, ohne eine spezielle Software käme aus keinem der vier Geräte auch nur ein Muckser!
Diese als Sprachausgabe, Sprachsynthese oder Text-to-Speach-System bezeichnete Technik setzt die auf den Displays zu sehenden Texte in gesprochene Sprache um. Eine grandiose Innovation vor allem für Sehbehinderte, die wie ich die Blindenschrift nie gelernt haben!

Und woher kommen die von den Sprachausgaben benötigten Stimmen?
Dazu folgendes Zitat aus dem World Wide Web:
„Grundlage ist ein Sprecher, der entweder vollsynthetisch – also künstlich – generiert ist, oder es handelt sich um Tonaufzeichnungen einer echten Person, die Soundschnipsel in einem Tonstudio eingesprochen hat.“

Letztere Variante könnte bei unserem Navi zum Einsatz gekommen sein. Die gefällige Stimme klingt natürlich und der Wortschatz ist doch sehr begrenzt.
Dagegen flirren täglich neue nicht enden wollende Textfluten inklusive meinem Geschreibsel über meinen Bildschirm und mein Handydisplay. Dieses Pensum kann nur von künstlich generierten Stimmen bewältigt werden. Ob an deren Entwicklung irgendwann auch die von Menschen beteiligt waren? Wäre jedenfalls denkbar.

Ganz klar, ich möchte meine synthetischen Vorlese-Assistenten nicht mehr missen. Ohne sie wäre ich arbeitsunfähig und völlig aufgeschmissen!
Um so mehr genieße ich beim feierabendlichen Filmeschauen, einer Audiodeskription (AD) vorgetragen von echten Sprecherinnen und Sprechern zu lauschen, die ihre Stimmen beherrschen wie Profimusiker ihre Instrumente und gekonnt damit spielen.
Also Dynamik, Dramatik und Emotionen dem Film entsprechend fein dosieren. Und wenn es in einer kurzen Dialogpause schnell gehen muß, klingen sie trotzdem ruhig und unaufgeregt.

Die Stimme im wissenschaftlichen Sinn ist übrigens Schall. Durch die Stimmlippen im Kehlkopf erzeugt, wird er von Mund, Rachen und Nasenhöhlen modelliert.
Es liegt auf der Hand, daß sich die kleinste Veränderung der Mimik auf diesen sensiblen Prozeß und damit auf den Klang der Stimme auswirkt.

Das geschieht zum Beispiel, wenn die Sprecherinnen und Sprecher im Tonstudio die Filmbilder sehen und ihre Mundwinkel, ob sie wollen oder nicht, nach oben oder unten gehen und sich die Augen vor Entsetzen weiten. Lassen sie, anders als beim möglichst neutralen Nachrichtenlesen, diese Emotionen beim Sprechen zu, ist das Ergebnis eine AD, die auf ganz natürliche Weise die Atmosphäre des jeweiligen Films transportiert. Ist einmal zu viel oder zu wenig Gefühl in der Stimme, sollte ein Wort anders betont oder ein Satz in einem anderen Rhythmus gesprochen werden, liegt es bei der Sprachregie, korrigierend einzugreifen.

Dieser Arbeitsschritt im Tonstudio entfällt, wenn ein Text-to-Speach-System verwendet wird.
Das spart Zeit und Geld.
In beiden Fällen am aufwendigsten ist allerdings der vorausgehende Schritt, die Erstellung des Skripts von einem dreiköpfigen geschulten AD-Team. Denn auch die synthetischen Stimmen müssen ja schließlich wissen, was sie zu sprechen haben.
Und auch den letzten Schritt, den finalen Mix, müssen beide gehen. Bei der Abmischung wird die Tonspur mit der analogen oder synthetischen Stimme mit der Tonspur des Films zusammengefügt.

Nicht zu vergessen ist, daß es auch die synthetischen Stimmen nicht umsonst gibt. Die nötige Software muß angeschafft und gewartet werden.

Und wie hören sich synthetische Stimmen nun an?
Für mich nach einigen Hörproben mal leicht heiser, mal wie ein bißchen angestrengt, den richtigen Ton zu treffen, was dann nicht immer gelingt. Ein witziges Beispiel: „Mit erhobenen ‚Pißtolen“! Oder ich hatte ein gleichbleibend freundliches Dauerlächeln im Ohr. Und sehr chaotisch wird es, wenn neben der AD fremdsprachige Dialoge übersprochen werden.

Aber synthetische Stimmen haben bei ADs grundsätzlich einen schweren Stand. Sie geben sich mit den echten im ständigen Wechsel die Klinke in die Hand, so daß der Unterschied besonders auffällt.
Die Qualität hat sich in den letzten Jahren zwar deutlich verbessert. Aber um eine die wechselnden Stimmungen eines Films begleitende AD hinzubekommen, müssen sie noch mächtig viel üben!
Deshalb werden sie bei Spielfilmen, ob Drama, Komödie, Liebesfilm oder Thriller, und Dokumentarfilmen nicht eingesetzt und es fehlt auch an der Akzeptanz der Zielgruppe. Auch mein Herz schlägt für die menschliche Stimme in all ihren wunderbaren Nuancen!

Wo ich mir dafür synthetische Stimmen vorstellen kann?

Sehr gut vor allem bei Erklärfilmen, in denen sachliche Inhalte vermittelt werden. Ebenso bei Reportagen über tagesaktuelle Themen, an denen – das liegt in der Natur der Sache – bis kurz vor der Ausstrahlung gearbeitet wird. Da bleibt oft keine Zeit fürs Einsprechen im Tonstudio. Ein weiteres riesiges Feld sind meist kurzlebige Online-Formate und die Fluten von Videoclips unter anderem bei YouTube.

Von Fall zu Fall sollte allerdings bei Imagefilmen entschieden werden. Hochwertig produzierte verlangen nach einer menschlichen Stimme.

Es ist gar keine Frage: Wenn in den hier aufgezeigten Bereichen synthetische Stimmen zu mehr ADs und damit zu einer Erweiterung des barrierefreien Angebotes führen, ist das eine sehr gute Sache!

Vereinzelt werden synthetische Stimmen auch bei schnell produzierten und extrem dialoglastigen Miniserien eingesetzt. Damit tue ich mich ein bißchen schwer, aber wenn die Alternative gar keine AD wäre…?

Auf jeden Fall gilt immer: Auch für eine synthetische Stimme sollten die Texte der ADs mit der nötigen Sorgfalt erstellt werden.

Zum Schluß verweise ich auf folgenden Artikel, der sich diesem Thema ebenfalls sehr ausführlich widmet:

https://www.netzwoche.ch/news/2021-02-24/hoerfilme-fuer-blinde-wenn-die-computerstimme-den-film-beschreibt

Ich jedenfalls bin gespannt und werde aufmerksam verfolgen, wo die Reise in den nächsten Jahren hingeht, und wie schnell die synthetischen Stimmen bei Audiodeskriptionen vorankommen.
Von mir aus können sie sich gerne Zeit lassen, auch einmal von der Spur abkommen und zwischendurch nach rechts oder links abbiegen, damit sie ihr Ziel nicht allzu schnell erreichen, Zwinker-Smiley!

Wer da so spricht

Kommentar verfassen Kommentieren abbrechen

Kontakt

Soziale Medien

RSS abonnieren