Stimme: Die Seele auf der Zunge

Aus Björn Schullers Mund fließt ein Auf und Ab, keine gleichförmigen,
neutralen Sätze, nein, euphorische Passagen wechseln sich mit nachdenklichen ab, als er von
Erfolgen und Problemen in seiner Arbeit berichtet. Es geht um Computer, die menschliche
Emotionen entschlüsseln können. Es ist Januar 2018. Schuller spricht bei einer Konferenz des
Bundesforschungsministeriums namens “interEmotio”. Das Publikum weiß, was er sagen wird,
schließlich sind alle hier mit demselben Thema befasst – dennoch folgt es ihm gebannt.

Es gibt geborene Redner, doch Björn Schuller gehört mitnichten dazu. Das bezeugen Mitschnitte
alter Vorträge: eintönig, langatmig, voller Ingenieursklischees. Wie ist der Augsburger
Informatik-Professor zu einem geworden, bei dem der Funke überspringt?

Nach dem Auftritt in Bonn verrät Schuller sein Geheimnis: Es sei ein Nebeneffekt seiner
Forschung. Seit 18 Jahren gehe er der Frage nach, ob und wie sich Gefühle allein aus Merkmalen
der Stimme ablesen lassen. Ein frühes Experiment habe ihn zufällig persönlich weitergebracht:
Er habe Videos erfolgreicher YouTuber ausgewertet, und zwar allein mit Blick auf die Emotionen
in deren Stimmen, bis sein Computer treffsicher vorhersagen konnte, wie gut ein Film beim
Publikum ankam. Als zentrales Muster, schildert Schuller, habe der Algorithmus die Abwechslung
zwischen Signalen für positive und negative Emotionen ausgemacht. Für abwechslungsreiche
Signale sorgt er nun auch in seinen eigenen Vorträgen: Zwischen zwei Highlights platziert er
einen nachdenklichen Inhalt oder eine ungelöste Frage, dabei spielt er hörbar auf der
emotionalen Klaviatur. “Es funktioniert” – inzwischen ist der Professor ein gefragter
Redner.

Doch Schuller ist auch Unternehmer. Vorort-Termin ein Jahr später in Gilching bei seinem
Start-up Audeering: Zwei Mitarbeiter versuchen, eine App zu überlisten, die Gefühle aus der
Stimme erkennt.

So sehr der Entwickler Milenko Saponja sich auch bemüht, “glücklich” zu klingen, auf dem
Display des Smartphones erscheint das Symbol für einen “neutralen” Gemütszustand. Chef
Schuller springt ihm bei: “Das Problem ist, dass das System mit echten Emotionen trainiert
wurde”, erklärt der Wissenschaftler lächelnd, “aber wenn wir es jetzt vorführen, müssen wir
Emotionen nachahmen.” Saponja, der also nur scheinbar glücklich ist, schweigt lieber. Dafür
ergänzt sein Kollege Hesam Sagha begeistert: “Wir können sogar die Persönlichkeit
entschlüsseln, allein aus der Stimme.” Dafür müssten Psychologen viele Fragebögen ausfüllen,
Therapeuten lange Gespräche führen. Sagha findet: “Es ist doch viel einfacher, ein paar
Sekunden zu sprechen.”

Einfach die Stimme klingen lassen?

Offenbar hinterlassen flüchtige Gefühle und dauerhafte Persönlichkeitsmerkmale eindeutige
Spuren in unserer Stimme. Nicht, was sie ausdrücken, sondern die Art und Weise, wie wir
sprechen, verrät, wie wir uns fühlen und wer wir sind.

Die Technik dazu ist gerade auf dem Sprung in den Alltag, weil zwei Faktoren zusammenkommen:
erstens die Computertechnik des maschinellen Lernens mit ihrem Talent, verborgene Muster zu
erkennen. Zweitens die Daten, einfach weil immer mehr Menschen mit ihren Digitalgeräten
sprechen und dabei riesige Datensätze erzeugen. So langsam wird die Industrie aufmerksam: Was
winkt demjenigen, der Gefühle ausliest, ohne dass die Fühlenden es auch nur bemerken?

Jetzt ist der richtige Zeitpunkt, um in die Szene der Stimmenleser hineinzuhorchen – statt in
ein paar Jahren überrascht festzustellen, was sie alles aus uns heraushören.

Shrikanth Narayanan von der University of California hat vor ein paar Jahren eine
gefühlsmäßig recht heikle Situation aufgezeichnet, nämlich wie Eheleute beim Paartherapeuten
miteinander sprachen. Der Computer analysierte nicht die Bedeutung der Worte, nur den Klang
der Stimmen, und wurde später gefüttert mit den Angaben, welche Ehe hielt und welche
scheiterte.

Bald sagte das System in vier von fünf Fällen korrekt voraus, ob eine Ehe nach Ende der
Therapie hält. Das war eine bessere Trefferquote, als sie jene Therapeuten hatten, die den
Paaren stundenlang gegenübergesessen hatten. Gruselig? “Ich bin optimistisch, was die Zukunft
dieser Technologie angeht”, sagte Ingenieur Narayanan im vergangenen Frühjahr. “Unsere Stimme
transportiert viele Informationen über unseren psychischen Status und unsere Identität.
Menschliche Wahrnehmung ist verzerrt, weil wir uns ablenken lassen von Äußerlichkeiten.”