Ansichten eines Informatikers

Es fehlt noch ein Sprech-Melodyne

Hadmut
11.9.2023 19:58

Ich habe eine Produktidee. Oder eher eine Art Produktprognose. [Nachtrag]

Kennt Ihr die Geräte (früher waren es Geräte, inzwischen gibt es das auch als Software und Plugin für Studiosoftware), die Gesang geradeziehen, wenn man die Töne nicht trifft?

Melodyne ist ein Produkt-/Markenname eines bekannten Anbieters (wenn ich mich recht erinnere, sogar der erste), und ein 16 Jahre altes (!) Video zeigt, was damals schon möglich war:

Ich kann mich noch erinnern, dass mir im Studium eine Kommilitonin erzählte, dass sie Madonna jetzt richtig gut finde. Früher habe die ja nicht singen können und die Töne nicht getroffen, aber offenbar habe die während einer Schaffenspause Gesangsunterricht genommen und könne jetzt richtig gut singen. Ich hatte das mal im Blog erwähnt, worauf mir jemand antwortete, Madonna habe keineswegs Singen gelernt, sondern sich einfach nur so ein Gerät beschafft, die damals erstmals zu haben waren. Und das nun ziehe ihren Gesang gerade.

Könnt Ihr Euch noch an den Cher-Hit „Believe“ erinnern, der damals der Brüller war und ständig im Radio lief, weil sie da diesen ganz seltsamen elektronischen Sound hat, den man so noch nicht gehört hatte?

Im Radio haben sie damals mal erklärt, wie das gemacht ist: Nämlich mit so einem Gerät, das Gesang geradeziehen kann, nur dass man es – absichtlich – eigentlich schlecht und fehlerhaft eingestellt hat, damit es sich künstlich und unnatürlich anhört. Angeblich wusste Cher selbst davon noch gar nichts, als sie das eingesungen hat, und der Toningenieur habe ihr geagt, er habe da eine Idee und eine Überraschung für sie parat. Der habe ihr damals aus einem guten Song einen Nummer-1-Hit gemacht.

Manche dieser Systeme müssen in der Postproduction zeitaufwendig betüddelt werden, jeder Ton mit der Maus hingezogen und poliert werden. Und es gibt Geräte, die das in Echtzeit können, die man einfach in die Mikrofonleitung einschleift, mit denen man dann auch „live singen“ kann.

Inzwischen gibt es solche Filter auch für Sprecher und Sprechanwendungen wie Nachrichtensendungen, die die Sprache in der Dynamik anpassen und schlechte Geräusche entfernen, etwa den „Dehisser“ und „Denoiser“.

Die Idee

Gerade kam im Fernsehen ein Bericht über Annalena Baerbock, die gerade mal wieder in der Ukraine ist. Und dort wieder große Reden schwingt und die Mikrofone schändet, denn legendär sind ja ihre kuriosen Versprecher, in denen sie Silben vertauscht und verwechselt. Berühmt: Kobold statt Kobalt. Es gibt reichlich Videos auf Youtube und Twitter.

Ich würde ihr aus vielem einen Vorwurf machen, nur daraus jetzt nicht (aber schon die Frage nach der Eignung stellen), denn es scheint mir ein neurologisches Problem mit der Silbenspeicherung zu sein. Ich hatte da ja mal beschrieben, dass mir beim schnellen Tastaturschreiben manchmal sehr abstruse Schreibfehler passieren, obwohl ich den Text orthographisch richtig denke und den Fehler auch niemals mit einem Stift machen würde. Ich mache dabei nicht einfache Schreibfehler, sondern vertausche Silben mit anderen, die ähnlich klingen (ist mir tausende Male passiert, aber ich kann mir kein einziges Beispiel merken, vermutlich weil es an dieser Stelle im Hirn nie vorbeikommt), mitunter sogar deutsch-englisch gemischt. Ich denke richtig, aber schreibe eine völlig andere Silbe, ganz anders geschrieben, die aber ähnlich klingt. Ich ziehe daraus Rückschlüsse darauf, wie das Maschinenschreiben im Hirn abgespeichert ist, wenn man viel schreibt, nämlich nicht mehr in Buchstaben, sondern in nach dem Klang sortierten Bewegungsabläufen für ganze Silben, ähnlich wie schnelle Stenographen ja auch immer ganze Silben schreiben. Stenographie heißt ja auch „Silbenschrift“.

Den Effekt bemerke ich auch, wenn Tastaturen so abgenutzt sind, dass man die Buchstabenaufdrucke auf den Tasten nicht mehr lesen kann und alle Tasten nur noch gleich und abgegriffen glänzend aussehen. Ich weiß dann nicht mehr, wo welcher Buchstabe ist. Möchte ich einen einzelnen Buchstaben eingeben – ich kann es nicht. Ich weiß nicht, wo er ist. Ich habe aber gar kein Problem damit, einen Blogartikel in hoher Geschwindigkeit einzugeben, weil ich zwar nicht weiß, wo die Buchstaben sind, aber die Bewegungsabläufe für Silben fest drin sind. Ich wüsste spontan nicht, wo ein S, ein i, ein l ist, aber kann sofort und in hoher Geschwindigkeit „Silbe“ schreiben. Auch wenn die Tastatur völlig blind ist und man gar nichts mehr sehen kann. Ich brauche eigentlich nur die Fingermarkierungen auf dem F und dem J, damit die Grundstellung richtig sitzt. Wir speicher Sprache in Silben.

Ich vermute, dass bei Baerbock die Silben im Sprachzentrum nicht gut gespeichert sind, dass sie deshalb „benachbarte“ Silben verwechselt.

Ich halte das nicht für ein intellektuelles Defizit. Aber für diesen Ministerposten dann doch für ziemlich ungeeignet, weil es da auf jeden Ton und jede Artikulation ankommt.

Deshalb kam mir folgende Idee:

Ähnlich wie Melodyne Gesang geradezieht, könnte eine KI-basierte und auf gute Sprache und Aussprache trainierte Maschine Sprache geradeziehen. Vielleicht nicht ganz, aber nahezu in Echtzeit, weil sie womöglich erst die nachfolgenden Worte kennen muss. Also vielleicht so ein, zwei Sätze Verzögerung. Aber KI kann ja jetzt schon mit der Stimme einer bestimmten Person sprechen, wenn sie Sprachbeispiele bekommt.

Es wäre also irgendwann möglich, Formulierungs-, Satzbau-, Wortwahl-, Artikulationsfehler in (fast) Echtzeit zu korrigieren.

Baerbock-Fehler wären raus, die Leute könnten nicht mehr blöd daherschwätzen, auch Leute mit starkem Dialekt plötzlich hochdeutsch reden, Güther Oettinger und Klaus Schwab plötzlich erträgliches Englisch sprechen, alle Stolperfallen eliminiert. Kein Wort mehr, das einem dann irgendwie als „Nazi-Jargon“ ausgelegt werden würde. Joe Biden würden kein wirres Zeug mehr erzählen.

Viel fehlt dann nicht mehr zur Echtzeit-Übersetzung in andere Sprachen.

Und noch etwas weiter, könnte die Dinger für Zeugenaussagen und Presseerklärungen verwendet werden, um die juristisch abzusichern.

Aber für den Anfang wäre es schon hilfreich, wenn das Ding Nuschelsprache und schlechte Artikulation, Silbenfehler korrigiert. Und sowas dann in Hörsälen und ähnlichen Vortragsräumen in die Medienpulte einbauen.

Die Gefahr besteht natürlich, dass das dann normale Sprache in politisch korrekte Gendersprache umwandelt und es dann irgendwann sogar ein gesetzliche Pflicht gibt, solche Sprachkorrektoren einzusetzen, die alles auf politisch korrekt ziehen und Unkorrektes schlicht nicht durchlassen. (So ähnlich wie damals im Film „Datenpanne“.)

Nachtrag: Wie einige Leser richtig anmerkten, ist der Fachbegriff für diese Geräte oder Programme „Auto-Tune“.

Ich hatte noch in Erinnerung, dass es einen Gattungsbegriff gibt, er lag mir auf der Zunge, aber fiel mir partout nicht mehr ein. Deshalb hatte ich oben „Markenname“ geschrieben, weil ich mir entsinnen konnte, dass es einen allgemeinen Begriff gibt. Er ist mir aber einfach nicht mehr eingefallen.