Hadmut Danisch

Ansichten eines Informatikers

Frauen, Kreischen, Codecs und Pseudowissenschaft

Hadmut
30.5.2021 14:13

Das Schlimmste, was man Feministinnen antun kann: Ihnen zuzuhören und ihr Geschreibsel nachzulesen.

Ich hatte doch gerade einen Kommentar zum Jammerartikel der taz geschrieben, wonach auch Videokonferenzsoftware wie Zoom oder Skype Frauen benachteilige. (Was auch sonst, wo doch wirklich alles Frauen benachteiligt. – Sie machen ja auch nichts anderes, als aufzulisten, wo sie sich alles benachteiligt fühlen, um das als Bestellzettel an die Männer zu schicken.)

Es gab Zuschriften.

Einer meint, dass das nicht am Codec läge, sondern an der verzerrten weiblichen Selbstwahrnehmung. Die kämen sich immer unheimlich gut vor, und wären dann plötzlich damit konfrontiert, dass sie nicht so gut sind, wie sie sich einbildeten. Das könnte unter anderem an der sogenannten Knochenleitung liegen.

Wir alle kennen den Effekt, dass man sich ganz schrecklich findet, wenn man sich zum ersten Mal auf einer Tonbandaufnahme hört. Das hängt damit zusammen, dass man die eigene Stimme immer ganz anderes hört, als andere sie hören, weil der Ton nicht nur über die Luft, sondern auch durch die Übertragung innerhalb des Schädels und durch die Knochen, eben die Knochenleitung, zum Ohr übertragen wird und wir uns selbst immer anders hören als wir für andere klingen. Es wäre vielleicht denkbar, dass im Frequenzbereich von Frauenstimmen die Diskrepanz zwischen Eigenwahrnehmung und tatsächlichem Klang nach außen größer als bei Männern ist. Es erinnert mich daran, dass ich mal auf einer feministischen Veranstaltung der Piraten war, wo sie sich auch fürchterlich darüber aufgeregt hatten, dass die Mikrofone für Männer gemacht seien und Frauen sich darüber immer „kreischig“ anhörten. Problem daran: Die hörten sich ohne Mikrofon in direkter Wahrnehmung exakt genauso kreischig an. Weil die ständig kreischen. Möglicherweise nehmen die sich aber selbst im Schädel anders wahr und sind dann konsterniert, wenn über die Lautsprecher der nach außen abgegebene Klang in der Wahrnehmung dominiert.

Fällt mir auch immer wieder auf, wenn hier mal wieder Demos sind, die in Berlin ja relativ häufig in der Nähe meiner Wohnung vorbeiziehen. Oft sitzen da Frauen am Mikrofon, ich habe sogar den Eindruck, oft dieselben, die man schlicht nicht versteht, weil sie eben kreischen. Viel zu schnell, viel zu schlampig und unartikuliert, viel zu emotional ins Mikro schreien, nach dem Motto: Viel hilft viel. Am Ende versteht man dann gar nichts mehr und fühlt sich nur noch belästigt. Anstatt dass die mal in sich gehen und sich so eine einfache Frage stellen wie: Wie spricht eigentlich die Frau vom Navigationssystem im Auto? Warum schreit die nicht wie am Spieß? Weil sie verstanden werden will.

Das Problem ist durchaus geschlechtsbezogen: Denn gerade die Gender-Studies meinen ja, dass Frauen aus der Wissenschaft ausgeschlossen würde, weil Männer ihr Geschlecht draußen vor dem Labor an den Kleiderhaken hängen wie einen Kittel und drinnen von sich selbst abstrahierten, während Frauen das nicht könnten, immer emotional seien. Vielleicht ist genau das das Problem, dass zuviele Frauen nicht sprechen können, ohne ihre emotionale Situation mit reinzulegen. Ich habe nur sehr selten Feministinnen gehört, denen man vom Stimmklang halbwegs zuhören kann und die verständlich sprechen. Meistens sprechen die so, wie ein Auto während eines Verkehrsunfalls fährt.

Ein Leser nun, ein Physiker, hat mal nachgelesen:

Hallo Herr Danisch,

der Artikel von der TAZ über die „bösen“ Audiocodecs hat mich veranlasst noch etwas weiter zu recherchieren. Auf der Seite https://taz.de/Diskriminierung-in-Videochats/!5770053/ war ja glücklicherweise der Link zu der „Studie“ angegeben. http://www.essv.de/essv2021/pdfs/06_siegert_v2.pdf Eigentlich wäre es besser gewesen diesen zu verschweigen und den Leser das komplette Internet selbst durchsuchen zu lassen. Liest man die „Studie“ nämlich, wird so einiges klar.

Untersucht wurden in der „Studie“ u.a. einmal der CODEC „Adaptive Multi-Rate Narrowband (AMRNB)“ für „narrowband speech (200–3400 Hz)“ verwendet „in GSM and UMTS“ Anwendungen. Oder alternativ auch MP3 mit 16 kBit/s. Ich hab diese beiden Varianten mal mit Audacity (https://de.wikipedia.org/wiki/Audacity) und meiner Stimme ausprobiert. Wie zu erwarten hört sich das von der Qualität schon mal nach Dosentelefon an. Daher kann an der Stelle der erste Tipp lauten, einen halbwegs ordentliche Bitrate bei Onlinemeetings sicherzustellen. Und ich bemitleide alle, die aus dem Funkloch oder über ein 56k Modem an einer Zoom-Konferenz teilnehmen müssen. Zum Vergleich, Zoom gibt auf seiner Webseite (https://support.zoom.us/hc/en-us/articles/360048388632-New-Updates-for-September-1-2020) für sein „High Fidelity Audio mode“ „48Khz, 96Kbps mono/192kbps stereo“ als Audioqualität an. Die Qualität der normalen Audioeinstellung hab ich nicht gefunden, gefühlt ist die aber auch besser als MP3 mit 16 kbit/s.

Aus meiner Sicht ist die Auswahl der CODECS im Vergleich zum Stand der Technik ungewöhnlich pessimistisch. Ob das Ergebniss der „Studie“ bei realistischen aktuellen Qualitätseinstellungen auch so ausfallen würde?

Am schlechtesten hat übrigens der CODEC SPEEX abgeschnitten. Das ist aber wohl auch keine Überraschung. Zitat dazu: “It [=SPEEX] uses Code-ExcitedLinear Prediction (CELP) and is now considered obsolete.”, “lowest SPEEX quality parameter” was used, “3.95 kBit/s”. Ich denke Ihr selbstentwickeltes Telefon während Ihrer Promotion hatte schon eine bessere Sprachqualität.

Das Highlight in dem Paper war aber für mich (als Physiker, der seit 7 Jahren mit logarithmischen Größen hantieren darf) die Abbildung 1 mit der doppel-gemoppelt-logaritmischen Darstellung. Die (äquidistante) geteilte Achse ist mit …,0.5, 1, 2, 4, 8, 16, 32 beschriftet. Die Größe selbst wird gleichzeitig in dB angegeben. Das hat natürlich zur Folge, dass Unterschiede bei kleinen Werte „ordentlich“ gesteckt werden. Da sieht man dann jede kleine Änderung die irgendein Filter am Grundrauschen verursacht, und ich der Grafik schaut es schön schlimm aus. Ob diese Darstellung in der Disziplin gebräuchlich ist, weiß ich leider nicht.

Nebenbei, die „Studie“ ist in Wirklichkeit ein Konferenzbeitrag. https://www.researchgate.net/publication/349761775_Speech_Signal_Compression_Deteriorates_Acoustic_Cues_to_Perceived_Speaker_Charisma
Das soll jetzt weder positiv noch negativ hinsichtlich der Qualität gewertet werden. Ich kenne es aber so, dass Konferenzbeiträge üblicherweise keinem Peer-Review-Prozess unterzogen werden (es gibt aber auch mir bekannte Ausnahmen).

Ich bin gerade am überlegen, ob ich vielleicht auch mal Fördermittel beantragen sollte, um die „Diskriminierung durch Tiefpassfilter“ zu untersuchen. Und dabei besonders das Augenmerk insbesondere auf Signale oberhalb der Grenzfrequenz legen soll… Was dabei herauskommt ist ja schon klar. Aber man kann sicher noch viele schöne Formulierungen für „das Signal ist plötzlich weg“ finden.

Mit freundlichen Grüßen

Das ist natürlich der Brüller, wenn die sich über Zoom und Skype beschweren, in dem Paper aber dann uralte oder Codecs für extrem niedrige Bandbreiten betrachtet werden, die heute eigentlich keine Verwendung mehr finden.

Und ja, der Verweis auf mein Kryptotelefon von 1994 ist richtig: Damals gab es noch keine guten, frei verfügbaren Codecs, und ich hatte damals den Linear Prediction Coder (oder auch Linear Predictive Coder) eingesetzt und noch etwas „optimiert“, weil ich ja mit sowas um die 2400 Bit/s auskommen musste/wollte. Sollte ja auch mit den damals verfügbaren mobilen Modems in PCMCIA-Karten und mit der Nokia Mobilfunkdatenkarte funktionieren und noch etwas Reserve für Kryptographie, Prüfsummen, Fehlerwiederholung usw. lassen. Wie schon oft angesprochen: Es hörte sich ziemlich blechern an. So blechern, dass man zwar noch sehr gut verstehen konnte, was einer sagt, aber nicht mehr so ohne weiteres den Sprecher an der Stimme. Es hörte sich an, als ob ein Roboter nachsingt, was man sagt – und genau so funktionierte das ja auch. Es wurde analysiert, ob man Stille, einen stimmhaften vokalartigen oder einen Zischlaut von sich gibt, wenn ich mich jetzt recht erinnere, 40 Mal pro Sekunde, und dann in einen kleinen Datensatz gepackt, wie das jeweils parametrisch zu beschreiben ist. Lautstärke, Grundfrequenz und die zwei oder drei wichtigsten Obertöne. Auf der Empfängerseite hat man dann quasi per Synthesizer einen Ton mit diesen Paramentern erzeugt, der aber mit der originalen Wellenform so gut wie nichts mehr zu tun hatte. Der konnte noch unterscheiden, ob man a, e, o, i, u gesagt hat, aber kaum noch den Klang der Stimme nachbilden. Hörte sich vor allem deshalb nach Roboterstimme an, weil man in den Kinofilmen der damaligen Zeit Roboterstimmen genau so erzeugt hat.

Nur ist man da heute technisch weiter und hat vor allem mehr Bandbreite.

Hier aber hatten sie offenbar gezielt alte, schlechte Codes herausgesucht, die in ihrer Bandbreite auf das eingeschränkt waren, was alte analoge Telefone übertragen haben, um sich dann beschweren zu können. Oder einen MP3 mit 16 kBit/s, obwohl der typisch mit 64 bis 192 kBit/s verwendet wird. Motto: Wir schneiden so viel ab, bis es frauenbenachteiligend klingt, und beschweren uns dann, dass es frauenbenachteiligend klingt – fertig ist der Konferenzbeitrag. Was tut man nicht alles, um auch irgendwas zum Gender-Scheiß beizutragen.

Erschwerend hinzu kommt, dass die sich da ihr eigenes Geschäftsmodell machen, denn einer der beiden Vögel auf diesem Paper betreibt „Charisma“ und „digitale Rhetorik“ als Geschäft. Da passt das natürlich wunderbar rein, wenn man sich seinen Käse gleich selbst verwissenschaftlicht, und der Feminismus liefert genug Dumme, die es weiterverbreiten. Aus dieser Webseite:

Künftig sollte bei der Entwicklung der Codes für digitale Meeting-Tools nicht nur auf die reine Sprachqualität, auf Verständlichkeit und Unterdrückung von Hintergrundgeräuschen geachtet werden, sondern auch verstärkt auf die Übertragung von Merkmalen wie Ausdrucksstärke oder Emotionalität, so Siegert weiter. Dazu hätten die aktuellen Arbeiten einen Grundstein gelegt, weil sie aufzeigten, welche Charisma-Marker durch die Kompression beeinflusst würden. Der nächste Schritt sei nun, diese Veränderung als Optimierungskriterium in der Entwicklung neuer Kompressionsmethoden zu berücksichtigen.

Damit könnte man beide Professoren, Juniorprofessor Dr.-Ing. Ingo Siegert und Prof. Dr. Oliver Niebuhr zu Ehren-Frauen ernennen und sie auf die Frauenquote anrechnen, weil sie nur Forderungen aufstellen und anderen Aufgaben erteilen, aber nicht allzuviel verstanden haben oder darstellen. Denn worin liegt der Unterschied zwischen einer Sprachqualität und diesen „Charisma-Markern“? Worin, wenn nicht in der Wellenform des Tonsignals, sollten sich diese manifestieren? Wo bleibt die Beschreibung? Die Metrik dazu? Das ist doch so nur Gender-Gewäsch.

Wisst Ihr, was überaus kurios ist?

Ich habe noch nie gehört, dass sich eine Feministin darüber beschwert hätte, dass Frauen stimmlich in Kinofilmen oder im Fernsehen nicht gut weg kämen. Da aber werden dieselben Prinzipien verwendet. Auch auf DVD, DVB-X, Streaming und so weiter werden überall Codecs eingesetzt, um Ton und Sprache komprimiert zu übertragen. Regt sich aber niemand drüber auf.

Warum nicht?

Weil man da nur andere und nicht sich selbst hört, also nicht über die Knochenleitung stolpert.