Hadmut Danisch

Ansichten eines Informatikers

Der Soziologe, die Korrelation und die Kausalität

Hadmut
28.5.2020 1:05

Ein Soziologe unterbreitet mir seine Dissensbekundung.

Ich hatte erwähnt, dass eine Korrelation keine Kausalität sei, aber eine fehlende Korrelation eine fehlende Kausalität belege. (Was sollte es auch für eine Kausalität sein, wenn sie keine Auswirkungen zeigt?)

Ein Soziologe schreibt mir, dass er das für falsch hält:

Das schreiben Sie, und das klingt schmissig und nach Durchblick, ist aber leider falsch. Wenn bspw. A und B auf C einwirken, dummerweise mit unterschiedlichen Vorzeichen und in gleicher Größe – dann haben Sie die “fehlende Korrelation”; Kausalität haben Sie dann allerdings auch, sogar in doppelter Ausführung.

Nöh.

Denn wenn A und B beide auf C einwirken (nachts ist es kälter als draußen), ist es so erst mal gar nicht möglich, eine Korrelation mit nur einem davon zu berechnen, und zu sagen, dass es sie nicht gibt. Vereinfacht gesagt: Wenn A und B da keine getrennten Kurven sind, sondern zusammen so eine Art zweidimensionale Funktion bilden, deren Graph eine Fläche ist, mit der man eine eindimensionale Funktion C korrelieren will, ist eben die Frage, wie man diese Funktion über die zweidimensionale Ebene legt. Es ist nicht trivial, eine eindimensionale Funktion mit einer zweidimensionalen Fläche zu korrelieren.

Oder anders gesagt: Wenn A und B gemeinsam auf C einwirken, dann hat man eine Korrelation mit f(A,B), beispielsweise A+B, A-B, A·B, A/B oder so irgendwas. Und das muss man erst auseinanderpfriemeln.

Denn wenn es wie hier keine Korrelation mit f(A,B) gibt, kann man nicht sagen, dass es eben einzelne Kausalitäten gibt, die sich gegenseitig neutralisieren. Es kann eben auch sein, dass es weder mit A, noch mit B korreliert, weil beide nicht kausal sind.

Oder anders gesagt: Meine Körpertemperatur korreliert nicht mit dem Goldpreis. Sie korreliert auch nicht mit der Zahl von Stunden, die Menschen in Südamerika Fernsehen schauen. Man kann daraus aber nicht folgern, dass beide kausal für meine Körpertemperatur wären, sich nur gegenseitig kompensieren, weshalb man keine Änderungen feststellen kann.

Der Fehler ist übrigens nicht neu, eng verwandt mit dem Simpson-Paradoxon, jenem Statistikrechenfehler, mit dem Feministinnen die Bevorzugung von Frauen immer in Benachteiligungen ummünzen, weil sie bei irgendwelchen Werten, die von zwei oder mehr Dingen abhängig sind, die führende Eigenschaft unter den Tisch fallen lassen und willkürlich nach anderen Parametern korrelieren und dann sogar zum gegenteiligen Ergebnis der echten Kausalität kommen. Erstmals aufgefallen, als sich Feministinnen an irgendeiner US-Uni darüber beschwerten, dass sie bei Einstellungen benachteiligt werden. Man hat es untersucht, und kam zu dem verblüffenden Ergebnis, dass sie sogar bevorzugt werden und man geringere Anforderungen stellt, die Männer sich aber über alle Fakultäten verteilen, während die Frauen alle zu den Geisteswissenschaften rennen, und sich um viel weniger Stellen balgen. Man hat also die führende Eigenschaft, welches Fach jemand wählt und wieviele Bewerber auf einen Posten kommen, unterschlagen, nach er nachrangigen Eigenschaft korreliert (Einstellungsquote) und war durch diesen Fehler zum genau gegenteiligen Ergebnis gekommen. Machen Feministinnen laufend und ständig.

Es ist überaus gefährlich, irgendeine beobachtete Größe, die von mehreren Einflussgrößen abhängt, mit denen zu korrelieren und dann zu behaupten, es gäbe schon Korrelationen, die würden sich nur gegenseitig ausgleichen.

Sowas gehört in die Analysis und ist was für Fortgeschrittene. Stichwort Multiple Korrelationsanalyse, Partialkorrelation und so weiter. Habe ich nie gemacht, aber die Grundlagen dafür mal in Analysis gelernt. Man braucht dazu zweidimensionale Messwerte, also eben auch einen Funktionswert, der eine Fläche bildet, um darin dann partielle Betrachtungen nach den einzelnen Variablen anzustellen.

So die hemdsärmelige Methode zu sagen, die beobachtete Größe sei von zwei Variablen abhängig, mit denen sie nicht korreliert, und dann zu folgern, dass die sich eben gegenseitig ausgleichen und gleich zwei Kausalitäten vorliegen – sorry, aber das geht so nicht.

Oder anders gesagt: Solange wir hier Corona-Fälle in Deutschland betrachten, ist das nur eindimensional über die Zeit. Das gibt nichts her. Man müsste genügend Vergleichsländer finden, die irgendwas anderes gemacht haben, um zweidimensionale Messwerte zu bekommen.

Man kann mit diesen Daten nicht feststellen, wie die Korrelation von C mit A und B ist, um zu sagen, dass sich beide kompensierten.

Man kann aber sagen, dass wenn es eine Kausalität von A auf C und noch eine von B auf C gäbe, C dann irgendwie wackeln müsste, wenn sich A oder B ändern. Die Annahme, dass in unserer chaotischen Welt A und B rein zufällig so genau zueinander passen, dass sie sich exakt kompensieren und C dann nicht mehr wackelt, halte ich für sehr gewagt.