Ansichten eines Informatikers

Korrelation und Kausalität

Hadmut
13.12.2019 16:34

Wie ich schon so oft sagte: Datenjournalisten sind meist Idioten, die sich denk Denkfehler, Korrelation zur Kausalität zu erklären, zum Beruf gewählt haben.

Ich habe das schon so oft erlebt: Die machen da auf ihren Journalistenkonferenzen solche Kurzeinführungen in Pseudostatistik oder die Statistikprogrammiersprache R, und dann wird da ohne tieferes Verständnis irgendwas rumgepanscht und so lange gefummelt, bis das Ding die Zahlen ausspuckt, die man haben will, und darauf dann ein ein Artikel über Kausalitäten geschrieben.

Dass Statistiken per se erst mal gar nichts über Kausalitäten sagen können, weil sie keine qualitativen Aussagen treffen, verstehen die nicht, und den Unterschied zwischen Korrelation und Kausalität kapieren da auch nur die allerwenigsten.

Schauen wir mal in den Artikel.

Deutschland wird wärmer. Das zeigen Messdaten seit Beginn der Wetteraufzeichnungen 1881. Wie war die Entwicklung bei Ihnen vor der Haustür, in Ihrer Stadt und Gemeinde? ZEIT ONLINE zeigt es mit Wärmestreifen, einen für jedes Jahr seit der Mensch Temperaturdaten sammelt.

Die Frage, mit welcher Genauigkeit und welcher Methodik man 1881 Temperaturen so genau gemessen haben will, kommt nicht auf.

Also wir haben in der Schule irgendwann noch gelernt, wie man Thermometer ablesen muss, weil die Flüssigkeit nämlich oben keine gerade Linie bildet, und zwischen Mitte und Rändern der Flüssigkeit bis zu ein, zwei Grad Ablesefehler bestehen können und die einen mal stets nach unten und die anderen zum näheren hin runden, und dass man Flüssigkeits-Thermometer eigentlich gar nicht genauer als 1 Grad ablesen kann, und selbst das schon sorgfältiger Ablesetechnik bedarf.

Ich würde bezweifeln, dass das 1881 schon so verbreitet war.

Als ich Kind war, waren Quecksilberthermometer noch sehr beliebt, die kamen dann aber aus der Mode, weil zu giftig. Ich hatte als Kind sogar ein altes Minimum-Maximum-Thermometer in einem gebogenen und mit Quecksilber gefüllten U-förmigen Rohr (Erbstück), bei dem die linke und die rechte Seite (min/max) schon um über ein Grad voneinander abwichen. Ein Schätzeisen aus Quecksilber.

Hat eigentlich mal irgendwer berücksichtigt, dass sich Quecksilber und die in neueren Thermometern verwendeten Flüssigkeiten bezüglich der Kapillarität unterschiedlich verhalten? Quecksilber geht an den Glaswänden nach unten, wässrige Flüssigkeiten gehen nach oben. Je nach Ablesetechnik kommt man schon durch die Umstellung der Flüssigkeiten auf ein bis zwei Grad Unterschied.

Wie genau wollen die Thermometerhersteller von 1881 eigentlich ihre Geräte geeicht haben? Wie genau wollten sie die überhaupt eichen? Wer wollte 1881 Temperaturen auf zehntel Grad genau messen? Wie eicht man überhaupt ein Thermometer jenseits der Füllmenge? Die Füllmenge kann bei einer Temperatur stimmen, aber was ist mit den anderen Temperaturen? Skala neu malen? Wie wird die Ausdehnung des Glases berücksichtigt? Und was ist mit dem Luftdruck? Die klassische Eichmethode mit kochendem Wasser hängt vom Luftdruck ab. Nullpunkt? Eis schmelzen und in Eiswasser halten? Theoretisch schön, aber wie sorgt man dafür, dass es keine Schlieren mit Zehntelgradabweichungen gibt?

Das ist alles so total wackelig und willkürlich.

So richtige Journalistendummheit. Irgendwelche Zahlen rumrühren und dann den Weltuntergang draus ablesen.

Wisst Ihr, was ich an der Schule und der Uni noch gelernt habe?

Intervallrechnung

Wenn man eine Messung durchführt, überlegt man sich, mit welcher Genauigkeit man eigentlich gemessen hat, und kommt dann zu der Erkenntnis, dass man keinen präzisen Wert (den manche Leute dann gerne mit vier Stellen hinter dem Komma angeben, weil es eben irgendeine Digitalanzeige mit vier Stellen anzeigt, obwohl zwei Stellen davon rein zufällig sind) angibt, sondern Messert +- Toleranz, also ein Intervall, innerhalb dessen der tatsächliche Wert liegen muss. Und da gibt es dann Rechenregeln, wie man Intervallwerte addiert, subtrahiert und so weiter. Und dann bekommt man als Rechenergebnis ein Intervall und keinen keinen einzelnen Wert.

Im besseren Physikunterricht lernt man „Wer misst, misst Mist”. Und dass man verschiedene Methoden hat, Messfehler zu kompensieren. Beispielsweise misst man nicht Gewicht oder Dicke einer Münze, sondern von zehn oder hundert zusammen, und dividiert dann durch die Zahl der Münzen, weil man dadurch den Messfehler herabsetzt. Geht halt bei Thermometern nicht, liefert aber Erkenntnis, wieviel Temperaturmessungen wert sein können. Ja, klar, ich kann zehn oder hundert Thermometer verwenden und den Mittelwert bilden. Und damit beispielsweise Schwankungen beim Füllstand rausrechnen. Wenn man die aber stets falsch abliest (Oberkante?) oder die einen systematischen Fehler haben, dann rechnet er sich eben nicht raus. Wenn man die alle zu kalt abliest, ist auch der Mittelwert zu kalt.

Wurde mal gefragt, wie sich die Eichung von Thermometern ändert, wenn man den Lieferanten ändert? Wenn die aus China statt aus Deutschland kommen? Oder auch nur das Unternehmen von Vater auf den Sohn übergeht? Wer macht heute noch Thermometer wie 1881? Und wenn nicht, warum sollten die dann das gleiche messen?

Lesen wir mal über Fahrenheit:

Fahrenheit entwickelte seine Temperaturskala nach einem Besuch bei dem dänischen Astronomen Ole Rømer in Kopenhagen. Rømer war der Erste, der ein Thermometer entwickelte, das mit Hilfe zweier Fixpunkte kalibriert wurde. In der Rømer-Skala liegt der Gefrierpunkt des Wassers bei ca. 7,5 °Rø, der Siedepunkt bei 60 °Rø und die durchschnittliche Körpertemperatur eines Menschen bei ca. 26,9 °Rø.

Fahrenheit verwendete demgegenüber als Nullpunkt seiner Skala die tiefste Temperatur, die er mit einer Mischung aus Eis, Wasser und Salmiak (= Ammoniumchlorid) oder Seesalz (Kältemischung) erzeugen konnte: −17,8 °C welche 0 °F entsprechen.[1] Dadurch wollte er in seiner Skala negative Werte vermeiden, wie sie bei der Rømer-Skala bei Temperaturen unter −14,3 °C auftreten.

Als zweiten und dritten Fixpunkt legte Fahrenheit 1714 den Gefrierpunkt des reinen Wassers (Eispunkt) bei 32 °F und die Körpertemperatur eines gesunden Menschen bei 96 °F fest.[2] Allerdings entsprechen 96 °F rund 35,6 °C; dieser Wert liegt, verglichen mit heute üblichen Messmethoden, unterhalb des menschlichen Normaltemperaturbereichs.

Der Nachteil dieser Skala bestand darin, dass mit der verbesserten Genauigkeit von Messungen im 19. Jahrhundert insbesondere der untere und der obere Fixpunkt nicht hinreichend genau reproduzierbar waren. Es wurde damit eine Neudefinition der Skala nötig. Zur Definition einer Temperaturskala benötigt man zum einen nur zwei verschiedene, dafür aber möglichst genau reproduzierbare Temperaturen, zum anderen die willkürliche Festlegung der Einteilung der Temperaturdifferenz in Skalenteile und eines Skalennullpunkts.

Seit den 1860er Jahren, und gesetzlich eingeführt in den Vereinigten Staaten mit dem Mendenhall Order von 1893, versuchte man die hergebrachten Einheiten (customary units) des angloamerikanischen Maßsystems an die Definitionen des internationalen metrischen Systems anzubinden. Seit dieser Zeit war die Fahrenheit-Skala durch die Skala des hundertteiligen Thermometers definiert und hatte damit also als Fixpunkte den Gefrierpunkt (gleich 32 °F) und den Siedepunkt des Wassers (gleich 212 °F). Seit 1948, als das hundertteilige Thermometer in Celsius-Skala umbenannt und neu definiert wurde, ist die Fahrenheitskala indirekt durch die Kelvin-Skala definiert.

Ich würde mal schlicht abstreiten, dass man 1881 in der Lage war, Temperaturen hinreichend genau zu messen, um heute solche Aussagen zu treffen.

Und selbst wenn man solche Messinstrumente gehabt hätte: Ich hatte in Karlsruhe im Sommer auf einer Strecke von kaum mehr als einem Kilometer von der betonierten Innenstadt zur Wohnung im Grünen Temperaturunterschiede von über 5, manchmal fast 10°C. Wie will man eigentlich Messungen vergleichen, wenn sich schon das, was man misst, so verändert hat?

Und was ist mit der Uhrzeit? Wann, zu welcher Tageszeit hat man abgelesen? Ortszeit? MEZ?

Guckt mal:

Mit dem Gesetz betreffend die Einführung einer einheitlichen Zeitbestimmung vom 12. März 1893 (RGBl. S. 93)[1] ist für das Deutsche Reich ab dem 1. April 1893 die mittlere Sonnenzeit des fünfzehnten Längengrades östlich von Greenwich (auch Mitteleuropäische Zeit MEZ genannt) als gesetzliche Uhrzeit festgelegt worden.

Vor der Vereinheitlichung der Zeitbestimmung hatte in jedem Ort die jeweilige Ortszeit gegolten, die sich nach dem örtlichen Sonnenstand richtete. Für die Fahrpläne des sich über größere Gebiete erstreckenden Eisenbahnverkehrs benutzten die Eisenbahngesellschaften die Ortszeit eines Ortes ihres Gebietes als einheitliche Eisenbahnzeit.

Schon mal geklärt, welchen Einfluss Zeitzonen oder veränderte Ländergrenzen (mit anderen Zeitzonen) auf die Temperaturmessung haben?

Woher will man mit damaligen Mitteln eigentlich die genaue Uhrzeit gehabt haben? Oder alle Thermometer pünktlich abgelesen haben, wenn da einer mit dem Pferd oder dem Fahrrad zu einem Thermometer nach dem anderen musste, während das heute elektronisch geht?

Und wo hat man diese Messungen überhaupt vorgenommen?

Ich habe mal einen Diercke-Schulatlas aus der zweiten Hälfte des 19. Jahrhunderts gesehen. Afrika: Nur die Küstenlinie. Ansonsten ein großer weißer Fleck mit der Aufschrift „Größtenteils unerforscht”

Als ob man da Temperaturen in Afrika gemessen hätte. Und jetzt kommen die mit Temperaturmessungen ab 1881 daher.

Gucken wir nochmal in den Text:

In diesem Sommer meinte man den Klimawandel am eigenen Körper zu spüren. Am 25. Juli 2019 wurden im niedersächsischen Lingen 42,6 °C (Grad Celsius) gemessen, mehr als jemals zuvor in Deutschland. An diesem Tag lag die Temperatur deutschlandweit an 25 Messstationen bei mehr als 40 °C. Und es wurden erstmals an drei Tagen in Folge in Deutschland Werte oberhalb von 40 °C registriert. Einzelne heiße Tage wie der 25. Juli lassen sich nur schwer auf den Klimawandel zurückführen. Denn ob es in Deutschland warm ist, ob es regnet oder nicht, hängt von vielen Faktoren ab, etwa von den Starkwinden des Jetstreams, den Meeresströmungen, der Wolkenbildung und nicht zuletzt vom Zufall. Tatsache ist aber: Extremwetterereignisse wie Starkregen, Überschwemmungen oder Tage, die aus dem Rahmen fallen, weil sie ungewöhnlich heiß und trocken sind, kommen immer öfter vor.

Was für ein gequirlter Schrott.

Oben kommen sie mit Zehntel Grad daher, um Genauigkeit zu suggerieren, dann geben sie zu, dass man damit nicht viel machen kann und unten ist man dann bei „ungewöhnlich heiß” und Überschwemmungen.

Was für ein Geblubber.

Einzelne heiße Tage wie der 25. Juli lassen sich nur schwer auf den Klimawandel zurückführen.

Selbst wenn: Dann wären höhere Temperaturen nicht eine Folge des Klimawandels, dann wären sie der Klimawandel. Manchmal hören die sich an wie Eltern, die dem Kind erklären, dass die höhere Körpergröße auf das Wachstum zurückzuführen wäre.

Das ist Rhetorik: Sie sagen, höhere Temperaturen seien auf den Klimawandeln zurückzuführen. Bullshit. Weil höhere Temperaturen der Klimawandel wären und nicht darauf zurückzuführen sind. Damit suggerieren sie aber, eine Kausalität entdeckt zu haben, und schieben einem dann Mensch als Ursache unter, weil als selbstverständlich vorausgesetzt wird, dass der Mensch den Klimawandeln verursacht habe.

2018 war mit einer Jahresdurchschnittstemperatur von 10,5 °C das heißeste Jahr seit Beginn der Aufzeichnungen. 1940 mit 6,6 °C das kälteste.

Toll.

Vergleiche ab 1881 mitsamt Krieg auf Zehntelgrad genau.

Warum nicht gleich auf Hunderstel oder Tausendstel Grad genau?

Und dann machen sie eine Horrorgraphik mit roten und blauen Karten. Warum sagen sie nicht mal was zur Streuung oder Standardabweichung? Ist das normal, dass es mal zwei Grad wärmer und mal zwei Grad kälter ist?

Und was heißt dann überhaupt das?

Die sogenannte Regressionsgerade (rot) nähert sich den Messpunkten am besten an. Statt zufälliger Schwankungen zeigt sich so der langfristige Trend.

So. Eine Gerade. Ist es denn linear?

Durch den Klimawandel steigen die Temperaturen überall auf der Welt. Sie steigen aber nicht überall gleich schnell.

Was für ein Schwachsinn. Noch will man bei der Messung und der Feststellung einer Korrelation sein, da wird schon der Kausalzusammenhang unterstellt. Das ist so richtig dummes Geschwätz.

Wenn es nicht überall gleich schnell steigt, warum dann nicht? Sinkt es vielleicht irgendwo? Oder steigt nicht? Ist es dann überhaupt eine Klimaerwärmung?

In Deutschland und in unseren europäischen Nachbarländern erhöhen sich die Temperaturen schneller. Global ist es in den vergangenen 100 Jahren im Mittel 1 °C wärmer geworden, also etwa um ein halbes Grad weniger als in Deutschland.

Ja, dann würde man doch mal vermuten, dass es da zumindest noch eine weitere, andere Ursache geben müsste.

Oder anders gefragt: Wenn die Temperaturen bei uns um 1,5° angestiegen sind, global im Mittel aber nur um 1°, dann muss es ja auch Gegenden geben, in denen es deutlich weniger als 1° war.

Warum also ist das nicht überall gleich, obwohl sich die Atmosphäre doch ständig durchmischt? Die Luft vermischt sich doch schon in Wochen, erst recht nach 100 Jahren. Müsste die Erwärmung im Mittel über 100 Jahre nicht überall gleich sein? Wenn nein, warum nicht?

Ich habe viele Journalisten erlebt, die sich als „Datenjournalisten” bezeichneten. Und viele Veranstaltungen mit Statistikkursen und Einführungen in R.

Wisst Ihr, wieviele Journalisten ich bisher erlebt habe, die Messfehler, Eichungen, Toleranzen, Intervallwerte, den technischen Stand von heute und von 1881 berücksichtigten?

Gar keinen.