Ansichten eines Informatikers

Frauen, Korrelationen und Kausalitäten

Hadmut
21.2.2016 22:50

Mein Lieblingsthema. Wieder mal. Und immer wieder neu.

Hatten wir’s nicht gerade davon, dass GitHub gerade durchgegendert wird?

Nun kommt eine Studie zu dem Ergebnis, dass bei GitHub Frauen diskriminiert würden. Na, so ne Überraschung aber auch. Wer hätte das geahnt?

Die Studie, auch als PDF (übrigens ausdrücklich als noch nicht peer-reviewed gekennzeichnet, aber meine Meinung von peer review ist eh weit unter Null…), Bericht in deutsch darüber bei Golem. Und BBC. Und der Der Standard.

Sogar Emma berichtet, und macht daraus gleich, dass die Studie ergeben habe, dass Frauen die besseren Programmierer seien. So generell und schlechthin. Und widerspricht sich auch gleich selbst, denn Frauen seien »anerkannter«, die IT-Szene jedoch männerdominiert und frauenunterdrückend. (Frage: Bei wem sind Frauen denn dann »anerkannter« ?) Eine Kommentatorin macht daraus gleich

Tatsache ist, dass es ohne Frauen gar keine Computer gäbe und in der Anfangszeit der Computer diese ausschliesslich von Frauen programmiert wurden. Jedes von Männern dominierte Projekt ist mehr oder weniger vom Optimal Status entfernt. Das liegt schlicht und einfach daran, dass Männer eben generell weniger logisch und analytisch denken können. Das ist eher so eine “Männer-Logik”, die sie haben und diese hat mit der universalen, wissenschaftlichen Logik oft wenig zu tun. Erschwerend kommt hinzu, dass Männer Fehler nicht eingestehen und daraus dann auch nichts lernen. Frauen fehlt wiederum oft das Selbstwertgefühl, weil sie oft in Männer so eine Art Generalvertrauen haben. Deshalb lassen sich Frauen leichter abdrängen und sind nicht so präsent. Insider wissen längst, dass eine Frau bei technischen Problemen immer schneller die besseren Entscheidungen trifft als ein Mann.

Klar. Ohne Frauen gäb’s keine Computer und Frauen können logischer und analytischer denken. Hahaha. (Deshalb widersprechen sie sich ja auch ständig und fordern in den Gender Studies die Abschaffung von Logik und Widerspruchsfreiheit, weil die ein manngemachtes Werkzeug zur Frauenunterdrückung sei.)

Muss ja ne tolle Studie sein. Schaun wir mal rein.

In 2012, a software developer named Rachel Nabors wrote about her experiences trying to fix bugs in open source software. Nabors was surprised that all of her contributions were rejected by the project owners. A reader suggested that she was being discriminated against because of her gender. Research suggests that, indeed, gender bias pervades open source. The most obvious illustration is the underrepresentation of women in open source; in a 2013 survey of the more than 2000 open source developers who indicated a gender, only 11.2% were women.

Da hätte man eben mal ihre Bugfixes anschauen müssen. Vielleicht waren die ja allesamt Murks. Sie oder jemand gleichen Namens unterhält bei Github mehrere Repositories, aber nach Programmierkunst sehen die alle nicht aus. Scheint sich mehr auf Comic-Zeichnen zu verstehen und das Ziel zu verfolgen, Benutzerschnittstellen durch Comic-Animationen zu verschönern. Ich bekomme da so eine entfernte Ahnung, was die vielleicht unter Bugfix so versteht.

Und wie immer bei feministischen Statistikexperten wird eine Koninzidenz direkt politisch als Kausalität gelesen. Sie ist Frau und ihre Änderungen wurden abgewiesen, also muss es daran liegen, dass die was gegen Frauen haben. Deshalb gäbe es auch weniger Frauen in der IT, weil die anderen Kinder die eben nicht mitspielen lassen.

This article presents an investigation of gender bias in open source by studying how software developers respond to
pull requests, proposed changes to a software project’s code, documentation, or other resources. A successfully accepted, or ‘merged,’ example is shown in Figure 1. We investigate whether pull requests are accepted at different rates for self-identified women compared to self-identified men. For brevity, we will call these developers ‘women’ and ‘men,’ respectively. Our methodology is to analyze historical GitHub data to evaluate whether pull requests from women are accepted less often.

Das heißt, sie zählen einfach aus, wieviele Requests akzeptiert wurden, scheren sich aber überhaupt nicht darum, was Inhalt und Qualität der Änderungen war und warum sie abgelehnt wurden.

Es ist halt wie immer: Eine Korrelation ist noch keine Kausalität. Sowas muss man genauer untersuchten. Genauso gut (oder falsch) könnte man sagen, dass damit der Beweis erbracht wäre, dass Frauen schlechter programmieren können, denn ihre Bugfixes taugten ja nichts.

The main contribution of this paper is an examination of gender bias in the open source software community, enabled by a novel gender linking technique that associates more than 1.4 million community members to self-reported genders. To our knowledge, this is the largest scale study of gender bias to date.

Das sind dann sowieso immer die schönsten Studien, bei denen vorher schon feststeht, was das Ergebnis ist, und es nur noch darum geht, eine Begründung zu finden.

Unklar ist dabei auch, wieso sie eigentlich Github Pull Requests mit Programmieren gleichsetzen. Denn viele – vor allem feministisch motivierte – Frauen kümmern sich nicht um den Code, sondern um irgendwelche Texte, Übersetzungen, oder vielleicht Änderungen an User Interfaces, die aber eben auch nicht immer jedem gefallen. Funktionale Sachen sind da eher selten.

Gerade das sind aber typisch feministische Angriffspunkte, die wenig Sachkunde und Programmierfähigkeiten erfordern, einfach die Texte und Manuals auf political correctness zu trimmen und durchzugendern. Hat mit Programmieren nichts zu tun und wird natürlich oft abgelehnt.

Schöner Beleg: Der Screenshot auf Seite 3. Da wurden nur Textänderungen eingecheckt. Offenbar haben die Macher der Studie gar nicht beachtet, was eigentlich geändert wurde.

Auch hier kann man wieder Korrelation und Kausalität umdrehen um zu zeigen, wie fehlerhaft es ist, aus Korrelationen Kausalitäten willkürlich zu folgern: Die Studie hat gezeigt, dass Frauen sich öfter als Männer mit nicht akzeptablen und nutzlosen Bereichen befassen und damit schlechter performen und somit Geld vergeuden. Problem verstanden?

A substantial part of activity on GitHub is done in a professional context, so studies of gender bias in the workplace are relevant. Because we cannot summarize all such studies here, we instead turn to Davison and Burke’s meta-analysis of 53 papers, each studying between 43 and 523 participants, finding that male and female job applicants generally received lower ratings
for opposite-sex-type jobs (e.g., nurse is a female sex-typed job, whereas carpenter is male sex-typed) (5).

Das ist auch geil: Die Studien 1 bis n haben bereits gezeigt, dass IT-Profis Sexisten sind, und das sind so viele, dass wir die gar nicht alle zitieren können, aber wenn’s so viele sind, dann müssen die da Recht haben, so dass wir das einfach übernehemen. Und *schwups* hat die Studie n+1 neu bewiesen, dass Männer Sexisten sind. Weil, das ist die Beweistechnik, wenn es schon in den Studien 1 bis n stand, dann muss es in der Studien n+1 natürlich auch stehen. Wisst Ihr, wie man das nennt? Vollständige Induktion. Damit ist bewiesen, dass in allen Studien stehen muss, dass Männer Sexisten sind, ohne jede Betrachtung der Realität. Einfach weil’s schon in allen anderen Studien so stand. So funktioniert heute Wissenschaft.

Und dementsprechend wird dann auf Seite 4 ohne jegliche Betrachtung von Github einfach gefolgert, dass Github sexistisch sei, einfach weil andere Studien bei anderen Dingen das auch schon so gesehen haben wollen. Das alte feministische Prinzip: Nicht prüfen, sondern zitieren. Wenn es einem passt und es schon jemand behauptet hat, dann muss es stimmen. Es stimmt immer alles, was einem in den Kram passt. Das ist Wissenschaft.

Our main research question was To what extent does gender bias exist among people who judge GitHub pull requests?

To answer this question, we approached the problem by examining whether men and women are equally likely to have their pull requests accepted on GitHub, then investigated why differences might exist. While the data analysis techniques we used were specific to each approach, there were several commonalities in the data sets that we used, as we briefly explain below and
in more detail in the Material and Methods appendix.

Dazu müsste man erklären, wie man das von allen anderen möglichen Ursachen isoliert.

GitHub does not request information about users’ genders. While previous approaches have used gender inference (2,3), we took a different approach – linking GitHub accounts with social media profiles where the user has self-reported gender. Specifically, we extract users’ email addresses from GHTorrent, look up that email address on the Google+ social network, then, if that user has a profile, extract gender information from these users’ profiles. Out of 4,037,953 GitHub user profiles with email addresses, we were able to identify 1,426,121 (35.3%) of them as men or women through their public Google+ profiles. We are the first to use this technique, to our knowledge.

Das ist doch schon mal gequirlte Scheiße.

Denn damit betrachtet man eine Teilmenge, nämlich die, die einen Googe+-Account haben und dort ihr Geschlecht angeben. Und damit eine sicherlich nicht repräsentative, vermutlich ohnehin eine minderbegabte Teilmenge. Je technikaffiner Leute sind, desto weniger neigen sich zu solchen Mätzchen wie Google+.

Quizfrage: Wenn sie an den Pull-Requests nicht sehen konnten, ob die Änderung von Männlein oder Weiblein kamen, sondern in Google+ suchen mussten, woher sollten dann die, die einen Pull Request ablehnten oder annahmen, wissen, ob sie es mit Männchen oder Weibchen zu tun hatten? Wenn nämlich das Wissen über das Geschlecht des Einsenders die Entscheidung beinflussen soll, müsste man klären, woher der Entscheider das überhaupt wissen soll. Sie beantworten die Frage später damit, dass manche Leute gender-neutrale und manche geschlechtsgekennzeichnete Github-Profile haben. Ob die Leute da tatsächlich draufgeguckt haben…

We hypothesized that pull requests made by women are less likely to be accepted than those made by men. Prior work on gender bias in hiring – that women tend to have resumes less favorably evaluated than men – suggests that this hypothesis may be true.

Tolle Wurst. Sie fragen nicht ob, sondern hypothetisieren einfach und suchen nach Belegen.

Da muss ich immer an die berühmte Karrikatur von John Trever denken, die diesen Denkfehler exakt beschreibt.

Bemerkenswerterweise kommen sie anhand des Zahlenmaterials zum entgegengesetzen Ergebnis, es stimmt gar nicht. Trotzdem die gleiche Schlussfolgerung daraus: Frauen werden unterdrückt. Weil das als Ergebnis ja Ziel der Studie war. Ergebnis steht fest, es geht nur drum, einen Begründungsweg zu finden.

. If we exclude insiders from our analysis, the women’s acceptance rate (64.4%) continues to be significantly higher than men’s (62.7%)

Aber bei was? Neue Programmfunktionen, Bug fixes oder Schreibfehler in der man-seite? Deutet sowas nicht zunächst darauf hin, dass deren changes kleiner oder trivialer sind?

Man müsste es halt mal untersuchen. (Tatsächlich haben sie die Größe und auch die Art untersucht, dazu weiter unten.)

Perhaps only a few highly successful and prolific women, responsible for a substantial part
of overall success, are skewing the results. […] We notice that women tend to have a bimodal distribution, typically being either very successful (>90% acceptance rate) or unsuccessful (<10%).

Wie süß. Man will unbedingt beweisen, dass Frauen unterdrückt werden, und wenn die Daten das nicht hergeben, dann muss darin eine Fehlerquelle liegen, die herauszurechnen ist, damit das gewünschte Ergebnis herauskommt.

Warum sieht man eignetlich die befähigten Frauen als Fehlerquelle an?

Müsste man nicht genauso daraus folgern, dass da auch völlig unfähige Frauen unterwegs sind, die den Ruf versauen?

Und ist nicht das genau das Problem? Wenn es, wie sie selbst sagen, bei Frauen zwar positiv-, aber auch negativ-Ausreißer gibt, dann heißt das doch, dass Changes von Frauen objektiv mit einem besonderen Risiko behaftet sind.

Damit ergibt sich sofort ein anderer enormer Fehler: Das Simpson Paradoxon.

Denn mit diesen Voraussetzungen kann man gar keine Statistik über »Frauen« mehr machen, weil man damit immer eine unzulässige Zusammenfassung begeht und wichtige Merkmale zugunsten unwichtigerer rausrechnet. Und das führt bekanntlich zu katastrophalen Fehler und Fehldeutungen.

Spätestens ab dieser Stelle kann man nicht mehr von »Frauen« reden, sondern müsste befähigte und unbefähigte, nämlich die mit 10 oder 90 Prozent, getrennt betrachten. Der typische feministische Rechenfehler, mit dem alles geht.

What makes a contribution “needed” is difficult to assess from a third-party perspective. One way is to look at which pull requests link to issues in projects’ GitHub issue trackers. If a pull request references an issue, we consider it to serve a more immediate, recognized need than an otherwise comparable one that does not. To support this argument with data, we randomly selected 30 pull request descriptions that referenced issues; in 28 cases, the reference was an attempt to fix all or part of an issue. Based on this high probability, we can assume that when someone references an issue in a pull request description, they usually intend to fix a real problem in the project.

Nöh.

Denn wie wir ja kürzlich beim Thema “Code of Conduct” gesehen haben, werden aus feministischer Richtung flächendeckend Bug Reports lanciert, die das Fehlen feministischer Regeln als Fehler anzeigen, um dann den Code of Conduct als »Bugfix« unterzujubeln. Und das in großem Maßstab. Das versaut nicht nur jede Statistik, sondern es zeigt auch, dass man im Zusammenhang mit dem Geschlecht nicht einfach so Rückschlüsse ziehen kann, weil ein Change mit einem Issue in Verbindung steht.

Zur Größe von Changes sagen sie

For all four metrics of size, women’s pull requests are significantly larger than men’s (Wilcoxon rank-sum test, p < =: 001). [...] women make pull requests that add and remove more lines of code, modify more files, and contain more commits.

Da hätte mich jetzt mal die Ursache interessiert. Denn das ist ein Hinweis, dass Frauen irgendwas anderes einchecken als Männer, dass sich das inhaltlich irgendwie unterscheidet.

Solche Effekte könnten aber schon entstehen, wenn man sich auf die localization, also die Übersetzung von Texten in verschiedene Sprachen, Man-Seiten usw. beschränkt. Kurioserweise kann man sowas schon mit geringsten Änderungen erreichen. Denn wenn man am Anfang eines Absatzes ein Wort einfügt und der Texteditor den Umbruch durchschiebt, gelten aus Sicht von Git alle Zeilen als geändert, auch wenn man nur ein einzelnes Wort einfügt. Solche Beobachtungen würden also zwingend dazu führen, dass man sich die Changes anschaut, ob da jemand wirklich so viel programmiert hat oder einfach nur Texte geändert hat.

Tatsächlich stellen sie dazu Untersuchungen an, aber nur anhand der Dateiendungen. Sie wollen nur Turing-fähige Sprachen betrachten. Auch hier ist die Akzeptanz der Changes von Frauen deutlich höher. Da hätte mich dann wirklich mal sehr interessiert, was da eigentlich geändert wurde.

Aber: Bedenkt man feministische Strategien, dann wäre sowas auch zu erreichen, indem man Variablennamen gendert. Oder Einrückungen korrigiert. Oder Kommentare umarbeitet.

Dabei wäre es eigentlich nicht schwierig gewesen, die Änderungen automatisiert danach zu untersuchen, ob sie Kommentarbereiche, Bezeichnernamen oder wirklich Programmstrukturen betreffen.

Und was überhaupt mal der Brüller gewesen wäre: Danach zu fragen, warum etwas abgelehnt wurde. Vielleicht gab’s dafür ja triftige Gründe.

Dann vergleichen sie die Akzeptanzrate von Frauen, die sich als Frauen zu erkennen geben mit solchen, die das nicht tun:

Figure 5 shows the acceptance rates for men and women when their genders are identifiable versus when they are not, with pull requests submitted by insiders on the left and pull requests submitted by outsiders on the right. For insiders, we observe little evidence of bias when we compare women with gender-neutral profiles and women with gendered profiles, since both have about equivalent acceptance rates. This can be explained by the fact that insiders likely know each other to some degree, since they are all authorized to make changes to the project, and thus may be aware of each others’ gender.

For outsiders, we see evidence for gender bias: women’s acceptance rates are 71.8% when they use gender neutral profiles, but drop to 62.5% when their gender is identifiable. There is a similar drop for men, but the effect is not as strong. Women have a higher acceptance rate of pull requests overall (as we reported earlier), but when they’re outsiders and their gender is identifiable, they have a lower acceptance rate than men.

Massiver Doppelfehler: Erstens schlägt das Simpson-Paradoxon zu, zweitens Korrelation für Kausalität gehalten.

Denn oben sagen sie ja selbst, dass Frauen nicht homogen sind, sondern charakteristisch in sehr gute und sehr schlechte zerfallen. Die hätte man getrennt betrachten müssen. Denn vielleicht liegt die Korrelation mit dem Profil daran, dass die ihr Profil unterschiedlich darstellen.

Vielleicht ist den Frauen, die gut programmieren, der ganze Geschlechterquatsch zu doof und sie schreiben das nicht rein, während umgekehrt all die doofen Feministinnen, die nichts können, aber sich wichtig tun wollen und zu Github rennen, weil es wieder mal darum geht, irgend einen Männerclub zu überrennen, weiblich betonte Profile haben. Das liegt ja sogar nahe, denn erfahrensgemäß äußern die sich generell in allem unterschiedlich.

Was also, wenn einfach die Befähigung mit der Profil-Darstellung korreliert und die Korrelation zwischen Annahme und Profil nur eine Scheinkorrelation ist?

Bemerkenswerterweise versuchen sie dann verschiedene Theorien, wie die Ergebnisse zustandegekommen sein könnten:

Another theory is that women in open source are, on average, more competent than men. This theory is consistent with observations 1–5. To be consistent with observation 6, we need to explain why women’s pull request acceptance rate drops when their gender is apparent. An addition to this theory that explains observation 6, and the anecdote describe in the introduction,
is that discrimination against women does exist in open source.

Assuming this final theory is the best one, why might it be that women are more competent, on average? One explanation is survivorship bias: as women continue their formal and informal education in computer science, the less competent ones may change fields or otherwise drop out.

Das heißt, sie haben das gar nicht geprüft, sondern nehmen es einfach an, weil es ihnen am besten gefällt.

Und obwohl die Zahlen das nicht tragen: Denn sie sagen ja selbst, dass Frauen höher als Männer akzeptiert würden, wenn der Name/Geschlecht unbekannt ist, aber schlechter, wenn er bekannt ist. Daraus folgern sie einfach, Frauen wären besser, und würden dann eben diskriminiert.

Und aus diesem Schrott wird dann in der Presse gefolgert, dass Frauen besser programmieren können als Männer.

Was für ein Quatsch.

Haben die ein Glück, dass ich nicht ihr Peer Reviewer bin.