Ansichten eines Informatikers

White-IT – Blöd-IT ?

Hadmut
27.12.2011 13:44

Schon wieder eine neue Variante der Kinderpornographie-Filterung.

Ich dachte eigentlich, daß man vom Scheitern der Kinderpornosperre das ein oder andere (sicherheits-)technische Problem gelernt haben könnte. Die ZEIT berichtet heute darüber, daß jetzt der nächste Politiker damit um die Ecke kommt.

Hinter White-IT steckt das Niedersächsische Ministerium für Inneres und Sport. (Niedersachsen? War nicht Ursula von der Leyen aus Niedersachsen? Steckt die am Ende wieder dahinter? Und überhaupt Niedersachsen: Böse Zungen böser Zyniker könnten ja nun fast den Verdacht äußern, daß solche Filtermethoden, wie sie hier nun vorgeschlagen werden, am Ende gar dazu genutzt werden könnten, unerwünschte Vergangenheitsfotos der Ehefrauen gewisser Politiker aus dem Verkehr zu ziehen…)

Zwei Aspekte sind mir daran schon a priori suspekt: Wenn die Exekutive anfängt Vereine zu gründen, habe ich immer den Verdacht, daß es darum geht, irgendwelches Recht zu umgehen. Und wenn jemand mit einem Logo daherkommt, das eine Anmutung hat, als stünde es für einen evangelischen Kirchentag, wird’s mir auch komisch. Dann geht bei mir die Warnlampe an, daß mir da jemand auf der emotionalen Schiene kommt und daher Schwächen auf der rationalen hat.

Was haben die vor? Schaut man auf deren Webseite in die „Problemanalyse”, dann findet man (nur) das:

„Das Internet hat sich in den letzten Jahren als weltweit nutzbringendes Kommunikationsnetzwerk für Millionen von Menschen bewährt. Mit keinem anderen Medium der Welt lassen sich große Distanzen, kulturelle Unterschiede und nationalstaatliche Grenzen schneller überwinden. Das „Netz der Netze“ als grundsätzlich wertneutrale Technologie ist allerdings auch ein Medium, welches sich Pädokriminelle zu Nutze machen, um kinderpornographische Inhalte feilzubieten, zu tauschen oder gewinnbringend zu veräußern. Die verteilte und überstaatliche Struktur des Internets behindert die effektive Strafverfolgung und begünstigt die Aktivitäten der Pädokriminellen. Der Vorstoß der Bundesregierung zur Sperrung hat gezeigt, dass „Alleingänge“ oft nur punktuell wirken und insbesondere rein technische Maßnahmen bestenfalls am Rande zur Problemlösung beitragen.”

Und das nennen die „Problemanalyse”? Sie wollen ein Problem lösen, das sie selbst nicht greifbar artikulieren können?

Kann man aus diesem Absatz irgendetwas konkretes herauslesen, worum es eigentlich geht? Eigentlich liest sich das ja nur wie das Gekeife seniler Leute, Internet sei alles Mist. Es liest sich wie die Aussage jemandes, der Internet nur vom Hörensagen kennt. Nebulöses Blabla wie „das Netz der Netze”. Heidernei, ist das schlimm. Ein Satz darin stößt mir aber sauer auf: „Die verteilte und überstaatliche Struktur des Internets behindert die effektive Strafverfolgung und begünstigt die Aktivitäten der Pädokriminellen.” Oha. Da stört sich jemand daran, daß das Internet verteilt und überstaatlich ist. Will da etwa jemand zurück zum zentralisierten innerstaatlichen Datennetz wie seinerzeit BTX? Steckt das dahinter?

Ein paar Details dazu findet man immerhin im Artikel der ZEIT: Sie wollen böse Bilder anhand ihrer Hashsummen identifizieren. Mit einer Liste dieser Hashsummen böser Bilder sollen dann Anbieter in der Lage sein, Kinderpornographie auszufiltern.

Der Kontext deutet an, daß es sich dabei wohl um die einschlägigen kryptographischen Hash-Summen handeln dürfte, tatsächlich verbirgt sich das aber hinter dem Produkt „Perkeo++”, an dem wohl irgendwie ein LKA und angeblich in Kooperation das BKA beteiligt sind. Das Manual ist schon ein Lacher:

PERKEO++ ist der Datenscanner zum Aufspüren von Kinderpornographie und Tierpornographie in Datenbeständen jeglicher Art.

Dabei ist es vollkommen gleichgültig, ob es sich bei den zu durchsuchenden Datenträgern um lokale Laufwerke, Netzwerklaufwerke, Proxy-Server, News-Server oder Webspace handelt. PERKEO++ findet illegale Pornographie schnell und zuverlässig. […]

Leistungsmerkmale:

* Extrem hohe Performance. Suchgeschwindigkeiten von mehr als 100 MB/s […]
* Suche in komprimierten Archiven (ZIP, ARJ)
* Suche in News, Webspace, E-Mail, Proxy-Cache
[…]

Installation:

PERKEO++ ist klein und leistungsfähig. Es besteht im wesentlichen aus zwei Dateien: PERKEO bzw. PERKEO.EXE ist das ausführbare Programm. PERKEO.LIB ist die zugehörige Suchlibrary.

Wer so’n Mist schreibt zeigt eigentlich schon, daß er nicht weiß, wovon er redet und Snake Oil verkauft.

Eine Suchgeschwindigkeit von 100 MB/s ohne jegliche Angabe zur verwendeten Hardware oder den verwendeten Daten. Das ist unseriösestes Marketinggeschwätz. Soviel gibt manche Festplatte an Lesegeschwindigkeit nicht her. Und vermutlich dürfte es die CPU zu 100% und schlimmer noch eine Menge Hauptspeicher auslasten, was so manchem Webserver ordentliche Probleme bereiten kann. Wenn mir im professionellen Bereich jemand mit solchen Versprechungen daherkäme, flöge der in der ersten Sichtungsrunde schon raus.

Und die Filterung von E-Mail ist schlichtweg verboten und kriminell. Das ist eigentlich schon Anstiftung zu bzw. Beteiligung an Straftaten.

Und wie genau das mit den Hash-Summen funktionieren soll, sagen sie auch nirgends.

Ich habe da aber so meine Zweifel. Anhand der äußerst spärlichen Informationen klingt das wie einer dieser typischen und immer wieder auftauchenden Lösungsversuche aus der Laiensphäre mit Halbwissen. Der klassische Entwurfsfehler: Man entwirft eine Methode die sich allein am Status Quo orientiert und überhaupt nicht betrachtet, ob sie trivial zu umgehen wäre, wie der Angreifer sie aushebeln könnte. Einerseits unterstellt man den Kinderpornograpieanbieter hohe Kriminalität und vermutet einen Milliardenmarkt, andererseits tut man so, als ließen die sich schon mit primitiven Filtermethoden aus dem Markt drängen, obwohl sie sie leicht umgehen könnten. Darin sehe ich eine der größten Unlogiken, einen der größten Denkfehler in der ganzen Kinderpornofilterei: Daß man die Täter einerseits für so mächtig, organisiert, kriminell und an einem Milliardengeschäft interessiert ausgibt, um die Notwendigkeit von Filtermaßnahmen zu motivieren, sie andererseits aber als so dämlich und motivationslos ausgibt, daß sie sich schon von Filtermethoden einschüchtern ließen, die jedes aufgewecktere Kind umgehen kann. Als ob sich die Mafia vom Drogenhandel abhalten ließe indem man verbietet, Beutel mit weißem Pulver zu transportieren. Irgendwie habe ich da immer den Eindruck, die halten nicht nur die Kriminellen für blöde, sondern auch den Bürger, dem sie das unterschieben wollen.

Die Hashsummen-Methode kann nicht funktionieren (mal unterstellt, sie verwenden kryptographische Hashsummen und haben nicht irgendwas zum Bildinhalt erfunden, was aber aufgrund der von ihnen zugesicherten 100%igen Genauigkeit nicht möglich ist):

Schon rein vom sicherheitstechnisch-methodischen Ansatz her beißt es einen geradezu in die Nase, daß das nicht funktionieren kann, denn zu den größten Fehlern, die man konstruktiv machen kann, gehört, sicherheitstechnische oder kryptographische Primitive (und zu denen gehören die Hash-Funktionen) für etwas zu verwenden oder eine Eigenschaft zu nutzen, für die sie nicht ganz explizit und erklärtermaßen konstruiert und entwickelt wurden. Und dazu gehört eben nicht aus der Vielzahl aller möglicher Nachrichten eine bestimmte Nachricht in allen möglichen Darstellungsformen oder semantisch gleichwertige aber anders dargestellte Nachrichten herauszufiltern. Hash-Summen sind dazu da, um eine Bit-(Zeichen-)Folge mit gewissen Eigenschaften eindeutig zu bezeichnen, so daß es schwer ist, zwei Nachrichten mit der gleichen Hash-Summe oder zu einer Hash-Summe eine passende Nachricht zu finden. Aus einer Nachrichtenquelle eine ganze Klasse von semantisch äquivalenten aber unterschiedlich dargestellten Nachrichten herauszufiltern ist schlichtweg keine funktionelle Eigenschaft von Hash-Summen. So wie man auf einer Kuh nicht fliegen kann weil Fliegen nicht zu den funktionellen Eigenschaften von Kühen zählt.

Und wenn man das Problem daran sieht, sieht man auch unzählige Probleme und Umgehungsmethoden dabei:

  • Das Programm beruht laut seiner Beschreibung darauf, daß es Datei für Datei untersucht. Also eigentlich auf einem technischen Stand von vor mindestens 10 Jahren beruht. Denn das, worauf es abzielt, nämlich Webseiten, Foren usw., beruht bei größeren Anwendungen schon lange nicht mehr auf einzelnen Dateien, sondern auf Datenbanken. Und in denen etwas zu finden, kann ziemlich nicht-trivial sein. Ich weiß von einer IT-Abteilung, die komplett daran gescheitert ist, die Datenbankstrukturen von Microsoft’s Sharepoint verstehen zu wollen und aus einem Sharepoint, in dem irgendwas schiefgelaufen ist und das nicht mehr funktionierte, per SQL irgendwelche Informationen herauszuholen.
  • Wenn jemand 100 Bilder überträgt, überträgt er die einzeln? Nein. Er packt sie in ein ZIP-Archiv. Oder macht einen Powerpoint-Vortrag draus. Oder ein PDF. Das heißt, es genügt nicht, nur die Hash-Summen ganzer Dateien zu untersuchen, man muß auch deren Struktur analysieren und rekursiv absteigen. Sie behaupten, das zu tun.

    Das braucht aber nicht nur höllisch viel Rechenzeit und Speicherplatz, sondern setzt auch enorme Software und die Kenntnis all dieser Strukturen voraus. Und funktioniert trotzdem nicht. Denn die meisten dieser Dateiformate unterstützen eine (wenn auch schwache) Verschlüsselung mit Passwort. Selbst wenn es sich um ein Trivialpasswort handelt, das direkt nebendran dabei steht, genügt das schon, um eine automatische Untersuchung auszuhebeln.

    Davon abgesehen ist das immer ein beliebtes Angriffsziel, mit solchen Archiven kann man herrlichen Blödsinn bauen. Tief verschachtelten Kram zum Beispiel. Oder ein Terabyte Nullen wird mit Run-Length-Coding wunderbar klein und bereitet viel Freude beim Auspacken. Macht mal

    dd if=/dev/zero count=1000 bs=1M | bzip2 > /tmp/datei
    

    Und schon habt ihr in nur 753 Byte Datei in ganzes Gigabyte Nullen eingepackt und da geht noch viel mehr. Mit solchen Fingertricks bringt man die meisten Virenscanner, die das rekursiv auspacken wollen, zur Verzweiflung.

    Davon abgesehen ist es ja im Normalfall schon nicht ganz einfach, jedes Archiv-Format zu dekodieren. Ich bekomme manchmal Krämpfe wenn ich im beruflichen Einsatz sehe, wieviele verschiedene Archivformate es gibt, die man mitunter einfach nicht lesen kann. Und dazu kommt, daß deshalb unglaublich oft Daten in irgendeinem völlig proprietären und unbekannten Format gleich mit der Dekodierungssoftware als .exe zusammengebunden werden (was ich ganz schrecklich finde, aber so ist es nun mal). Wie will man sowas untersuchen?

  • Nahezu jedes Bildformat, insbesondere JPEG, hat genug Platz für beliebige Informationen außerhalb der eigentlichen Bildinformationen. In JPEG-Dateien kann man beliebige Datensegmente zusätzlich unterbringen, außerdem EXIF, IPTC, XMP und eigentlich was man will. Jedes geänderte Bit verändert die gesamte Hashsumme, macht den Filter unwirksam. Man kann also die Hash-Summe eines JPEG-Bildes beliebig oft und auf triviale Weise ändern ohne das Bild selbst zu ändern. In dem Moment, in dem solche Hash-Filter aktiv würden, gäbe es sofort Programme, Browser-Plugins usw. die automatisch an einem JPEG irgendwelche dieser Nebeninformationen verändern, etwa einfach eine Zufallszahl einfügen, um die gesamte Hash-Summe zu verändern. Anbieter von Kinderpornographie wüßten sofort, wie sie das machen müssen, um die Hashsummen ihrer gesammten Archive zu verändern.
  • Auch die Bildinformation selbst kann verändert werden. Hashsummen arbeiten auf Bit-Ebene und nicht auf dem optischen Erscheinungsbild einer Datei. JPEG ist ja bereits selbst schon verlustbehaftet, geht also schon selbst davon aus, daß es zu jedem Bild eine ganze Klasse von Bildern gibt, sich sich zwar bitmäßig unterscheiden, aber für das Auge das „gleiche Bild” liefern. Da kann man beliebig viel ändern. Man muß nur irgendwo ein Pixel von Schwarz 0,0,0 auf 0,0,1 ändern und schon stimmt die Hash-Summe nicht mehr, obwohl man keinen Unterschied sieht. Oder einfach mal JPEG-de- und wieder neucodieren, schon kommt eine völlig andere Datei heraus, obwohl das Bild gleich aussieht.

Der Ansatz mit den Hash-Summen ist technisch gesehen einfach untauglich. Das kann nicht funktionieren. Und das scheinen sie sogar selbst zu wissen, denn sie betonen an mehreren Stellen, daß nur ein einziger Treffer ausreicht, um sich die Sache näher anzuschauen. Also mehr so ein Stochern im Nebel auf gut Glück.

Was die übrigens auch nicht betrachten ist der Aufwand. Schmeißt mal Euren Rechner an und laßt ihn mal die Prüfsummen aller Dateien in Eurem Home-Directory ausrechnen. Na? Das kostet. Rechenzeit, Speicher und Strom – und damit Geld. Man muß nicht nur mehr (schnellere) Hardware vorhalten, man vergeudet auch Energie. Würde mich nicht wundern, wenn da irgendwer um die Ecke käme und hochrechnet, daß die Überprüfung aller in Deutschland im Netz herumfliegenden Bild-Dateien die Leistung von drei Atomkraftwerken verbraucht, die man doch ansonsten einfach dicht machen oder anderweitig einsetzen könnte. Wollten wir nicht unseren CO2-Ausstoß verringern? Ich habe dieses Jahr einiges an Geld ausgegeben um meine Wohnungsbeleuchtung weitgehend auf stromsparende LED umzustellen und habe alte, dicke, laute Computer durch kleine, leise, stromsparende ersetzt oder ergänzt, um meinen Stromverbrauch zu reduzieren. Ein Kumpel von mir hat sich das Dach mit Solarzellen vollgepflastert und arbeitet daran, seinen Stromverbrauch auf die Größenordnung dessen zu reduzieren, was das Dach im Durchschnitt so liefert. Und dann kommen die Polit-Spinner aus Niedersachsen und schlagen vor, im großen Maßstab einfach mal richtig Strom zu vergeuden, indem wir von allen Daten, die im Internet herumfleuchen, die Prüfsummen errechnen, auch wenn das nichts bringt und in 99,99% ergebnislos verläuft. Gut, hat den Vorteil, daß die Leute in den Rechenzentren im Winter nicht so frieren, weil’s da dann schön mollig warm ist.

Letztlich bleibt bei mir der Eindruck, daß es da gar nicht um Kinderpornographie, sondern um Geschäftemacherei geht. Da wird mit viel Tam-Tam eine kommerzielle Software beworben.

Angeblich wurde dabei ja auf dem CCC-Congress gerade ein Vortrag drüber gehalten (seit wann gibt sich der CCC als Werbeplattform für kommerzielle Software her?), aber der Webserver zur Veranstaltung scheint offline zu sein, ich weiß also noch nicht, was da gesagt wurde.

18 Kommentare (RSS-Feed)

HF
27.12.2011 14:25
Kommentarlink

Die typischen Landkarten-Strategen eben:
Wo steht der Feind
Der Feind? Allhier.
Den Finger drauf,
den schlagen wir.
So eine Totgeburt ist “nur” ein wenig Geldverschwendung. Oder kannst Du Dir ein Szenario vorstellen, bei dem aus diesen Anfängen ein ernsthafter Umbau des Netzes nach chinesischem Vorbild wird? Ich “fürchte”, dafür reicht es bei uns nicht mehr, weder wirtschaftlich noch technisch.


dg
27.12.2011 14:44
Kommentarlink

Haha, ARJ. Allein deshalb hast du mit deinen “vor mindestens 10 Jahren” Recht. Und da gibt es noch das “PERKEO erzielt eine Treffergenauigkeit von 100 Prozent.” auf der Supportseite… da fragt man sich, wozu man dann überhaupt einen Support braucht. Aber hey, immerhin ist eine FreeBSD-Version dabei!

Ich vermute da keine große Politik dahinter. Einfach mal wieder ein Versuch einer Institution, die Politik zu überzeugen, daß etwas getan wurde. Ich glaube auch nicht, daß das jemals auf die Provider gesetzlich losgelassen wird. Und wenn, dann findet jemand einen Exploit für das Teil und der Staat sitzt auf einem Berg Schadensersatzansprüche, toll-collect style…


Manuel
27.12.2011 17:14
Kommentarlink

Mal kurz zur Einordnung: Perkeo war ein Heidelberger Zwerg, von dem man sagt, er habe in einer Nacht das gesamte große Weinfass des Heidelberger Schlosses leergetrunken. Vielleicht kann man daher die Systemidee sowie den Namen mit einer durchzechten Nacht erklären…

zur Info: http://de.wikipedia.org/wiki/Perkeo


Chris
27.12.2011 17:47
Kommentarlink

Schon angezeigt?


HF
27.12.2011 17:57
Kommentarlink

Die Treffergenauigkeit von 100% ist bei Verwendung einer guten Hashfunktion leicht zu verstehen. Eine Genauigkeit von 99,9999999% wäre ja eine Hashkollision 🙂


Hadmut
27.12.2011 17:58
Kommentarlink

@HF: Daraus habe ich ja geschlußfolgert, daß sie keine irgendwie geartete Bildvergleichssoftware einsetzen sondern wirklich Hashsummen auf Dateiebene verwenden, weil sie damit eben sicher sein können, die Datei zu treffen, die so schon eingestuft haben.


Chris
27.12.2011 18:11
Kommentarlink

Der Vortrag beim 28C3 ( http://events.ccc.de/congress/2011/Fahrplan/events/4700.en.html , server sind wieder verfügbar) wurde vom Christian Bahls vom MOgIS e.V. gehalten (in dieser Funktion). Daher gehe ich davon aus, dass dieser Verein auch ihnen als Propaganda-Institution der Überwachungs-/Zensurfanatiker aufgefallen ist.

Zur Zip-Bombe: unter http://www.unforgettable.dk/ gibts ne interessante Variante davon (4,5PB auf ca. 40kB „komprimiert“)


Hadmut
27.12.2011 18:18
Kommentarlink

Ja, solche Kompressionsbomben habe ich vor Jahren mal für Sicherheitsuntersuchungen gebastelt, aber meine Notizen verlegt. Man kann da echt hübsche Sachen bauen, wenn das gleich in Software erzeugt oder sogar in den Kompressionsdaten selbst herumfuhrwerkt.

Ich glaube es gab auch mal irgendwelche rekursiven ZIPs, die sich irgendwie selbst enthielten oder sowas.

Mal sehen, obs den Vortrag irgendwann mal zum runterladen gibt.


Arno
27.12.2011 19:15
Kommentarlink

Asd
27.12.2011 20:38
Kommentarlink

Super, wie du das Zeile für Zeile auseinandernimmst – dabei ist bei folgender Zeile sofort klar, dass das nicht geht:

> […] gleichgültig, ob es sich bei den zu durchsuchenden Datenträgern um lokale Laufwerke, Netzwerklaufwerke, Proxy-Server, News-Server oder Webspace handelt.

Das baut darauf, dass das Bildmaterial direkt erreichbar ist, ohne Zugriffskontrolle. Sofort danach fällt auf, dass das Hashsummen-Prüfverfahren ein schlechter Witz ist.

Wenn man bereits Datenträger beschlagnahmt hat und den Scan da laufen lässt, gäbe es immer noch keine Garantie, dass damit sämtliches Material erfasst wird. Somit kann man sich das auch gleich sparen, wenn man sowieso nochmal anders überprüfen muss. Wie geht das eigentlich, darf das verdächtige Material überhaupt jemand anschauen? Müsste es dann nicht mindestens zwei Leute geben, damit man einen Zeugen hat oder so?

Überhaupt ist das sehr schwammig, was denn nun als Kinderpornografie gilt. Angeblich sollen Zeichnungen ebenfalls als Kinderpornografie eingestuft werden können, obwohl es sich um eine Zeichnung handelt. Dazu hab ich jedoch nie etwas Genaueres finden können.


Hanz Moser
27.12.2011 21:30
Kommentarlink

“@HF: Daraus habe ich ja geschlußfolgert, daß sie keine irgendwie geartete Bildvergleichssoftware einsetzen sondern wirklich Hashsummen auf Dateiebene verwenden, weil sie damit eben sicher sein können, die Datei zu treffen, die so schon eingestuft haben.”

Wie denn das?
Wenn der Hash kürzer sein kann als die ursprüngliche Datei muss es dazu auch mehr als eine Datei geben, die ihn erzeugt. Falls das für bestimmte Fälle nicht gilt, dann umso mehr für alle anderen.

Wenn man mit sowas aber nicht nur eine Hand voll Dateien vergleichen will, sondern “das ganze Internet” sind Hashkollisionen aber zu erwarten. Ich bin mir ziemlich sicher, dass es im Internet für jeden möglichen Hashwert eines jeden Hashalgorithmus mindestens ein Bild einer Katze gibt, das ihn erzeugt.

Mit der Software muss man sich also schon Gedanken darüber machen, was Trefferquote heißt. Falsch positive Ergebnisse kann sie nämlich nicht ausschließen.


Hadmut
27.12.2011 22:28
Kommentarlink

@Hanz Moser: Natürlich gibt es für Hash-Summen auch Kollisionen, das ist ja nicht neu und liegt auf der Hand. Aber die Wahrscheinlichkeit eines Zufallstreffers ist sehr gering und es ist fraglich, ob das dann überhaupt ein Bild wäre, das einem Bildformat entspricht.

Es gibt auch Verfahren Bilder zu vergleichen, die sogar dann noch funktionieren sollen, wenn das Bild verändert, verfärbt, gedreht, beschnitten, verrauscht usw. wurde. Und diese Algorithmen haben reale False Positives. Da kann man so eine Behauptung der Kollisionsfreiheit nicht so leicht erheben wie bei normalen Hash-Werten, weil die eben nicht nur wegen der Länge des „Fingerprint” beschränkt sind, sondern systemimmanent noch eine Toleranz haben müssen, während kryptographische Hash-Summen keine systematische Toleranz haben, sondern sie ja gerade eben nicht haben.


Peter Piksa
27.12.2011 21:52
Kommentarlink

Ich stimme ja nicht immer mit Dir überein, Hadmud, aber dieser Artikel hat meine Popcornreserven nahezu erschöpft.

Zu der Software, die sie einsetzen, hat – soweit ich es überblicke – Christian Bahls vom Mogis heute auf dem 28c3 etwas gesagt. Aus seinem Handout zum Vortrag geht hervor, daß sie wohl mit Microsofts PhotoDNA, die auch bei der Gesichtserkennung von Facebook zum Einsatz kommen soll, arbeiten.

Daß der CCC als Werbeplattform für White-IT dient, halte ich aber für ausgeschloßen. Christian Bahls ist als ehrbarer Kämpfer gegen Internetzensur und für “Netzfreiheit” sicherlich daran interessiert, korrigierend auf die Fehlentwicklungen in dem Laden einzuwirken.

Letztlich bleibt bei mir der Eindruck, daß es da gar nicht um Kinderpornographie, sondern um Geschäftemacherei geht. Da wird mit viel Tam-Tam eine kommerzielle Software beworben.

Kann ich ebenso unterschreiben, wie das:

Wenn die Exekutive anfängt Vereine zu gründen, habe ich immer den Verdacht, daß es darum geht, irgendwelches Recht zu umgehen.

PS: Meinen Kommentar zu den Vorgängen findest Du hier

Viele Grüße
Peter


Hadmut
27.12.2011 22:37
Kommentarlink

@Peter Piksa: Oh, danke für den Hinweis. Dann verwenden sie doch sowas. Dann kann man aber eigentlich nicht in Anspruch nehmen, daß es keine False Positives gäbe (was sie ja behaupten). Ich habe mir das mal eben schnell unter http://www.youtube.com/watch?v=y2MeyoUSPjk angesehen.

Erstens hört sich das sehr rechenintensiv an. Zweitens würde ich da durchaus auf False Positives und False Negatives wetten.


Hanz Moser
28.12.2011 0:17
Kommentarlink

@ Hadmut
Die Wahrscheinlichkeit ist >0 und damit können sie auch bei einem Hashverfahren ihre 100% nur erreichen, wenn sie FPs ignorieren. Das macht die Angabe nochmal dämlicher.
Um zu wissen wie hoch die Wahrscheinlichkeit wirklich ist müsste man mal wissen, wie viele Dateien schon per Hash indiziert wurden. Wenn das genug sind kommen da beim Scannen riesiger Bildarchive durchaus nicht ganz irrelevante Wahrscheinlichkeiten raus.

Der Zyniker in mir sagt auch, dass sie größtenteils FPs finden werden. Die Milliardenindustrie versteckt das schon gut genug hinter Bezahlschranken.


Mnementh
28.12.2011 1:09
Kommentarlink

Der Vortrag auf dem CCC kritisiert auch White IT, ist also etwas davon entfernt eine Werbung zu sein. Fefe kommentiert ebenfalls den Zeit-Artikel und Bahls Vortrag: http://blog.fefe.de/?ts=b007245d


Stefan W.
28.12.2011 3:52
Kommentarlink

Die Vermutung der CCC mache Werbung für diese White-IT trifft die Sache wohl nicht so ganz.

Etwas seltsam mutet schon an, dass besagter Mogis mit einem PDF auf der White-IT-Seite auftaucht, und auf dem CCC als Kritiker auftritt – das oben verlinkte Handout klärt die Verhältnisse jedoch.

Meine erste Vermutung, dass die Politik da den Softwarebastler eines Schwagers protegiert, der bekannte Hashcodeverfahren auf Bilddateien anwendet, und aufspringende Konzerne wie Microsoft, IBM, Oracle usw., die da paar Euros spenden, um so zu tun als täten sie was, konnte ich nicht bestätigen. Es ist zwar unklar, was “robuste Hashcodes” sein sollen, aber das Problem scheint den Machern der Software zumindest bewußt, und deren Lösung nicht einfach ein Hashcode über die Bytes der Datei zu sein.


Wolle
28.12.2011 13:46
Kommentarlink

Alles was nicht einfache Hashwerte sind, dauert ja noch länger bzw. erfordert richtig Rechenpower. “Gute” Hashwerte sind auch nicht trivial berechenbar. Wenn da auch noch Semantik(Mustererkennung, Ähnlichkeitsmessung, …) dazu kommt, hat man IMHO verloren. Es gibt auch gar keine brauchbaren Aussagen zu den verwendeten Algorithmen. Letztendlich wieder so etwas wie Sicherheit durch Geheimhaltung. Für mich haben die die XOR-Checksumme neu erfunden. Die geht auch richtig schnell, nur gut ist die nicht. Erinnert auch irgendwie an den Schwachsinn mit dem Vergessen von Bildern(X-pire! oder so). War auch hier Thema: https://www.danisch.de/blog/2011/01/05/idiotische-kryptographie-made-in-germany/

Die Mutter aller Zip-Bomben war IMHO 42.zip(http://www.unforgettable.dk/) und die wurde mir so gegen 2000 das erste mal eingeworfen.