Ansichten eines Informatikers

Von der Haltbarkeit des Digitalen

Hadmut
8.1.2022 14:47

Eine Anmerkung. [Nachtrag]

Zwei Leser hatten Super-8-Filme gerühmt, dass man sie auch dann, wenn das Abspielgerät nicht mehr verfügbar ist, notfalls noch mit der Lupe oder einem Scanner lesen kann. Die 8-Zoll-Disketten seien aber schon nach 40 Jahren nicht mehr lesbar.

Das ist so aber nicht ganz richtig.

Jede Medientechnik brauchte erst mal einige Entwicklungszeit, bis sie sich stabilisiert hatte und dauerhafte Ergebnisse brachte, und das auch nicht immer auf Dauer.

Als ich damals im Uni-Streit und einer anderen Angelegenheit in der Bibliothek (vor allem der Badischen Landesbibliothek in Karlsruhe) alte Zeitschriften wälzte, ob nun die juristischen Journale oder alte SPIEGEL-Ausgaben, fiel mir immer wieder auf, dass nicht nur das Papier immer bräunlicher wurde, je älter es war, teils auch brüchig, sondern dass mir nach einer Viertel- bis halben Stunde die Haut der Hände brannte und sich rötete. Das hörte dann sofort auf, wenn ich in die Toilette ging und mir die Hände gründlich mit Seife wusch. Es ist ein bekanntes Problem, dass das alte Papier aus dem Mittelalter, das man noch aus Holz- und Leinenfasern und sowas herstellte, zwar knapp und teuer war, aber problemlos Jahrhunderte hielt, während das frühe Industriepapier aus dem 20. Jahrhundert nicht säurefrei war und sich selbst zersetzte.

Die Nachwelt wird auch niemals meine Super-8-Filme sehen können, obwohl ich damals kleine Stop-Motion-Filmchen und in London Stadtschwenks gemacht hatte, weil die Filme einfach weg sind. Zu lageraufwendig. Und vor allem: Nicht qualitätsverlustfrei und kostengünstig umzukopieren. Von meinen digitalen Fotos habe ich aber Backups und Dateisysteme mit Prüfsummen, und die auch über die Jahre schon mehrfach auf andere Platten umkopiert.

Man merkt das gerade, dass sich die Digitalfotografie nach einer rasanten Entwicklung langsam stabilisiert, und sich grundsätzlich auch nicht mehr so wahnsinnig viel tun wird, weil wir an der Wahrnehmungsgrenze der Sinnesorgane angekommen sind. Im Gegenteil, wir haben teils sogar rückläufige Auflösungen und Ansprüche. Vor 10, 15 Jahren hat man noch mit hoher Auflösung fotografiert, um Fotos mit hoher Qualität ausdrucken und an die Wand hängen zu können, während es heute reicht, sie auf auf Webseiten zu zeigen. Man merkt das an den Kamera-Modellen, besonders bei Sony und Nikon. Nikon hat zwei bis auf die Auflösung des Sensors völlig identische Kameras (Z6/Z7) auf den Markt gebracht, und die hochauflösende auch ein deutliches Stück teurer gemacht, und damit gerechnet, dass die Leute alle die teure kaufen und die günstigere nur das Spareisen für die ist, die sich die teure nicht leisten können. Und wurde dann dadurch überrascht, dass die Leute weit öfter die billigere kauften, weil „reicht“.

Insofern ist davon auszugehen, dass sich die Datenformate stabilisieren.

Darin liegt auch der Denkfehler des Lesers, der auf die 8-Zoll-Diskette verweist: Er betrachtet nämlich das nämlich wie beim Film, als feste Verbindung zwischen Inhalt und Medium. Und das ist beim Digitalen nicht mehr der Fall. Da haben wir eine Abstraktion zwischen Inhalt und Medium, und im Prinzip hätte man damals – da wusste man das nur noch nicht so genau und hatte noch nicht so die Mittel – alle 8-Zoll-Disketten umkopieren müssen. Eigentlich hätte man Geräte bauen müssen, die 8-Zoll-Disketten auf 5,25- oder 3,5-Zoll-Disketten umkopieren, und Adapter, um die neueren Laufwerke in die Schächte der alten Geräte einbauen zu können, aber so weit war man damals noch nicht, das zu verstehen.

Heute dagegen kommt das schon weitaus häufiger vor, dass man die nächste Generation an die vorangegangene adaptiert.

Das Problem dabei bleibt aber, dass der Mensch in physischem Besitz denkt und nicht in Daten: Er sieht sich als Besitzer der Diskette, und die nicht nur als Gefäß der eigentlich wichtigen Daten.

Das weit größere Problem ist, dass wir mit den Daten auf diesen Disketten nichts mehr anfangen können.

Und das ist etwas, was ich dieser Bundesregierung und vor allem solchen Totalversagern wie der Staatsministerin Dorothee Bär so ankreide: Dass man sich darum überhaupt nicht gekümmert hat, nämlich die langfristige Datenpersistenz. Stattdessen schwafelt sie von Flugtaxis.

Die großen amerikanischen Filmfirmen haben das Problem erkannt. Sie wissen, dass ihr Firmenkapital die vielen alten Filmschätze in ihren Archiven sind, und haben sich überlegt, wie das eigentlich bei den digitalen Filmen so ist. Deshalb werden deren Filme

  • unverschlüsselt und
  • unkomprimiert

in einem ganz einfachen, intuitiven, gut dokumentierten und leicht verständlichen Datenformat gespeichert, damit man das auch in hundert, zweihundert Jahren noch auslesen kann.

An sowas fehlt es hier bei uns aber völlig.

Ich merke das an der alten Korrespondenz meines Vaters, der in seinen Vorlieben schon damals immer recht flatterhaft und volatil war. Mal schwor er auf dieses Textprogramm, dann mal auf ein anderes, folgte gerne solchen Intuitionen, Eingebungen, Moden und Sonderangeboten. Seine Disketten waren alle noch lesbar. Das wäre nicht das Problem, ich habe hier noch ein 3,5-Zoll-Diskettenlaufwerk mit USB-Anschluss. Das Problem ist, dass seine Disketten voller Dateien sind, mit denen man nichts mehr anfangen kann, weil es die Software nicht mehr gibt. Weil man nicht mal erkennen kann, mit welcher Software die überhaupt erstellt wurden. Die hat er nämlich nicht aufgehoben. Im Prinzip hätte man frühzeitig dafür sorgen müssen, dass er nicht nur die Software mit aufbewahrt, sondern auch virtuelle Maschinen erstellen müssen, auf denen noch MSDOS, Windows 3.1 und sowas laufen und die alten Programme installiert sind, damit man die noch laufen lassen kann.

In ein ähnliches, weitaus schwächeres Problem bin ich auch gelaufen.

Ich hatte mich ja jahrelang mit der Uni in meinem Promotionsverfahren gebalgt, und deshalb fast 20 Jahre lang meine Dissertation als bearbeitungsfähige Daten aufbewahren müssen. Was grundsätzlich kein Problem ist, weil in TeX geschrieben. Meine ganzen alten Texte wie Diplomarbeit und so weiter sind auch nach 30 Jahren nicht nur im Originaltext lesbar, sondern können – mit kleineren, aber machbaren Modifikationen – immer noch mit aktuellen TeX-Distributionen produziert werden, und selbst wenn nicht, könnte man sie immer noch im Quelltext lesen. Was mit Word und so weiter eben nicht geht.

In ein Problem bin ich allerdings auch gelaufen:

Ich hatte die Graphiken in den 90er Jahren mit Tgif erstellt. War halt damals State of the Art. SVG gab es noch nicht. Tgif ist als Programm tot, wird lange nicht mehr gepflegt, ist aber noch erhältlich. Ich kann derzeit noch Tgif unter Linux als Paket installieren und die alten Graphiken anzeigen. Ich hatte mir aber mal überlegt, im Rahmen der Datenpflege, die alten Tgif-Graphiken in SVG zu konvertieren. Ich könnte sie als EPS (neu oder aus meinen alten Datenbeständen) nach SVG wandeln, aber das Ergebnis ist nicht gut, weil schon im EPS zu viele Informationen nicht mehr enthalten sind. Also habe ich überlegt (und rudimentär angefangen), ein Konverterprogramm zu schreiben, das direkt TGIF-Dateien nach SVG konvertiert. Das ist aber ziemlich haarig, weil das Format nicht nur nicht dokumentiert ist, sondern sich die Bedeutung einzelner Felder mit jeder der vielen TGIF-Programmversionen ändert. Der Autor von TGIF hatte zwar ein für die damalige Zeit schönes und nützliches Programm erstellt, unter der Haube aber ziemlich rumgesaut, und nie eine klare Definition des Dateiformats. Da steht halt vorne drin, mit welcher Programmversion die Datei erstellt ist, und was die Parameter, die da einfach nur als Liste von Zahlen drinstehen, dann bedeuten, das weiß nur das Programm. Glücklicherweise habe ich noch ein paar Quelltextarchive im Internet finden können, denn so etwas wie ein Github-Archiv mit allen Versionen habe ich da auch nicht gefunden. Und so habe ich denn versucht, zumindest die Elemente, die ich damals tatsächlich mit den tatsächlich verwendeten Programmversionen nachzuvollziehen, was mir auch halbwegs gelungen ist. Die Schraffuren und Musterfüllungen habe ich noch nicht umgesetzt. Das ist aber ein typisches Beispiel für eine Murksherangehensweise, bei der das Dateiformat nirgends spezifiziert ist, außer eben im Quelltext des Programmes, das damit arbeitet, und das das Dateiformat mit jeder Programmversion willkürlich ändert. SVG dagegen ist softwareunabhängig, klar und offen spezifiziert, da kann nicht jeder was rumbasteln, vor allem auf Rückwärtskompatibilität aufgebaut, und vor allem so ausgelegt, dass man es auch ohne Formatspezifikation zumindest lesen und einigermaßen verstehen kann.

Es gibt zu tgif zwar immerhin noch eine Webseite, aber das ist halt alles noch so typisch 90er-Jahre-Frühzeit. Man hätte die vielen Programmversionen durchaus mal in ein großes GIT-Repository zusammenfügen müssen, damit man zumindest mal die verschiedenen Programmversionen noch konzise zusammen hat.

Was natürlich wieder die Frage aufwirft, wie man in 100 Jahren noch GIT-Repositories liest. Das hätte man freilich auch dokumentieren müssen.

Nachtrag: Apropos GIT: Ich habe natürlich über die Jahre meine Sourcen (auch der Dissertation) sowohl im Original aufbewahrt, als auch in die jeweils aktuellen und gepflegten Quelltextversionsverwaltungen konvertiert, von CVS nach SVN und von SVN nach GIT. Was dazu führt, dass ich in meinen GIT-Repositories Commits, also Quelltextversion mit Datumsangaben habe, zu denen es GIT noch gar nicht gab. Hier hat man aber immer sehr darauf geachtet, taugliche Konvertierungsprogramme zu haben, um alte Datenbestände an neue Software anzupassen und mit neuer Software und in neuen Datenformaten weiter verwenden zu können. Ich finde das sehr gut, wie man das da gemacht hat. Vor allem hat hier der Open-Source-Aspekt zu einer langfristigen Verfügbarkeit geführt.