01 - Backup is key
Da sie vergessen hatten den Schlüssel mitzunehmen, mussten sie ein weiteres Jahr physischer Strapazen erleiden.
Ein Forscherteam arbeitete über ein Jahr lang an einer großen Studie im Bereich Physik. Im Laufe des Jahres wurden in langen und zeitaufwändigen Prozessen viele Terabyte an Videodaten von Mikron-Mustern erzeugt. Die Videos wurden systematisch beschriftet und die experimentellen Informationen, die für die Interpretation der Daten in anschließende Analysen notwendig sind, in einer Excel-Datei (Schlüsseldatei) gespeichert. Während die Videodateien in einem langwierigen Prozess in mehreren Instanzen regelmäßig gesichert wurden, war die Sicherung der Schlüsseldatei weit weniger ausgereift.
Als der verantwortliche Doktorand eines Tages seinen Rechner aufräumte, löschte er versehentlich die Datei. Wiederherstellungsversuche schlugen fehl und die Arbeitsgruppe wurde um rund 1 Jahr zurückgeworfen. Ohne den experimentellen Kontext zu den Videodateien war die gesamte Arbeit sinnlos, im wörtlichen Sinne.
Die Story zeigt, dass ein Datenmanagementplan (DMP) von Anfang an sinnvoll ist. Er identifiziert sowohl die zu sichernden Datenmengen als auch ihre Relevanz im Forschungsprozess. Der DMP verhindert somit (hoffentlich), dass zentrale Dateien bei der Sicherung übersehen werden, weil sie im Vergleich zu anderen ein geringes Volumen aufweisen und ihre Sicherung damit vergleichsweise trivial wirkt.
Quelle:
- persönliche Kommunikation
02 - Seltsam, Preise haben Geburtstag
Sie konnte ihre Kostenanalyse einfach nicht beenden, da ihr immer wieder Geburtstage dazwischenkamen.
Beim Versuch eine Kostenanalyse zu erstellen, war die zuständige Mitarbeiterin überrascht als in ihrer Tabelle immer wieder abwegige Ergebnisse am Ende ihrer Berechnungen standen. Nach kurzer Recherche war klar, dass beim Import der CSV-Datei für die Nutzungsstatistik elektronischer Medien in Excel aus den Preisen automatisch Datumsangaben gemacht wurden. Nutzungsstatistiken für elektronische Medien werden typischerweise als CSV-Dateien ausgeliefert. Werden diese in den Grundeinstellungen in eine Excel-Datei importiert, werden Preise teilweise in Datumsangaben umgewandelt, obwohl dies nicht gewünscht ist. Das verhindert dann in der Folge eine sinnvolle Interpretation der Nutzungsdaten insgesamt. So lassen sich z.B. keine durchschnittlichen Nutzungskosten mehr berechnen, wenn ein Teil der Preise nicht ausgelesen werden kann.
Das Beispiel zeigt, dass beim Import von Daten in Tabellenkalkulationsprogramme sorgfältig auf die korrekte Formatierung der Zellen geachtet werden muss, da es sonst zu automatischen Formatierungsänderungen kommen kann.
Quelle:
- persönliche Kommunikation
03 - Verlorenes Spielzeug
Nur durch die Geburt eines unschuldigen Kindes konnte die Beziehung von Woody und Cowgirl Jessi auf Film festgehalten werden.
Das Unternehmen Pixar konnte nur knapp verhindern einen großen Teil der Daten für den Film Toy Story 2 zu verlieren. Jemand nutzte versehentlich das Kommando "rm *" (non geek: "remove all" - entferne alles) und löschte damit sämtliche Dateien des Projektes. Unglücklicherweise funktionierte das automatische Backup nicht wie es sollte und die letzte Sicherung lag 2 Monate zurück. Durch einen glücklichen Zufall gab es eine halb-private Arbeitskopie der technischen Direktorin. Diese hatte ein Baby zuhause und hatte den ganzen Film auf ihren Computer transferiert, um im Homeoffice arbeiten zu können. Nach einer sehr vorsichtigen Fahrt zu ihrem Haus und zurück zu Pixar war klar, dass die Daten größtenteils gerettet werden konnten.
Das Beispiel zeigt, dass selbst bei State of the Art Backups Datenverluste auftreten können, wenn mehrere unglückliche Zufälle zusammenkommen. Eine gute Grundlage für das sichere Speichern von Daten bietet die 3-2-1 Regel. Danach sollen Daten an drei verschiedenen Orten auf mindestens 2 verschiedenen Speichermedien gesichert werden, wobei einer der Speicher an einem externen Ort sein sollte. Zudem sollten regelmäßig Tests auf die Effektivität des Backups vorgenommen werden. Praktisch wird das umgesetzt, indem zu zufälligen Zeitpunkten zentrale Dateien aus dem Backup mit den Originalen verglichen werden.
04 - The Sound of Silence
Als er nach langer Zeit in seinen Raum zurückkehrte, war keine Musik mehr zu hören.
2019 gab die Plattform MySpace bekannt, dass sie bei der Migration der Daten auf einen neuen Server einen Großteil aller Musik-, Bild- und Videodaten verloren hatte, die zwischen 2003 und 2015 hochgeladen wurde. Nach Angaben von MySpace gab es für die verlorenen Daten kein Backup. Die Onlineplattform war zu Beginn vor allem für Musiker gedacht, um dort ihre Werke zu präsentieren und umfasste mehr als 50 Millionen Musikstücke. Darunter auch frühe Arbeiten von Künstlern, die auf MySpace ihre Karriere gestartet hatten. Insbesondere für ältere Beiträge gab es oft keine lokalen Kopien bei den Nutzern, da sie sich auf den Speicher in der Cloud verlassen hatten. Somit sind die Werke möglicherweise für immer verloren.
Das Beispiel zeigt sehr gut, dass es immer sinnvoll ist Dateien an mehr als einem Ort zu verwahren. Eine gute Grundlage für das sichere Speichern von Daten bietet die 3-2-1 Regel. Danach sollen Daten an drei verschiedenen Orten auf mindestens zwei verschiedenen Speichermedien gesichert werden, wobei einer der Speicher an einem externen Ort sein sollte.
05 - Aus allen Wolken gefallen
Nachdem seine Kollegen zusammen in die Wolken gestarrt hatten, blicken sie ihn finster an.
Eine Gruppe von Studierenden arbeitete am Ende des Semesters an einem Abschlussbericht für eine Lehr-veranstaltung. Das Dokument wurde gemeinsam in einem iCloud Drive bearbeitet und stand kurz vor der Fertigstellung. Einer der Studierenden löschte den Bericht in dem Glauben, dass es sich dabei um einen alten Entwurf handelte. Zu dieser Zeit gab es keine Funktion zur Wiederherstellung von Daten und die Gruppe musste den Bericht von Grund auf neu schreiben. Es ist nicht überraschend, dass die restlichen Mitglieder der Gruppe in dieser Zeit nicht unbedingt gut auf ihren Kommilitonen zu sprechen waren.
Das Beispiel zeigt sehr gut, dass die Speicherung an nur einem Ort nicht ausreicht, um eine sichere Aufbewahrung der Daten zu gewährleisten. Generell sollten Daten nach der 3-2-1-Regel gesichert werden. Dementsprechend sollte es mindestens 3 Kopien der Daten auf 2 verschiedenen Speichermedien geben, wobei eine davon an einem externen Ort verwahrt werden sollte. Außerdem sollte man bei der gemeinsamen Arbeit in einem zentralen Speicherort besonders umsichtig beim Entfernen von Dateien sein.
- persönliche Kommunikation
06 - Gen-Datierung
Die Metaanalysen legen nahe, dass der 2. September für die Funktion von Zellen eine entscheidende Rolle spielt.
Werden Dateien in Tabellenkalkulationssoftware (wie z.B. Microsoft Excel) unter Verwendung der Standardeinstellungen importiert oder eingetragen, werden Einträge in Zellen teilweise automatisch neu formatiert.
Bereits 2004 wurde in einer Studie festgestellt, dass dieser Fehler auch häufig in wissenschaftlichen Veröffentlichungen in Tabellen mit Genbezeichnungen zu finden ist. Die Namen werden dabei entweder in ein Datum oder in Gleitkommazahlen umgewandelt. Diese Änderung der Formatierung ist irreversibel: die ursprüngliche Information zu den betreffenden Genen geht vollständig verloren.
Eine neuere Studie aus dem Jahr 2016 zeigte, dass dieses Problem immer noch aktuell ist und bisher keine standardisierten Lösungen für das Problem bestehen. Etwa 20 % der untersuchten Artikel aus anerkannten Journalen zum Thema Genomik enthielten Fehler in den Namen der Gene in Tabellen. Ein Beispiel ist das SEPT2 (Septin 2) Gen, das eine wichtige Rolle für die Funktion des Zellskeletts spielt und in Tabellen schnell zum 2. September geändert wird.
Da die Daten solcher Studien für die wissenschaftliche Gemeinschaft eine wichtige Ressource darstellen und häufig wiederverwendet werden, ist der Informationsverlust sehr problematisch. Ein Sprecher von Microsoft kommentierte die Ergebnisse der Studie mit dem Hinweis: „Excel is able to display data and text in many different ways. Default settings are intended to work in most-day-to-day scenarios”. Dementsprechend ist die Aufzeichnung wissenschaftlicher Daten, wie z.B. Gennamen, keine alltägliche Aufgabe für viele Tabellenkalkulationsprogramme und muss entsprechend aufmerksam durchgeführt werden.
Das Beispiel zeigt, dass es bei der Verwendung von Tabellenkalkulationsprogrammen wichtig ist auf die entsprechende Formatierung der Zellen zu achten und die richtige Übertragung der Inhalte sorgfältig zu überprüfen.
07 - Auf dem falschen Fuß erwischt
Als das Schiff in den Fluten versinkt, betrachten die Zimmermänner sorgenvoll ihre Füße.
Die schwedische Galeone Vasa stellte ein Prestigeprojekt des Schwedischen Königs Gustav II. Adolf dar und zählte zu den größten Kriegsschiffen ihrer Zeit. Am 10. August 1628 versank sie bei ihrer Jungfernfahrt nach nur etwa einem Kilometer auf See. In einer Untersuchung zur Ursache und einem anschließenden Prozess konnte zwar festgestellt werden, dass das Schiff über eine unzureichende Stabilität und eine zu geringe Breite verfügte, aber es konnte kein Hauptschuldiger verurteilt werden.
Archäologen haben mittlerweile herausgefunden, dass die Verwendung unterschiedlicher Längenmaße zu dem Unglück beigetragen hat. Zwar wurde bei der Planung des Schiffes alles in Fuß angegeben, aber diese Angabe war zu jener Zeit nicht standardisiert. So verwendete eine Gruppe von Zimmermännern Maßbänder in „Schwedischen Fuß“ während die andere „Amsterdam Fuß“ benutzte. Die beiden Maße unterscheiden sich zwar nur um einen Zoll, aber auf die Gesamtlänge von 69m ergeben sich dabei deutliche Ungenauigkeiten.
Das Beispiel zeigt sehr gut, wie wichtig die Verwendung von gemeinsamen und gut definierten Standards für die erfolgreiche Durchführung von Projekten sowie die Vergleichbarkeit und Nachvollziehbarkeit ist.
08 - Babylonische Verwirrung
Haben Sie einen japanischen Namen? Fürchten Sie um Ihre Reputation.
Am 1. Januar 2020 rollte eine kleine lexikalische Revolution durch Japan. Eine neue Verordnung bestimmt, dass offizielle Dokumente die Reihenfolge der Namen des japanischen Volkes umkehren sollten, wenn sie im lateinischen Alphabet gerendert werden. Bisher wurden beispielsweise in englischen Dokumenten japanische Namen mit dem Vornamen zuerst geschrieben und somit die westliche Praxis verwendet. Von nun an wird der Familienname an erster Stelle stehen und, um jede Mehrdeutigkeit zu verbannen, vollständig kapitalisiert. Damit sind die japanischen Namenskonventionen dann für japanische und fremde Zeichen identisch, zum Preis eines Bruchs mit der bis dahin gültigen Transkriptionspraxis. Die Folge im akademischen Leben könnte eine höhere Zahl von übersehenen Zitaten und damit ein relativer Reputationsverlust japanischer Autoren sein bis sich die Anbieter der entsprechenden Metriken und, noch wichtiger, die Zitierenden an die neue Konvention gewöhnt haben.
Das Beispiel zeigt, dass es immer günstig ist über einen persistenten Identifikator (PID) zu verfügen, um derartige Probleme zu umgehen. Für Personen gibt es hier zum Beispiel die unabhängig vergebene ORCID oder die über Thompson Reuters vergebene ResearcherID. Werden diese PIDs zitiert, dann erfolgt unabhängig von geänderten Nameskonventionen eine korrekte Zuordnung des Autors zu den Nennungen seiner Artikel. Für den Zitierenden ergibt sich der Vorteil, dass er die Beiträge von Autoren trotz Namens- oder Konventionsänderungen im Blick behalten kann. Für die Autoren selbst ist es ein klares Plus eine direktere Kontrolle über die korrekte Zuordnung von Artikeln und damit über die wissenschaftliche Reputation zu haben.
Quellen:
09 - Die vergessene Fantasie?
Trotz 20 Jahren Warten auf das Spiel, konnten nicht alle Fantasien erfüllt werden.
Die von SquareEnix (damals noch Squaresoft) entwickelten Playstation 1 RPG-Spiele Final Fantasy VII, VIII und IX gelten als die „Goldene Ära“ der Final Fantasy Geschichte und noch bis heute müssen sich viele neue Spiele an diesen messen. Dennoch hat sich SquareEnix lange Zeit darüber ausgeschwiegen, warum gerade der achte Teil der Serie nie ordentlich für PC oder eine aktuelle Konsolengeneration aufgesetzt wurde – obwohl dies mit fast jeden anderen Teil der Serie gemacht wurde.
Die Antwort darauf war leicht und kam durch mehrere Interviews zum Vorschein: Man hatte sowohl die Rohdaten (u.a. Hintergrundbilder, Musik, 3D-Modelle) als auch den fertigen Quellcode des Spieles einfach nicht archiviert. In den 90er Jahren gab es weniger AAA-Titel (Großprojekte, die über mehrere Jahre liefen) und Spiele wurden in geringeren Abständen produziert. Dies führte wie bei SquareEnix dazu, dass für neue Projekte immer wieder Platz geschaffen werden musste und man alten Projektdaten wenig Aufmerksamkeit schenkte. So kam es, dass sämtliche Projektdaten von Final Fantasy VIII verloren gegangen sind und erst 2019 in Zusammenarbeit mit anderen Firmen eine neue Version des Spiels veröffentlicht werden konnte.
Obwohl es jetzt viele „Remastered“ Versionen der damaligen Final Fantasy Spiele gibt, die meist neu nachprogrammiert wurden, ist das Fehlen der Rohdaten für die Entwickler und die Spielergemeinschaft immer noch ein Problem. So wurden z.B. die Hintergrundgrafiken der Spiele in einer hohen Auflösung erstellt, aber nur die komprimierten Versionen für die damaligen Konsolen aufbewahrt, die nach heutiger HD-Darstellung der Bildschirme nicht mehr zeitgemäß sind.
An diesem Beispiel kann man gut erkennen, wie wichtig es ist sowohl die Rohdaten als auch die eigentlichen Projektdaten aufzubewahren. Die Veröffentlichung oder der Abschluss eines Projekts, sollte nicht gleichzeitig das Ende der entstandenen Daten bedeuten. Erst durch das richtige Organisieren der Roh- und Ergebnisdaten können Folgeprojekte die Daten weiterverwenden und die Arbeit wird mehr gewürdigt.
10 - Hallo? Bist du noch da?
Es hätte Routine sein sollen und nun konnte niemand mehr mit den anderen reden.
2009 war T-Mobile mit über 40 Millionen Kunden der größte Handy-Netz-Anbieter in Deutschland. Dennoch ist am 21.04. gegen 16 Uhr dem Anbieter eine Panne geschehen, die bis dato als größte in die Geschichte eingehen sollte. Mit einem Schlag konnte sich kein Kunde mehr mit dem Netz verbinden. Weder Anrufe konnten verbunden noch SMS verschickt werden. Grund dafür war ein gleichzeitiger Ausfall aller drei Home Location Register (zu Deutsch: Verzeichnis des Heimatortes). Diese drei Server stellen zusammen eine verteilte Datenbank dar und sind ein zentraler Bestandteil eines jeden Mobilfunknetzes. Im Normalfall könnte das Netz weiterhin aufrecht erhalten bleiben, solange nur einer der drei Server noch aktiv ist. Doch wie kam es dazu, dass alle drei Server plötzlich abgestürzt sind?
Die Antwort wurde wenige Tage später über die Presse öffentlich gemacht. Auf allen drei Servern wurde gleichzeitig ein fehlerhaftes Software-Update aufgespielt. Deswegen konnten sich die Server nicht gegenseitig stützen, da jeder mit dem gleichen Problem zu kämpfen hatte. Erst gegen 20 Uhr desselben Tages, konnte man das Software-Update bereinigen und einen Großteil des Netzes wieder zum Laufen bekommen.
Da neue Software manchmal unerwartet reagieren kann, sollte sie niemals auf alle kritischen Punkte eines Systems gleichzeitig aufgespielt werden. Zu empfehlen ist ein schrittweises Vorgehen, idealerweise mit einem Probelauf in einer Testumgebung.
11 - Atlantischer Lazarus
Sein Mitgefühl wurde positiv wahrgenommen, trotzdem kam es den Forschenden falsch vor.
Eine Forschergruppe wollte die Funktion ihres Gerätes für funktionelle Magnetresonanztomographie (fMRI) testen und suchte dafür nach Objekten mit viel Kontrast und verschiedenen Texturen. Nachdem ein Kürbis und ein totes Huhn ihre Erwartungen nicht vollständig erfüllen konnten, testeten sie einen toten atlantischen Lachs. Diesem wurden anschließend Bilder von sozialen Situationen gezeigt und seine Reaktionen aufgezeichnet.
Die Daten sollten für eine Lehrveranstaltung verwendet werden, um die Auswertung von fMRI-Daten und mögliche Fehlerquellen an einem absurden Beispiel zu demonstrieren. Die Forschenden waren doch sehr überrascht als sie bei dem toten Lachs plötzlich eine Reaktion auf die gezeigten Bilder in Gehirn und Wirbelsäule feststellten. Ein wichtiger Schritt bei der Datenauswertung war die Korrektur für mögliche falsch-positive Ergebnisse. Ohne diese Korrektur würden die gemessenen Werte fälschlicherweise als signifikante Veränderungen in der Gehirnaktivität des toten Tieres interpretiert. Zum Zeitpunkt der Veröffentlichung der Studie basierten viele Publikationen zu fMRI-Daten auf Analysen ohne die entsprechenden Korrekturen und die Ergebnisse sorgten daher für viel Aufsehen.
Das Beispiel zeigt, dass bei Experimenten nicht nur die Kalibrierung von Messinstrumenten eine entscheidende Rolle spielt, sondern auch die korrekte Auswertung der gewonnen Daten einschließlich angemessener Kontrollen und Korrekturen.
12 - Familienbande
Hätte sie die Geburtstage nicht in Ordnung bringen wollen, hätten sich die Geschwister nicht aufgeregt.
Eine Studie im Jahr 2003 wollte die Kontaktdaten zufällig ausgewählter Familienmitglieder der Hauptbefragten, zu denen auch Geschwister zählten, erheben. Die Kontaktdaten der Geschwister wurden in einer Excel-Tabelle aufbewahrt, um später Adressaufkleber für den Fragebogenversand zu fertigen. Der Plan war, die ausgewählten Geschwister darüber zu informieren, dass ihr Bruder oder ihre Schwester mit dem Geburtsdatum TT/MM/JJJJ den Forschenden die Kontaktdaten überlassen hatte.
Einer der Forschenden wollte die Daten kurz vor Druck der Adressaufkleber nach Geburtsdatum sortieren. Das war zumindest die Absicht. Tatsächlich wurde in der Tabelle ausschließlich die Spalte mit den Geburtsdaten sortiert. In der Folge bekamen tausende Personen einen Brief mit der Nachricht, dass sie von einem Bruder oder einer Schwester mit einem völlig falschen Geburtsdatum für die Studie registriert wurden. Dies führte zu sehr vielen wütenden und aufgeregten Anrufen und E-Mails. Viele der so kontaktierten Personen dachten, sie hätten ein Geschwisterkind, von dem sie bisher nichts wussten, oder dass ihr Vater vielleicht ein heimliches Doppelleben mit einer anderen Familie führe. Die Forschenden mussten anschließend die Daten manuell aus den originalen Papier-Fragebögen rekonstruieren und diese zusammen mit einem Entschuldigungsbrief erneut versenden.
Diese Geschichte zeigt, dass Master-Dateien niemals überschrieben werden sollten und dass beim Umgang mit persönlichen Daten besondere Vorsicht geboten ist.
13 - Haushaltsangelegenheiten
Weil ein Hausmädchen unachtsam war, musste Mills hilfsbereiter Freund Carlyle die Französische Revolution zweimal nacherleben.
John Stuart Mill hatte zwar mit seinem Verleger einen Vertrag für eine Geschichte über die Französische Revolution unterzeichnet, war aber in andere Projekte verwickelt und nicht in der Lage, die Vertragsbedingungen zu erfüllen. Er schlug vor, dass stattdessen sein Freund Carlyle das Buch schreiben sollte. Mill schickte seinem Freund sogar eine Bibliothek mit Büchern und anderen Materialien über die Revolution. Carlyle arbeitete wie besessen an dem Projekt. Als er den ersten Band fertig gestellt hatte, schickte Carlyle sein einziges vollständiges Manuskript an Mill. Während es in Mills Obhut war, wurde das Manuskript zerstört. Mill zufolge geschah dies durch ein unvorsichtiges Hausmädchen, dass es für Abfall hielt und als Feueranzünder benutzte. Carlyle schrieb dann das gesamte Manuskript um und bezeichnete sein Buch als „direkt und flammend aus dem Herzen“. Carlyles übliche Arbeitsweise die Notizen zu einem Kapitel zu vernichten, nachdem er den Text geschrieben hatte, erschwerte die Arbeit an der zweiten Version des Buches maßgeblich. Er hatte freiwillig auf das verzichtet, was zu seiner Zeit einem Backup am nächsten kam.
Diese Geschichte zeigt zwei Dinge: Zum einen sind Daten-management und seine Missgeschicke kein neues Thema, und zum anderen ist es, unabhängig vom Medium in dem ein Manuskript verfasst wird, wichtig eine Kopie zu haben, falls etwas mit dem Original passiert.
14 - Desorientiert
Sie räumte nicht nur den Keller auf, sondern riss das ganze Haus ab.
Tracy Teal war eine Studentin, die Computerlinguistik im Rahmen eines Master-Abschlusses in Biologie an der University of California in Los Angeles studierte. Sie hatte Monate damit verbracht, Simulationssoftware zu entwickeln und zu betreiben. Danach war sie endlich bereit mit ihrer Analyse zu beginnen. Der erste Schritt vor der Analyse war es, alle wichtigen Daten zu organisieren und alle unnötigen zu löschen. Für den Löschvorgang benutzte sie den typischen Routinebefehl "rm -rf *", der alle Daten im aktuellen Verzeichnis und in den Unterverzeichnissen löscht. Das Problem war nur: Sie war gar nicht im Verzeichnis, wo die entsorgbaren Daten lagen, sondern im Stammverzeichnis ihres Projekts. Da durch diesen Befehl in ihrem Unix-Systemen, die Dateien nicht erst in den Papierkorb geschoben werden, wie unter Windows oder Macintosh, wurden alle Projektdaten mit einem Schlag gelöscht.
Tracy hatte Glück, denn ein automatisiertes Backup rettete ihre Arbeit. Dafür musste sie den IT-Helpdesk ihrer Abteilung freundlich anfragen, ob dieser ihre Dateien wiederherstellen könne. Jetzt ist Tracy Teal Executive Director bei The Carpentries, einer Non-Profit Organisation, die Forschenden weltweit grundlegende Kenntnisse in Codierung und Datenwissenschaft vermittelt. Dennoch denkt Tracy beschämt an ihre damalige Situation zurück, weil sie vor dem Datenunfall selbst für den IT-Helpdesk gearbeitet hatte. Für sie war es "wie der Rettungsschwimmer, der gerettet werden muss".
Diese Geschichte zeigt, dass auch erfahrene Forschende im Umgang mit Daten Fehler machen können. Bei wichtigen Daten sollte immer ein Versionierung- bzw. Backupsystem verwendet werden, damit aufwendig erhobene Daten nicht durch ein Missgeschick verloren gehen.
15 - Keine gute Tat bleibt ungesühnt
Hätte er es liegen gelassen und nicht eingesteckt, wäre er der Attacke entgangen.
Wissenschaftler der Universität Illinois führten einen Versuch durch, um herauszufinden, inwieweit Menschen unbekannte USB-Sticks, die sie auf der Straße finden, an ihren Computer anschließen.
Die Ergebnisse der Studie zeigten, dass die Mehrheit die Sticks innerhalb kurzer Zeit von der Straße aufgehoben hatte und in vielen Fällen auch auf die Inhalte zugegriffen wurde. Eine Datei auf den Sticks erlaubte es den Wissenschaftlern in Erfahrung zu bringen, wann die USB-Sticks ausgelesen wurden und auf welche Dateien zugegriffen wurde. Obwohl auch Neugier eine Rolle spielte, wollte ein Großteil der Leute, die den USB-Stick mitgenommen hatten, die Identität des Besitzers ermitteln, um den Stick zurückzugeben. Die Autoren der Studie stellten außerdem fest, dass nur wenige der Versuchspersonen Vorsichtsmaßnahmen beim Öffnen der Inhalte ergriffen hatten. Es ist nicht schwer sich vorzustellen, dass ähnliche Methoden wie bei diesem harmlosen Angriff zu Forschungszwecken, auch leicht von wirklichen Kriminellen angewendet werden können.
Das Beispiel zeigt gut, wie wichtig der richtige Umgang mit fremden Speichermedien ist, um Angriffe auf den eigenen Computer zu vermeiden. Andererseits werden verlorene Datenträger oft von den Findern durchsucht, wodurch sensible Daten für nicht autorisierte Personen zugänglich werden. Daher sollten externe Speichermedien (z.B. USB-Sticks und Festplatten) immer mit einem Passwort geschützt und/oder verschlüsselt werden.
16 - Nur schauen, nicht anfassen
Hätte sie den Spruch “Nur schauen, nicht anfassen!“ ernster genommen, wäre ihr die zusätzliche Arbeit erspart geblieben.
Eine Forscherin hatte die Daten eines Experimentes auf ihrem Computer gespeichert. Eines Tages öffnete sie die originalen Rohdaten in Microsoft Excel, wobei in einigen Spalten die Formatierung automatisch geändert wurde. Dadurch wurden die ursprünglichen Werte unwiederbringlich umformatiert und waren nicht länger auswertbar. Da keine Kopie der Rohdaten existierte, musste das Experiment wiederholt werden.
Das Beispiel zeigt, dass bei der langfristigen Sicherung von Rohdaten besondere Aufmerksamkeit erforderlich ist. Diese sollten mit entsprechenden Backups gesichert werden, wobei der Zugriff generell auf eine Leseberechtigung beschränkt werden sollte. Dadurch erfolgen Auswertungen in separaten Dateien und die ursprünglichen Rohdaten können nicht verändert werden.
17 - Intervention von oben
Ein gefallener Präsident zerstörte seinen Laptop.
Das Büro eines Ingenieurs wurde von einem kleinen Erdbeben durchgeschüttelt, was in Kalifornien wahrlich keine große Überraschung ist. Dabei fiel das Bildnis des früheren US-Präsidenten und einstigen Kunden, Gerald Ford, von der Wand auf den Laptop und zerstörte den Bildschirm. Nach diesem Vorfall machte sich der Ingenieur deutlich mehr Gedanken darüber, was mit seinen Geräten und Daten passieren könnte, sollte sich ein solcher Vorfall wiederholen.
Die Geschichte zeigt, dass die Vorbereitung auf (Natur-)Katastrophen Teil eines effizienten Forschungsdatenmanagements sein sollte. Dies kann man unter anderem durch die Nutzung eines gut funktionierenden Backup-Systems erreichen, bei dem die wichtigen Daten auf verschiedenen Speichermedien an mehreren Orten abgelegt werden.
18 - Schlechtes Recycling
Die Uni spart Ressourcen und er hat den Zitatesalat.
Ein Forscher fing an der Universität an und startete enthusiastisch seine Karriere. Er bekam einen neuen Laptop und eine neue E-Mail-Adresse. Schnell machte er sich an die Arbeit und bald hatte er seine erste wissenschaftliche Publikation veröffentlicht! Um zu sehen, ob seine Veröffentlichung schon in Suchmaschinen aufgelistet wird, prüfte er mit Google Scholar. Tatsächlich hatte die Webseite seine Publikation aufgenommen, allerdings war dies nicht die einzige Arbeit, die er dort zu seiner "neuen" E-Mail-Adresse aufgelistet fand. Was war passiert?
Die E-Mail-Adresse wurde vorher von einem anderen Wissenschaftler mit gleichem Vor- und Zunamen genutzt, der mittlerweile den Standort gewechselt hatte. Das universitäre Rechenzentrum hatte die Adresse "recycelt", den alten E-Mail-Verkehr gelöscht und die Adresse wieder freigegeben. Es hatte nicht bedacht, dass noch Publikationen und andere Services mit dieser Adresse verbunden waren. Für den neuen Forscher war es leicht sich eine neue Adresse geben zu lassen, aber doch recht schwer seine falsch angelegten Zitationen auf Google Scholar zu korrigieren. Andererseits hatte der Forscher die Möglichkeit auf alle registrierten Services mit der recycelten E-Mail-Adresse zuzugreifen, was für den vorherigen Nutzer ein hohes Sicherheitsrisiko darstellte.
Die Geschichte zeigt die Probleme der Wiederwendung von E-Mail-Adressen. Bei wichtigen Registrierungen sollte auch für Personen ein persistenter Identifikator (z.B. ORCID, ResearcherID) verwendet werden, der auch bei Umzug oder Namensänderung erhalten bleibt. Zudem sollten eigene Registrierungen dokumentiert und bei Institutionswechsel auf die neue E-Mail-Adresse umgestellt werden, um eigene Sicherheitsrisiken zu minimieren.
19 - Antiquitäten
Da Sie sich den Beginn Ihrer wissenschaftlichen Karriere anschauen wollte, verbrachte Sie viel Zeit auf dem Flohmarkt.
Am Anfang ihrer Karriere sicherte eine Forscherin die Daten auf Disketten, dem damals gängigen lokalen Speichermedium. Danach wurden die Daten nicht mehr aufgerufen oder auf modernere Datenträger (CDs, DVDs, USB-Sticks, oder externe Festplatten) migriert. Die Datenträger sind vorhanden und eindeutig beschriftet. Aber selbst wenn die Daten nach all der Zeit noch in Takt und vollständig sind, die Hardware zum Auslesen der Datenträger ist schlicht nicht mehr vorhanden. Um ihre alten Daten zu sichten, müsste Leslie also großes Glück haben und ein noch funktionsfähiges Gerät finden: auf dem Flohmarkt, in einem Abstellraum an der Uni oder im schlimmsten Fall im Museum.
Um dieses Problem zu vermeiden, sollten Speichermedien vergangener Projekte dokumentiert und die Verfügbarkeit der komplementären Hardware kontinuierlich beobachtet werden. Spätestens wenn Hersteller ankündigen, Anschlüsse oder Laufwerke in neueren Generationen ihrer Geräte nicht mehr zu verbauen, sollten die Daten migriert werden, um die Bitstream-Preservation sicher zu stellen. Im Vorfeld werden derartige Probleme unwahrscheinlicher, wenn Daten nicht ausschließlich auf 1 Medium gespeichert werden, sondern möglichst nach der 3-2-1 Regel auf mehreren Medientypen.
20 - Auf die inneren Werte kommt es an
Nachdem sie über die ermittelte Identität informiert wurde, war sie den Tränen nahe.
Eine Doktorandin nutzte für einen Versuch eine DNA-Probe, die sie von einem Kollegen bekommen hatte. Da sie ihrem Kollegen vertraute, überprüfte sie die Identität der Probe nicht weiter. Im Verlauf der nächsten Monate arbeitete sie intensiv damit, aber die Versuche führten zu keinen sinnvollen Ergebnissen. Die Probe wurde schließlich sequenziert, um zu bestätigen, dass es sich dabei um die richtige Probe handelte. Dabei stellte sich heraus, dass sie aufgrund eines Fehlers in der Beschriftung vertauscht wurde. Somit war die monatelange Arbeit umsonst.
Das Beispiel zeigt gut, dass beim Umgang mit physischen Proben auf die korrekte und deutliche Kennzeichnung geachtet werden muss. Sollte es Unklarheiten bezüglich der Identität von Proben geben, sollten diese überprüft werden bevor die Proben für weitere Versuche verwendet werden. Außerdem sollten die Proben und die dazugehörigen Informationen in einem physischen und/oder digitalen Katalog dokumentiert werden.
21 - Startschwierigkeiten
Erst als er vollständig wiederhergestellt war, konnte die Reise in die Berge beginnen.
Ein Forscher machte sich für eine Felduntersuchung auf den Weg in das Pamir-Gebirge nach Tajikistan. Als er dort ankam stellte er fest, dass der Laptop, auf dem er alle Materialien für die Felduntersuchung gespeichert hatte, nicht hochgefahren werden konnte.
Da er die Materialien nicht auf einem zusätzlichen Speichermedium oder in ausgedruckter Form mitgenommen hatte, und aufgrund der schlechten Internetverbindung auch nicht auf seinen Onlinespeicher zugreifen konnte, war seine gesamte weitere Feldarbeit gefährdet. Glücklicherweise konnte er den einzigen Vertragspartner seines Laptopherstellers im Land ausfindig machen und seinen Computer reparieren lassen.
Die Geschichte zeigt, wie wichtig Backups insbesondere bei der Planung von Feldarbeiten sind. Da hier eventuell keine einfachen Möglichkeiten für Reparaturen und Neuanschaffungen vorhanden sind, müssen mögliche Probleme schon vor dem Start mit eingeplant werden. Onlinespeicher sind als Backup nur geeignet, wenn eine dauerhafte Versorgung mit einer guten Internetverbindung gewährleistet ist.
22 - Wenn die Kommandozeile Schwierigkeiten macht
Als sie versuchte die Fehler zu bereinigen, gingen die Probleme erst richtig los.
Während des ersten Jahres ihrer Doktorarbeit im Bereich computergestützte Biologie versuchte eine junge Forscherin sich mit der Arbeit mittels Befehlszeile vertraut zu machen. Der Supercomputer, auf welchem alle Analysen liefen, gab für jede Analyse zwei Dateien aus – eine standardisierte Output-Datei mit der Namensendung ".o" und eine standardisierte Error-Datei mit der Endung ".e".
Bei dem Versuch all die Error-Dateien, die sich angesammelt hatten, zu löschen, tippte sie den Befehl "rm*e*" in die Befehlszeile und vergaß dabei den alles entscheidenden Punkt. In Folge dieses kleinen Fehlers wurden alle Dateien mit einem "e" im Dateinamen gelöscht. Dies galt auch für alle Evolutions-Bäume, an denen sie monatelang gearbeitet hatte und von denen einige mehrere Wochen auf dem Supercomputer in Anspruch genommen hatten. Das war jedoch leider nicht das Ende der Probleme. Zu ihrem Entsetzen musste sie feststellen, dass sie viele der verlorenen Dateien nicht gesichert hatte. So verursachte ein kleiner Tipp-Fehler eine große Verzögerung in der Fertigstellung der Doktorarbeit.
Die Moral der Geschichte ist, dass man seine Arbeit täglich sichern sollte. Und wer eine Datenbereinigung durchführt, sollte sich ganz sicher sein, dass er die richtigen Dateien löscht.
23 - Geteilte Arbeit ist halbe Arbeit?
Nachdem er seine Dateien geteilt hatte, war sein Team nicht mehr gut auf ihn zu sprechen.
Ein Forscher arbeitete in einem 6-köpfigen Team, um eine Enzyklopädie im Umfang von 800.000 Wörtern zu schreiben. Das Team hatte nach längerer Zeit entschieden, dass alle Arbeiten auf einem gemeinsamen Arbeitsbereich geteilt werden sollen. Hierfür lag schon ein Server vor, der von einigen Mitgliedern kooperativ verwendet wurde für die Projektdaten. Also verschob er das Resultat seiner Arbeit auf den gemeinsamen Speicher und plötzlich waren die anderen sauer.
Das Problem bestand darin, dass sowohl die eigenen Dateien des Forschers, als auch die bereits vorhandenen Dateien der anderen Teammitglieder generisch benannt wurden. Der Verzicht auf eine explizite, zweckgebundene Namenskonvention führte dazu, dass beim Kopieren der lokalen Dateien auf den gemeinsamen Speicher viele Dateien überschrieben wurden. Der Forscher dachte sich nicht viel dabei, da man die alten Dateien sicher durch ein Backup wiederherstellen könnte – nur leider lag dies mehr als 1 Monat zurück und das aktuelle Backup hat durch schlechtes Timing nur die neuen Dateien gesichert.
Die Geschichte verdeutlicht zwei wesentliche Punkte des FDM: Zum einen sollten Organisationsstrukturen und Namenskonventionen festgelegt werden. So können z.B. Datum, Thema und Autor/-in Teil des Dateinamens sein. Zum anderen sollte Wert auf ein gründliches Versionierungs- und Backup-System gelegt werden.
- persönliche Kommunikation
24 - Kalendarische Fragen
1908: Russen kommen zu spät zum Schuss
Im Jahr 1908 dauerten die Olympischen Spiele ganze 6 Monate an. Dennoch war die russische Mannschaft bei den Schießwettbewerben am 11. Juli nicht anwesend. Das Problem lag darin, dass die russischen Athleten den Julianischen anstelle des Gregorianischen Kalenders benutzten, wie er im Rest Europas üblich ist (dies änderte sich erst mit der russischen Revolution 1917). Als die russische Delegation endlich eintraf, waren daher die ersten anderthalb Monate der Spiele bereits vorüber. Sie konnten noch aktiv an den Spielen teilnehmen und einige Medaillen gewinnen. Dies war aber nur ein schwacher Trost für die Schützen.
Die Olympischen Spiele 1908 waren jedoch nicht nur wegen dieser kalendarischen Verwirrung bemerkenswert. Auch die Dokumentation der Spiele ließ viel Raum für Verbesserungen. Es gab keinen umfassenden und schlüssigen Bericht. So ist es beispielsweise immer noch fraglich, ob die Türkei überhaupt bei den Spielen vertreten war!
Diese Geschichte zeigt, dass die Festlegung einheitlicher Konventionen und Standards zentral ist - sei es für die Austragung von internationalen Wettbewerben oder in der Wissenschaft. Ohne die klare Benennung der jeweils verwendeten Maße und Einheiten werden Daten von Dritten gegebenenfalls nicht richtig interpretiert oder repliziert, weil Memos oder Laborbucheinträge nicht richtig verstanden werden.
25 - Feuer und Flamme
Wäre der Tag etwas wärmer gewesen, wäre ihm viel Ärger erspart geblieben.
Im Wohnzimmer eines Forschers stand ein Karton mit Originaldokumenten, die wichtige Daten mit Personenbezug enthielten. Die Babysitterin seiner Tochter suchte an einem besonders kalten Tag nach Material zum Anheizen des Kamins und nahm die Papiere als Feueranzünder, da sie davon ausging, dass es sich bei den beschriebenen Blättern nur um Schmierpapier handelte. Ein Großteil der Dokumente wurde dadurch unwiederbringlich vernichtet.
Die Geschichte zeigt, dass Dokumente mit persönlichen Daten immer nur in verschlossenen Möbeln und in verschlossenen Räumen gelagert werden sollten. Dies gewährleitest nicht nur die Wahrung des Datenschutzes, sondern auch den Erhalt der Unterlagen. Während das Anlegen von digitalen Kopien von Unterlagen in diesem Beispiel den Ausgang verbessert hätte, ist dies nicht immer für alle Dokumente möglich. Gerade bei unwiederbringlichen Materialien ist somit besondere Sorgfalt geboten.
- persönliche Kommunikation
26 - Never change a running system?
Da sie die alten Sprachen nicht mehr beherrschten, konnte kein Geld verteilt werden.
Anfang 2020 brach global die Krankheit COVID-19 (verursacht durch das Coronavirus SARS-CoV-2) aus, was aus Quarantänegründen zur Schließung vieler Geschäfte und Betriebe führte. Die Folge war vor allem in den USA eine große Zahl an Arbeitslosen, die dringend Geld für die nächste Mietzahlung, Lebensmittel oder andere Ausgaben benötigten. Die Regierung beschloss daraufhin ein Entlastungspaket für jeden, der sich arbeitslos meldete. Doch warum gelangte das Geld trotzdem nicht an die Leute?
Grund dafür war die Überlastung von kritischen Systemen, auf denen noch COBOL läuft. COBOL ist eine Programmiersprache, welche Ende der 1950er-Jahre entwickelt wurde, um kaufmännische Anwendungen zu steuern. Sie gilt als veraltet und wird in der Ausbildung von Programmierern nicht mehr unterrichtet. Darum gab es kein Personal, welches sich um die Systeme kümmern konnte, als diese zusammenbrachen. Leider laufen im Wirtschaftssektor noch bis heute viele Anwendungen mit der veralteten Programmiersprache. Um das Problem zu lösen, suchte die Trump-Administration nun verzweifelt nach 'pensionierten' COBOL-Programmierern.
Dieses Beispiel zeigt, dass auch wenn ein System (vermeintlich) gut läuft, Bestehendes hinterfragt werden sollte, da sich Anforderungen gerade im IT-Bereich schnell ändern. In den Computerwissenschaften sind Innovation und Entwicklung wichtig. So können zum Beispiel Daten irgendwann nicht mehr abgerufen werden oder liegen in Formaten vor, deren Bearbeitung immer schwerer zu gewährleisten ist.
27 - Auf ganzer Linie verlabelt
Obwohl er die Linie im Inventar fand, war seine ganze Arbeit letztendlich umsonst.
Während seiner Promotion brauchte ein Wissenschaftler eine bestimmte Zelllinie für seine Forschung. Er fand diese im Inventar, welches der ganze Fachbereich gemeinsam nutzte, und begann die Zellen zu kultivieren. Dann startete er ein teures Massenspektrometer-Experiment mit dieser Zelllinie, nur um später heraus zu finden, dass diese nicht korrekt gelabelt worden war. Da sein Promotionsvertrag kurz vor dem Ende stand, war unglücklicherweise keine Zeit mehr, um das Problem zu lösen.
Dies hätte sich durch das korrekte Labeln der Probe und das Verifizieren der Zelllinie vor dem Beginn des Experiments vermeiden lassen. Das Management von Proben, einschließlich Verifikation, korrektem Labelling, Dokumentation in einer analogen oder digitalen Inventarliste, ist ein essenzieller Teil des Forschungsdatenmanagements. Wie am Beispiel der Geschichte zu sehen, ist es von großer Wichtigkeit, dass alle diese Schritte korrekt durchgeführt und dokumentiert werden.
28 - Teure Mäuse
Transportstress machte das geplante Experiment nicht nur teuer, sondern undurchführbar.
Eine Doktorandin in Deutschland bestellte Labormäuse einer bestimmten KnockOut-Reihe direkt bei einer Firma in den USA, die das entsprechende Patent hielt. Bei KnockOut-Mäusen werden mittels genetischer Manipulation gezielt Gene deaktiviert, um die durch sie regulierten biologischen Mechanismen zu untersuchen. Außerdem eignen sich derartige Tiere als Modell für menschliche Erkrankungen und pharmakologische Fragestellungen. Die Bestellung in den USA führte dazu, dass die Transportkosten der Mäuse (mehrere Tausend Euro für Tiertransport im Flugzeug) deren Wert (ca. 3,50 Euro je Maus) um ein Vielfaches überstiegen. Problematisch war zudem, dass die Tiere für das geplante Experiment durch den langen und stressigen Transport unbrauchbar waren. Eine spätere Bestellung über einen europäischen Lizenznehmer für das Patent war zwar problemlos möglich, aber die Aktion kostete die Doktorandin wertvolle Zeit und ihr Institut unnötig Geld. Wahrscheinlich handelte es sich aus Sicht der meisten Mitarbeiter/innen im Labor um „Allgemeinwissen“, dass nicht nur die Patenthalter die richtigen Mäuse liefern können, sondern auch Lizenznehmer in Europa. Es war so selbstverständlich, dass es keinen Gesprächsanlass gab, und die Doktorandin hätte diese Information aktiv abfragen müssen.
Die Bestellunterlagen wurden zwar daraufhin geprüft, dass der richtige Maustyp bestellt wurde. Die eher banale Frage woher die Mäuse kamen, hatte der Projektleiter wahrscheinlich nicht auf dem Schirm und bestätigte die Bestellung, ohne den US-Lieferanten in Frage zu stellen.
Diese Geschichte zeigt, wie wichtig es ist, implizites Wissen zu verschriftlichen. Eine Liste mit Auswahlkriterien und möglichen Bezugsquellen für Versuchstiere verschiedener Genlinien hätte diesen Fehler verhindert. Der Doktorandin wäre sicher aufgefallen, dass die US-Firma nur einer von mehreren in Frage kommenden Lieferanten ist. Ein systematisches Vorgehen bei der Auswahl ist nicht nur für Versuchstiere, sondern auch für Software, Hardware, Messgeräte und Verbrauchsmaterialien sinnvoll.
- persönliche Kommunikation
29 - Die Einstellung ist alles
Kurz vor der Abgabe stimmte die Einstellung der Mitarbeiter nicht.
Eine Forschergruppe arbeitete gemeinsam an einem Projekt, bei dem sie kurz vor der Deadline standen. Damit jeder Zugriff auf die vielen Projektdateien hat, wurden alle Daten auf einen Microsoft SharePoint Server abgelegt. Hier sieht man den aktuellen Stand der Dokumente und kann kollaborativ an ihnen arbeiten. In der finalen Phase sollte der Bericht für das Projekt fertig gestellt und alle alten und unnötigen Dateien gelöscht werden. Ein Mitarbeiter löschte jedoch den Bericht, weil er dachte, es wäre ein alter Entwurf. Dies sollte jedoch kein Problem sein, da SharePoint Dateien im Hintergrund versioniert und man die Datei leicht wiederherstellen kann. Warum lief es aber doch nicht wie geplant?
Es waren die Einstellungen. Auch wenn SharePoint eins von vielen Systemen ist, welches Projektdateien versionieren und wiederherstellen kann, so ist dies in den Werkseinstellungen der Software nicht vorgegeben, da dies natürlich auch mehr Speicherplatz kostet. Erst über verschiedene Optionenmenüs können Versionierung von Dateien und Abstände für Backups festgelegt wird. Das hatte das Team jedoch nicht getan und so war der Bericht für immer verloren und musste in kürzester Zeit komplett neu geschrieben werden.
Diese Geschichte zeigt, dass das Funktionieren verschiedener Backup-, Cloud- und anderer Softwarelösungen für Projektdaten nicht einfach vorausgesetzt werden sollte. Es ist wichtig sich vorher zu informieren, wie die Sicherung der Daten bei den Anwendungen funktioniert und am besten diese auch zu testen. Viele Funktionen müssen erst freigeschaltet oder an die Bedürfnisse des Projekts angepasst werden.
- persönliche Kommunikation
30 - Versunkene Schätze
Sandy’s stürmische Art war nicht hilfreich bei dem Versuch, die kleinen Plagegeister besser zu verstehen.
Leslie Vosshall, eine Neurobiologin an der Rockefeller Universität in New York, hatte im Keller ihres Privathauses einen Server für die Speicherung ihrer Forschungsdaten eingerichtet. In Folge von Hurricane Sandy im Jahr 2012 wurde ihr Keller überschwemmt und beinahe wären ihre gesamten Daten zu einem Mosquito-Genom Projekt verloren gegangen.
Die Geschichte zeigt, dass unerwartete Ereignisse und Katastrophen wie Wirbelstürme oder Brände die Datenspeicher an einem Standort schnell gefährden können. Dabei sind private Wohngebäude meist schlechter gegen solche Ereignisse gesichert als spezialisierte Gebäude (z. B. Rechenzentren) und Daten sollten wenn möglich nicht in den privaten Räumlichkeiten gelagert werden. Generell sollten entsprechend der 3-2-1 Regeln immer 3 Kopien der Daten auf 2 unterschiedlichen Speichermedien existieren. Eine der Kopien sollte dabei an einem externen Standort aufbewahrt werden, damit bei größeren Katastrophen an einem Standort nicht alle Kopien der Daten zerstört werden.
31 - Unbeschriebenes Blatt
Die Daten existierten, konnten aber trotz größter Bemühungen nicht nachgenutzt werden.
Zu Beginn seiner Promotion wurde einem jungen Wissenschaftler mitgeteilt, er solle an unveröffentlichten Daten arbeiten, die drei Jahre zuvor erhoben wurden. Er erhielt mehrere Ordner voller Daten. Darin enthalten waren Dateien mit identischem Namen, aber unterschiedlichem Inhalt, Skripte von denen niemand mehr wusste, was sie tun oder warum sie existieren und Tabellen mit unklaren Spaltenbezeichnungen. Noch dazu war teilweise unbekannt, welche Geräte und/oder Einstellungen genau für die Datenerhebung verwendet wurden. Da die Daten mehrere Jahre alt waren, konnten weder intensive Gespräche mit den Herstellern der identifizierten Geräte noch mit den damaligen Forschern die Nachnutzbarkeit der Daten ermöglichen. Am Ende konnten die Daten einfach nicht mehr verwendet werden.
Dies zeigt, wie essenziell das Beschreiben und Dokumentieren von Datensammlungen und Analyseprozessen ist. Auch wenn Datendokumentation Zeit braucht, ist es noch zeitintensiver schlecht dokumentierte, jahrealte Daten aufzubereiten. Obwohl viele Forschende denken, dass sie ihre Daten kennen, ist es sehr wahrscheinlich, dass die meisten von ihnen einen Großteil der Details innerhalb weniger Jahre vergessen. Daher sollte die Datendokumentation immer so umfangreich, detailliert, präzise und für Dritte leicht verständlich sein wie möglich.
32 - Es sind die kleinen Dinge
Wäre sein Name leichter zu buchstabieren gewesen, wäre seine Leistung stärker wahrgenommen worden.
Kleine Fehler in der Schreibweise von Namen können großen Einfluss auf die Karriere von Forschenden haben. Insbesondere Namen, die zum Beispiel Sonderzeichen enthalten, können schnell in verschiedenen Schreibweisen erscheinen. Diese uneinheitliche Schreibweise kann zu einer systematisch geringeren Erfassung von entsprechenden Zitationen führen.
Die Forscherin Terje Tüür-Fröhlich zeigte dies in ihrer Arbeit unter anderem am Beispiel des bekannten Soziologen Pierre Bourdieu, für dessen Namen sie in den Wissenschaftsdatenbanken 85 Mutationen feststellen konnte. Die fehlerhafte Aufzeichnung der Zitationen ist insbesondere zu Beginn einer wissenschaftlichen Karriere problematisch, da die Zitierhäufigkeit oft als Maß für die wissenschaftliche Leistung verwendet wird und unter Anderem bei der Vergabe von Fördermitteln oder Stellen eine Rolle spielt.
Eine Möglichkeit, um dieser Problematik entgegenzutreten, ist die Verwendung von persistenten Identifikatoren (PID) für Personen. Hierdurch wird der Einfluss von Fehlern in der Schreibweise von Namen minimiert. Beispiele für PIDs für Forschende sind die unabhängig vergebene ORCID oder die über Thompson Reuters vergebene ResearcherID. Mittlerweile sind PIDs für Personen recht weit verbreitet und müssen bei einigen Verlagen bei der Einreichung von Artikeln mit angegeben werden.
33 - Arbeitnehmer mit Tarnumhang
Er schien der Personalabteilung einfach immer wieder durch die Finger zu rutschen.
Obwohl die Personalabteilung mehrfach einen Eintrag für Steve Null anlegte, verschwand dieser wiederholt aus der Datenbank. Das System nahm "Null" wörtlich und deutete den Eintrag als fehlendes Datum. Für die Datenbank existierte Steve nicht, ja er schrie seine Nichtexistenz durch seinen Namen laut heraus. Bevor es die Anfrage nach Steve verarbeitete, kontrollierte das System zunächst, ob überhaupt Daten eingegeben waren. Moderne Systeme verhindern so, dass die häufig versehentlich ohne Inhalt abgeschickten Anfragen das System unnötig belasten. Leider ist der Nebeneffekt dieses "search_term!= NULL", dass Menschen mit dem Namen Null in derartigen Systemen nicht gefunden werden können, obwohl der entsprechende Eintrag existiert. Die Suche wird einfach zu früh abgebrochen.
Die Geschichte zeigt, dass es sinnvoll ist die Grenzen eines verwendeten Datenbanksytems genau anzusehen [1]. Gibt es innerhalb des Systems Regeln, die dazu führen, dass bestimmte Einträge systematisch nicht gefunden oder aber auf eine Art und Weise interpretiert werden, die nicht intendiert ist? Hier hilft ein Blick in die (hoffentlich existierende) Dokumentation der Software bzw. bei übernommenen Daten in die verwendeten Konventionen (z.B. für fehlende Werte). Außerdem sollte eine entsprechende Dokumentation für alle selbst erstellten Daten angelegt werden, damit zukünftig noch nachvollzogen werden kann, was gestern selbstverständlich war.
[1] Sie sind Programmierer und halten das Problem für einen alten Hut? Suchen Sie mal nach bug report FLEX-33644 für den XMLEncoder in Apache Flex.
- Matt Parker (2020): Humble Pi - When Math Goes Wrong in the Real World, S. 259.
34 - Falscher Alarm
Dem Feuer waren sie nicht anheim gefallen – aber weg waren die Daten doch.
Der Chefingenieur einer Data Recovery Firma hatte einmal auf Grund eines Flächenbrandes sein sämtliches Hab und Gut verloren. Umso ironischer war es, was einem seiner Kunden passierte. Der Kunde hatte 96 Laufwerkschränke direkt unter einer Sprinkleranlage aufgestellt. Eines Tages löste wahrscheinlich ein Fehlalarm die Sprinkleranlage aus und flutete die Schränke mit Wasser. Viele der Daten waren unwiederbringlich verloren, da kein Backup vorgenommen wurde.
Die Geschichte zeigt anschaulich, dass Daten immer nach der 3-2-1-Regel gelagert werden sollten (mindestens 3 Kopien auf mindestens 2 verschiedenen Speichermedien und 1 der Kopien an einem anderen Ort). Zudem ist ein regelmäßiges und verlässliches Backup-System essenziell.
35 - In der feindlichen Basis
Als der Agent die Basis infiltrierte, reagierte man mit Hardwareentsorgung.
Im Jahr 2008 entschied das Militär der USA alle entfernbaren USB-Speichergeräte aus den Militärbasen zu entsorgen und keine USB-Geräte mehr einzusetzen. Was führte zu diesem Entschluss?
Als beim Außeneinsatz im mittleren Osten ein USB-Stick entdeckt und analysiert werden sollte, stellte sich später heraus, dass dieser Malware eines ausländischen Geheimdienstes enthielt. Die Daten mit dem bösartigen Code gerieten damit unbemerkt in das innere Netzwerk des US Militärs. Ironischerweise hieß das bösartige Malwareprogramm sogar "Agent.btz". Als das Programm und die Sicherheitslücke entdeckt wurde, entschied das Pentagon, alle entfernbaren Geräte, die über USB-Schnittstelle laufen, sofort zu entsorgen. Bis heute stellt dieses Geschehen eines der größten Sicherheitseinbrüche in der Geschichte des US-Militärs dar.
Prinzipiell stellen Geräte, die einen USB-Anschluss verwenden ein Sicherheitsrisiko dar, da sie durch ihren universellen Zweck schnell Kontrolle über ein System erlangen (z.B. indem sie sich als Tastatur ausgeben) oder einfach nur gefährliche Daten einschleusen können. Insbesondere für Forschungsein-richtungen und Unternehmen ist es wichtig niemals fremde USB-Geräte einfach an kritische Systeme anzuschließen. Es sollte immer ein zusätzlicher Hardwareadapter, virtuelle Arbeitsumgebung oder zumindest ein Virenscanner als Softwarelösung eingeschaltet sein, um Schadsoftware auf einem USB-Gerät frühzeitig zu erkennen.
36 - Lost in Translation
Da sie sich nicht an gemeinsame Normen hielten, kam er irgendwann vom rechten Weg ab.
Der Mars Climate Orbiter (MCO) war Teil eines NASA-Programms zum besseren Verständnis des Mars. Am 11. Dezember 1998 startete der MCO an Bord einer Rakete zu seiner Mission. Ziel war es, dass der MCO den Mars in einem kreisförmigen Orbit umrunden und Messungen zu Atmosphäre und Klima des Planeten aufzeichnen sollte. Allerdings kam es bei dem geplanten Manöver zu einem Fehler, der MCO kam deutlich näher an den Mars heran als geplant und die Sonde ging verloren.
Die Ursache des Navigationsfehlers war die Verwendung unterschiedlicher Maßeinheiten durch die verschiedenen beteiligten Projektpartner. Während das Navigationsteam das metrische System verwendete, nutzte das amerikanische Unternehmen Lockheed Martin Astronautics, das mit der Herstellung der Sonde beauftragt wurde, das Angloamerikanische Maßsystem. Die Umrechnung der unterschiedlichen Maßeinheiten (z.B. Pfund-Sekunden und Newton-Sekunden) wurde nicht immer korrekt berücksichtigt und resultierte in fehlerhaften Kurskorrekturen.
Tatsächlich hatte die NASA in ihren Spezifikationen klar dargelegt, dass das metrische System verwendet werden sollte. Der Sondenhersteller missachtete allerdings die Vorgaben und verursachte so den Verlust der Sonde.
Die Geschichte zeigt, dass die Verwendung gemeinsamer Standards bei Projekten mit internationalen Partnern (z.B. USA) besonders zu beachten ist, wenn deren Maßsysteme nicht auf dem Internationalen Einheitssystem (SI-Einheiten) basieren. Zudem sind gut definierte Standards Voraussetzung für die Vergleichbarkeit und Nachvollziehbarkeit von Projekten.
37 - Null Island
Statistisch gesehen, war die Umgebung des Polizeireviers der gefährlichste Ort von allen.
Auf der online verfügbaren Karte zu Verbrechen des Los Angeles Police Departments konnte man sehen, dass zwischen Oktober 2008 bis März 2009 über 1380 Einträge aus der Umgebung des Polizeireviers selber stammen. Das macht fast 4% aller aufgezeichneten Verbrechen dieser Stadt in diesem Zeitraum aus. Erst als die LA Times sich deswegen beschwerte, weil diese ihren Sitz ebenfalls in dem Viertel hat, ist dem Polizeirevier der Fehler im System aufgefallen. Doch was ist passiert?
Alle Polizeiberichte wurden händisch verfasst und großteils automatisch in die Datenbank eingespeist. Dabei kam es auch öfter vor, dass der Ort des Verbrechens nicht erkannt wurde. In diesem Fall wurde als Default-Wert einfach der Standort des Polizeireviers selber genommen. Dies wurde nicht nachkontrolliert, was zu einer großen Verfälschung der Kriminalstatistik führte. Das Polizeirevier hatte den Fehler dahingehend bereinigt, dass es die fehlenden Ortsangaben mit "null" (Angabe für fehlenden Wert in der Informatik) korrigiert hat. Natürlich können Null-Angaben auch bestimmte Teile von Datensätze unbrauchbar machen, wenn die Werte für bestimmte Visualisierungen oder Berechnungen verwendet werden müssen. Man spricht deshalb auch von "Null Island - where bad data goes to die".
Aus dieser Geschichte kann man lernen, wie wichtig es ist Attribute von Tabellen und Datenbanken richtig zu bestimmen, besonders wenn diese auch fehlende Werte haben können. Setzt man hier einfach einen Wert, der aber für Maschinen als logisch lesbar erscheint (wie z.B. „Null“ als Kommentartext oder (0.0,0.0) als Ortsangabe), so werden die Daten nicht richtig interpretiert und können folgende Ergebnisse verfälschen. Man sollte in den Arbeitsschritten immer aufpassen, dass alle möglichen Werte eines Datensatzes gut dokumentiert sind und ggf. Programme Ausnahmefälle erkennen können.
- “When Good Data Turns Bad” aus dem Buch “Humble Pi: A Comedy of Maths Errors”, Seite 253
38 - In die "Scheiße" gegriffen
Ein weniger spezielles Futter hätte den Kriechtierzensus repräsentativer gemacht.
Weil sie einfach und quasi überall zur Verfügung stehen, haben Biologen bisher häufig menschliche Fäkalien verwendet, um Bestandsaufnahmen von kotfressenden Insekten zu machen. Da einige Spezies dieses Futter deutlich attraktiver finden als andere, könnte es durch dieses Verfahren zu Verzerrungen in der Erfassung der örtlichen Biodiversität gekommen sein, wie Studien der Oxforder Zoologin Elizabeth Raine zeigen. Alternative Verfahren werden derzeit evaluiert. Der bisherige Standard hat sich also als suboptimal erwiesen und eine konzertierte Entwicklung eines neuen Standards ist der nächste logische Schritt.
Die Geschichte zeigt, dass tradierte Vorgehensweisen in ihren Auswirkungen auf die Ergebnisse hinterfragt werden sollten und dass es wichtig sein kann, präzisere Verfahren für die Erfassung der tatsächlich gewünschten Messgröße zu entwickeln. Gleichzeitig wird deutlich, dass die Verwendung von Standards einheitliche Fehlerkorrekturen und eine konsistente Einführung neuer Verfahren erleichtert.
39 - Wie gewonnen so zerronnen
Wäre der Besuch etwas später gekommen, hätte er keine Punkte verloren.
Ein Forscher führte langwierige Messungen zu den Eigenschaften von Plasma in einem Reaktor zur plasmaunterstützten chemischen Gasphasenabscheidung durch. Er hatte die Daten der aktuellen Messung noch nicht gespeichert als ein Theoretiker aus dem Projekt in das Labor kam, um mit ihm über seine Modelle zu sprechen. Der Besucher drückte eine Taste auf der Tastatur und löschte dabei versehentlich die Daten der Messung. Glücklicherweise handelte es sich dabei nur um einen einzelnen Messpunkt, denn die Daten waren nicht wiederherzustellen.
Die Geschichte zeigt, dass neue Daten so schnell wie möglich gespeichert und entsprechende Backups erstellt werden sollten. Außerdem sollten während der Aufzeichnung und Sicherung von Daten Ablenkungen vermieden werden, um Fehler zu vermeiden.
40 - Das schickt sich nicht
Hätten sie nicht umsortiert, wäre die Auslieferung deutlich problemloser gelaufen.
Der Verein Deutscher Bibliothekarinnen und Bibliothekare brauchte 2019 drei Anläufe um sein Jahrbuch an die Mitglieder auszuliefern. Die Zuordnung von Namen und Adressen wurde korrumpiert (ein typisches Fehlerbild, wenn nur eine Spalte in einer Excel-Zelle sortiert wird und so die ursprünglichen Zeilen durchbrochen werden), sodass die Auslieferung der Bücher viele Rückläufer erzeugte. Dass die Zustellung über die Weihnachtsfeiertage stattfand, erschwerte die Kommunikation mit den Vereinsmitgliedern. Über die Feiertage waren sowohl die Vereinsverantwortlichen als auch die Mitglieder eher mit anderen Angelegenheiten beschäftigt. Auch nachdem die Mitglieder darüber informiert wurden, dass sie die zugesandten Bücher annehmen sollten, obwohl sie nicht die richtigen Adressaten waren, konnten in der ersten Runde nicht alle Jahrbücher korrekt ausgeliefert werden. Im zweiten Anlauf trat ein Programmierfehler im Nachbestellungsformular auf. Diejenigen, die keine Mitgliedsnummer angegeben hatten, konnten nicht bedient werden und mussten ihren Band im Februar ein zweites Mal nachbestellen Insgesamt dürfte die Häufung von Versandproblemen für Irritation bei den Vereinsmitgliedern und für erhebliche Kosten für den Verein gesorgt haben.
Die Geschichte zeigt deutlich, dass beim Postversand besondere Vorsicht geboten ist. Adressdaten sollten auf jeden Fall schreibgeschützt gespeichert, mehrfach gesichert und vor dem Versand auf ihre Unversehrtheit hin kontrolliert werden. Software, die im „Kunden“-Kontakt genutzt wird, sollte vor ihrem Einsatz gründlich auf die Funktionalität getestet werden. Auf diese Weisen können Fehler intern vermieden und müssen nicht live ausgebügelt werden.
41 - Das Ende ist nah
Wie Excel einmal fast Wiki-Leaks sabotierte
Als Wiki-Leaks-Gründer Julian Assange im Jahr 2010 eine Datei mit 92.000 geleakten Feldberichten aus Afghanistan an Journalist/-innen von The Guardian und The New York Times übergab, endeten die Aufzeichnungen abrupt im April 2009, obwohl auch für den Rest des Jahres Daten hätten vorhanden sein sollen. Was war passiert?
Die Journalist/-innen hatten die Datei in Excel geöffnet. Zum damaligen Zeitpunkt war Excel auf eine maximale Größe von 65.536 Zeilen beschränkt und die große Menge an Daten sprengte das Fassungsvermögen der Tabelle. Mit dem Öffnen in Excel wurden so alle Daten nach Zeile 65.536 abgeschnitten.
Obwohl die maximale Zeilenanzahl seitdem auf 1.048.576 erhöht wurde, zeigt diese Geschichte trotzdem eindrücklich, dass Excel kein adäquater Ersatz für ein professionelles Datenbanksystem ist. Dies gilt vor allem für Forschungsvorhaben, die mit einem hohen Aufkommen an Daten rechnen. Hier ist es wichtig, sich schon vor der Antragstellung Gedanken über Alternativen und deren mögliche Kosten zu machen.
- “When Good Data Turns Bad” aus dem Buch “Humble Pi: A Comedy of Maths Errors”, Seite 244-245
42 - Zu Schön, um wahr zu sein
Die Materialien waren zu schön um wahr zu sein, was zu einer großen Blamage führte.
Beginnend im Jahr 1998 erschienen in kurzer Folge einige beachtliche Artikel von Mitarbeiter/-innen der Bell Laboratories zur Entdeckung neuer kohlenstoff-basierter Materialien. Das Problem war jedoch, dass andere Materialwissenschaftler/-innen die Ergebnisse nicht replizieren konnten.
Trotz des starken Interesses dauerte es weitere 3 Jahre bis anderen Forschenden auffiel, dass sich die Zahlen in vielen der Veröffentlichungen auffällig glichen und einige Grafiken einfach zu "schön" waren, um tatsächlich existierende Systeme abzubilden. Ironischerweise war ein junger deutscher Wissenschaftler namens Jan Hendrik Schön Ko-Autor aller zweifelhaften Veröffentlichungen und an den Arbeiten zu diesen beteiligt. Ein unabhängiges Expertenkomitee wurde eingesetzt und kam zu dem schockierenden Ergebnis, dass in mindestens 16 von 25 Fällen, die den Veröffentlichungen zugrundeliegenden Daten niemals existiert hatten. Schöns Erklärungen, dass er die Primärdaten aus Platzmangel gelöscht und verwendete Speichermedien nicht mehr funktionierten bzw. weggeworfen wurden, erschien dem Ausschuss mehr als zweifelhaft.
Eine solide Verpflichtung auf Open Data hätte den Schwindel sehr viel schneller auffliegen lassen bzw. von vornherein unmöglich gemacht. Der Fall führte zudem an den Bell Laboratories zur Einführung neuer Richtlinien zur Datenhaltung, zur Verantwortlichkeit von Ko-Autor/-innen sowie zum Review von Primärdaten vor der Publikation.
43 - Katzenjammer
Wären sie auf den Hund gekommen, wäre das Home-Office wohl angenehmer gewesen.
Corona-bedingt musste ein Wissenschaftler im Home-Office arbeiten. Dies war auch recht unproblematisch, da er alle Arbeitsschritte und Dokumente gut von Zuhause aus organisieren und bearbeiten konnte. Dennoch hatte er mit einer Sache nicht gerechnet, die ihm für die nächsten Tage Probleme bescheren sollte.
Zuhause hatte er Katzen und diese hatten bisher wenig Interesse an all den Kabeln gezeigt, die zu der technischen Ausstattung des Heimbüros gehörten. Dies sollte sich aber eines Nachts ändern. Als der Wissenschaftler an einem Morgen aufstand, war plötzlich das Stromkabel des Arbeitslaptops durchgebissen. Zum Glück hatte er noch einen Ersatzlaptop und da die Arbeitsdaten kontinuierlich über eine Cloud der Universität abgesichert wurden, konnte er auch seinen virtuellen Arbeitsplatz dort schnell wieder einrichten und all seine Termine einhalten.
Diese Geschichte zeigt, dass man getreu nach dem Sprichwort von Murphys Gesetz "Anything that can go wrong will go wrong." für alle Problemfälle gerüstet sein sollte. Auch wenn die Forschungsdaten auf dem eigenen Laptop sicher scheinen, sollte immer ein Backup existieren, um die Daten bei einem Problem wieder herstellbar zu machen. Neben Ersatzhardware empfehlen sich besonders Cloud-Lösungen, die Dateien auf verschiedenen Geräten schnell synchronisieren können.
44 - Sinnlos Herumgefragt
Weniger Vertrauen in professionelle Prozesse und sie hätte sich Arbeit erspart.
Eine Forscherin ärgerte sich gewaltig als ihr auffiel, dass das kommerzielle Umfragetool ihre letzte Version der Umfrage nicht gespeichert hatte. Sowohl der uniinterne Support als auch der Kundendienst des Unternehmens konnten allerdings keine befriedigende Erklärung für den Vorfall liefern. Die nicht gespeicherte Umfrageversion musste neu erstellt werden, was dank des noch vorhandenen lokalen Backups der Forscherin mit vertretbarem Aufwand möglich war.
Auch wenn kommerzielle Produkte ein integriertes Backup anbieten, ist es notwendig dessen Funktionalität in regelmäßigen Abständen zu testen. Ein eigenes automatisiertes Backup kann zusätzlich die Redundanz des Systems erhöhen und die Wahrscheinlichkeit von Datenverlusten senken. Die Verbindung zwischen Online-Tool und Server sollte nicht unterbrochen werden, um die Datenübertragung zu gewährleisten. Häufige Ursachen hierfür sind Fehler der Anwendung (z.B. Session time out) oder Probleme mit der Internetverbindung. Eine Alternative kann die Erstellung auf dem lokalen Rechner und anschließend das Hochladen bzw. Eintragen der Inhalte im Tool sein.
- persönliche Kommunikation
45 - Mit Intelligenz vermessen
Sie rutschte mit Exzellenz durchs Raster.
Eine Expertin für Künstliche Intelligenz (KI) bewarb sich auf eine Position in diesem Bereich. Weil in ihren Bewerbungsunterlagen die geforderten Praktika nicht auftauchten und die KI die vorhandene Berufserfahrung im Ausland für die Stelle nicht erwartete, hätte die KI-Expertin beinahe keine Einladung zum Vorstellungsgespräch bekommen. Tatsächlich war sie nicht aussortiert worden, weil sie einen ungewöhnlichen und weiblichen Vornamen hatte. Außerdem fragte sie beim Unternehmen nach, was sowohl ihr Engagement als auch ihr Verständnis für die Funktionsweise künstlicher Intelligenz bewies. Ihre Vermutung, dass ihr Lebenslauf nicht dem Muster "erfolgreicher" Lebensläufe im Unternehmen entsprach, war nicht weit von der Wahrheit entfernt. Es gab zwar mit der Anforderung nach Praktika ein "objektives" Kriterium, aber der Abgleich erfolgte nur daraufhin, ob das Kriterium vorlag oder nicht. Gleiche oder höherwertige Alternativen wurden von der Software einfach nicht anerkannt.
Da künstliche Intelligenz musterbasierte Entscheidungen trifft, sind für einen erfolgreichen Einsatz zwei Punkte essentiell: Es muss ein geeigneter Trainingsdatensatz vorliegen und die Aussagen müssen mit Testdaten überprüft werden, um unerwünschte Effekte bei der späteren Anwendung möglichst frühzeitig zu erkennen und zu beheben.
46 - Nicht nur in Stein gemeißelt
Dank seiner Vorgänger konnte er das Rätsel lösen.
Während einer Ägyptenexpedition Napoleons entdecke der französische Offizier Piere François Xaver Bouchard im Jahre 1799 den Stein von Rosette im Nildelta. Er ist das Bruchstück einer höheren Stele, auf der ein Dekret in drei unterschiedlichen Sprachen (altgriechisch, demotische Schrift und Hieroglyphen) eingemeißelt ist. Unmittelbar nach der Entdeckung fertigten französische Wissenschaftler vor Ort zahlreiche Kopien der Inschriften an. Nach der Niederlage gegen die Briten, fiel auch der Stein von Rosette in britischen Besitz und der Forscher Thomas Young begann sich mit den Texten zu beschäftigen. Glücklicherweise hatten die Franzosen aber Kopien, sodass es 1822 Jean-François Champillion gelang mithilfe der ihm bekannten altgriechischen Sprache die demotische Schrift und die Hieroglyphen zu entschlüsseln. Nach der Veröffentlichung seiner Entdeckung erfolgte auch die Entzifferung weiterer Hieroglyphen und der Grundstein der modernen Ägyptologie wurde gelegt.
Die Geschichte zeigt, dass Dank der Abschriften gleich zwei Gedanken des Forschungsdatenmanagements umgesetzt wurden. Zum einen gab es Kopien für den Fall des Verlusts des Originals (Backup) und zum anderen erhielten auch weitere Wissenschaftler/-innen Zugriff auf die Texte und konnten daran forschen (Open Data).
47 - Die tönernen Füße der Schuldenbremse
Eine konventionellere Gewichtung hätte ihrem Ruf weniger geschadet.
Die Forschenden Kenneth Rogoff und Carmen Reinhard von der Harvard University postulierten 2010, dass eine Überschreitung der Staatsverschuldung um 90% der Wirtschaftsleistung eine negative Auswirkung auf das Wirtschaftswachstum eines Staates hat. Diese Grundannahme ist sowohl die Basis der deutschen Schuldenbremse als auch der Sparauflagen der Euro-Rettungspolitik. Der Versuch das Ergebnis anhand der zugrunde liegenden Daten zu replizieren gelang allerdings nicht. Tatsächlich wurden in die Studie aus dem Jahr 2010 Daten für bestimmte Jahre nicht aufgenommen, einige Fälle ungewöhnlich stark gewichtet und mehrere Länder versehentlich nicht berücksichtigt.
Das der fehlgeschlagenen Replikation folgende Medienecho schadete dem Ruf der beiden Ökonomen erheblich. In der Replikationsstudie als auch in einer Nachfolgestudie der Harvard-Forschenden blieb der grundlegende Zusammenhang zwar bestehen, allerdings war die Verminderung der Wachstumsraten weniger gravierend als ursprünglich berechnet.
Dieses Beispiel zeigt, dass einzelne Entscheidungen im Verlauf der Datenanalyse gut dokumentiert und in den zugehörigen Publikationen genannt werden müssen, um den Verdacht von Datenmanipulation zugunsten besonders spektakulärer oder signifikanter Ergebnisse gar nicht erst aufkommen zu lassen. Auch die Präregistrierung von Studien bei einem entsprechenden Journal ist ein guter Schritt um Forschungsfrage, Forschungsdesign und –umsetzung unabhängig begutachten zu lassen.
48 - Der kleine Unterschied
Auf dieser magnetischen Spur kam das System ins Schlingern.
Im Frühjahr 2020 kam heraus, dass Hardwareverkäufer wie Western Digital nicht gekennzeichnete HDD (Hard Disk Drive) Festplatten im SMR-Format (Shingled Magnetic Recording) an Stelle von herkömmlichen Festplatten im CMR-Format (Conventional Magnetic Recording) in verschiedenen Backup-Systemen verkauft hatten. Bei dieser Unterart von HDD-Festplatten wird zwar Platz gespart, indem sich die Magnetspuren (ähnlich wie bei Dachschindeln) überlappen, anstatt nur nebeneinander zu liegen, allerdings ist dafür die Lese- und Schreibgeschwindigkeit geringer. Dies führte dazu, dass Backup-Systeme einfach ausgefallen sind, da sie nicht nach Zeitplan ihre Routinen zum Sichern der Daten durchführen konnten.
Die Geschichte zeigt, dass der Einsatz von falscher oder veralteter Hardware zu Fehlern in der Arbeit führen kann. Auch wenn in diesem Beispiel nicht die Forschenden daran Schuld waren, so sollte trotzdem darauf geachtet werden, dass beim Anstieg immer größerer Datenmengen (Stichwort: Big Data) auch die richtigen Voraussetzungen für das Arbeiten mit der entsprechenden Software vorliegen. Die Hardware sollte dafür immer getestet werden, bevor sie in den routinemäßigen Einsatz kommt.
49 - Clone Wars
Mehr Offenheit bezüglich der Abstammung hätte viel Aufwand und Geld gespart.
Zu Beginn der 2000er Jahre galt die Stammzellenforschung als große Hoffnung für die Entwicklung neuer Therapien. Und so war es geradezu eine Sensation als ein relativ unbekanntes koreanisches Labor unter der Leitung von Woo-Suk Hwang in zwei Veröffentlichungen im prestigeträchtigen Journal Science 2004 und 2005 bekannt gab, ganze 11 Stammzellenlinien aus geklonten menschlichen Embryonen gewonnen zu haben. Zunächst schien der Weg in ein neues Zeitalter der Stammzellenforschung geebnet und weltweit versuchten Forschende die Hwang-Methode zu replizieren. Leider ohne Erfolg.
Ein gutes Jahr nach Erscheinen des zweiten Papers fielen Unstimmigkeiten und auffällige Ähnlichkeiten in den Abbildungen auf, die in den Artikeln enthalten waren. Eine eingesetzte Kommission sichtete und analysierte die Primärdaten, was sie dazu veranlasste Tests an den DNA-Proben durchzuführen. Es stellte sich heraus, dass keine der Stammzellenlinien von geklonten Embryonen stammten und sämtliche Angaben und Darstellungen in den Veröffentlichungen erfunden waren. Bis dahin waren bereits Millionen von Fördergeldern rum um die Welt geflossen, um die Ergebnisse zu replizieren - völlig umsonst.
Hätte die Zeitschrift, in welchen die Artikel veröffentlicht wurden, darauf bestanden, dass Hwang und seine Ko-Autor/-innen die Primärdaten als Supplement liefern, wäre der Betrugsversuch höchstwahrscheinlich sofort aufgeflogen. Das Bestehen auf offenen Forschungsdaten hätte hier Transparenz schaffen und die Verschwendung von Fördergeldern verhindern können. Im Zuge dieses Falles änderten viele große Zeitschriften ihre Regularien und auch Fördergeber begannen ein größeres Augenmerk auf offen zugängliche Forschungsdaten zu legen.
50 - Erfolgversprechende Entwicklerpersönlichkeit
Als Kapitänin des Schachclubs hatte sie schlechte Karten bei der Auswahl.
Amazon entwickelte ab 2014 ein Computerprogramm, das Lebensläufe von Bewerbern evaluieren sollte. Ziel war es, die Suche nach geeigneten Kandidaten für eine zu besetzende Stelle zu automatisieren. Das Programm nutzte künstliche Intelligenz und bewertete die Eignung der Bewerbung mit ein bis fünf Sternen. Allerdings stellte das Unternehmen 2015 fest, dass das Programm bei Bewerbungen für Softwareentwicklung oder andere technische Positionen keine geschlechterneutrale Auswahl traf. Das Online-Rekrutierungsprogramm mochte schlichtweg keine Frauen.
Die Ursache dafür fand sich im Training des Computermodels, welches mit Lebensläufen von Bewerbern der letzten 10 Jahre gespeist wurde. Die meisten Bewerbungen kamen von Männern, was die männliche Dominanz in der Hightech-Industrie reflektierte. So brachte sich das System selbst bei, dass männliche Bewerber zu bevorzugen sind und stufte Bewerber herab, wenn im Lebenslauf das Wort „Frau“ wie bspw. „Kapitänin des Frauenschachclubs“ vorkam. Nach Bekanntwerden des Falls behauptete Amazon, dass das Programm nie von Personalverantwortlichen eingesetzt wurde. Insider sagten allerdings, dass das auf künstlicher Intelligenz basierende Ranking genutzt wurde, wenn auch nicht ausschließlich.
Das Beispiel zeigt, dass die Datenqualität beim maschinellen Lernen von entscheidender Bedeutung ist. Nach dem Motto „Garbage In, Garbage Out“ kann ein Algorithmus nur so gut sein, wie der Datensatz, der ihm vom Menschen zum Training zu Verfügung gestellt wird.
51 - Wenn die Wolke brennt
Ehe sie sich’s versahen, ging ihr Spiel in Flammen auf.
Am 10. März 2021 waren 3,6 Millionen Webseiten, darunter die französische Regierungswebseite, plötzlich offline – was war passiert? Aus bisher nicht geklärten Gründen brannte ein 5-stöckiges Gebäude des Cloud-Providers OHV vollständig ab während ein zweites Gebäude stark beschädigt wurde. Der Brand führte dazu, dass 12.000 Server komplett zerstört wurden, so dass die darauf gehosteten Seiten nicht mehr zugänglich waren.
Neben den Servern wurde außerdem die Hosted Private Cloud des Unternehmens zerstört, auf der viele große Privatunternehmen Daten gelagert hatten. Kurz nach dem Brand musste dann auch die Firma FacePunch bekannt geben, dass alle Daten zum beliebten Online-Spiel „Rust“ durch den Brand verloren gegangen waren, da FacePunch keine weiteren lokalen Backups der Daten vorgehalten hatte.
Die Geschichte zeigt eindrücklich, dass Cloud-Lösungen nur ein Baustein einer funktionierenden Backup-Strategie sein sollten. Der 3-2-1-Regel folgend sollte man darüber hinaus stets mindestens noch zwei lokale Kopien vorhalten, um solche Totalausfälle wie in dieser ScaryTale zu vermeiden.
52 - Die Tabelle ist voll
Excel macht dicht und Corona muss warten.
In Großbritannien waren eine Zeit lang die Corona-Fallzahlen zu niedrig angegeben worden. Grund hierfür war eine Datenpanne, die im Umgang mit dem Microsoft-Programm Excel passierte. Wie kam es dazu?
In Großbritannien ist die "Test and Trace"-Einheit des NHS (National Health Service) dafür zuständig, die positiv auf Covid-19 Getesteten an die zuständigen Gesundheitsbehörde PHE (Public Health England) zu übermitteln. Wie der britische Guardian berichtet, hatte die zuständige Gesundheitsbehörden die Fallzahlen seit Beginn der Pandemie in Excel-Tabellen zusammengetragen und verwaltet.
Excel ist nur bedingt als Datenbank nutzbar, da die Anzahl an Zeilen in der Software begrenzt ist. In der aktuellen Excelversion können bis zu 1.048.576 Zeilen eingetragen werden. Im Fall der britischen Gesundheitsbehörde lag auf Grund der Nutzung eines veralteten Excel-Formats das Limit bei nur 65.000 Zeilen. So kam es, dass beim Importieren der vom NHS gesendeten CSV-Datei mit den Falldaten in die bisher genutzte Excel-Tabelle die überschüssigen Zeilen, insgesamt 15.841 Fälle gelöscht wurden. Das führte dazu, dass die Corona Statistik von Großbritannien einige Tage lang besser aussah und die Infektionsketten nicht weiterverfolgt wurden.
Das Beispiel zeigt, dass es wichtig ist bei einem Datenimport darauf zu achten, dass sowohl Datenformat als auch Software mit der Art und dem Umfang der Daten richtig umgehen können. Es sollte wenn möglich immer die aktuellste Version einer Software verwendet und auf offene Formate gebaut werden.
- T-Online Artikel
- Spiegel Artikel
- FAZ Artikel
- BBC Artikel (Englisch)
53 - Technische Revolution
Russische Revolutionäre erhalten kämpferische Unterstützung aus der Zukunft.
Bei einer Geschichtsprüfung zur russischen Revolution von 1917 sollte als bildhafte Interpretationsunterstützung das Gemälde „Sturm auf den Winterpalast am 25. Oktober 1917“ von Nikolai Kochergin gezeigt werden. Allerdings verließen die Prüfer sich wohl etwas unaufmerksam auf die Google Bildersuche und nutzten nicht das Originalbild, sondern ein durch Zugriffszahlen hochgeranktes bearbeitetes Bild der Revolution. In dieser Variante des Bildes wurden die Revolutionäre durch einen großen Kampfroboter beim Sturm auf den Palast unterstützt.
Diese wohl eher irritierende bis belustigende fehlerhafte Bildauswahl, hat die Studierenden wahrscheinlich nicht vom Bestehen Ihrer Geschichtsprüfung abgehalten, zeigt aber eindrücklich, wie wichtig es ist, bei der Arbeit mit Fremddaten auf die Provenienz (gesicherte Herkunft) der Quelle zu achten. Darüber hinaus sollten besonders bei Bildquellen die Lizenzregelungen beachtet werden, sonst könnte es nicht nur peinlich, sondern auch teuer werden.
54 - Gesprächiger Konfettiregen
Bei dem Karnevalsumzug war sogar das Konfetti redselig.
Bei einem Karnevalsumzug im Jahr 2016 in einer Thüringer Kleinstadt fielen nicht nur kleine bunte runde Schnipsel aus der Konfettikanone, sondern auch Schnipsel, die mit sensiblen personenbezogenen Informationen beschrieben waren und so für sich selbst sprachen.
Ein Krankenhaus hatte den Karneval genutzt, um seine alten Patientenakten unsachgemäß zu entsorgen und die geschredderten Akten wurden auf der Straße verteilt. Leider waren die Konfettistücke noch so groß, dass Namen, Adressen und Telefonnummern teilweise lesbar waren. Der Vorfall sorgte für Aufruhr und rief den Thüringer Datenschutzbeauftragten mit einem Verwaltungs-und Bußgeldverfahren auf den Plan.
Diese gruselige Geschichte verdeutlicht die Bedeutsamkeit der fachgerechten Löschung von Daten. Daten mit Personenbezug sind zu löschen, wenn der Zweck, zu dem Sie verarbeitet wurden weggefallen ist und keine Aufbewahrungsfristen bestehen. Dabei versteht man Löschen, als das vollständige unkenntlich machen dieser Daten.
55 - Wer bin ich?
Trägt die Person eine unauffällige Brille und einen Trenchcoat?
Eine öffentliche Einrichtung wollte das gesundheitliche Befinden Ihrer Mitarbeitenden erfassen und gestaltete dafür eine detaillierte Umfrage mit Fragen zum Erleben am Arbeitsplatz, zur psychischen Belastung und Zufriedenheit Ihrer Angestellten. Dabei wurde den Teilnehmenden der Umfrage Anonymität garantiert. Viele Mitarbeitende nutzten das Angebot und erlebten dann eine böse Überraschung, als Ihr*e Vorgesetzte*r sie auf spezifische Antworten, die Sie in der Umfrage getätigt hatten, ansprach. Was war passiert?
Bei der Umfrage wurden zwar keine Namen abgefragt, aber viele detaillierte Informationen und demographische Daten. Die Antworten der Teilnehmenden wurden dann in so kleinen Gruppen/ Organisationseinheiten ausgewertet und berichtet, dass durch ableitbare Merkmale wie Geschlecht und berufliche Funktion, die Personen genau zu Ihren Antworten zuordenbar waren. Somit wurde die versprochene Anonymität nicht gewahrt und es folgten viele Beschwerden bei der zuständigen Datenschutzbeauftragten ganz zu schweigen von unangenehmen Unterhaltungen mit den jeweiligen Führungskräften.
Besonders bei der Auswertung von kleinen Stichproben, muss auf "ableitbare" personenbezogene Daten geachtet werden. Auch wenn der Name nicht erfasst wird, kann es durch eine Kombination verschiedener Angaben dazu kommen, dass eine Person identifizierbar für andere wird. Dann handelt es sich nicht mehr um eine anonyme Befragung und die Datenschutzgrundverordnung muss beachtet werden- was unter anderem andere Einwilligungserklärungen sowie Verarbeitungsschritte/ technisch und organisatorische Maßnahmen erfordert als anonyme Daten.
- persönliche Kommunikation
56- Unscharfer Mondmann
Durch diesen Vorfall entstand viel Freiraum für Interpretationen
2006 sollte das Goddard Center's Data Evaluation Laboratory geschlossen werden, welches das letzte Institut war, das mit seiner Ausrüstung die Original Mondlandungs-aufnahmen im SSTV-Format noch lesen konnte. Die Schließung veranlasste die Suche nach den Originalbändern in den Archiven der NASA. Wie sich jedoch 2009 herausstellte, waren diese schon Anfang der 80er Jahre entweder verschwunden oder gar überspielt worden, wie es damals gängige Praxis war. Nur wenige andere Fotos oder Videos konnten noch ausfindig gemacht werden. Die heutzutage bekannten Aufnahmen von der Mondlandung stammen meist von der Umwandlung in das eigentlich bessere NTSC-Format für Fernsehgeräte. In der Umwandlung von SSTV hatte man in den meisten Fällen aber einfach nur einen Bildschirm abgefilmt, wodurch es starke Verluste in Kontrast, Helligkeit und Auflösung gab. Die bis heute nicht aufgefundenen Originalbänder sorgten für eine Welle von Verschwörungstheorien.
Diese Geschichte zeigt, wie wichtig es ist bedeutungsvolle Forschungsdaten richtig zu archivieren. Merkmale einer Archivierung sind die vollständige Übertragung, die Unveränderbarkeit, die Zugriffsbeschränkung und die Dokumentation des Zugangs und Umzugs der Daten. Gegebenenfalls müssen die Daten auf neue Medien transferiert werden, falls die alten obsolet geworden sind.
57- Bindende Verträge
Mit der abschließenden Aufzählung wurde einfach zu viel versprochen
Eine mit Rückgriff auf Mustererklärungen erstellte informierte Einwilligungserklärung für eine Studie nutze eine Formulierung, in der die zugelassenen Verwendungsmöglichkeiten aufgezählt und eine Beschränkung auf die genannten Möglichkeiten versprochen wurden. Konkret enthielt der Text die Aussage "die Daten werden ausschließlich in der wie vorher beschriebenen Form verarbeitet". Da die (anonymisierte) Veröffentlichung in der Liste fehlte, konnten die Daten nicht publiziert werden. Die sehr strenge Formulierung war für beide Seiten bindend.
Es ist sinnvoll alle rechtlich bindenden Texte vor ihrer Nutzung von Dritten mit entsprechenden Erfahrungen gegenlesen zu lassen, um zu prüfen, dass die rechtlichen Konsequenzen der Formulierung tatsächlich den gewünschten Wirkungen entsprechen. Die Nachnutzungsbedingungen der erhobenen Forschungsdaten sollten so formuliert sein, dass sie der Veröffentlichung oder Weiternutzung der Daten in anderen Projekten nicht im Wege stehen.
- https://doi.org/10.18450/dataman/98 (06:00- 7:30)
58- Daten in Brandgefahr
Der Klimawandel schlägt im Forst doppelt zu
Die wissenschaftliche Begleitung der Wiederaufforstung von abgebrannten Waldflächen in Brandenburg wurde 2022 durch erneute Brände im bereits 2018 betroffenen Gebiet massiv zurückgeworfen. Auch wenn die Brandursache noch nicht eindeutig geklärt ist, spielt sicher die Tatsache eine Rolle, dass aus Kostengründen auf eine vollständige Räumung der bekannterweise in diesem Gebiet liegenden Munition aus dem zweiten Weltkrieg verzichtet worden war. Der Brand führte dazu, dass die verwendeten Messinstrumente, und so weit nicht bereits exportiert, die von ihnen erhobenen Daten, durch das Feuer unbrauchbar gemacht wurden.
Datenerhebungen in Risikogebieten sollten so angelegt werden, dass die Daten zum frühestmöglichen Zeitpunkt exportiert und gesichert werden können, am besten nach der 3-2-1 Back Up-Regelung. Eine Risikoabwägung im Vorfeld von Studien ist unerlässlich.
59- Stark durch Eisen
Gleich zwei Mythen in einer Geschichte
Seit den frühen 1900er Jahren wird Popeye der Seemann, der durch Spinat essen besonders stark geworden ist, Kindern als Vorbildfigur hingestellt. Es wurde suggeriert, dass der Konsum von Spinat unseren Eisenbedarf deckt und damit zu guter Gesundheit beiträgt. Doch wenn man in die Originalliteratur schaut, entdeckt man, dass beides Mythen waren. Sowohl Popeye, der stark vom Eisen im Spinat geworden sein soll, als auch der hohe Eisenwert des Spinats an sich. Im Cartoon von EC Segar sagt Popeye selbst „Spinach is full of Vitamin A. An’ tha’s what make hoomans strong an’ helty!“.
Mit dem Mythos zum Eisengehalt von Spinat ist es noch etwas komplizierter: da hat ein Mythos den nächsten abgelöst. Und zwar wurde 1981 im British Medical Journal veröffentlicht, dass bei der Bestimmung des Eisengehaltes im Spinat in den 1930er Jahren versehentlich das Komma um eine Stelle nach rechts verrutscht sei. Dieser Dezimalstellenmythos ist heute noch in vielen Publikationen rund um das Thema Eisengehalt im Spinat vorhanden. Tatsächlich aber geht der zu hohe Eisengehalt von Spinat auf die Nicht-Berücksichtigung des Unterschieds zwischen getrocknetem und frischem Spinat zurück.
Bei vermeintlich allgemeingültigen Sachverhalten sowie Annahmen sollte man immer kritische die vorhandene Literatur prüfen und sich wenn möglich auf die Original- bzw. Primärquellen beziehen
60- Maßeinheiten sind nicht witzig
Zwei Mal in dieselbe Meile gestiefelt
In der Sendung "More or Less: Behind the stats" auf BBC 4, die sich seit über 20 Jahren der guten Einordnung und dem Verständnis von in den britischen Medien kursierenden Zahlen widmet, witzelte Tim Harford am 1. Juni 2022 "Nautical Miles – like ordinary miles only wetter". Er tat dies in dem Wissen, dass Seemeilen und Meilen sehr wohl unterschiedlich definiert sind. Das Hörerfeedback wies ihn vehement auf die unterschiedlichen Definitionen hin. In der darauffolgenden Woche wurde eine Korrektur gesendet. Pikanterweise war diese von 2014. Der Scherz war schon damals auf Kritik gestoßen.
Tatsächlich ist es zentral, die genutzten Maßeinheiten eindeutig zu definieren, um die Interpretierbarkeit der Daten zu gewährleisten. Die Kritik am Scherz war also durchaus berechtigt. Hinzu kommt, dass sich die Wiederholung des Patzers hätte vermeiden lassen. Eine gute Fehlerkultur zielt darauf ab, vorgekommene Probleme und Lösungen zu dokumentieren, um diese zukünftig zu vermeiden.
- Nautical Miles – like ordinary miles only wetter https://podcasts.apple.com/de/podcast/more-or-less-behind-the-stats/id267300884?i=1000565616932 (24:30 – 28:50)
61 - Cheat Code
Wenn man es mit der KI nicht so genau nimmt ..
Bevor eine neue Technik oder Software wie das maschinelle Lernen für die Datenauswertung verwendet wird, sollte man sich kritisch mit deren Handhabung und Grenzen auseinander setzen und ggf. die Datenauswertung auch von Expert:innen für die verwendete Methode prüfen lassen.
62 - Das Ding kann fliegen?
Durch diesen Fehler wurde der Wettlauf deutlich beschleunigt.
Die westliche Welt war überrascht, als am 4. Oktober 1957 der erste künstliche Erdsatellit von der Sowjetunion in die Umlaufbahn geschossen wurde. Dieses Ereignis wird geschichtlich als „Sputnikschock“ beschrieben. Die CIA, der Auslandsgeheimdienst der USA, ist davon ausgegangen, dass für dieses Vorhaben eine Rakete mit Startschub über 1000 Tonnen wiegen müsste, um in die Umlaufbahn zu gelangen – was zu diesem Zeitpunkt noch als unrealistisch galt. Diese Daten wurden aus eigenen Projekten hochgerechnet. Bereits drei Jahre vorher erfuhr aber die CIA, dass im Projekt „Operation Dragon Return“ von der UdSSR Raketen mit ca. 677 Tonnen entwickelt wurden. Diese Daten hat die CIA aber einfach ignoriert. Zumindest hatte der Sputnikschock die unmittelbare Folge, dass sich die Anstrengungen der USA bei dem „Wettlauf ins All“ sehr verstärkt haben und dadurch die NASA gegründet wurde.
Diese Geschichte zeigt, dass vor einem Forschungsprojekt sichergestellt werden sollte, welche Forschungsergebnisse bereits vorliegen bzw. welche Forschungsdaten bereits erhoben wurden. Natürlich sollten diese auch während des Projektverlaufs beobachtet werden. Die Übersicht von Sekundärdaten ist wichtig, um ungewollte wiederholende Forschung zu vermeiden und Zeit damit zu sparen.
63 - A oder B? B oder A? Alles eins, oder?
So leicht wird man nicht zum Briten.
Im Vorfeld der britischen Volkszählung im Jahr 2021 wurden die Antwortoptionen auf Fragen mittels empirischen Verfahrens optimiert. Für die Frage nach der eigenen nationalen Identität geschah dies über einen Card Sorting Pretest. Die resultierende Reihenfolge war British, English, Welsh, Scottish, Northern Irish und Other. Im Vergleich zur Volkszählung im Jahr 2011 tauschten die ersten beiden Optionen die Plätze. Bei den Ergebnissen der Umfrage fiel dann auf, dass die Werte für British stark angestiegen waren, während die für English sanken. Das hatte eine intensive Kommentierung sowohl in der Wissenschaft als auch in der Presse zur Folge. Diese wies unter anderem darauf hin, dass die Daten bzgl. der Antworthäufigkeiten zwischen den Befragungszeitpunkten (2021 und 2011) aufgrund des Reihenfolgeeffektes nicht vergleichbar sind.
Grundsätzlich ist es sinnvoll, Strukturbrüche in Paneldaten soweit es geht zu vermeiden. Daher ist anzuraten sowohl die Formulierung der Fragen als auch die Reihenfolge der Antwortoptionen bei den einzelnen Erhebungswellen konstant zu halten. Für die Interoperabilität mit fremden Datensätzen ist darüber hinaus eine detaillierte Dokumentation des Vorgehens oder aber die Verwendung standardisierter Variablen von Vorteil. Die Tatsache, dass das Britische Office of National Statistics sowohl das Vorgehen beim Pretest dokumentierte, als auch Warnhinweise bezüglich der Interpretierbarkeit der Daten gemeinsam mit diesen publiziert hat, stellt einen Best Practice im Umgang mit dem Problem der Diskontinuität in der Zeitreihe dar.
- Office for National Statistics (ONS), released 29 November 2022, ONS website, statistical bulletin, National identity, England and Wales: Census 2021 (Link: https://www.ons.gov.uk/peoplepopulationandcommunity/culturalidentity/ethnicity/bulletins/nationalidentityenglandandwales/census2021)
- Zur Diskussion in den Medien: https://www.bbc.co.uk/sounds/play/m001hx2z bei 23:08
64 - Das bin ja ich!
Wie aufklärerischer Einsatz der Community zum Verhängnis wurde.
Danielle hat ihren Übergang zu einem anderen Geschlecht nach einer Hormonersatztherapie videographisch festgehalten und auf YouTube unter der Standard-Youtube-Lizenz veröffentlicht. Bilder aus ihren Videos wurden zusammen mit denen weiterer trans*Menschen für das Trainieren einer Gesichtserkennungssoftware verwendet und in der dazugehörigen wissenschaftlichen Publikation abgedruckt. Das Datenmaterial dieser Publikation wurde über einen Dropbox-Link weiteren Forschenden zur Verfügung gestellt. Danielle wurde über die Verwendung ihres Videomaterials in dieser Studie und dessen Weitergabe nicht informiert und hätte dem nie zugestimmt. Sie und die trans*Community befürchten schwerwiegende diskriminierende Folgen, wenn tans*Menschen über eine Gesichtserkennung zukünftig identifiziert werden könnten.
Bei Forschungsvorhaben an gesellschaftspolitisch sensiblen Themen und Datenmaterialen sollte eine Ethikkommission in der Planungsphase angerufen werden. Diese wird basierend auf einer Folgeabschätzung das Vorgaben reflektieren, und u. a. weitreichende Maßnahmen zum Schutz der betreffenden Personen empfehlen oder gar von einem bestimmten Studie abraten.
Für die Nachnutzung urheberrechtlich geschützter Daten, das Abdrucken in den Publikationen und die Weitergabe an Dritte bedarf es einer Nutzungsvereinbarung zwischen der Urheber:in und den Forschenden.
Bei der Verarbeitung personenbezogener Daten sind informierte Einverständniserklärungen der betroffenen Personen einzuholen und umfangreiche datenschutzrechtliche Vorgaben zu beachten. Soweit möglich sind diese Daten zu anonymisieren oder zu aggregieren und nur über geeignete Zugangsbeschränkungen (u. a. zertifizierte Fachrepositorien, Datennutzungsvertrag) Dritten zugänglich zu machen.
65 - Metadaten gegen das Vergessen
Mehr als eine Randnotiz?
In der Herzog-August-Bibliothek in Wolfenbüttel recherchiert der Theologe und Kirchenhistoriker Prof. Ulrich Bubenheimer zur Reformationsgeschichte. Dabei sieht er auch einen Sammlungsband durch, in den mehrere Chroniken eingebunden sind. Dieser Band ist in der Bibliotheksdatenbank nur mit wenigen beschreibenden Daten erschlossen. Randnotizen, die in verschiedenen Teilen des Buchs vorkommen, sind nicht näher ausgewertet. Prof. Bubenheimer ist überrascht als bei seinen Untersuchungen zur Reformation auf Anmerkungen stößt, die aus der Feder Martin Luthers stammen. Die Handschrift ist schnell analysiert und ermöglicht Einblicke in Themen, mit denen sich Luther während seiner Zeit in Erfurt beschäftigt hat. Nach der Auswertung der handschriftlichen Randnotizen wurde der Chronikband mit den entsprechenden Metadaten beschrieben und ist somit fortan für „Luther-Forscher“ auffindbar. Inzwischen wurde das gesamte Buch digitalisiert und kann online eingesehen werden, was weitere Auswertungen ermöglicht.
Das Auffinden der Randnotizen aus der Feder Luthers zeigt, wie wichtig es ist, aussagekräftige und auswertbare Metadaten in Datenbanken zu hinterlegen. Nur so kann das Potential von Forschungsdaten und –objekten sichtbar gemacht und erschlossen werden. Die Digitalisierung von analogen Materialien bietet zudem die Möglichkeit ein größeres Publikum zu erreichen und Forschungsergebnisse zu vernetzen.
66 - Tödliche Checkbox
So kommt man auch auf unvergleichbare Werte.
In der Zeit zwischen 2003 und 2017 scheint sich die Müttersterblichkeit in den USA verdoppelt zu haben. Ein schockierender Trend, angesichts der Tatsache, dass sie im 20. Jahrhundert weltweit sank. Was war passiert?
Ursprünglich wurden die Fälle anhand der auf den Sterbeurkunden angegebenen Todesursache gezählt. Das Verfahren übersah jedoch relevante Fälle. Die WHO empfahl die Einführung einer "schwanger" Checkbox auf dem Totenschein um das "Underreporting" zu korrigieren. Seit 2003 wurden alle Todesfälle mit entsprechend angekreuzter Box für die landesweite Statistik berücksichtigt. Die einzelnen Bundesstaaten der USA führten das neue Verfahren versetzt über einen Zeitraum von 15 Jahren ein.
Die versetzte Einführung der neuen Erfassungsmethodik führte dazu, dass die Müttersterblichkeit scheinbar kontinuierlich stieg. Durch den unkoordinierten Verfahrenswechsel lassen sich die Daten jedoch weder mit vorangegangenen Datenpunkten der Zeitreihe noch mit den Daten anderer Länder sinnvoll vergleichen.
Nur inhaltsgleiche Kennzahlen können über verschiedene geografische Einheiten zusammengefasst werden. Wenn ein Kodierungsschema (insbesondere das einer lange laufenden internationalen Datenerhebung) geändert wird, ist es zentral, die Anwendung neuer Elemente klar zu kommunizieren. Insbesondere sollten Strukturbrüche innerhalb eines Beobachtungsgebietes zum selben Zeitpunkt umgesetzt werden – alternativ können das alte und das neue Messverfahren für eine Übergangszeit parallel angewendet werden, um die Aggregation zwischen verschiedenen geografischen Einheiten zu vereinfachen.
- https://www.bbc.co.uk/programmes/p0j74zfs
- https://www.who.int/publications/i/item/9789240068759
- Vgl auch: Trends in maternal mortality 2000 to 2020: estimates by WHO, UNICEF, UNFPA, World Bank Group and UNDESA/Population Division. Geneva: World Health Organization; 2023. Licence: CC BY-NC-SA 3.0 IGO
67 - Saubere Wissenschaft
Der steinige Weg zur Wahrheit hätte vermieden werden können.
2018 hat die Verhaltensforscherin Zoé Ziani in ihrer Dissertation die Ergebnisse der Studie von Francesca Gino angezweifelt, bei der es um das Gefühl der moralischen und körperlichen Unreinheit nach Karriere-Networking-Veranstaltung geht. Da Gino eine erfolgreiche Professorin an der Harvard Business School war, wurde die Kritik von Ziani als unangemessen, selbstgerecht und hetzerisch beurteilt und sie musste ihre Arbeit umformulieren. Erst nach viel Einsatz von Datenforensik und Anwälten, konnte Ziani 2023 beweisen, dass es sich bei den Ergebnissen von Gino um Datenfälschung handelt. Es wurden einfach falsche Daten übernommen oder gute Werte verdoppelt. Folgen dieses Vorfalls waren, dass die Reproduktion alter Ergebnisse gefordert wurde, Journale Statistikprüfungen verlangen, Pre-Registrierungen auch negative Ergebnisse wertschätzen und Open Data sich als Standard mehr durchsetzt.
Forschende sollten die Erhebung und Verarbeitung der Daten sowie den Analyseprozess dokumentieren. Dies ermöglicht eine kritische Rezeption der Ergebnisse und der Ursprungsdaten und darauf aufbauende weitere Forschungen.
- https://www.youtube.com/watch?v=X5Ml9mrFwqE
- https://de.wikipedia.org/wiki/Francesca_Gino
- News zur Ursprungsstudie: https://www.spiegel.de/wissenschaft/mensch/karriere-teilnehmer-netzwerk-treffen-fuehlen-sich-dreckig-a-991230.html
- Ähnliche Fälle in Deutschland 1: https://de.wikipedia.org/wiki/Hans-Ulrich_Wittchen#Fälschungsvorwürfe
- Ähnliche Fälle in Deutschland 2: https://de.wikipedia.org/wiki/Jens_Förster#Kontroverse
68 - Das gute alte Skript
Wer war Svenja?
In einer Arbeitsgruppe wurde jahrelang ein Skript `collate_samples_SvenjaMax.py` zur Datenanalyse verwendet. Das Skript wurde vor Jahren von einem Doktorand namens Max in die Arbeitsgruppe mitgebracht und immer wieder erweitert und angepasst. Um den Vorgaben der guten wissenschaftlichen Praxis zu folgen, war der Plan das Skript bei der nächsten Publikation mit zu veröffentlichen.
Dafür musste zunächst geklärt werden, ob die Autor*innen damit einverstanden waren, da das Skript bisher mit keiner Lizenz versehen war. Mühsam wurden die ehemaligen Mitarbeiter*innen identifiziert und um Erlaubnis gebeten. Nur Svenja konnten sie nicht habhaft werden, denn auch Max konnte sich an sie nicht mehr erinnern.
Auch der Quellcode/Programmcode eines Skripts sind Forschungsdaten und sollte dokumentiert, archiviert und mit der einer entsprechenden Lizenz veröffentlicht werden. Für die Dokumentation kann sowohl auf dedizierte Versionierungssysteme wie GitLab als auch auf das klassisches Kommentieren von Quellcode zurückgegriffen werden. Zentral ist, dass klar ersichtlich ist, wer das Skript wann erstellt beziehungsweise geändert hat.
- persönliche Kommunikation
69 - Der bestohlene Dieb
Wie aus einer Notdurft ein Kriminalfall wurde.
Hans arbeitete an einer Studie zu einem Medikament bei geriatrischen Gesundheitsproblemen. Alle Daten (Kontakt-, Interview-, Gesundheitsdaten, Medikamentengaben) von Altersheim-Bewohnenden wurden unter strengen Sicherheitsvorgaben im Forschungsinstitut gespeichert und konnten ausschließlich vor Ort am Institut verarbeitet werden. Mit einigen Tricks ist es Hans gelungen, die Sicherheitsmaßnahmen zu umgehen und lokale Kopien aller Dateien auf seinem Laptop anzulegen.
Eines Tages arbeitete Hans in einem Café. Während er die Toilette nutzte, verblieb sein Laptop unbeaufsichtigt und ohne Bildschirmsperre am Tisch. Eine anwesende Person, die sich auf das Ausspähen von Daten im öffentlichen Raum spezialisiert hatte, nutzte die Gelegenheit, diese Daten inkl. der personen-identifizierenden Daten (Namen, Adressen) zu kopieren mit der Absicht die Informationen an kriminelle Dritte zu verkaufen.
Diese Geschichte zeigt äußerst besorgniserregende Verhaltensweisen eines Forschenden in Bezug auf den Datenschutz: der sorglose Umgang mit sensiblen Daten im öffentlichen Raum, die gemeinsame Aufbewahrung von personenbezogenen und anderen Forschungsdaten, und das Umgehen von Sicherheitsmaßnahmen.
Ein wichtiges Element für einen sicheren Umgang mit personenbezogenen Daten ist die Etablierung einer sicherheitsbezogenen Forschungskultur. Forschende sollten umfassend zum Datenschutz sensibilisiert und geschult werden, insbesondere zu ihrer Verantwortung und ihren Pflichten. Dies beinhaltet u. a. die Gewährleistung der Sicherheit von lokalen Daten z. B. durch Verschlüsselung und Zugriffsschutz, sowie die umfassende Information zu Gefahren beim mobilen Arbeiten (im öffentlichen Raum). Ist ein Personenbezug bei der Analyse unerlässlich, sollten Pseudonyme verwendet werden, um das Risikos zur Re-Identifizierung von Personen zu reduzieren. Um die Verbindlichkeit von vereinbarten Grundsätzen und Maßnahmen zu erhöhen, können diese schriftlich fixiert werden.
- Zellhöfer, D. & Weber-Wulf, D. (2023). Identitätsdiebstahl. In Class, C. B., Coy, W., Kurz, C. et al. (Eds). Gewissensbisse - Fallbeispiele zu ethischen Problemen der Informatik. Edition Medienwissenschaft. transcript Verlag. S. 91-94. DOI: 10.14361/9783839464632
- Zellhöfer, D. & Weber-Wulf, D. (2013). Gewissensbits – wie würden Sie urteilen? Fallbeispiel: Identitätsdiebstahl. Informatik Spektrum 36 (3): 333-335. DOI: 10.1007/s00287-013-0709-9
70 - Vor die Welle kommen
Die plötzliche Veränderung gab dem Virus einen unfairen Vorsprung.
Deutschland im April 2021: inmitten einer der stärksten Covid19-Wellen in Deutschland, entschied sich das Robert-Koch-Institut, das Datenformat für die Ausgabe der täglichen Impfzahlen ohne Ankündigung zu verändern. Dies schlug vor allem in den Kreisen von Wissenschafts- und Datenjournalist*innen hohe Wellen, da damit über Nacht auf das alte Ausgabeformat programmierten Webscraping-Programme nicht mehr funktionierte. Dadurch konnten die RKI-Daten nicht mehr automatisch abgecrawlt werden und produzierten nur noch Fehlermeldungen. In diesem Fall führte die plötzliche Format- und Inhaltsänderung zu erheblicher Mehrarbeit bei den betroffenen Journalist*innen und zu Ausfällen auf Webseiten und Dashboards, über die sich Millionen von Menschen über die Pandemie informieren wollten.
Datenanbietende sollten proaktiv und mit zeitlichem Vorlauf auf anstehende Formatänderungen hinweisen. So können bspw. für einen Übergangszeitraum Veröffentlichungen im alten und neuen Format bereitgestellt werden, so dass Datennutzende sich umstellen können. Auch eine gute Planung des Datenschemas und der zu nutzenden Datenformate im Voraus hilft dabei größere Änderungen im Verlauf des Forschungsprozesses zu vermeiden.
- Open Data Anti Patterns - Hase und Igel: https://github.com/transportkollektiv/opendata-antipatterns/blob/main/patterns/formataenderung.md
- https://x.com/datentaeterin/status/1380203124858699778