37 - Null Island
Statistisch gesehen, war die Umgebung des Polizeireviers der gefährlichste Ort von allen.
Auf der online verfügbaren Karte zu Verbrechen des Los Angeles Police Departments konnte man sehen, dass zwischen Oktober 2008 bis März 2009 über 1380 Einträge aus der Umgebung des Polizeireviers selber stammen. Das macht fast 4% aller aufgezeichneten Verbrechen dieser Stadt in diesem Zeitraum aus. Erst als die LA Times sich deswegen beschwerte, weil diese ihren Sitz ebenfalls in dem Viertel hat, ist dem Polizeirevier der Fehler im System aufgefallen. Doch was ist passiert?
Alle Polizeiberichte wurden händisch verfasst und großteils automatisch in die Datenbank eingespeist. Dabei kam es auch öfter vor, dass der Ort des Verbrechens nicht erkannt wurde. In diesem Fall wurde als Default-Wert einfach der Standort des Polizeireviers selber genommen. Dies wurde nicht nachkontrolliert, was zu einer großen Verfälschung der Kriminalstatistik führte. Das Polizeirevier hatte den Fehler dahingehend bereinigt, dass es die fehlenden Ortsangaben mit "null" (Angabe für fehlenden Wert in der Informatik) korrigiert hat. Natürlich können Null-Angaben auch bestimmte Teile von Datensätze unbrauchbar machen, wenn die Werte für bestimmte Visualisierungen oder Berechnungen verwendet werden müssen. Man spricht deshalb auch von "Null Island - where bad data goes to die".
Aus dieser Geschichte kann man lernen, wie wichtig es ist Attribute von Tabellen und Datenbanken richtig zu bestimmen, besonders wenn diese auch fehlende Werte haben können. Setzt man hier einfach einen Wert, der aber für Maschinen als logisch lesbar erscheint (wie z.B. „Null“ als Kommentartext oder (0.0,0.0) als Ortsangabe), so werden die Daten nicht richtig interpretiert und können folgende Ergebnisse verfälschen. Man sollte in den Arbeitsschritten immer aufpassen, dass alle möglichen Werte eines Datensatzes gut dokumentiert sind und ggf. Programme Ausnahmefälle erkennen können.
- “When Good Data Turns Bad” aus dem Buch “Humble Pi: A Comedy of Maths Errors”, Seite 253