Software sortiert falsche Informationen aus
Die Pflege von Firmendaten verhindert teure Flops

Schlechte Datenqualität kann fatale Folgen haben. Das musste auch die NASA im Jahr 1999 schmerzlich erfahren. Damals ging die Sonde Mars Climate Orbiter im All verloren, weil zwei Kontrollteams unterschiedliche Maßeinheiten verwendet hatten. "Menschen machen eben manchmal Fehler", kommentierte NASA-Weltraumwissenschaftler Edward Weiler ernüchtert.

Im Unternehmensalltag sind die Auswirkungen schlecht gepflegter Daten zwar meist weniger spektakulär, sie verursachen jedoch enorme Kosten. So kann Business-Intelligence-Software nur dann sinnvolle Informationen für die Entscheidungsfindung liefern, wenn die damit ausgewerteten Daten richtig und vollständig sind. Das ist in vielen Unternehmen nicht der Fall.

"Erhebungen haben ergeben, dass zwischen fünf und zwanzig Prozent der Bestände in Unternehmen fehlerhaft sind", berichtet Carsten Bange, Geschäftsführer des Business Applications Research Center (BARC) in Würzburg. In der Praxis hat das beispielsweise irrlaufende Briefe, Mehrfachauslieferungen oder falsche Kennzahlen im Berichtswesen zur Folge. Häufigste Ursache für irreführende Daten sind Fehler bei der manuellen Eingabe. Auch unterschiedliche Bezeichnungen für ein und dasselbe Merkmal in verschiedenen Anwendungen können die Ursache sein. Die Mängel fallen meist erst auf, wenn Informationen aus verschiedenen Quellen zusammengeführt werden - beispielsweise in einem Data Warehouse, einer umfassenden Datenbank also, die als Grundlage für ein Business-Intelligence-System dienen soll.

Zwar ist die Verbesserung der Datenqualität weitgehend eine manuell abzuwickelnde Aufgabe, aber zum Teil kann auch Software den Prozess unterstützen. Die Programme lassen sich in zwei Gruppen einteilen: So genannte Data-Profiling-Werkzeuge, die zur Bestandsaufnahme und Messung der Datenqualität dienen, und Data-Cleansing-Tools, die Fehler automatisch finden und beseitigen.

"Data-Profiling-Werkzeuge generieren Statistiken über die Datenfelder und untersuchen die Integrität der Daten", erläutert Bange. So würden Ausreißer identifiziert. Außerdem führen die Programme Mustervergleiche oder Vergleiche mit Referenzbeständen durch: Beispielsweise vergleichen sie Postleitzahl und Ort eines Adressdatensatzes mit dem Postleitzahlenverzeichnis der Deutschen Post.

Die Methoden des Data Cleansing

Data Cleansing umfasst verschiedene Methoden der Datenbereinigung. So werden Dubletten entfernt, verstreute Informationen zusammengeführt und Daten durch den Vergleich mit externen Beständen verifiziert und gegebenenfalls berichtigt. Um inhaltlichen Fehlern auf die Schliche zu kommen, arbeiten die Werkzeuge meist mit Plausibilitätsregeln. Diese erlauben auch die ständige automatisierte Überwachung der Datenqualität. Dazu sind aber genaue Kenntnisse der Geschäftsprozesse notwendig, und es kostet Zeit, diese abzubilden.

Die oft hoch spezialisierten Data-Cleansing-Produkte werden insbesondere bei der Überprüfung von Adressen eingesetzt. Ein Feld, das in Deutschland von Unternehmen wie AS Address Solutions, Fuzzy Informatik, Human Inference, Omikron oder Uniserv besetzt wird.

Neben den Spezialisten für Datenqualität steigen laut Bange zunehmend auch Integrationsexperten in den Markt ein - also Unternehmen, die Werkzeuge für die Zusammenführung von Daten aus unterschiedlichen Quellsystemen anbieten. Als Beispiele nennt er Informatica, Ascential und SAS. Der Fachmann rechnet damit, dass in naher Zukunft auch die Datenbankanbieter auf diesen Zug aufspringen werden: "Oracle bietet schon ein bisschen was, IBM und Microsoft haben die Brisanz des Themas jedoch bislang verschlafen", sagt Bange.

Serviceangebote
Zur Startseite
-0%1%2%3%4%5%6%7%8%9%10%11%12%13%14%15%16%17%18%19%20%21%22%23%24%25%26%27%28%29%30%31%32%33%34%35%36%37%38%39%40%41%42%43%44%45%46%47%48%49%50%51%52%53%54%55%56%57%58%59%60%61%62%63%64%65%66%67%68%69%70%71%72%73%74%75%76%77%78%79%80%81%82%83%84%85%86%87%88%89%90%91%92%93%94%95%96%97%98%99%100%