Moderne Unternehmen sind auf Daten angewiesen. Sie sind unerlässlich, um die richtigen Entscheidungen für die zukünftige Ausrichtung eines Unternehmens zu treffen, um sicherzustellen, dass den Kunden die Produkte oder Dienstleistungen angeboten werden, die für sie am relevantesten sind, und um ein umfassendes Verständnis dafür zu entwickeln, was im Unternehmen und auf dem Markt insgesamt vor sich geht.
All dies kann jedoch nur erreicht werden, wenn die Daten, die von den Unternehmen eingesetzt werden, korrekt sind. Manche Leute glauben, dass angesichts der riesigen Menge an Informationen, die Unternehmen heute besitzen, die schiere Volumen der Daten, das von den Analysetools verarbeitet wird, den einen oder anderen Fehler schon ausgleichen wird.
Aber das ist nicht unbedingt der Fall, und wenn Sie größere Probleme mit Ihrer Datenqualität haben, werden Sie wahrscheinlich Entscheidungen auf der Grundlage fehlerhafter Ergebnisse treffen. „Garbage in, Garbage out“, wie man so schön sagt – unsinniger Input führt zu unsinnigem Output. Und so schätzt Gartner, dass rund 40 Prozent der Unternehmensdaten entweder ungenau, unvollständig oder nicht verfügbar sind, und dass diese schlechte Datenqualität das durchschnittliche Unternehmen rund 14 Millionen US-Dollar pro Jahr kostet.
Daher besteht ein wesentlicher Schritt darin, sich die Zeit zu nehmen, Ihre Daten vollständig zu überprüfen und zu bereinigen, bevor Sie sie an Ihre Analysesysteme übergeben.
In diesem Sinne geht es im Folgenden um fünf der häufigsten Datenqualitätsprobleme, mit denen Sie wahrscheinlich konfrontiert sein werden, sowie um die Frage, was Sie dagegen tun können.
1. Datendoppelungen
Datendoppelungen sind ein Thema, mit dem sich jedes Unternehmen auseinandersetzen muss. Dies geschieht oft als Ergebnis isolierter Prozesse und verschiedener Systeme, die die gleichen Informationen erfassen. Werden diese Quellen zur Verarbeitung zusammengeführt, können Mehrfacheinträge derselben Datensätze die Ergebnisse erheblich verzerren oder zu unnötigem Aufwand führen.
Im Ergebnis erhalten Kunden vielleicht mehrfach identisches Marketingmaterial, was die Nutzer verärgern und Zeit- und Geldverschwendung verursachen kann. Auch könnte es schwierig werden, einem Kunden zu helfen, der Sie mit einer Anfrage kontaktiert, in Ihrem System aber in mehreren Datensätzen mit unterschiedlichen Angaben erfasst ist.
Um dies zu vermeiden, sind Tools zur Datendeduplizierung ein Muss. Diese verwenden Algorithmen, um sehr große Datenmengen zu durchsuchen und doppelte Datensätze zu identifizieren. In der Vergangenheit mögen solche Systeme Fälle übersehen haben, in denen es kleine Unterschiede gab, aber mittlerweile sind die Systeme intelligent genug, um selbst stark abweichende Einträge für denselben Kunden zu erkennen.
2. Uneinheitliche Formate
Wenn Sie Daten eingeben, die dieselben Informationen enthalten, aber in unterschiedlichen Formaten gespeichert sind, haben viele Systeme Probleme, Elemente als zur gleichen Kategorie gehörig zu erkennen, sodass sie möglicherweise ungenaue Ergebnisse ausspucken.
Beispielsweise sind Datumsangaben ein häufiger Stolperstein für viele Systeme, da es viele Möglichkeiten gibt, wie diese in verschiedene Systeme eingegeben werden können. Besonders knifflig wird es für die Systeme, wenn sie zwischen Datumsangaben im US- und im europäischen Format unterscheiden sollen: Wenn Sie eine Datenquelle haben, die das Format TT/MM/JJ verwendet und eine andere, die MM/TT/JJ verwendet, können Sie falsche Ergebnisse erhalten.
Andere potenzielle Schwierigkeiten entstehen durch Telefonnummern, insbesondere wenn einige davon Vorwahlen haben und andere nicht. Auch Unterschiede bei der Dateneingabe, wie z.B. die Verwendung von „Straße“ oder „Str.“ bei der Eingabe von Adressen, können zu Problemen mit Duplikaten führen. Daher ist es entscheidend, dass Sie für jedes Datenelement genaue Formate festlegen, um die Einheitlichkeit über alle von Ihrem Unternehmen verwendeten Quellen hinweg zu gewährleisten.
3. Unvollständige Informationen
Felder, die nicht vollständig ausgefüllt oder ganz leer gelassen werden, können Tools wie CRM-Software, automatisierte Marketinglösungen sowie Big Data-Algorithmen in arge Bedrängnis bringen. So sind beispielsweise Datensätze ohne Postleitzahl nicht nur lästig, wenn es um die direkte Kontaktaufnahme mit dem Kunden geht, sondern sie können auch wichtige Analyseprozesse nutzlos machen, da in den Daten wichtige geografische Informationen fehlen, die Ihnen helfen könnten, Trends zu erkennen und Entscheidungen zu treffen.
Dafür zu sorgen, dass Datensätze nicht erstellt werden können, wenn nicht alle wesentlichen Informationen enthalten sind, ist ein guter Anfang. Eine weitere Möglichkeit zur Senkung der hiermit verbundenen Probleme besteht darin, die Systeme so einzurichten, dass unvollständige Einträge ausgeschlossen werden.
4. Unterschiedliche Einheiten und Sprachen
Wie bei der Formatierung können manchmal auch Unterschiede bei Sprache, Schrift oder Maßeinheiten zu Schwierigkeiten führen. Es gibt viele Beispiele für katastrophale Fehler, die passiert sind, weil jemand vergessen hat, diese Probleme zu berücksichtigen, wie bei der zig Millionen Dollar teuren Marssonde der NASA die abgestürzt ist, weil ihre Navigationssoftware in imperialen statt in metrischen Einheiten programmiert war.
In ähnlicher Weise kann der Umgang mit Daten, die in unterschiedlichen Sprachen gespeichert sind, für Schwierigkeiten sorgen, wenn die Analysetools sie nicht erkennen oder nicht wissen, wie man sie übersetzt. Selbst Sonderzeichen wie Umlaute oder Akzente können verheerende Auswirkungen haben, wenn ein System nicht entsprechend konfiguriert ist. Daher müssen Sie diese potenziellen Probleme berücksichtigen, wenn Sie es mit internationalen Datensätzen zu tun haben, und Ihre Algorithmen entsprechend programmieren.
5. Inkorrekte Daten
Schließlich und endlich macht es keinen Sinn, Big Data-Analysen durchzuführen oder Kontakt mit Kunden auf der Basis von Daten aufzunehmen, die schlicht falsch sind. Falsche Daten können viele Ursachen haben – von Kunden, die falsche Informationen angeben bis hin zu einem menschlichen Bediener, der bei der manuellen Dateneingabe Tippfehler macht oder Daten in das falsche Feld eingibt.
Diese Art von Datenqualitätsproblemen ist oft am schwierigsten zu entdecken, vor allem dann, wenn das Format nach wie vor stimmig ist – die Eingabe einer falschen, aber gültigen Sozialversicherungsnummer zum Beispiel könnte von einer Datenbank unbemerkt bleiben, die nur die Richtigkeit der Eingabe isoliert überprüft.
Gegen menschliche Irrtümer ist kein Kraut gewachsen, aber klare Verfahren zu haben, die konsequent eingehalten werden, ist ein guter Anfang zu ihrer Bekämpfung. Auch die Verwendung von Automatisierungstools zur Minimierung des manuellen Arbeitsaufwands beim Datenaustausch zwischen Systemen ist eine enorme Hilfe, um das Risiko von Fehlern durch müde oder gelangweilte Mitarbeiter einzudämmen.
Greifen Sie auf die neuesten Geschäftskenntnisse in der IT zu
Zugang erhalten
Kommentare
Nehmen Sie an der Diskussion teil ...