Wege zur Verbesserung der Datenqualität im eCommerce

Fehlerhafte oder unvollständige Daten können weitreichende Konsequenzen haben. Der Kunde schickt ein Paket wieder zurück, weil die Produktbeschreibung im PIM falsch eingetragen war. Oder die Sendung konnte wegen einer fehlerhaften Anschrift nicht zugestellt werden. Unzureichende Datenqualität verursacht Kosten und schlimmstenfalls verliert ihr einen Kunden. Deutlich mehr Arbeit versuchen Fehler in den Daten auf jeden Fall.

Was macht gute Datenqualität aus?

In einem Blogbeitrag haben wir schon beschrieben, welche Kriterien in die Beurteilung der Datenqualität einfließen. Zur Erinnerung sind sie hier noch einmal aufgelistet:

Vollständigkeit
Korrektheit
Aktualität
Eindeutig
Konsistenz.

Je nachdem, an welcher Stelle eines dieser Kriterien nicht erfüllt wird, ergeben sich unterschiedliche Probleme. Ist der Lagerbestand nicht aktuell, bestellen Kunden ein Produkt, das nicht mehr verfügbar ist. Sie reagieren verärgert. Ist die Kundenanschrift nicht korrekt oder vollständig, kommt es zu Problemen in der Zustellung. Ist ein Datensatz in der Kundendatenbank nicht eindeutig, lässt sich eine Rechnung oder Bestellung nicht zuweisen. Sind Preisangaben nicht konsistent, verlangst du für das gleiche Produkt in deinem Shop möglicherweise mehr als auf einem Marktplatz (was ja beabsichtigt sein kann). Das führt aber zu Fragen beim Kunden.

Kann Datenqualität gemessen werden?

Die Qualität der in einem Unternehmen gespeicherten Daten lässt sich tatsächlich messen. Leider funktioniert das nicht so einfach wie bei anderen KPI.

Regeln zur Messung lassen sich in zwei Gruppen zusammenfassen:

Die formal-technischen Regeln können recht unkompliziert direkt in einer Software implementiert werden. Um etwa zu prüfen, ob ein Datensatz vollständig ist, genügt es festzustellen, wie viel Prozent der als relevant markierten Felder (Attribute) tatsächlich gefüllt sind. Ob eventuell jeweils notwendige Textlängen eingehalten wurden ist ein weiteres Beispiel für eine formale Qualitätsregel.

Bei den inhaltlichen Regeln gibt es ebenfalls technische Unterstützung. Um die Korrektheit eines Datensatzes zu überprüfen, wird dieser beispielsweise mit externen und verlässlichen Systemen verglichen. Existiert eine Postleitzahl oder eine Straße in diesem Gebiet? Das lässt sich automatisiert mit den offiziellen Verzeichnissen vergleichen, die teilweise von Logistikern direkt zur Verfügung gestellt werden. Sind Artikelnummern korrekt? Standards wie GTIN helfen hier weiter. Auch betriebsintern lassen sich die eigenen Daten untereinander im Kontext gut überprüfen und optimieren.

Mit der Aufstellung solcher Regeln lässt sich nicht nur die Datenqualität beurteilen: Die technischen Lösungen sind oft bereits der Schlüssel zur Verbesserung der Situation.

Verbesserung der Datenqualität ist ein Kreislauf

Um die Datenqualität zu verbessern, wird das Problem aus zwei Richtungen angegangen.

Zum einen muss die Qualität der vorliegenden Daten optimiert werden. In den meisten Fällen dürfte dies eine hohe Priorität erhalten, da hier ja ein großer Hebel zur Verbesserung der Kundenzufriedenheit und der Kostenreduzierung steckt.
Auf der anderen Seite müssen Maßnahmen ergriffen werden, um die Qualität bei neu entstehenden Daten zu verbessern. Ohne diesen Schritt tauchen die gleichen Probleme früher oder später wieder auf.

Ideal wäre es, die Datenqualität aller gespeicherten Daten schlagartig zu verbessern. Das wird aber schon allein aus Ressourcengründen nicht gehen. Deswegen ist es ratsam, sich zuerst auf Datentypen zu konzentrieren, die für den Geschäftserfolg am wichtigsten sind. Dies sind in aller Regel die Kundendaten und die Produktdaten.

Es braucht einen Datenkatalog

Um überhaupt eine Idee zu entwickeln, wo sich am besten ansetzen lässt, sollte der Datenbestand strukturiert und ein Datenkatalog aufgestellt werden. Welche Daten fallen an und werden gebraucht? Welche dieser Informationen sind kritisch für den Erfolg des Geschäfts? Gibt es Daten, die nur von erweitertem Interesse sind? Das kann je nach Geschäftsmodell bei der gleichen Information unterschiedlich bewertet werden. Ein korrektes Geburtsdatum hat bei einer juristischen Person keine Bedeutung. Und wenn Waren ohne Altersbeschränkung verkauft werden, ist es zwar eine nette Sache für Marketingaktionen, aber nicht geschäftskritisch.

Der Datenkatalog ist ein wichtiges Mittel, um zu erkennen, wo später konsistente Daten vorliegen müssen. Außerdem bietet der Katalog Hinweise, wo Redundanzen und Dubletten auftreten könnten.

Anhand der Datenstruktur kann dann der Blick auf die kritischen Daten geworfen werden, die bereit bei der Erfassung möglichst genau und vollständig eingegeben werden müssen. Dieses „First-Time-Right-Prinzip“ spielt eine wichtige Rolle, weil sich damit viel Arbeit ersparen lässt. Die Eingabe lässt sich mit Technik verbessern. Bei kritischen Informationen, für die es keinen Algorithmus geben kann (z.B. Kreditlinie eines Kunden), ist das menschliche Vier-Augen-Prinzip die beste Option.

Altlasten durch Bereinigung abtragen

Neben den in die Zukunft gerichteten Maßnahmen muss der aktuelle Datenbestand von Fehlern bereinigt werden. Dieses „Cleansing“ bedient sich einer Reihe von Techniken, die sich gut mit Software umsetzen lässt:

Entfernung von fehlerhaften Daten: Nachweislich fehlerhafte Daten werden systemseitig aus dem Datenhaushalt entfernt. Sie werden bei der Weiterverarbeitung nicht mehr berücksichtigt, beispielsweise Transaktionen ohne einen Geschäftspartner.
Ersetzung durch andere Daten: Fehlerhafte Datensätze können durch Referenzdatenbestände korrigiert werden: Fehlerhafte Adressinformationen etwa durch externe Adressdaten.
Ableitung aus anderen Daten: Fehlerhafte Daten werden aus anderen Daten abgeleitet. Eine fehlende Summe wird beispielsweise durch Addition der Einzelpositionen ermittelt.
Verwendung von Default-Werten: Fehlerhafte Werte können auch durch das Setzen von voreingestellten Werten ersetzt werden. Das funktioniert nur dann, wenn sich für das Feld ein sinnvoller Default-Wert ermitteln lässt. Ein klassischer Lösungswert ist das Attribut „Sonstiges“.
Entfernung von Dubletten: Dubletten beschreiben den gleichen realen Sachverhalt in mehreren Datensätzen. Die Datensätze müssen im System nicht deckungsgleich sein. So können zu einem Geschäftspartner zwei Datensätze existieren. Der eine enthält Informationen zu dessen Rating, der andere dagegen nicht. Bei der Eliminierung der Dubletten muss vorher eine Konsolidierung erfolgen. Erst danach werden Redundanzen entfernt.

Wurden die wichtigsten Daten aus dem Datenkatalog bearbeitet, kann dann zu weiteren Informationen übergangen werden.

Denn die Verbesserung der Datenqualität ist keine einmalige Herausforderung, sondern ein permanenter Prozess. Selbst die besten Eingabekontrollen können eben nicht verhindern, dass Menschen Fehler machen. Deswegen ist die regelmäßige Kontrolle im Rahmen einer stets neu beginnenden Schleife notwendig.

Ziel ist ein „Single Point of Truth“ (Spot)

Das Ziel für eine optimierte Datenqualität muss es sein, einen „Single Point of Truth“ (Spot) zu schaffen. Einen zentralen Datenspeicher, der die Oberhoheit über die Daten hat. Aus diesem „Topf“ beziehen dann externe Systeme ihre Informationen. Somit sind Redundanzen und falsche Daten an anderen Stellen ausgeschlossen.

In der Praxis stößt das Konzept aber an seine Grenzen. Denn in den meisten Firmen kommen verschiedene Systeme zum Einsatz, die für einen Einsatzzweck optimiert worden sind. Einkauf und Unternehmensleitung nutzen beispielsweise das ERP-System, die Marketingabteilung unterschiedliche Tools, um Kampagnen aufzusetzen, zu steuern und auszuwerten. Der Vertrieb nutzt oft eine CRM-Software. Häufig kommt dann zusätzlich PIM Software zum Einsatz, aus dem verschiedene Organisationseinheiten Informationen beziehen.

Statt dem Ideal des einen führenden Systems nachzueifern, ist es manchmal pragmatischer, mehrere dieser Spots zuzulassen (je weniger, umso besser), die dann die Hoheit über die Daten einer Kategorie beanspruchen.
Optimal wäre dann, wenn sich diese Spots zu einem "Super Spot" für die inhaltlichen Qualitätsanalysen abfragen lassen würden.

Hublify ermöglicht die Rolle eines solchen Single Point of Truth etwa bei Kunden-, Produkt- und Transaktionsdaten und kann damit entscheidend zur Verbesserung der Datenqualität beitragen. Über die vielen Schnittstellen kann Hublify ebenso andere Datenquellen und Spots anzapfen, um diese in eine übergeordnete Qualitätsanalyse mit einzubeziehen.

Titelbild: Dan Freeman / Unsplash
Letzte Aktualisierung: 01.06.2023