Datenqualität als Erfolgsfaktor für KI – die 5 wichtigsten Kriterien und daraus abgeleitete Maßnahmen
Qualitativ hochwertige Daten sind die Grundlage um erfolgreich KI Projekte umzusetzen. Die Grundvoraussetzung ist, dass diese auch in ausreichender Menge vorhanden sein müssen um eine korrekte Modellerstellung (modelling) zu ermöglichen. Wie groß die Datenmengen sein müssen ist im spezifischen Projekt in der Vorphase des sogenannten „data understandings“ festzulegen. Sollte die Datenmenge nicht ausreichend sein, z.B. weil der Zeitraum über den die Daten verfügbar sind zu klein ist oder diese frühzeitig zusammengefasst wurden, so kann man versuchen andere Datenquellen zu erschließen. Ist dies nicht möglich, ist es sinnvoll, das KI Projekt zu einem späteren Zeitpunkt durchzuführen wenn ausreichend Daten vorhanden sind.
In vielen Fällen sind in den Unternehmen und Organisationen ausreichend Daten vorhanden. Um gute Ergebnisse von KI Projekten zu erreichen ist eine entsprechende Datenqualität erforderlich.
Dazu gibt es fünf Hauptkriterien betreffend der Datenqualität:
Korrektheit in Bezug auf die Realität
Logische Konsistenz der Daten untereinander
Verlässlichkeit in Bezug auf die Quelle
Vollständigkeit in Anzahl und Inhalt
Eindeutigkeit
Eine nachträgliche Verbesserung der Datenqualität ist meistens sehr aufwändig und teuer, oftmals, z.B. wenn die Daten nicht mehr in der entsprechenden Form vorhanden sind unmöglich. Einfache Korrekturen wie z.B. Ersatz einzelner fehlender Daten durch Standardwerte bzw. das Ausscheiden definitiv falscher Datensätze werden standardmäßig in der Vorphase zur Modellerstellung durchgeführt.
Eine hohe Datenqualität ist mit unterschiedlichen Maßnahmen erzielbar. Werden Daten manuell erfasst (z.B. über ein ERP oder CRM System) so ist es wichtig bei der Datenerfassung die entsprechende technische Funktionalität wie Plausibilitätsprüfungen, Vorgabe von Wertebereichen etc., sowie eine einfache und intuitive Benutzeroberfläche zur Verfügung zu stellen, die die korrekte Dateneingabe unterstützen.
Bei maschinell erfassten Daten ist die entsprechende, robuste technische Infrastruktur vorzusehen um eine kontinuierliche Übertragung der Daten (z.B. Streaming bei Messwerten) zu erreichen.
Auf dem Weg zum datengetriebenen Unternehmen empfiehlt sich das Konzept Data Governance umzusetzen. Dabei handelt es sich eine Vielzahl von organisatorisch strukturellen Maßnahmen (Festlegung von Rollen (Data Owner, Data Stewards) und Verantwortlichkeiten, Richtlinien, Standards und Prozessen in Bezug auf Daten die ein gut organisatorisches Datenmanagement ermöglichen.
Sie wollen wissen welches Potential in den Daten Ihres Unternehmens steckt und wie wir sie dabei unterstützen können dieses zu heben? Hier erfahren Sie mehr: Enterprise Data Analytics | Datasense. Oder sie vereinbaren gleich ein unverbindliches Gespräch mit uns betreffend Workshops „Impuls Enterprise Data Analytics" unter Kontakt | Datasense.
Comments