DGQ-Glossar Digitalisierung: Data Mining21 | 11 | 19

Data Mining bezeichnet das methodische Anwenden statistischer Methoden auf große Datenbestände um Zusammenhänge herzustellen und Erkenntnisse zu erlangen. Die eigentliche Datenverarbeitung geschieht computergestützt und mit Hilfe von modernen Machine-Learning-Algorithmen und Künstlicher Intelligenz. Der Begriff des Data Mining wird irrtümlich häufig mit Datenabbau gleichgesetzt, was implizieren würde, dass es sich dabei um einen Prozess zur Generierung von Daten handelt. Dies ist inkorrekt, denn Data Mining beschreibt den Wissensabbau aus vorhandenen Daten. Die Abbauprodukte sind demnach Wissen, Erkenntnisse und Zusammenhänge, auf deren Grundlage unternehmerische Entscheidungen getroffen werden können.

Data Mining wird von Data Scientists betrieben und beruht auf mathematischen, statistischen und informationstechnologischen Erkenntnissen. Um aus Daten Wissen zu extrahieren, müssen Data Scientists die vorhandenen Daten bearbeiten. Dazu werden entsprechend des gewünschten Erkenntnisinteresses bestimmte Zieldatensätze ausgewählt und mit Methoden der Data Science bereinigt, formatiert, strukturiert und transformiert, bis Muster und Trends erkennbar sind, die belastbare Schlussfolgerungen zulassen. Wenn aus massenhaften Rohdaten durch diese Methoden begründete Erkenntnisse gewonnen werden konnten, war der Wissensabbau erfolgreich.

Data Mining spielt besonders im Zusammenhang mit unstrukturierten und schnelllebigen Big Data eine bedeutende Rolle, wird aber auch für alle anderen Arten von Datensätzen und Datenblöcken verwendet. Eine Sonderform des Data Mining ist das Text Mining. Hier werden Informationen aus einer großen Zahl an Textdaten gewonnen. Mithilfe von intelligenten Algorithmen und maschinellem Lernen ist es möglich, Aussagen und Kernthesen innerhalb kürzester Zeit aus Texten zu extrahieren. Informationsgewinn aus Text Mining besitzt ein enormes wirtschaftliches Potenzial, denn ein Großteil aller geschäftlich relevanten Informationen und Kommunikation liegt unternehmensintern als Text in Form von E-Mails, Dokumenten und Handlungsanweisungen vor. Die sekundenschnelle Wissensextraktion aus diesen Texten kann unternehmerische Prozesse maßgeblich optimieren.

Über den Autor: DGQ