Eine Anomalie, oder ein Ausreißer, ist eine ungewöhnliche und seltene Beobachtung, die nicht dem erwarteten Muster oder der erwarteten Verteilung entspricht. Oftmals liefern diese Beobachtungen wichtige Informationen über Systemeigenschaften, weshalb eine korrekte Identifizierung von Ausreißern in der Praxis von großer Bedeutung ist.

Anomalieerkennung in den verschiedenen Branchen:

Anomalien bei der Datenanalyse treten in vielen Branchen wie Medizin, Finanzen, IT-Sicherheit und Soziologie auf. Bei der Betrugserkennung sind sie in den letzten Jahrzehnten von großem Interesse, um Schäden durch Betrug zu minimieren. Insbesondere bei der automatisierten Identifizierung von Sicherheitslücken in Informationssystemen und Netzwerkkomponenten spielt die Erkennung von Anomalien eine große Rolle. Im Finanzwesen können sie ungewöhnliche Marktveränderungen oder unerwartete Gewinne oder Verluste darstellen. Auch bei der Nutzung von Kreditkarten sind Betrugsfälle in den letzten Jahren häufiger geworden. Mittels Anomalieerkennung werden Ausreißer wie ungewöhnliche Transaktionen an bestimmten Orten oder in ungewöhnlich großen Summen früher erkannt. Die Anomalieerkennung kann auch viele nützliche Informationen bereitstellen, zum Beispiel in der Medizin bei der Krebserkennung oder der Analyse von Elektrokardiogrammen (EKG). Ungewöhnliche Muster, die auf bestimmte Krankheitszustände hindeuten, werden identifiziert und frühzeitig behandelt. Das Erkennen und Verstehen von Ausreißern kann in allen genannten Bereichen wichtige Informationen liefern und zur Verbesserung von Prozessen und Entscheidungsfindung beitragen.

Während ein regelbasiertes Erkennungssystem nur in der Lage ist, bereits bekannte Muster zu identifizieren, können neue Machine-Learning-Algorithmen auch bisher unbekanntes Verhalten erkennen. Um bessere Ergebnisse zu erzielen, ist es möglich, diese beiden Techniken miteinander zu kombinieren und nutzerspezifische Lösungen zu erstellen. Ein Beispiel dafür sind bestimmte Admin-Rechte, die nur für ausgewählte Mitarbeiter gelten. Diese werden bei der Log-Analyse vom regelbasierten System erkannt und als zusätzlicher Filter dem Machine-Learning-Modell weitergegeben, wodurch die Anzahl der falsch positiven Ergebnisse reduziert und das Ergebnis der Anomalieerkennung noch präziser wird.

Welche Anomalie-Typen gibt es?

Grundsätzlich lassen sich drei Arten von Anomalien unterscheiden:

1) Punktuelle Anomalien: Diese Art von Anomalien sind einzelne oder mehrere zusammen ausstehende Datenpunkte, die nicht mit dem Rest der Daten übereinstimmen. Visuell werden sie in einem zweidimensionalen Raum durch z. B. eine Clusteranalyse dargestellt.

Punktuelle Anomaly

2) Kontextuelle Anomalien hingegen sind Datenpunkte oder -gruppen, die nur im Zusammenhang mit anderen Datenpunkten auffällig sind. Diese Anomalien sind schwieriger zu erkennen, da sie nur in Relation zu anderen Datenpunkten Abweichungen aufweisen und als anormal betrachtet werden können.

3) Kollektive Anomalien sind eine Gruppe von Daten, die im Vergleich zu den übrigen Datensätzen als anormal betrachtet werden. Das Auftreten mehrerer Datenpunkte an einer ungewöhnlichen Stelle führt zu diesen Anomalien

Kollektive Anomaly

Analysetechniken zur Erkennung von Anomalien:

Es gibt einige Ansätze, die zur Problemlösung der Anomalieerkennung dienen. Allgemein unterscheidet man zwischen drei Haupttechniken:

1) klassifizierungsbasierte Algorithmen

2) Clustering

3) statistische Algorithmen

Bei klassifizierungsbasierten Algorithmen handelt es sich um vorher gekennzeichnete Daten, meist in Form von normalen und anormalen Datensätzen. Dazu werden bestimmte Merkmale der Daten wie beispielsweise Größe, Geschwindigkeit, Temperatur usw. miteinander verglichen. Basierend darauf werden die Daten den jeweiligen Gruppen zugeordnet. Bei der Kreditkartenbetrugserkennung könnten dies beispielsweise geographische Merkmale oder die Summe der Transaktionen sein. Solche Techniken im Machine-Learning, bei denen die zu verwendenden Daten vorher gekennzeichnet sind, werden als überwachtes Lernen (eng. Supervised learning) bezeichnet.

Clustering-basierte Algorithmen gruppieren ähnliche Objekte in Clustern und gehen davon aus, dass Anomalien a) entweder keiner Gruppe angehören, b) weit von ihren Clusterzentren entfernt sind oder c) zu kleinen undichten Clustern gehören. Im Gegensatz zum überwachten Lernen werden Daten ohne Kennzeichnung verwendet. Diese Technik gehört zum unüberwachten Lernen (eng. unsupervised learning) der Machine-Learning-Algorithmen . Bei dieser Technik werden Informationen über alle Eigenschaften der Daten gesammelt und verarbeitet, um Entscheidungen auf der Grundlage des gesamten Inputs zu treffen. Die Annahme ist, dass Anomalien viel seltener sind als normale Datensätze. Außerdem gibt es keine Unterscheidung zwischen Trainings- und Testdaten. Bei den statistischen Algorithmen werden alle Datenpunkte, die vom stochastischen Model abweichen, als Ausreißer erkannt.

Supervised data

Was ist das Ergebnis der Anomalieerkennung?

Es gibt zwei Möglichkeiten als Ausgabe eines Algorithmus zur Anomalieerkennung. Das Ergebnis kann erstens binär sein, d. h. es gibt an, ob ein Datenpunkt eine Anomalie ist oder nicht, wie „Ausreißer“ oder „kein Ausreißer“ (Labels). Häufig ist bei überwachtem Lernen aufgrund der gekennzeichneten Daten das Ergebnis ein Label. Zweitens kann ein Konfidenzwert oder ein Score ein informatives Ergebnis einer Anomaliererkennung sein. Hierzu wird ein Model aus dem normalen Verhalten der Daten erstellt. Basierend auf den Abweichungen der Datenpunkte von diesem Model wird ein Anomalie-Score für jeden Datensatz berechnet. Dieser wird jedem Datensatz zugewiesen, anhand dessen alle Daten in einer Reihenfolge der Ausreißertendenz geordnet werden.  Ein Schwellenwert (eng. Threshold) kann verwendet werden, um die Datenpunkte mit den höchsten Werten auszugeben . Alternativ können auch eine Analytikerin oder ein Analytiker diese Entscheidung treffen. Um den Aufwand zu reduzieren, kann ein automatischer Prozess eingesetzt werden, bei dem die ausgewählten Datensätze mit dem höchsten Wert zusammen mit den relevanten Informationen auf einem Dashboard angezeigt werden. So erhält man einen direkten Überblick auf die wichtigsten Kennzahlen und die entscheidenden Eigenschaften (eng. root cause).

Anomaly score

Entscheidend für gute Ergebnisse bei allen Machine-Learning-Problemen ist die Auswahl des richtigen Datenmodells. In den meisten Fällen handelt es sich bei der Anomalieerkennung um ein unüberwachtes Problem, bei dem keine Beispiele für abnormales Verhalten verfügbar sind. Dies macht die Erkennung von Anomalien im Vergleich zu vielen anderen Problemen im Machine-Learning, bei denen beschriftete Daten zur Verfügung stehen, zu einer größeren Herausforderung. Nichtdestotrotz ist es in der Praxis möglich, durch den Aufbau eines gründlichen Datenverständnisses durch Analystinnen und Analysten wie z. B. die Berechnung von Zusammenhängen der Verhaltenseigenschaften oder die Auswertung der Daten, das beste Modell für die Anwendung zu finden.

Die Identifizierung von Ausreißern und ungewöhnlichen Mustern kann in Unternehmen neben Betrugserkennung auch zur Verbesserung der Datenqualität, der Kundenakquisitionskosten oder auch zur Überwachung der Systeme und IoTs dienen. Die Anomalieerkennung hilft dabei kritische Vorfälle, wie technische Fehler oder Veränderungen im Kundenverhalten, früher zu erkennen, die Ursachenanalyse zu optimieren und schneller Support zu erhalten. Darüber hinaus können potenzielle Verbesserungen oder Risiken in den Unternehmensaktivitäten durch die schnelle und zuverlässige Erkennung von Abweichungen in den Leistungskennzahlen (Key Performance Indicators, KPIs) entdeckt werden. Dadurch wird der Aufwand minimiert und Nutzen bereits frühzeitig generiert.

Autorin: Atefeh Razavi

Jetzt teilen auf:

Jetzt kommentieren