Sie sind hier: Startseite IT & Kommunikation Moderne Screening-Systeme setzen auf Linguistik
Benutzerspezifische Werkzeuge
Artikelaktionen
Matching-Algorithmen

Moderne Screening-Systeme setzen auf Linguistik

Die Suche mit und der Abgleich von Personendaten sind Elementarprozesse, die in jedem Bankinstitut eine wichtige Rolle spielen. Herkömmliche Such- und Screening-Verfahren haben die Erwartungen der Nutzer oftmals enttäuscht. Sie sind unzuverlässig und erzeugen irrelevante Treffer. Eine neue Generation von Algorithmen setzt auf Linguistik und erzielt damit einen Qualitätssprung. Das sind gute Nachrichten, vor allem für Compliance-Verantwortliche. | Bertrand Lisbach

Bei der Personensuche werden Identitätsattribute aus der Suchabfrage mit den Identitätsattributen aus den Datenprofilen einer Datenbank verglichen. Ähnlich verhält es sich beim Personendatenabgleich. Hier werden Datenprofile untereinander verglichen, etwa um herauszufinden, ob eine Person in einer Datenquelle mehrmals erfasst ist (Dubletten-Erkennung) oder um Datenprofile aus verschiedenen Quellen zu konsolidieren (CDI: Customer Data Integration). Dies ist für solche Banken besonders wichtig, die auf verschiedenen Kanälen und an verschiedenen Standorten mit ihren Kunden interagieren und als Folge davon verteilte Datenbestände aufweisen. Auch bei Fusionen und Kooperationen zwischen Instituten findet oft ein Abgleich der Kundendaten beider Institute statt.

Wie bei der Personensuche sind es auch beim Personendatenabgleich meist die Compliance-Abteilungen, die die höchsten Qualitätsansprüche anmelden. Unter anderem müssen sie dafür sorgen, dass regelmäßig der gesamte Kundenbestand mit Prüflisten (Watchlists) abgeglichen wird. Zu den Prüflisten gehören nationale und internationale Listen sanktionierter Parteien, Listen gesuchter Verbrecher und bekannter Geldwäscher, Listen von Terroristen und Listen politisch exponierter Personen (PEPs). Die Datenprofile auf den Prüflisten enthalten meist Namen, die der internationalen Presse entstammen. Hingegen sind die Kundendaten in der Regel einem Ausweisdokument entnommen. Es ist somit nicht erstaunlich, dass der Name derselben Person oft unterschiedlich repräsentiert ist.

Von einer Screening Software erwartet der Compliance-Verantwortliche, dass sie in der Lage ist, mit Variationen in der Schreibung und der Struktur von Namen umzugehen. Findet sich in der Kundendatei der Eintrag Boris Jelzin (die typisch deutsche Umschrift) und auf einer Prüfliste der Eintrag Boris Yeltsin (die typisch englische Umschrift desselben Namens), so soll das System eine Übereinstimmung (einen Match) ermitteln. In der Praxis erfüllen die wenigsten Screening-Lösungen die in sie gesetzten Erwartungen.

Damit geht ein erhebliches Risiko für die Bank einher. Es kann dazu kommen, dass namentlich bekannte Verbrecher in der Kundendatei unentdeckt bleiben. Man spricht dann von False Negatives. Wird publik, dass gelistete Verbrecher unbehelligt die Bank für ihre Geschäfte missbrauchen, drohen empfindliche Strafen. Unzureichende Screening Software verursacht aber nicht nur Risiken, sondern oft auch Kosten. Denn wenn der Screening-Prozess lange Resultatelisten mit irrelevanten Treffern (False Positives) erzeugt, müssen die zuständigen Compliance Officers oder Relationship Managers viel Zeit für Detailabklärungen aufbringen.

Mit Linguistik aus der Sackgasse
Die Ursache von Qualitätsmängeln in der eingesetzten Screening Software liegt zumeist im eingebauten Matching-Algorithmus. Dieser bestimmt den Grad der Übereinstimmung von Namen. Er muss also entscheiden können, ob zwei zu vergleichende Zeichenketten unterschiedliche Namen repräsentieren oder ob sie unterschiedliche Schreibweisen desselben Namens darstellen.

Herkömmliche, nicht-linguistische Verfahren sind dazu nur sehr begrenzt in der Lage. Einige leisten im Matching-Prozess nicht viel mehr als die Anzahl übereinstimmender Zeichen der beiden Ketten zu bestimmen. Jelzin und Yeltsin schneiden in dieser Hinsicht schlecht ab. Man benötigt drei Editieroperationen, um die eine Schreibweise in die andere zu überführen: das Ersetzen von J durch Y, das Ersetzen von Z durch T und das Hinzufügen von S. Hingegen liegen die beiden unterschiedlichen Namen Meier und Meder nur eine einzige Editieroperation auseinander (Ersetzen von I durch D).

Solche so genannten Edit-Distance-Maße (zum Beispiel die berühmte Levenshtein-Distance) werden beim Screening sehr oft eingesetzt. Sie stellen den Compliance-Verantwortlichen beim Einstellen der Screening Software vor ein Dilemma: Will er die Anzahl von False Positives halbwegs überschaubar halten, darf höchstens eine Abweichung von einer Editieroperation toleriert werden. Selbst dann produziert der Algorithmus noch irrelevante Treffer. Vor allem werden bei einer solch eingeschränkten Toleranz aber typische Schreibvariationen desselben Namens nicht als solche erkannt. Soll der Levenshtein-Dis­tance-Matching-Algorithmus Jelzin und Yeltsin matchen, müssen wie oben hergeleitet mindestens drei Editieroperationen toleriert werden. Bei einer solchen Unschärfe würde Jelzin aber nicht nur Yeltsin finden, sondern auch so verschiedene Namen wie Jelinek, Julzer, Lenin oder Merlin.

Die neuerdings auf dem Markt befindlichen linguistischen Matching-Algorithmen sind angetreten, um einen Ausweg aus dieser Sackgasse zu finden. Sie versprechen eine sprunghafte Erhöhung sowohl der Zuverlässigkeit als auch der Präzision. Der Grundgedanke dieser neuen Generation von Matching-Algorithmen ist einfach: Schreibvariationen von Namen sind linguistischer Natur. Zum zuverlässigen und präzisen Screening müssen die Variationsquellen identifiziert und ihre Auftretensbedingungen und Auswirkungen analysiert werden. Auf dieser Basis können zielgenaue Matching-Algorithmen für die jeweiligen Variationsquellen in ihren sprachraumspezifischen Ausprägungen definiert werden.

Soundex – ein lebendes Fossil
Der Grundgedanke, mit Linguistik Namen zu matchen, ist keineswegs neu. Bereits 1918 wurde der Soundex-Algorithmus patentiert. Mit ihm werden Buchstaben in Klassen ähnlicher Lautqualität gruppiert und auf dieser Basis so genannte Similarity Keys generiert. In den Similarity Keys, die zum Matchen anstelle der Originalnamen herangezogen werden, sind also kleinere Unterschiede in der Lautqualität nivelliert.

Die Soundex-Regeln sind aber sehr einfach gehalten, und es wird nicht berücksichtigt, dass die Aussprache eines Buchstabens von vor- und nachständigen Buchstaben abhängt. Mit Soundex kann daher weder zuverlässig noch präzise gematcht werden: Jelzin und Yeltsin würden nicht matchen; ihnen sind unterschiedliche Similarity Keys zugeordnet: J425 bzw. Y432. Kennedy andererseits würde mit Namen wie Kant, Knuth, Komet und selbst Kwoyamati matchen. Für all diese Beispielnamen ermittelt Soundex den identischen Key K530.

Dass sich Soundex quasi als lebendes Fossil auch heute noch im Einsatz befindet, ist ein Kuriosum der Technikgeschichte. Die zweite Generation von Matching-Algorithmen hat Soundex einiger seiner Schwächen behoben. Die größte Verbreitung erfuhren der Metaphone-Algorithmus von 1990 und der Double-Metaphone-Algorithmus aus dem Jahre 2000. Beide Algorithmen erzeugen ebenfalls Similarity Keys, etwas bessere als Soundex. Doch kann weder ihre Zuverlässigkeit noch ihre Präzision überzeugen. Sie decken nur einen kleinen Bruchteil der linguistischen Aspekte ab, die beim Vergleich von Namen eine Rolle spielen. Schon beim Matchen typischer Transkriptionsvarianten wie Jelzin und Yeltsin scheitern sie.

Matching-Algorithmen der dritten Generation
Die wichtigsten Variationsquellen in globalen NamensdatenWas die Matching-Algorithmen der dritten Generation von ihren Vorgängern unterscheidet, ist die konsequente Ausrichtung an den Ursachen von Schreibvariationen in globalen Namensdaten. GRAFIK 1 gibt einen Überblick über die wichtigsten Variationsquellen. Sie sind (mit Ausnahme der tastaturbedingten Verschreiber) linguistischer Natur. Mit anderen Worten: Das Vorkommen und die Auswirkungen der meisten Quellen erklären sich aus dem Schriftbild, dem Lautbild oder aus der Namensverwendung im jeweiligen Sprachraum. Wenn bekannt ist, in welchen Sprachräumen welche Variationen vorkommen und welche Auswirkungen diese zeitigen, lassen sich für die einzelnen Variationsquellen maßgeschneiderte Matching-Methoden entwickeln.

Matching-Algorithmen der dritten Generation haben üblicherweise zwei Komponenten. Eine analytische, die ermittelt, welche Variationsphänomene bei einem beliebigen Namen auftreten können, und eine generative. Die generative Komponente erzeugt Namensvarianten oder Similarity Keys, die dann im eigentlichen Matching-Prozess verglichen werden.

Der Aufwand zur Erstellung eines hochwertigen linguistischen Matching-Algorithmus ist nicht zu unterschätzen. Es existieren circa 70 Sprachen, die jeweils von mindestens 10 Mio Menschen gesprochen werden. Etwa 40 dieser Sprachen verwenden ein nicht-lateinisches Alphabet. In Anbetracht der Globalisierung der Wirtschaft und der Mobilität von Menschen und Kapital sollten all diese Sprachen erforscht werden. Dazu gehört insbesondere die Untersuchung, welche Variationen entstehen, wenn derselbe Name in verschiedenen Sprachräumen verwendet wird. Der hohe Forschungsaufwand ist wohl der Grund dafür, dass erst eine kleine Zahl von Softwarehäusern entsprechende Produkte auf dem Markt anbieten können. Von ihnen wird in der nächsten Zukunft wohl noch mehr zu hören sein, zumal die regulatorischen Anforderungen an die Qualität und an die Quantität des Screenings nicht abnehmen werden, im Gegenteil.

Tipps für die Praxis
Die Matching-Qualität einer Screening Software ist nicht so unmittelbar wahrnehmbar wie etwa die Qualität ihres User Interfaces. Sie ist aber trotzdem entscheidend. Unzureichende Matching-Algorithmen erzeugen regulatorische Risiken und Kosten in der Nachbearbeitung der Resultate. Daher sollten Compliance-Verantwortliche in Banken sicherstellen, dass die Matching-Qualität der eingesetzten Screening-Systeme dem Stand der Technik entspricht. Dieser hat sich in letzter Zeit mit der Einführung linguistischer Matching-Algorithmen deutlich nach oben verschoben. Von daher ist jetzt eine gute Zeit, die Matching-Algorithmen einem Tauglichkeitstest zu unterziehen. Neben Compliance-Abteilungen interessieren sich typischerweise auch IT-Abteilungen für das Thema. Eine unternehmensweit eingesetzte, standardisierte und hochwertige Personensuche kann der IT enorme Kostenvorteile verschaffen.

Beim Testen der Matching-Qualität sind stets die beiden Aspekte Zuverlässigkeit und Präzision im Auge zu behalten. Die Zuverlässigkeit lässt sich am besten testen, indem man nach bekannten Datenprofilen sucht und zwar mit eigens erstellten Schreibvarianten dieser Datenprofile. Fehlen die erwarteten Datenprofile in der Resultateliste, besteht ein Zuverlässigkeitsdefizit. Zum Testen der Präzision bieten sich kurze und häufige Namen an. Es ist zudem empfehlenswert, auch andere Identitätsattribute in die Evaluation einzubeziehen, also neben den Namen zum Beispiel das Geburtsdatum, die Nationalität oder die Adresse. Jedes Identitätsattribut hat seine eigenen spezifischen Variationsquellen, für die die Screening Software die jeweils besten Match-Methoden zur Verfügung stellen sollte.

Ist die Matching-Qualität nicht zufriedenstellend, bedeutet dies nicht unbedingt, dass ein neues Produkt erworben werden muss. Denn wenn die Screening Software eine modulare Architektur aufweist, lässt sich der Matching-Algorithmus austauschen oder optimieren, ohne dass die anderen Funktionsbereiche der Software davon betroffen wären. Erfährt die Screening Software auf diese Art einen Upgrade, erübrigen sich Aufwände für die Evaluation und die Integration neuer Software. Für die Anwender hat solch ein Upgrade den Vorteil, dass sie nicht umlernen müssen, sondern die Software wie bisher verwenden können. Im optimalen Fall ist das einzige, was sich für die Nutzer ändert, eine deutlich verbesserte Qualität der Treffer.

Bertrand Lisbach ist CEO der Linguistic Search Solutions AG.
Der Artikel ist erschienen in der Ausgabe 02/2011
IT & Kommunikation Trends
Online-Werbung behauptet sich
»
Litfasssäulen im Web
Peer-to-Peer-Geschäfte
»
Wichtige Wettbewerber
PR in neuen Medien ergänzt klassische Pressearbeit
»
Online-Portale liegen im Trend
Marken in Sozialen Medien
»
Erhöhte Chancenvielfalt
Anzeige
Stichwort
  • »Cyber-Kriminalität: Gefahrenzone World Wide Web: Viren-Autoren und Spam-Urheber agieren mit enormer krimineller Energie, so der Sicherheitsspezialist Message Labs in seinem Security Report für das Jahr 2009. Der Bericht zeigt, dass Botnets zwar Rückschläge erlitten, doch durch Überlebenskünstler-Qualitäten leider wieder schnell auf die Beine gekommen sind.
Buchtipp (IT)