Anrede und Anschrift
Dubletten
Anreicherung
Integration
Projekte und Referenzen
Hintergrund
Datenblatt
Produkthistory
Algorithmen & Verfahren
Grundlagen der Dublettensuche
Fuzzy Logic
DOS Programme
Support
Download

Die Aufgabenstellungen

Wir werden uns nicht am Streit beteiligen, welches Verfahren das Beste ist.

Sicher ist nur: Für Sie als Anwender sind nicht Namen und Verfahren, sondern die Ergebnisse von Bedeutung. Testen Sie das Produkt, fordern Sie die q.address Demo an!

Die postalische Anschriftenprüfung, Anrede- und Namensprüfung, Adressabgleiche und Dublettenbereinigung sind grundlegend verschiedene Aufgabenstellungen:

  • Postalische Anschriftenprüfung: Hier geht es darum, eine gegebene Adresse in einem Referenzverzeichnis fehlertolerant zu identifizieren, um sie dann zu korrigieren. Außerdem ist die Anschrift zu formatieren und zu normalisieren. Die in q.address verwendeten Verfahren ermöglichen eine bisher nicht gekannte Trennschärfe.
  • Namensprüfung: Der Name ist zunächst richtig in seine Bestandteile zu zerlegen. Dann sind diese Bestandteile fehlertolerant zu identifizieren und daraus wichtige Informationen, wie z. B. die richtige, geschlechtsspezifische Anrede unter Berücksichtigung u. a. von akademischen und adeligen Titeln zu gewinnen. q.address Lexikon verfügt hierzu über sehr umfangreiche Referenzdaten (über 1,2 Mio. Einträge).
  • Dublettenprüfung, Adressabgleiche: Bei der Dublettensuche und bei Adressabgleichen geht es darum, ähnliche Adressen aufzuspüren. Da es – zumindest bei größeren Adressbeständen – nicht möglich ist, jede Adresse gegen jede abzugleichen, muss zunächst eine Vorauswahl getroffen werden. Es werden Adress-Cluster gebildet. Die Festlegung der Regeln zur Clusterbildung (Clustermanagement) ist kritisch.
  • Dublettenbereinigung und Verschmelzung: Wurden Dublettengruppen gefunden, ist die Arbeit allerdings nicht zu Ende: Jetzt geht es darum, die richtigen Adressen zu selektieren oder noch besser: Aus allen Adressen einer Dublettengruppe die jeweils besten Informationen zu sammeln und in die "überlebende" Adresse zu übernehmen (Verschmelzung).

Stand der Wissenschaft

Die Fachliteratur gibt wenig Hilfestellung. Natürlich kann man für elementare Verfahren wie etwa Sortierverfahren auf gut ausgearbeitete und erprobte Algorithmen zurückgreifen. Bereits bei der Ähnlichkeitsbewertung einfacher Strings und erst recht komplexerer Konstrukte wie etwa vollständiger Adressen wird es dünn. Dasselbe gilt für die fehlertolerante Suche, wie Sie für die Adressvalidierung und die Dublettensuche benötigt werden. Es werden zwar zahlreiche Verfahren beschrieben, praktische Bewertungen (Erfahrungsberichte, Vergleiche) sind aber rar. Offenbar behandeln die Autoren ihre Ergebnisse vertraulich, um sie anschließend besser (wirtschaftlich) verwerten zu können.

Für die Optimierung von q.address werden deshalb laufend umfangreiche eigene Untersuchungen angestellt und die eingesetzten Verfahren entsprechend weiterentwickelt.

Die schnelle Entwicklung der Technik macht heute Algorithmen und Verfahren möglich, von denen man früher nur träumen konnte. Um die Möglichkeiten wesentlich verbesserter Hardware, aber auch Innovationen im Bereich der Software optimal zu nutzen, ist es immer wieder notwendig, wesentliche Teile der Programme, aber auch der Algorithmen zu überarbeiten oder völlig neu zu entwickeln. Das geschieht auch bei q.address immer wieder.

Auf die Trennschärfe kommt es an

Die Anforderung ist klar:

  • Es sollen möglichst alle Adressfehler berichtigt und alle Dubletten gefunden werden.
  • Und es dürfen keine Fehlzuordnungen vorgenommen werden.

q.address trennt die Ergebnisse deswegen in drei Bereiche:

  • Sichere Zuordnungen
  • Unsichere Zuordnungen (abhängig von den jeweiligen Einstellungen)
  • Keine Zuordnungen

Wenn sich das Programm nicht sicher ist, ob zwei Adressen Dubletten sind oder nicht, werden diese Adressen als unsichere Dubletten klassifiziert. Das ist ehrlich und hilft Ihnen als Anwender im Umgang mit dem Programm und bei der Bewertung der Ergebnisse.

Es ist auch praktisch, denn Sie können Ihre Kontrolle und ggf. die manuelle Nachbearbeitung auf die unsicheren Falle beschränken.

Die hervorragende Trennschärfe von q.address stellt sicher, dass der "unsichere" Bereich nicht größer wird, als unbedingt nötig.

Um zurück zur Übersicht zu gelangen, klicken Sie hier.