Anrede und Anschrift
Dubletten
Anreicherung
Integration
Projekte und Referenzen
Hintergrund
Datenblatt
Produkthistory
Algorithmen & Verfahren
Grundlagen der Dublettensuche
Fuzzy Logic
DOS Programme
Support
Download

U-Bahnen und Waschmaschinen

Mit Fuzzy Logik werden U-Bahnen gebremst und Waschmaschinen gesteuert – was liegt da näher, als mit Fuzzy Logik auch auf Dublettenjagd zu gehen!? Künstliche Intelligenz, Chaostheorie, Fuzzy Logik – immer wieder tauchen diese spektakulären Begriffe auf, mit denen man dem Nichtfachmann so trefflich imponieren kann. Auch mehrere Anbieter von Dublettenbereinigungs-Software sind diesen Modebegriffen verfallen. Lassen Sie uns einen kurzen Blick auf die Fuzzy Logik werfen.

Fuzzy Logik ist – zumindest in Deutschland – eine relativ junge Modeerscheinung, die in Mathematiker- und Logiker-Kreisen nicht immer ganz ernst genommen wird. An den Hochschulen fristet sie ein eher stilles Dasein. Hätte sie zu wirklich neuen Erkenntnissen geführt, bliebe ihr dieses Schattendasein erspart und wäre sie in den einschlägigen Kreisen der Wissenschaft anerkannt. Schaut man sie sich näher an, zerplatzt sie wie eine Seifenblase.

Zumindest soweit es um die praktischen Anwendungen der Fuzzy Logik geht, verbirgt sich dahinter nicht viel mehr als eine Sammlung schlichter heuristischer Vorgehensweisen, die zum elementaren Rüstzeug jedes mathematisch vorgebildeten Softwareentwicklers gehören. Es sind sinnvolle Lösungsansätze für eine große Klasse von Problemen – insbesondere aus der Regelungstechnik. Und es bleibt das unbestreitbare Verdienst der Fuzzy-Logiker, den Ingenieuren bestimmte, wenn auch elementare mathematische Strategien und Techniken der Problemformulierung und -lösung nahe gebracht zu haben.

Der Begriff Fuzzy Logik suggeriert aber einen theoretischen Gehalt, der schlechterdings nicht vorhanden ist. Fuzzy Logik versteht sich als "unscharfe" Logik, die mit "unscharfen" Begriffen umgeht. Ob ein Mensch groß ist oder nicht, so eines der Standardbeispiele, dafür gibt es keine allgemeingültige Definition. Dennoch besteht zumindest Konsens dahingehend, dass ein Mann einer Körperlänge von 1,95m als "groß" angesehen wird, bei einer Körperlänge von 1,62m gilt er als "klein". Auch bei einer Körperlänge von 1,90m und vielleicht auch 1,85m wird man noch von "groß" reden, bei 1,80m vermutlich nicht mehr. Es gibt eine Reihe einfacher Verfahren, wie man diese begriffliche "Unschärfe" in mathematischen Formeln beschreiben und damit "rechnen" kann. Über das Niveau von Schulmathematik gehen diese Regelwerke selten hinaus.

Dublettensuche

Die Anwendung der Fuzzy Logik auf die Dublettensuche wird mit der Tatsache begründet, dass sich die Ähnlichkeit zweier Adressen nicht exakt definieren lässt, der Begriff "Ähnlichkeit" also "unscharf" aufzufassen und mit Methoden der Fuzzy Logik zu behandeln sei.

Diese Feststellung ist zwar richtig, engt aber das Gesichtsfeld unnötig ein. Schlimmer noch: Sie legt den Entwicklern eine Fährte in die falsche Richtung!

Das Ziel der Dublettensuche ist es ja nicht, die Ähnlichkeit von Adressen zu bewerten (das ist lediglich ein Zwischenziel!). Es geht vielmehr um die Frage, wie wahrscheinlich es ist, dass sich hinter zwei Adressen dieselbe Person oder Firma verbirgt. Schließlich wollen Sie zwei Adressen ja nicht wegen ihrer äußerlichen Ähnlichkeit zusammenfassen! Was Sie interessiert, ist die Wahrscheinlichkeit, ob es sich bei zwei Adressen um dieselbe Person oder Firma handelt. Das ist ein gravierender Unterschied...

Ähnlichkeiten und Wahrscheinlichkeiten

Der Unterschied lässt sich mit folgenden Beispielen gut verdeutlichen:

  • Münchener Hofbräuhaus und Münchner Hofbräuhaus
  • Henrike Müller und Henrik Müller

Die formale Ähnlichkeit beider Adresspaare ist im Prinzip dieselbe. Die Wahrscheinlichkeiten, dass auch die hinter den Adressen stehenden Firmen und Personen identisch sind, sind dagegen recht unterschiedlich. Beim Hofbräuhaus können Sie mit 100%iger Gewissheit von einer Identität ausgehen. Bei dem oder der Henrik(e) Müller ist diese Wahrscheinlichkeit immer noch hoch, aber selbst bei ansonsten übereinstimmender Anschrift sicher keine 100%.

Dieser Unterschied wird noch deutlicher, wenn Sie sich vorstellen, dass Sie sensible Unterlagen – etwa einen Steuerbescheid oder Krankenbericht – zustellen müssen. Im Falle des oder der Henrik(e) Müller würden Sie sich vermutlich erst einmal zusätzliche Gewissheit verschaffen wollen, dass es sich wirklich um ein und dieselbe Person, also um einen Schreibfehler beim Vornamen handelt. Denn es ist ja durchaus vorstellbar, dass in einem Haushalt tatsächlich zwei Personen mit diesen Vornamen leben. Im Falle des Münch(e)ner Hofbräuhauses ist das anders. Niemand würde auf die Idee kommen, dass es sich beim "Münchner Hofbräuhaus" und "Münchener Hofbräuhaus" um zwei verschiedene Unternehmen handeln könnte.

Für den Umgang mit Wahrscheinlichkeiten gibt es gut ausgearbeitete Theorien, die Statistik und die Wahrscheinlichkeitsrechnung. q.address arbeitet mit einem wahrscheinlichkeitstheoretischen Ansatz, der zu deutlich besseren Ergebnissen führt, als bloße Ähnlichkeitsbetrachtungen.

q.address und die Fuzzy Logik

Die Entwickler von q.address beobachten die Diskussion um die Fuzzy Logik amüsiert! Natürlich setzten auch sie diese Methoden ein – sie taten es bereits, als kaum jemand wusste, wie man Fuzzy Logik buchstabiert, und sie wären selbst nie auf die Idee gekommen, für diese einfachen Ideen so anspruchsvolle Namen zu bemühen. Beim Umgang mit Ähnlichkeitsbewertungen hat man nämlich gar keine andere Wahl!

Deswegen geben Ihnen unsere Entwickler folgenden Rat: Lassen Sie sich nicht von der Diskussion um wohlklingende Theorien blenden. Schauen Sie lieber auf die Ergebnisse und arbeiten Sie mit der Software, die Ihre individuellen Anforderungen am besten erfüllt!

Um zurück zur Übersicht zu gelangen, klicken Sie hier.