Frage Wie man 2 leicht variierende Datensätze zu einer funktionsfähigen Datei zusammenfügt


Hoffentlich denke ich logisch darüber nach ... Wie gleicht man zwei verschiedene Datensätze ab, die jedoch in eine ausführbare Datei ähnlich sind? Zum Beispiel habe ich einen Stammdatensatz, der einen Krankenhausnamen, eine Adresse, eine Stadt und einen Staat auflistet. Ich habe einen anderen Datensatz, der den Krankenhausnamen, Adresse, Stadt, Zustand und Verkaufsinformationen hat. Ich würde gerne beide heiraten, aber nicht wegen unterschiedlicher Nuancen zwischen beiden Sets ... Zum Beispiel:

     **Data Set 1**                     **Data Set 2 (with Sales info)**

Kinderkrankenhaus von Baltimore Children's Hosp von Baltimore 123 Baltimore Allee 123 Baltimore Allee Baltimore, MD 12345 Baltimore, MD 12345

Diese sind im Wesentlichen das gleiche Krankenhaus, aber mit leicht variierenden Informationen.
Kennt jemand einen Weg, diese Aufgabe zu bewältigen?

Jede Hilfe wird sehr geschätzt.


0
2017-10-24 20:31


Ursprung


Sie geben nicht an, wie groß die Datensätze sind. Oft in Situationen, in denen die Daten leicht unterschiedlich sind, aber beide technisch korrekt sind und Datensatz für Datensatz variiert, welcher Datensatz den besseren hat, ist es einfacher, es manuell zu tun, als zu versuchen, Regeln zu schreiben, um es zu automatisieren. - fixer1234


Antworten:


Ich würde das Fuzzy Lookup Add-In dafür verwenden. Es wird in zwei Tabellen gelesen und gibt die beste Übereinstimmung (oder Übereinstimmungen) sowie Vertrauens- und Ähnlichkeitswerte zurück.

http://www.microsoft.com/en-us/download/details.aspx?id=15011

Bei typischen Datensätzen können Sie hohe und niedrige Grenzen basierend auf dem Confidence-Score festlegen (z. B. eine Übereinstimmung über 0,9 akzeptieren, eine Übereinstimmung unter 0,5 ablehnen), sodass Sie eine kleinere Gruppe von Match-Kandidaten manuell überprüfen können.


0
2017-10-27 02:34