Datenextraktion
Datenextraktion ist die Handlung oder der Prozess des Abrufs Daten aus (normalerweise unstrukturiert oder schlecht strukturierte) Datenquellen für weiter Datenverarbeitung oder Datenspeicher (Datenmigration). Das importieren in das mittlere Extraktsystem folgt somit normalerweise gefolgt von Datenumwandlung und möglicherweise die Zugabe von Metadaten vor Export zu einer anderen Phase in den Daten Arbeitsablauf.
Normalerweise wird die Begriffsdatenextraktion angewendet, wenn ((Experimental-) Daten werden zuerst in einen Computer aus primären Quellen importiert, wie Messung oder Aufnahmegeräte. Heute elektronische Geräte präsentiert normalerweise eine Elektrischer Steckverbinder (z.B. USB) durch welches 'Rohdaten' kann sein gestreamt in ein persönlicher Computer.
Datenquellen
Typische unstrukturierte Datenquellen umfassen Webseiten, E -Mails, Dokumente, PDFs, gescannte Text, Mainframe -Berichte, Spool -Dateien, Klassifizierungen usw., die für Vertriebs- oder Marketing -Leads weiter verwendet werden. Das Extrahieren von Daten aus diesen unstrukturierten Quellen hat sich zu einer beträchtlichen technischen Herausforderung entwickelt, bei der die historischem Datenextraktion Änderungen der physischen Hardwareformate behandelt hat . Dieser wachsende Prozess der Datenextraktion[1] Aus dem Web wird als "Webdatenextraktion" oder "bezeichnet"Web -Scraping".
Struktur imposanten
Das Hinzufügen von Struktur zu unstrukturierten Daten erfordert eine Reihe von Formularen
- Verwenden von Text Musteranpassung wie zum Beispiel Reguläre Ausdrücke Um kleine oder groß angelegte Struktur zu identifizieren, z. Aufzeichnungen in einem Bericht und ihren zugehörigen Daten von Header und Fußzeilen;
- Verwenden eines Tabellenansatzes zur Identifizierung gemeinsamer Abschnitte innerhalb einer begrenzten Domäne, z. In E -Mail -Lebensläufen identifizieren Fähigkeiten, frühere Berufserfahrung, Qualifikationen usw. unter Verwendung eines Standardsatzes häufig verwendeter Überschriften (diese würden von Sprache zu Sprache unterscheiden), z. Bildung kann unter Bildung/Qualifikation/Kursen gefunden werden;
- Verwendung Textanalyse Um den Text zu verstehen und ihn mit anderen Informationen zu verknüpfen