Daten umstreiten

Daten umstreiten, manchmal bezeichnet als Datenmagel, ist der Prozess der Transformation und Daten zuordnen von einem "roh"Datenformular in eine andere Format Mit der Absicht, es für eine Vielzahl von nachgeschalteten Zwecken wie Analytics angemessener und wertvoller zu machen. Das Ziel des Datenstrangs ist es, Qualität und nützliche Daten zu gewährleisten. Datenanalysten verbringen in der Regel den größten Teil ihrer Zeit im Prozess des Datenverlaufs im Vergleich zur tatsächlichen Analyse der Daten.

Der Prozess des Datenrahmens kann weiter einschließen Munding, Datenvisualisierung, Datenaggregation, Training a Statistisches Modellsowie viele andere potenzielle Verwendungen. Das Datenrangling folgt typischerweise einer Reihe allgemeiner Schritte, die mit dem Extrahieren der Daten in einer Rohform aus der Datenquelle, "Munge" der Rohdaten (z. B. Sortieren) oder Parsen der Daten in vordefinierte Datenstrukturen, und schließlich den resultierenden Inhalt in den resultierenden Inhalt abgelegt ". Eine Datensenke für die Speicherung und zukünftige Verwendung.[1]

Hintergrund

Der nicht-technische Begriff "Wrangler" soll oft aus der Arbeit von der von der erledigt werden Kongressbibliothek der Vereinigten Staaten's Nationale digitale Informationsinfrastruktur und Erhaltungsprogramm (NDIIPP) und ihr Programmpartner die Emory University Bibliotheken basieren auf metaararchive Partnerschaft. Der Begriff "Mung" hat Wurzeln in Munding wie in der beschrieben Jargon -Datei.[2] Der Begriff "Data Wrangler" wurde ebenfalls als beste Analogie vorgeschlagen, um jemanden zu beschreiben, der mit Daten arbeitet.[3]

Einer der ersten Erwähnungen von Daten, die in einem wissenschaftlichen Kontext streiten, war von Donald Cline während des Experiments der NASA/NOAA Cold Lands Processes.[4] Cline erklärte, dass die Daten -Wranglers "die Erfassung der gesamten Sammlung der Experimentdaten koordinieren". Cline gibt auch Aufgaben an Speicheradministrator für die Arbeit mit großen Mengen von Daten. Dies kann in Gebieten wie Major auftreten Forschung Projekte und die Herstellung von Filme mit einer großen Menge komplexer Computer generiertes Bild. In der Forschung beinhaltet dies beides Datentransfer Vom Forschungsinstrument bis hin zum Speichernetz oder der Speicheranlage sowie Datenmanipulation zur Neuanalyse über leistungsstarke Computerinstrumente oder Zugriff über Cyberinfrastrukturbasis basiert über leistungsstarke Computerinstrumente Digitale Bibliotheken.

Mit dem bevorstehenden künstlichen Intelligenz in Datenwissenschaft Es ist immer wichtiger für die Automatisierung von Daten, die sich mit sehr strengen Überprüfungen befassen, weshalb der Mundprozess von Daten nicht automatisiert wurde maschinelles Lernen. Datenmagel erfordert mehr als nur eine automatisierte Lösung. Es erfordert Kenntnisse darüber, welche Informationen entfernt werden sollten, und künstliche Intelligenz ist nicht so, dass sie solche Dinge verstehen.[5]

Verbindung zum Data Mining

Data Wrangling ist ein Superset von Data Mining und erfordert Prozesse, die einige Data Mining verwendet, aber nicht immer. Der Prozess des Data Mining besteht darin, Muster in großen Datensätzen zu finden, bei denen Datenverschiebung Daten transformiert, um Erkenntnisse zu diesen Daten zu liefern. Auch wenn das Data -Wrangling eine Übersicht des Data Mining ist, bedeutet dies nicht, dass Data Mining nicht verwendet wird, es gibt viele Anwendungsfälle für das Datenabbau des Data Mining. Das Data -Wrangling kann dem Data Mining zugute kommen, indem Daten entfernen, die dem Gesamtsatz nicht zugute kommen oder nicht ordnungsgemäß formatiert werden, was zu besseren Ergebnissen für den Gesamtdatenminingprozess führt.

Ein Beispiel für das Data Mining, das eng mit dem Datenrangling zusammenhängt, besteht darin, Daten von einem Satz zu ignorieren, der nicht mit dem Ziel verbunden ist Die Daten im Set beziehen sich auf die Bewohner von Dallas sind für den Gesamtsatz nicht nützlich und können vor der Verarbeitung entfernt werden, um die Effizienz des Data Mining -Prozesses zu verbessern.

Vorteile

Mit einer Erhöhung der Rohdaten steigt die Anzahl der Daten, die von Natur aus nicht nützlich sind, dies erhöht die Zeit, die für die Reinigung und Organisation von Daten aufgewendet werden kann, bevor sie analysiert werden können, wobei das Verringung von Daten ins Spiel kommt. Das Ergebnis von Datenrahmen kann wichtige Metadatenstatistiken für weitere Erkenntnisse über die Daten liefern. Es ist wichtig, sicherzustellen, dass Metadaten konsistent sind, sonst kann sie Straßensperren verursachen. Mit Datenrangling können Analysten komplexere Daten schneller analysieren, genauere Ergebnisse erzielen und aufgrund dieser besseren Entscheidungen getroffen werden. Viele Unternehmen sind wegen des Erfolgs, den sie mitgebracht hat, auf das Data Wrangling übergegangen.

Kernideen

Unordentliche Daten in nützliche Statistiken verwandeln

Die wichtigsten Schritte im Datenrahmen sind wie folgt:

  1. Datenentdeckung

    Dieser umfassende Begriff beschreibt, wie Sie Ihre Daten verstehen. Dies ist der erste Schritt, um sich mit Ihren Daten vertraut zu machen.

  2. Strukturierung
    Der nächste Schritt besteht darin, die Daten zu organisieren. Rohdaten sind in der Regel unorganisiert und vieles davon ist möglicherweise nicht nützlich für das Endprodukt. Dieser Schritt ist wichtig für die einfachere Berechnung und Analyse in den späteren Schritten.
  3. Reinigung
    Es gibt viele verschiedene Formen von Reinigungsdaten, beispielsweise eine Form von Reinigungsdaten fängt die auf unterschiedlichen Weise formatierten Daten auf, und eine andere Form entzieht Ausreißer, die die Ergebnisse verzerrt und auch Nullwerte formatieren. Dieser Schritt ist wichtig, um die allgemeine Qualität der Daten zu sichern.
  4. Bereicherung
    In diesem Schritt bestimmen Sie, ob zusätzliche Daten dem Datensatz zugute kommen oder nicht, der leicht hinzugefügt werden könnte.
  5. Validieren
    Dieser Schritt ähnelt der Strukturierung und Reinigung. Verwenden Sie sich wiederholende Sequenzen von Validierung Regeln, um sicherzustellen Datenkonsistenz sowie Qualität und Sicherheit. Ein Beispiel für eine Validierungsregel ist die Bestätigung der Genauigkeit von Feldern über Kreuzungsprüfungsdaten.
  6. Veröffentlichung
    Bereiten Sie den Datensatz zur Verwendung nachgeschalteter Verwendung vor, die die Verwendung für Benutzer oder Software umfassen kann. Stellen Sie sicher, dass Sie alle Schritte und Logik während des Wranglings dokumentieren.

Diese Schritte sind ein iterativer Prozess, der einen sauberen und verwendbaren Datensatz ergeben sollte, der dann zur Analyse verwendet werden kann. Dieser Prozess ist mühsam, aber lohnend, da Analysten die Informationen, die sie benötigen, aus einem großen Satz von Daten herausholen können, die ansonsten unlesbar wären.

Startdaten
Name Telefon Geburtsdatum Bundesland
John Smith 445-881-4478 12. August 1989 Maine
Jennifer Tal +1-189-456-4513 11/12/1965 Tx
Tore, Bill (876)546-8165 15. Juni 72 Kansas
Alan Fitch 5493156648 2-6-1985 Oh
Jacob Alan 156-4896 3. Januar Alabama
Ergebnis
Name Telefon Geburtsdatum Bundesland
John Smith 445-881-4478 1989-08-12 Maine
Jennifer Tal 189-456-4513 1965-11-12 Texas
Bill Gates 876-546-8165 1972-06-15 Kansas
Alan Fitch 549-315-6648 1985-02-06 Ohio

Das Ergebnis der Verwendung des Datenranglingprozesses in diesem kleinen Datensatz zeigt einen erheblich einfacheren Datensatz zum Lesen an. Alle Namen sind jetzt auf die gleiche Weise formatiert, {Vorname Nachname}, Telefonnummern werden ebenfalls formatiert. abgekürzt. Der Eintrag für Jacob Alan hatte keine vollständig gebildeten Daten (die Vorwahl auf der Telefonnummer fehlt und das Geburtsdatum hatte kein Jahr), so dass er vom Datensatz verworfen wurde. Nachdem der resultierende Datensatz gereinigt und lesbar ist, kann er entweder bereitgestellt oder ausgewertet werden.

Typische Verwendung

Die Datenumwandlungen werden typischerweise auf verschiedene Entitäten (z. B. Felder, Zeilen, Spalten, Datenwerte usw.) innerhalb eines Datensatzes angewendet und können Maßnahmen wie Extraktionen, Parsen, Verbinden, Standardisieren, Augmentieren, Reinigen, Konsolidieren und Filterungen enthalten Um gewünschte Ausgänge zu erstellen, die stromabwärts genutzt werden können.

Die Empfänger könnten Einzelpersonen sein, wie z. Datenarchitekten oder Datenwissenschaftler Wer werden die Daten weiter untersuchen, Geschäftsbenutzer, die die Daten direkt in Berichten konsumieren, oder Systeme, die die Daten weiter verarbeiten und in Ziele wie z. Data Warehouse, Datenseenoder nachgelagerte Anwendungen.

Modus Operandi

Abhängig von der Menge und dem Format der eingehenden Daten wurde das Data -Wrangling traditionell manuell durchgeführt (z. B. über Tabellenkalkulationen wie Excel), Tools wie Knime oder über Skripte in Sprachen wie z. Python oder Sql. REine Sprache, die häufig in Data Mining und statistische Datenanalyse verwendet wird, wird jetzt auch manchmal auch für das Verbrechen von Daten verwendet.[6] Datenwrangler haben in der Regel Fähigkeiten innerhalb: R oder Python, SQL, PHP, Scala und mehr Sprachen, die normalerweise zur Analyse von Daten verwendet werden.

Es wurden visuelle Daten-Wrangling-Systeme entwickelt, um Daten zu erreichen, die für Nichtprogrammierer zugänglich sind, und für Programmierer einfacher. Einige davon beinhalten auch eingebettete KI Empfehlungen und Programmierung mit gutem Beispielsweise Einrichtungen, um Benutzerunterstützung zu leisten, und Programmsynthese Techniken zum automatischen skalierbaren Datenflusscode. Frühe Prototypen der visuellen Daten umstreiten Tools umfassen OpenRefine und die Stanford/Berkeley Wrangler Forschungssystem;[7] Letzterer entwickelte sich zu Trifacta.

Andere Begriffe für diese Prozesse umfassten Data Franchising.[8] Datenaufbereitungund Datenmagel.

Beispiel

Bei einer Reihe von Daten, die Informationen zu medizinischen Patienten enthalten, ist es Ihr Ziel, Korrelation für eine Krankheit zu finden. Bevor Sie die Daten wiederholen können, suchen Sie nach Patienten, die die Krankheit haben? Gibt es andere Krankheiten, die die Ursache sein können? Sobald ein Verständnis des Ergebnisses erzielt wird, kann der Datenrandprozess beginnen.

Beginnen Sie mit der Bestimmung der Struktur des Ergebnisses, was wichtig ist, um die Diagnose der Krankheit zu verstehen.

Sobald eine endgültige Struktur bestimmt ist, reinigen Sie die Daten, indem Sie alle nicht hilfreichen Datenpunkte entfernen oder fehlerhaft sind. Dies kann Patienten umfassen, bei denen keine Krankheit diagnostiziert wurde.

Gibt es nach dem Reinigen der Daten erneut etwas, das dem Datensatz hinzugefügt werden kann, der bereits bekannt ist, der ihm zugute kommt? Ein Beispiel könnte am häufigsten Krankheiten in der Region sein, Amerika und Indien sind sehr unterschiedlich, wenn es um die meisten häufigen Krankheiten geht.

Jetzt kommt der Validierungsschritt, bestimmen die Validierungsregeln, für die Datenpunkte auf Gültigkeit überprüft werden müssen. Dies kann das Geburtsdatum oder die Überprüfung auf bestimmte Krankheiten enthalten.

Nach dem Validierungsschritt sollten die Daten nun organisiert und entweder für die Bereitstellung oder für die Bewertung vorbereitet werden. Dieser Prozess kann für die Bestimmung von Korrelationen für die Krankheitsdiagnose von Vorteil sein, da die große Datenmenge in etwas reduziert werden, das leicht für ein genaues Ergebnis analysiert werden kann.

Siehe auch

Verweise

  1. ^ "Was ist Datenmagel?". Archiviert vom Original am 2013-08-18. Abgerufen 2022-01-21.
  2. ^ "Mung". Jargon -Datei. Archiviert vom Original am 09.09.2012. Abgerufen 2012-10-10.
  3. ^ Als Codierer für Code ist X für Daten gilt Archiviert 2021-04-15 am Wayback -Maschine, Open Knowledge Foundation Blog -Beitrag
  4. ^ Parsons, M. A.; Brodzik, M. J.; Rutter, N. J. (2004). "Datenmanagement für das Experiment des Kaltlandprozesses: Verbesserung der hydrologischen Wissenschaft". Hydrologische Prozesse. 18 (18): 3637–3653. Bibcode:2004Hypr ... 18.3637p. doi:10.1002/hyp.5801.
  5. ^ "Was ist Daten, die sich umringen? Was sind die Schritte in der Datenverbreitung?". Expressanalyse. 2020-04-22. Archiviert vom Original am 2020-11-01. Abgerufen 2020-12-06.
  6. ^ Wickham, Hadley; Grolemund, Garrett (2016). "Kapitel 9: Data Wrangling Einführung". R für die Datenwissenschaft: Importieren, ordentlich, transformieren, visualisieren und Modelldaten (First Ed.). Sebastopol, CA. ISBN 978-1491910399. Archiviert vom Original am 2021-10-11. Abgerufen 2022-01-12.
  7. ^ Kandel, Sean; Paepcke, Andreas (Mai 2011). "Wrangler: Interaktive visuelle Spezifikation von Datentransformationsskripten". Sigchi. doi:10.1145/1978942.1979444. S2CID 11133756.
  8. ^ Was ist Data Franchising? (2003 und 2017 Iri) Archiviert 2021-04-15 am Wayback -Maschine

Externe Links