Datensatz

A Datensatz (oder Datensatz) ist eine Sammlung von Daten. Bei tabellarischen Daten entspricht ein Datensatz einem oder mehrerer Datenbanktabellen, wo jeder Säule einer Tabelle repräsentiert eine bestimmte Variable, und jede die Zeile entspricht einer gegebenen Aufzeichnung des fraglichen Datensatzes. Der Datensatz listet Werte für jede der Variablen auf, z. B. für die Größe und das Gewicht eines Objekts für jedes Mitglied des Datensatzes. Datensätze können auch aus einer Sammlung von Dokumenten oder Dateien bestehen.[1]

In dem Daten öffnen Disziplin, Datensatz ist die Einheit, um die in einem öffentlichen offenen Datenrepository veröffentlichten Informationen zu messen. Das Europäische Data.europa.eu Portal aggregiert mehr als eine Million Datensätze.[2] Einige andere Probleme (Echtzeit-Datenquellen,[3] nicht-relational Datensätze usw.) erhöht die Schwierigkeit, einen Konsens darüber zu erzielen.[3]

Eigenschaften

Mehrere Merkmale definieren die Struktur und Eigenschaften eines Datensatzes. Dazu gehören die Anzahl und Typen der Attribute oder Variablen sowie verschiedene verschiedene Statistische Maßnahmen anwendbar für sie, wie z. Standardabweichung und Kurtosis.Jan M. żytkow, Jan Rauch (2000). Prinzipien des Data Mining und Wissensentdeckung. ISBN 978-3-540-66490-1.

Die Werte können Zahlen sein, wie z. reale Nummern oder GanzzahlenZum Beispiel, die die Größe einer Person in Zentimetern darstellen, aber auch sein kann Nenndaten (d.h. numerisch Werte), zum Beispiel die ethnische Zugehörigkeit einer Person. Im Allgemeinen können Werte von einer der als a beschriebenen Arten sein Messgrad. Für jede Variable sind die Werte normalerweise alle gleich. Es kann jedoch auch sein fehlende Werte, was in irgendeiner Weise angezeigt werden muss.

Im Statistiken, Datensätze stammen normalerweise aus tatsächlichen Beobachtungen, die durch erhalten wurden durch Probenahme a Statistische Bevölkerungund jede Zeile entspricht den Beobachtungen zu einem Element dieser Bevölkerung. Datensätze können weiter generiert werden durch Algorithmen zum Zweck des Testen bestimmter Arten von Software. Einige moderne statistische Analyse -Software wie z. SPSS Präsentieren Sie ihre Daten immer noch in der klassischen Datensatzmode. Wenn Daten fehlen oder verdächtig sind und Imputation Die Methode kann verwendet werden, um einen Datensatz zu vervollständigen.[4]

Klassische Datensätze

Mehrere klassische Datensätze wurden ausgiebig in der verwendet statistisch Literatur:

Es gibt mehrere Portale, die Zugriff auf Datensätze bieten:

Siehe auch

Verweise

  1. ^ Snijders, C.; Matzat, U.; REPS, U.D. (2012). "'Big Data': große Wissenslücken im Bereich Internet ". Internationales Journal of Internet Science. 7: 1–5.
  2. ^ "European Open Data Portal". European Open Data Portal. Europäische Kommission. Abgerufen 2016-09-23.
  3. ^ a b ATZ, U (2014). "Die TAU von Daten: Eine neue Metrik, um die Aktualität von Daten in Katalogen zu bewerten" (PDF). CEDEM 2014 Proceedings. Abgerufen 2016-08-01.
  4. ^ Statistische Kommission der Vereinten Nationen; Wirtschaftskommission der Vereinten Nationen für Europa (2007). Statistische Datenbearbeitung: Auswirkungen auf die Datenqualität: Band 3 der statistischen Datenbearbeitung, Konferenz der statistischen Standards und Studien europäischer Statistiker. Veröffentlichungen der Vereinten Nationen. p. 20. ISBN 978-9211169522. Abgerufen 19. Juli 2015.
  5. ^ Fisher, R.A. (1963). "Die Verwendung mehrerer Messungen bei taxonomischen Problemen" (PDF). Annalen der Eugenik. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. HDL:2440/15227.

Externe Links