Datensatz
A Datensatz (oder Datensatz) ist eine Sammlung von Daten. Bei tabellarischen Daten entspricht ein Datensatz einem oder mehrerer Datenbanktabellen, wo jeder Säule einer Tabelle repräsentiert eine bestimmte Variable, und jede die Zeile entspricht einer gegebenen Aufzeichnung des fraglichen Datensatzes. Der Datensatz listet Werte für jede der Variablen auf, z. B. für die Größe und das Gewicht eines Objekts für jedes Mitglied des Datensatzes. Datensätze können auch aus einer Sammlung von Dokumenten oder Dateien bestehen.[1]
In dem Daten öffnen Disziplin, Datensatz ist die Einheit, um die in einem öffentlichen offenen Datenrepository veröffentlichten Informationen zu messen. Das Europäische Data.europa.eu Portal aggregiert mehr als eine Million Datensätze.[2] Einige andere Probleme (Echtzeit-Datenquellen,[3] nicht-relational Datensätze usw.) erhöht die Schwierigkeit, einen Konsens darüber zu erzielen.[3]
Eigenschaften
Mehrere Merkmale definieren die Struktur und Eigenschaften eines Datensatzes. Dazu gehören die Anzahl und Typen der Attribute oder Variablen sowie verschiedene verschiedene Statistische Maßnahmen anwendbar für sie, wie z. Standardabweichung und Kurtosis.Jan M. żytkow, Jan Rauch (2000). Prinzipien des Data Mining und Wissensentdeckung. ISBN 978-3-540-66490-1.
Die Werte können Zahlen sein, wie z. reale Nummern oder GanzzahlenZum Beispiel, die die Größe einer Person in Zentimetern darstellen, aber auch sein kann Nenndaten (d.h. numerisch Werte), zum Beispiel die ethnische Zugehörigkeit einer Person. Im Allgemeinen können Werte von einer der als a beschriebenen Arten sein Messgrad. Für jede Variable sind die Werte normalerweise alle gleich. Es kann jedoch auch sein fehlende Werte, was in irgendeiner Weise angezeigt werden muss.
Im Statistiken, Datensätze stammen normalerweise aus tatsächlichen Beobachtungen, die durch erhalten wurden durch Probenahme a Statistische Bevölkerungund jede Zeile entspricht den Beobachtungen zu einem Element dieser Bevölkerung. Datensätze können weiter generiert werden durch Algorithmen zum Zweck des Testen bestimmter Arten von Software. Einige moderne statistische Analyse -Software wie z. SPSS Präsentieren Sie ihre Daten immer noch in der klassischen Datensatzmode. Wenn Daten fehlen oder verdächtig sind und Imputation Die Methode kann verwendet werden, um einen Datensatz zu vervollständigen.[4]
Klassische Datensätze
Mehrere klassische Datensätze wurden ausgiebig in der verwendet statistisch Literatur:
- Iris Blumendatensatz - multivariates Datensatz, das von eingeführt wurde durch Ronald Fisher (1936).[5]
- MNIST -Datenbank - Bilder von handgeschriebenen Ziffern, die üblicherweise zum Testen der Klassifizierungs-, Cluster- und Bildverarbeitungsalgorithmen verwendet werden
- Kategorische Datenanalyse - im Buch verwendete Datensätze, Eine Einführung in die kategoriale Datenanalyse.
- Robuste Statistik - Datensätze in verwendet in Robuste Regression und Ausreißererkennung (Rousseeuw und Leroy, 1968). Online an der Universität von Köln bereitgestellt.
- Zeitfolgen - Daten, die in Chatfields Buch verwendet werden, Die Analyse der Zeitreihen, sind bereitgestellt online von Statlib.
- Extreme Werte - Daten im Buch verwendet, Eine Einführung in die statistische Modellierung extremer Werte sind Ein Schnappschuss der Daten, wie sie von Stuart Coles online zur Verfügung gestellt wurden, der Autor des Buches.
- Bayes'sche Datenanalyse - Die im Buch verwendeten Daten sind online bereitgestellt durch Andrew Gelman, einer der Autoren des Buches.
- Das Bupa -Leberdaten - Wird in mehreren Arbeiten in der Literatur zum maschinellen Lernen (Data Mining) verwendet.
- Anscombe Quartett - Kleiner Datensatz, der zeigt, wie wichtig es ist, die Daten zu grafischen, um statistische Irrtümer zu vermeiden
Es gibt mehrere Portale, die Zugriff auf Datensätze bieten:
Siehe auch
- Daten
- Datenmischung
- Daten (Computer)
- Datenproben
- Datenspeicher
- Interoperabilität
- Datenerfassungssystem
Verweise
- ^ Snijders, C.; Matzat, U.; REPS, U.D. (2012). "'Big Data': große Wissenslücken im Bereich Internet ". Internationales Journal of Internet Science. 7: 1–5.
- ^ "European Open Data Portal". European Open Data Portal. Europäische Kommission. Abgerufen 2016-09-23.
- ^ a b ATZ, U (2014). "Die TAU von Daten: Eine neue Metrik, um die Aktualität von Daten in Katalogen zu bewerten" (PDF). CEDEM 2014 Proceedings. Abgerufen 2016-08-01.
- ^ Statistische Kommission der Vereinten Nationen; Wirtschaftskommission der Vereinten Nationen für Europa (2007). Statistische Datenbearbeitung: Auswirkungen auf die Datenqualität: Band 3 der statistischen Datenbearbeitung, Konferenz der statistischen Standards und Studien europäischer Statistiker. Veröffentlichungen der Vereinten Nationen. p. 20. ISBN 978-9211169522. Abgerufen 19. Juli 2015.
- ^ Fisher, R.A. (1963). "Die Verwendung mehrerer Messungen bei taxonomischen Problemen" (PDF). Annalen der Eugenik. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. HDL:2440/15227.
Externe Links
- Datahub -Ein von der Gemeinschaft verwaltetes Zuhause für offene Datensätze
- Data.gov - Die offenen Daten der US -Regierung
- Data.World
- Gcmd - Das Global Change Master Directory mit über 34.000 Beschreibungen der Datensätze und Dienstleistungen für Erdwissenschaft und Umweltwissenschaften enthält
- Humanitärer Datenaustausch (HDX) - Der humanitäre Datenaustausch (HDX) ist ein offener humanitärer Datenübertragung Plattform verwaltet von der Büro der Vereinten Nationen zur Koordinierung humanitärer Angelegenheiten.
- NYC offene Daten - Kostenlose öffentliche Daten, die von New Yorker Agenturen und anderen Partnern veröffentlicht wurden.
- Relational Data Set Repository
- Forschungspipeline - Ein Wiki/eine Website mit Links zu Datensätzen zu vielen verschiedenen Themen
- Statlib -jasa -Datenarchiv
- UCI - Ein Repository für maschinelles Lernen
- Öffentliche Daten der britischen Regierung
- Weltbank offene Daten - Kostenloser und offener Zugriff auf globale Entwicklungsdaten von Weltbank
- Eine Sammlung einfacher 2D -Datensätze
- Arbeiten mit Daten