Datenwissenschaft

Die Existenz von Komet Neowise (Hier als eine Reihe von roten Punkten dargestellt) wurde durch Analyse entdeckt Astronomische Untersuchung Daten, die von a erfasst wurden Weltraumteleskop, das Weitfeld-Infrarot-Umfrage-Explorer.

Datenwissenschaft ist ein interdisziplinär Feld, das verwendet wissenschaftliche Methoden, Prozesse, Algorithmen und Systeme zum Extrahieren Wissen und Erkenntnisse aus laut, strukturiert und unstrukturierte Daten,[1][2] und wenden Sie Wissen aus Daten über ein breites Spektrum von Anwendungsdomänen an. Die Datenwissenschaft bezieht sich auf Data Mining, maschinelles Lernen und Große Daten.[3]

Data Science ist ein "Konzept, das sich vereinen muss Statistiken, Datenanalyse, Informatikund ihre verwandten Methoden"um" tatsächliche zu verstehen und zu analysieren Phänomene" mit Daten.[4] Es verwendet Techniken und Theorien, die aus vielen Feldern im Kontext von stammen Mathematik, Statistiken, Informatik, Informationswissenschaft, und Fachwissen.[3] Die Datenwissenschaft unterscheidet sich jedoch von Informatik und Informationswissenschaft. Turing Award Gewinner Jim Gray Imagined Data Science als "viertes Paradigma" der Wissenschaft (empirisch, theoretisch, Computer, und jetzt datengetrieben) und behaupteten, dass "alles an der Wissenschaft aufgrund der Auswirkungen von ändert Informationstechnologie" und die Datenflut.[5][6]

A Datenwissenschaftler ist jemand, der Programmiercode erstellt und ihn mit statistischem Wissen kombiniert, um Erkenntnisse aus Daten zu erstellen.[7]

Fundamente

Data Science ist eine interdisziplinär aufstellen konzentriert sich darauf, Wissen aus typisch zu extrahieren groß Datensätze und Anwendung des Wissens und Erkenntnisse aus diesen Daten auf Probleme lösen in einer Vielzahl von Anwendungsdomänen.[8] Das Feld umfasst die Vorbereitung von Daten für die Analyse, Formulierung von Datenwissenschaftsproblemen, Analysieren Daten, die Entwicklung datengesteuerter Lösungen und die Darstellung von Ergebnissen, um Entscheidungen auf hoher Ebene in einem breiten Bereich von Anwendungsdomänen zu informieren. Daher enthält es Fähigkeiten aus Informatik, Statistik, Informationswissenschaft, Mathematik, Datenvisualisierung, Informationsvisualisierung, Daten Sonifikation, Daten Integration, Grafikdesign, Komplexe Systeme, Kommunikation und Geschäft.[9][10] Statistiker Nathan Yau, malen auf Ben Fry, verknüpft auch Data Science mit Menschliche interaktion mit dem Computer: Benutzer sollten intuitiv steuern können und erforschen Daten.[11][12] 2015 die American Statistical Association identifiziert Datenbank Management, Statistik und maschinelles Lernen, und verteilte und parallele Systeme als die drei aufstrebenden grundlegenden Berufsgemeinschaften.[13]

Beziehung zu Statistiken

Viele Statistiker, einschließlich Nate Silber, haben argumentiert, dass Data Science kein neues Feld ist, sondern ein anderer Name für Statistiken.[14] Andere argumentieren, dass die Datenwissenschaft von Statistiken unterscheidet, da sie sich auf Probleme und Techniken konzentriert, die für digitale Daten einzigartig sind.[15] Vasant Dhar schreibt, dass die Statistik quantitative Daten und Beschreibung betont. Im Gegensatz dazu befasst sich Data Science mit quantitativen und qualitativen Daten (z. B. Bilder) und betont Vorhersage und Handlung.[16] Andrew Gelman von Universität von Columbia hat Statistiken als nicht wichtiger Bestandteil der Datenwissenschaft beschrieben.[17]

Stanford Professor David Donoho schreibt, dass Data Science nicht von Statistiken durch die Größe der Datensätze oder die Verwendung von Computer unterschieden wird und dass viele Graduiertenprogramme für ihre Analyse- und Statistikschulungen als Essenz eines Datenwissenschaftsprogramms irreführend bewerben. Er beschreibt Data Science als ein angewandtes Feld, das aus traditionellen Statistiken herauswächst.[18]

Etymologie

Frühe Verwendung

1962,, John Tukey beschrieben ein Feld, das er als "Datenanalyse" bezeichnete, das der modernen Datenwissenschaft ähnelt.[18] 1985 in einem Vortrag an die chinesische Akademie der Wissenschaften in Peking, C. F. Jeff Wu verwendete den Begriff "Data Science" zum ersten Mal als alternativer Name für Statistiken.[19] Später die Teilnehmer eines Statistics -Symposiums von 1992 am Universität von Montpellier II. erkannte die Entstehung einer neuen Disziplin, die sich auf Daten verschiedener Herkunft und Formen konzentrierte und etablierte Konzepte und Prinzipien der Statistik und Datenanalyse mit dem Computer kombinieren.[20][21]

Der Begriff "Datenwissenschaft" wurde auf 1974 zurückgeführt, wann Peter Naur schlug es als alternativen Namen für die Informatik vor.[3] 1996 war die International Federation of Classification Societies die erste Konferenz, die Data Science als Thema ausdrücklich darstellte.[3] Die Definition war jedoch immer noch im Fluss. Nach dem Vortrag von 1985 in der chinesischen Akademie der Wissenschaften in Peking 1997 C. F. Jeff Wu erneut schlug vor, dass Statistiken in Datenwissenschaft umbenannt werden sollten. Er argumentierte, dass ein neuer Name Statistiken helfen würde, ungenaue Stereotypen zu verlieren, z.[22] Im Jahr 1998 sprach Hayashi Chikio für Data Science als neues, interdisziplinäres Konzept mit drei Aspekten ein: Datendesign, Sammlung und Analyse.[21]

In den neunziger Jahren gehörten beliebte Begriffe für den Prozess des Auffindens von Mustern in Datensätzen (die zunehmend groß waren) "Wissens Discovery" und ".Data Mining".[3][23]

Moderne Verwendung

Die moderne Konzeption der Datenwissenschaft als unabhängige Disziplin wird manchmal zugeschrieben William S. Cleveland.[24] In einem Papier von 2001 befürwortete er eine Ausdehnung von Statistiken über die Theorie hinaus in technische Bereiche. Da dies das Feld erheblich verändern würde, garantierte es einen neuen Namen.[23] "Data Science" wurde in den nächsten Jahren stärker eingesetzt: im Jahr 2002, die Ausschuss für Daten für Wissenschaft und Technologie gestartet Data Science Journal. Im Jahr 2003 wurde die Columbia University ins Leben gerufen Das Journal of Data Science.[23] 2014 die American Statistical AssociationDer Abschnitt zum statistischen Lernen und zum Data -Mining hat seinen Namen in den Abschnitt über statistische Lernen und Datenwissenschaften geändert, was die Beliebtheit der Datenwissenschaft aufzunehmen.[25]

Der professionelle Titel von "Datenwissenschaftler" wurde auf DJ Patil und Jeff Hammerbacher in 2008.[26] Obwohl es von der verwendet wurde Nationales Wissenschaftsausschuss In ihrem Bericht von 2005 "Langlebige digitale Datensammlungen: Ermöglichung von Forschung und Bildung im 21. Jahrhundert" bezog es sich weitgehend auf jede Schlüsselrolle bei der Verwaltung einer digitalen Datenerfassung.[27]

Es gibt immer noch keinen Konsens über die Definition der Datenwissenschaft und wird von einigen als a angesehen Schlagwort.[28] Große Daten ist ein verwandter Marketingbegriff.[29] Datenwissenschaftler sind dafür verantwortlich, Big Data in nutzbare Informationen zu zerlegen und Software und Algorithmen zu erstellen, die Unternehmen und Organisationen helfen, optimale Vorgänge zu bestimmen.[30]

Siehe auch

Verweise

  1. ^ Dhar, V. (2013). "Datenwissenschaft und Vorhersage". Kommunikation der ACM. 56 (12): 64–73. doi:10.1145/2500499. S2CID 6107147. Archiviert Aus dem Original am 9. November 2014. Abgerufen 2. September 2015.
  2. ^ Jeff Leek (12. Dezember 2013). "Das Schlüsselwort in" Data Science "ist keine Daten, sondern die Wissenschaft". Einfach Statistiken. Archiviert Aus dem Original am 2. Januar 2014. Abgerufen 1. Januar 2014.
  3. ^ a b c d e CAO, Langstöcke (29. Juni 2017). "Data Science: Eine umfassende Übersicht". ACM Computing -Umfragen. 50 (3): 43: 1–43: 42. doi:10.1145/3076253. ISSN 0360-0300.
  4. ^ Hayashi, Chikio (1. Januar 1998). "Was ist Data Science? Grundlegende Konzepte und ein heuristisches Beispiel". In Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, noboru; Tanaka, Yutaka; Baba, Yasumasa (Hrsg.). Datenwissenschaft, Klassifizierung und verwandte Methoden. Studien zur Klassifizierung, Datenanalyse und Wissensorganisation. Springer Japan. S. 40–51. doi:10.1007/978-4-431-65950-1_3. ISBN 9784431702085.
  5. ^ Tony Hey; Stewart Tansley; Kristin Michele Tolle (2009). Das vierte Paradigma: datenintensive wissenschaftliche Entdeckung. Microsoft Research. ISBN 978-0-9825442-0-4. Archiviert vom Original am 20. März 2017.
  6. ^ Bell, G.; Hey, T.; Szalay, A. (2009). "Informatik: Jenseits der Datenflut". Wissenschaft. 323 (5919): 1297–1298. doi:10.1126/Science.1170411. ISSN 0036-8075. PMID 19265007. S2CID 9743327.
  7. ^ Davenport, Thomas H.; Patil, D. J. (Oktober 2012). "Datenwissenschaftler: Der sexieste Job des 21. Jahrhunderts". Harvard Business Review. 90 (10): 70–76, 128. PMID 23074866. Abgerufen 18. Januar 2016.
  8. ^ "Über Data Science". Data Science Association. Abgerufen 3. April 2020.
  9. ^ "1. Einführung: Was ist Data Science?". Data Science [Buch] machen [Buch].O’Reilly. Abgerufen 3. April 2020.
  10. ^ "Die drei sexy Fähigkeiten der Datengeeks". M.E.Driscoll: Daten utopisch. 27. Mai 2009. Abgerufen 3. April 2020.
  11. ^ Yau, Nathan (4. Juni 2009). "Aufstieg des Datenwissenschaftlers". Flowingdata. Abgerufen 3. April 2020.
  12. ^ "Grundes Beispiel". Benfry.com. Abgerufen 3. April 2020.
  13. ^ "ASA -Erklärung zur Rolle von Statistiken in der Datenwissenschaft". Amstatnews. American Statistical Association. 1. Oktober 2015. Archiviert Aus dem Original am 20. Juni 2019. Abgerufen 29. Mai 2019.
  14. ^ "Nate Silver: Was ich von Statistikern brauche". Statistikansichten. Abgerufen 3. April 2020.
  15. ^ "Was ist der Unterschied zwischen Datenwissenschaft und Statistik?". Preisonomie. Abgerufen 3. April 2020.
  16. ^ Vasant Dhar (1. Dezember 2013). "Datenwissenschaft und Vorhersage". Kommunikation der ACM. 56 (12): 64–73. doi:10.1145/2500499. S2CID 6107147.
  17. ^ "Statistik ist der am wenigsten wichtige Teil der Datenwissenschaft« Statistische Modellierung, kausale Inferenz und Sozialwissenschaft ". statmodeling.stat.columbia.edu. Abgerufen 3. April 2020.
  18. ^ a b Donoho, David (18. September 2015). "50 Jahre Datenwissenschaft" (PDF). Abgerufen 2. April 2020.
  19. ^ Wu, C. F. Jeff (1986). "Zukünftige Richtungen der statistischen Forschung in China: Eine historische Perspektive" (PDF). Anwendung von Statistiken und Management. 1: 1–7. Abgerufen 29. November 2020.
  20. ^ Escofier, Yves; Hayashi, Chikio; Fichet, Bernard, Hrsg. (1995). Data Science und ihre Anwendungen. Tokio: Akademische Presse/Harcourt -Klammer. ISBN 0-12-241770-4. OCLC 489990740.
  21. ^ a b Murtagh, Fionn; Devlin, Keith (2018). "Die Entwicklung der Datenwissenschaft: Auswirkungen auf Bildung, Beschäftigung, Forschung und die Datenrevolution für nachhaltige Entwicklung". Big Data und kognitives Computing. 2 (2): 14. doi:10.3390/BDCC2020014.
  22. ^ Wu, C. F. Jeff. "Statistik = Data Science?" (PDF). Abgerufen 2. April 2020.
  23. ^ a b c Presse, Gil. "Eine sehr kurze Geschichte der Datenwissenschaft". Forbes. Abgerufen 3. April 2020.
  24. ^ Gupta, Shanti (11. Dezember 2015). "William S. Cleveland". Abgerufen 2. April 2020.
  25. ^ Talley, Jill (1. Juni 2016). "ASA erweitert den Umfang, die Öffentlichkeitsarbeit, um das Wachstum und die Zusammenarbeit in der Datenwissenschaft zu fördern.". Amstat News. American Statistical Association.
  26. ^ Davenport, Thomas H.; Patil, D. J. (1. Oktober 2012). "Datenwissenschaftler: Der sexieste Job des 21. Jahrhunderts". Harvard Business Review. Nr. Oktober 2012. ISSN 0017-8012. Abgerufen 3. April 2020.
  27. ^ "US NSF-NSB-05-40, langlebige digitale Datensammlungen, die Forschung und Bildung im 21. Jahrhundert ermöglichen". www.nsf.gov. Abgerufen 3. April 2020.
  28. ^ Presse, Gil. "Data Science: Was ist die Halbwertszeit eines Schlagworts?". Forbes. Abgerufen 3. April 2020.
  29. ^ Pham, Peter. "Die Auswirkungen von Big Data, von denen Sie vielleicht nicht gehört haben". Forbes. Abgerufen 3. April 2020.
  30. ^ Martin, Sophia (20. September 2019). "Wie wird die Datenwissenschaft die Zukunft der Unternehmen beeinflussen?". Mittel. Abgerufen 3. April 2020.