Große Daten

Nichtlineares Wachstum der digitalen globalen Informationsspeicherkapazität und das Abnehmen der analogen Speicherung[1]

Große Daten bezieht sich auf Datensätze das sind zu groß oder komplex, um von traditionellem behandelt zu werden Datenverarbeitung Anwendungssoftware. Daten mit vielen Feldern (Zeilen) bieten größere Statistische Macht, während Daten mit höherer Komplexität (mehr Attribute oder Spalten) zu einem höheren führen können falsche Entdeckungsrate.[2] Zu den Herausforderungen der Big Data -Analyse gehören Herausforderungen Daten erfassen, Datenspeicher, Datenanalyse, Suche, Teilen, Transfer, Visualisierung, Abfrage, Aktualisierung, Informations Privatsphäreund Datenquelle. Big Data wurde ursprünglich mit drei Schlüsselkonzepten verbunden: Volumen, Vielfalt, und Geschwindigkeit.[3] Die Analyse von Big Data stellt Herausforderungen bei der Probenahme auf und ermöglicht damit nur Beobachtungen und Stichproben. Somit ein viertes Konzept, Richtigkeit, bezieht sich auf die Qualität oder Einsicht der Daten. Ohne ausreichende Investitionen in Fachwissen für die Richtigkeit von Big Data können das Volumen und die Vielfalt der Daten Kosten und Risiken hervorrufen, die die Fähigkeit eines Unternehmens zur Erstellung und Erfassung überschreiten Wert von Big Data.[4]

Aktuelle Verwendung des Begriffs Große Daten neigt dazu, sich auf die Verwendung von zu beziehen Prädiktive Analytics, Benutzerverhaltensanalyse, oder bestimmte andere erweiterte Datenanalysemethoden, die extrahieren Wert von Big Data und selten zu einer bestimmten Größe des Datensatzes. "Es besteht kaum Zweifel daran, dass die jetzt verfügbaren Datenmengen tatsächlich groß sind, aber das ist nicht das relevanteste Merkmal dieses neuen Datenökosystems."[5] Die Analyse von Datensätzen finden neue Korrelationen, um "Geschäftstrends zu erkennen, Krankheiten zu verhindern, Kriminalität zu bekämpfen und so weiter".[6] Wissenschaftler, Geschäftsführer, Ärzte, Werbung und Regierungen gleichermaßen erfüllen regelmäßig Schwierigkeiten mit großen Datensätzen in Bereichen, einschließlich Internet -Suche, Fintech, Gesundheitsanalyse, geografische Informationssysteme, städtische Informatik und Wirtschaftsinformatik. Wissenschaftler begegnen Einschränkungen in E-Science Arbeit, einschließlich Meteorologie, Genomik,[7] Connectomics, komplexe Physiksimulationen, Biologie und Umweltforschung.[8]

Die Größe und Anzahl der verfügbaren Datensätze sind schnell gewachsen, da Daten von Geräten wie z. B. gesammelt werden mobile Geräte, billige und zahlreiche Informationssenkung Internet der Dinge Geräte, Antenne (Fernerkundung), Softwareprotokolle, Kameras, Mikrofone, Radiofrequenz-Identifikation (RFID) Leser und drahtlose Sensor Netzwerke.[9][10] Die technologische pro-Kopf-Kapazität der Welt, Informationen zu speichern, hat sich seit den 1980er Jahren ungefähr alle 40 Monate verdoppelt.[11] wie 2012jeden Tag 2.5 Exabyte (2,5 × 260 Bytes) von Daten werden generiert.[12] Basierend auf einem IDC Die Vorhersage von Bericht, das globale Datenvolumen wurde voraussichtlich exponentiell von 4,4 wachsen Zettabyte bis 44 Zettabyte zwischen 2013 und 2020. Bis 2025 prognostiziert IDC 163 Zettabyte Daten.[13] Laut IDC wird schätzungsweise die globalen Ausgaben für Big Data and Business Analytics (BDA) im Jahr 2021 215,7 Milliarden US -Dollar erreicht.[14][15] Während Statista Bericht, der globale Big -Data -Markt wird voraussichtlich bis 2027 auf 103 Milliarden US -Dollar wachsen.[16] In 2011 McKinsey & Company Wenn US Healthcare Big Data kreativ und effektiv zur Steigerung der Effizienz und Qualität nutzen würde, könnte der Sektor jedes Jahr mehr als 300 Milliarden US -Dollar Wert schaffen.[17] In den Industrieländern Europas könnten Regierungsadministratoren allein durch die Verwendung von Big Data mehr als 100 Milliarden Euro (149 Milliarden US -Dollar) bei der operativen Effizienzverbesserungen einsparen.[17] Und Benutzer von Diensten, die durch Daten in Personal Location aktiviert sind, könnten einen Verbraucherüberschuss in Höhe von 600 Milliarden US-Dollar erfassen.[17] Eine Frage für große Unternehmen ist die Feststellung, wer Initiativen mit großen Daten besitzen sollte, die die gesamte Organisation betreffen.[18]

Relationale Datenbankverwaltungssysteme und statistische Softwarepakete von Desktops, die zur Visualisierung von Daten verwendet werden, haben häufig Schwierigkeiten, Big Data zu verarbeiten und zu analysieren. Die Verarbeitung und Analyse von Big Data erfordert möglicherweise "massiv parallele Software, die auf Zehn-, Hunderten oder sogar Tausenden von Servern ausgeführt werden.[19] Was als "Big Data" qualifiziert ist, hängt von den Fähigkeiten der Analyse und ihrer Tools ab. Darüber hinaus machen die Erweiterungsfunktionen Big Data zu einem bewegenden Ziel. "Für einige Organisationen, die Hunderte von gegenüberstehen Gigabyte Daten zum ersten Mal können die Notwendigkeit des Überdenkens von Datenverwaltungsoptionen ausführen. Für andere kann es Zehn oder Hunderte von Terabyte dauern, bevor die Datengröße zu einer erheblichen Überlegung wird. "[20]

Definition

Der Begriff Große Daten ist seit den neunziger Jahren im Einsatz John Mashey für die Popularisierung des Begriffs.[21][22] Big Data enthält normalerweise Datensätze mit Größen, die über die Fähigkeit häufig verwendeter Softwaretools hinausgehen. Erfassung, Kurat, verwalten und verarbeiten Sie Daten innerhalb einer tolerierbaren verstrichenen Zeit.[23] Die Big-Data-Philosophie umfasst unstrukturierte, semi-strukturierte und strukturierte Daten; Das Hauptaugenmerk liegt jedoch auf unstrukturierten Daten.[24] Big Data "Größe" ist ein ständig bewegendes Ziel. wie 2012 von ein paar Dutzend Terabyte bis zu vielen Zettabyte von Dateien.[25] Big Data erfordert eine Reihe von Techniken und Technologien mit neuen Formen von Integration Erkenntnisse von Datensätze Das sind vielfältig, komplex und massiv.[26]

"Vielfalt", "Wahrhaftigkeit" und verschiedene andere "vs" werden von einigen Organisationen hinzugefügt, um sie zu beschreiben, eine Revision, die von einigen Branchenbehörden in Frage gestellt wird.[27] Die VS von Big Data wurden oft als "drei gegen", "vier gegen" und "fünf vs" bezeichnet. Sie repräsentierten die Eigenschaften von Big Data in Volumen, Vielfalt, Geschwindigkeit, Wahrhaftigkeit und Wert.[3] Die Variabilität wird häufig als zusätzliche Qualität der Big Data enthalten.

Eine Definition von 2018 besagt: "Big Data ist, wo parallele Computertools erforderlich sind, um Daten zu verarbeiten", und festgestellt. Fähigkeiten gemacht von Codds relationales Modell. "[28]

In einer vergleichenden Studie von großen Datensätzen, Kitchin und McArdle stellte fest, dass keine der häufig angesehenen Eigenschaften von Big Data in allen analysierten Fällen konsequent erscheint.[29] Aus diesem Grund identifizierten andere Studien die Neudefinition der Machtdynamik in der Wissensforschung als das definierende Merkmal.[30] Anstatt sich auf intrinsische Eigenschaften von Big Data zu konzentrieren, drängt diese alternative Perspektive ein relationales Verständnis des Objekts, in dem behauptet wird, dass die Art und Weise, wie Daten erfasst, gespeichert, verfügbar gemacht und analysiert werden.

Big Data vs. Business Intelligence

Die wachsende Reife des Konzepts beschreibt den Unterschied zwischen "Big Data" und "starker Unterschied.Business Intelligence":[31]

  • Business Intelligence verwendet angewandte Mathematik -Tools und beschreibende Statistik Mit Daten mit hoher Informationsdichte, um Dinge zu messen, Trends zu erkennen, usw.
  • Big Data verwendet mathematische Analyse, Optimierung, Induktive Statistiken, und Konzepte von Nichtlineare Systemidentifikation[32] Gesetze (Regressionen, nichtlineare Beziehungen und kausale Effekte) aus großen Datenmengen mit geringer Informationsdichte zu schließen[33] Beziehungen und Abhängigkeiten offenbaren oder Vorhersagen von Ergebnissen und Verhaltensweisen durchführen.[32][34][Werbequelle?]

Eigenschaften

Zeigt das Wachstum der Hauptmerkmale von Big Data in Volumen, Geschwindigkeit und Vielfalt

Big Data kann durch folgende Eigenschaften beschrieben werden:

Volumen
Die Menge der generierten und gespeicherten Daten. Die Größe der Daten bestimmt den Wert und den potenziellen Erkenntnis und ob sie als Big Data angesehen werden können oder nicht. Die Größe der Big Data ist normalerweise größer als Terabyte und Petabyte.[35]
Vielfalt
Die Art und Art der Daten. Die früheren Technologien wie RDBMS waren in der Lage, strukturierte Daten effizient und effektiv zu verarbeiten. Die Änderung von Typ und Natur von strukturiert zu semi-strukturierten oder unstrukturierten in Frage stellte jedoch die vorhandenen Werkzeuge und Technologien in Frage. Die Big-Data-Technologien entwickelten sich mit der Hauptabsicht, die semi-strukturierten und unstrukturierten (Sorte), die mit hoher Geschwindigkeit (Geschwindigkeit) erzeugt wurden, und riesige Größe (Volumen) zu erfassen, zu speichern und zu verarbeiten. Später wurden diese Tools und Technologien untersucht und zum Umgang mit strukturierten Daten verwendet, aber für die Speicherung vorzuziehen. Schließlich wurde die Verarbeitung strukturierter Daten immer noch als optional gehalten, entweder mit Big Data oder herkömmlichen RDBMS. Dies hilft bei der Analyse der Daten zur effektiven Nutzung der versteckten Erkenntnisse aus den Daten, die über soziale Medien, Protokolldateien, Sensoren usw. gesammelt wurden. Big Data Draws aus Text, Bildern, Audio, Video; Außerdem werden fehlende Teile durchgeführt Datenzusammenführung.
Geschwindigkeit
Die Geschwindigkeit, mit der die Daten generiert und verarbeitet werden, um die Anforderungen und Herausforderungen zu erfüllen, die sich auf dem Weg des Wachstums und der Entwicklung befinden. Big Data ist häufig in Echtzeit verfügbar. Verglichen mit Kleine Daten, Big Data wird kontinuierlicher erzeugt. Zwei Arten von Geschwindigkeiten, die sich auf Big Data beziehen, sind die Häufigkeit der Generation und die Häufigkeit des Handlings, Aufzeichnungen und Veröffentlichungen.[36]
Richtigkeit
Die Wahrhaftigkeit oder Zuverlässigkeit der Daten, die sich auf die Datenqualität und den Datenwert beziehen.[37] Big Data dürfen nicht nur groß sein, sondern auch zuverlässig sein, um einen Wert in der Analyse zu erzielen. Das Datenqualität von erfassten Daten können stark variieren und eine genaue Analyse beeinflussen.[38]
Wert
Der Wert in Informationen, die durch die Verarbeitung und Analyse großer Datensätze erreicht werden können. Der Wert kann auch anhand einer Bewertung der anderen Eigenschaften von Big Data gemessen werden.[39] Wert kann auch die Rentabilität von Informationen darstellen, die aus der Analyse von Big Data abgerufen werden.
Variabilität
Das Merkmal der sich ändernden Formate, der Struktur oder der Quellen von Big Data. Big Data können strukturierte, unstrukturierte oder Kombinationen strukturierter und unstrukturierter Daten umfassen. Die Big -Data -Analyse kann Rohdaten aus mehreren Quellen integrieren. Die Verarbeitung von Rohdaten kann auch Transformationen unstrukturierter Daten in strukturierte Daten beinhalten.

Andere mögliche Eigenschaften von Big Data sind:[40]

Erschöpfend
Ob das gesamte System (d. H., = alle) wird erfasst oder aufgezeichnet oder nicht. Big Data enthalten möglicherweise alle verfügbaren Daten aus Quellen.
Feinkörnig und einzigartig lexikalisch
Der Anteil der spezifischen Daten jedes Elements pro gesammeltem Element und wenn das Element und seine Eigenschaften ordnungsgemäß indiziert oder identifiziert werden.
Relational
Wenn die gesammelten Daten gemeinsame Felder enthalten, die eine Konjanzierung oder Metaanalyse verschiedener Datensätze ermöglichen.
Verlängerung
Wenn neue Felder in jedem Element der gesammelten Daten leicht hinzugefügt oder geändert werden können.
Skalierbarkeit
Wenn die Größe des Big Data -Speichersystems schnell erweitert werden kann.

Die Architektur

Big Data -Repositories existierten in vielen Formen, die häufig von Unternehmen mit besonderem Bedürfnis erstellt wurden. Kommerzielle Anbieter boten in der Vergangenheit parallele Datenbankverwaltungssysteme für Big Data ab den 1990er Jahren an. Wintercorp veröffentlichte viele Jahre lang den größten Datenbankbericht.[41][Werbequelle?]

Teradata Das Unternehmen im Jahr 1984 vermarktete die parallele Verarbeitung DBC 1012 System. Teradata -Systeme waren die ersten, die 1992 1 Terabyte Daten speichern und analysierten. Die Festplattenlaufwerke waren 1991 2,5 GB, sodass sich die Definition von Big Data kontinuierlich weiterentwickelt. Teradata installierte 2007 das First Petabyte Class RDBMS -System. Ab 2017Es gibt einige Dutzend Petabyte -Klasse -Teradata -relationale Datenbanken, von denen die größte 50 PB übersteigt. Die Systeme bis 2008 waren 100% strukturierte relationale Daten. Seitdem hat Teradata unstrukturierte Datentypen einschließlich hinzugefügt Xml, JSONund Avro.

Im Jahr 2000 Seisint Inc. (jetzt LexisNexis Risikolösungen) entwickelt a C ++-basierte verteilte Plattform für die Datenverarbeitung und Abfrage, die als die bekannt ist HPCC -Systeme Plattform. Dieses System verteilt, verteilt, speichert und liefert automatisch strukturierte, semi-strukturierte und unstrukturierte Daten über mehrere Rohstoffserver hinweg. Benutzer können Datenverarbeitungspipelines und Abfragen in einer deklarativen Datenflow -Programmiersprache namens ECL schreiben. Datenanalysten, die in ECL arbeiten, sind nicht erforderlich, um Datenschemata im Voraus zu definieren, und können sich eher auf das jeweilige Problem konzentrieren, wobei die Daten bei der Entwicklung der Lösung bestmöglich umformieren. Im Jahr 2004 erwarb LexisNexis Seisint Inc.[42] und ihre Hochgeschwindigkeits-Parallelverarbeitungsplattform und diese Plattform erfolgreich zur Integration der Datensysteme von Choicepoint Inc., als sie dieses Unternehmen 2008 erworben haben.[43] Im Jahr 2011 wurde die HPCC Systems-Plattform im Rahmen der Apache V2.0-Lizenz Open-Soured.

Cern und andere Physikversuche haben seit vielen Jahrzehnten Big -Data -Sets gesammelt, die normalerweise über analysiert werden Hochdurchsatz Computing Anstatt die Kartenreden-Architekturen, die normalerweise mit der aktuellen "Big Data" -Bewegung gemeint sind.

In 2004, Google veröffentlichte ein Papier über einen Prozess namens namens Karte verkleinern Das verwendet eine ähnliche Architektur. Das MapReduce -Konzept bietet ein paralleles Verarbeitungsmodell, und eine zugehörige Implementierung wurde freigegeben, um große Datenmengen zu verarbeiten. Bei MapReduce werden Abfragen auf parallelen Knoten geteilt und verteilt und parallel verarbeitet (der "Karte" -Schschritt). Die Ergebnisse werden dann gesammelt und geliefert (der "Reduzieren" -Schroit). Der Rahmen war sehr erfolgreich,[44] Also wollten andere den Algorithmus replizieren. Daher an Implementierung des MapReduce-Frameworks wurde von einem Apache Open-Source-Projekt namens "genannt" übernommen. "Hadoop".[45] Apache Funken wurde 2012 als Reaktion auf Einschränkungen im MapReduce -Paradigma entwickelt, da es die Möglichkeit ergibt, viele Operationen einzurichten (nicht nur MAP, gefolgt von Reduktion).

Mike2.0 ist ein offener Ansatz für das Informationsmanagement, der die Notwendigkeit von Überarbeitungen aufgrund von Big -Data -Implikationen anerkennt, die in einem Artikel mit dem Titel "Big Data Solution Offering" identifiziert wurden.[46] Die Methodik befasst sich mit der Behandlung von Big Data in Bezug auf nützliche Permutationen von Datenquellen,, Komplexität in Wechselbeziehungen und Schwierigkeiten beim Löschen (oder Änderungen) einzelne Aufzeichnungen.[47]

Studien im Jahr 2012 zeigten, dass eine Architektur mit mehreren Schichten eine Option war, um die Probleme zu lösen, die Big Data vorstellt. EIN parallel verteilt Architektur verteilt Daten über mehrere Server hinweg. Diese Parallelausführungsumgebungen können die Datenverarbeitungsgeschwindigkeiten dramatisch verbessern. Diese Art von Architektur fügt Daten in ein paralleles DBMS ein, das die Verwendung von MapReduce- und Hadoop -Frameworks implementiert. Diese Art von Framework möchte die Verarbeitungsleistung durch einen Front-End-Anwendungsserver für den Endbenutzer transparent machen.[48]

Das Datensee Ermöglicht es einer Organisation, ihren Fokus von der zentralisierten Kontrolle auf ein gemeinsames Modell zu verlagern, um auf die sich ändernde Dynamik des Informationsmanagements zu reagieren. Dies ermöglicht eine schnelle Trennung von Daten in den Datensee, wodurch die Overhead -Zeit verkürzt wird.[49][50]

Technologien

A 2011 McKinsey Global Institute Der Bericht charakterisiert die Hauptkomponenten und das Ökosystem von Big Data wie folgt:[51]

Mehrdimensionale Big -Data können auch als dargestellt werden als Olap Datenwürfel oder mathematisch, Tensoren. Array -Datenbanksysteme haben sich vorgestellt, um einen Speicher- und hochrangigen Abfrageunterstützung für diesen Datentyp bereitzustellen. Zusätzliche Technologien, die auf Big Data angewendet werden, umfassen eine effiziente Tensor-basierte Berechnung.[52] wie zum Beispiel Multilineares Subspace -Lernen,[53] massiv parallele Verarbeitung (MPP) Datenbanken, Suchbasierte Anwendungen, Data Mining,[54] verteilte Dateisysteme, verteilter Cache (z. B.,, Burstpuffer und Memcached), Verteilte Datenbanken, Wolke und HPC-basiert Infrastruktur (Anwendungen, Speicher- und Rechenressourcen),[55] und das Internet. Obwohl viele Ansätze und Technologien entwickelt wurden, bleibt es immer noch schwierig, maschinelles Lernen mit Big Data durchzuführen.[56]

Etwas MPP Relationale Datenbanken können Daten von Daten speichern und verwalten. Implizit ist die Fähigkeit, die Verwendung der großen Datentabellen in der Verwendung zu laden, zu überwachen, zu sichern und zu optimieren RDBMS.[57][Werbequelle?]

DARPA's Topologische Datenanalyse Das Programm sucht die grundlegende Struktur massiver Datensätze und 2008 wurde die Technologie mit der Einführung eines Unternehmens namens "Ayasdi" an die Börse gebracht.[58]

Die Praktiker von Big Data Analytics -Prozessen sind im Allgemeinen feindlich gegenüber dem langsameren gemeinsamen Speicher.[59] Vorzugsdirektorie (Direktanschläge) (Das) in seinen verschiedenen Formen vom Festkörperantrieb (SSD) bis hohe Kapazität Sata Die in parallelen Verarbeitungsknoten begrabene Scheibe. Die Wahrnehmung gemeinsamer Speicherarchitekturen -Speicherbereichsnetz (San) und Netzwerkspeicher (NAS) - ist, dass sie relativ langsam, komplex und teuer sind. Diese Eigenschaften stimmen nicht mit Big Data Analytics -Systemen überein, die von der Systemleistung, der Rohstoffinfrastruktur und den niedrigen Kosten gedeihen.

Real oder nahezu echte Zeitinformationsbereitstellung ist eine der definierenden Merkmale von Big Data Analytics. Die Latenz wird daher vermieden, wann immer und wo immer möglich. Daten in direkter Anziehung oder Festplatte sind gut-data auf Speicher oder Festplatte am anderen Ende eines Fc San Verbindung ist nicht. Die Kosten von a San In der für Analytics -Anwendungen erforderlichen Skala ist viel höher als andere Speichertechniken.

Anwendungen

Bus eingewickelt mit SAFT Big Data draußen geparkt IDF13.

Big Data hat die Nachfrage von Spezialisten für Informationsmanagement so sehr erhöht, dass Software AG, Oracle Corporation, IBM, Microsoft, SAFT, EMC, HP, und Dell haben mehr als 15 Milliarden US -Dollar für Softwareunternehmen ausgegeben, die sich auf Datenmanagement und Analyse spezialisiert haben. Im Jahr 2010 war diese Branche mehr als 100 Milliarden US -Dollar wert und wuchs um fast 10 Prozent pro Jahr, etwa doppelt so schnell wie das gesamte Softwaregeschäft.[6]

Die entwickelten Volkswirtschaften verwenden zunehmend datenintensive Technologien. Es gibt weltweit 4,6 Milliarden Mobilfunkabonnements und zwischen 1 Milliarde und 2 Milliarden Menschen, die auf das Internet zugreifen.[6] Zwischen 1990 und 2005 traten weltweit mehr als 1 Milliarde Menschen in die Mittelklasse ein, was bedeutet, dass mehr Menschen mehr gebildet wurden, was wiederum zum Informationswachstum führte. Die wirksame Kapazität der Welt, Informationen über Telekommunikationsnetzwerke auszutauschen, betrug 281 Petabyte 1986 471 Petabyte Im Jahr 1993, 2,2 Exabyte im Jahr 2000, 65 Exabyte in 2007[11] und Vorhersagen setzen die Menge des Internetverkehrs bis 2014 jährlich auf 667 Exabyte.[6] Nach einer Schätzung befindet sich ein Drittel der global gespeicherten Informationen in Form von alphanumerischen Text und Standbilddaten.[60] Dies ist das nützlichste Format für die meisten Big -Data -Anwendungen. Dies zeigt auch das Potenzial von noch nicht verwendeten Daten (d. H. In Form von Video- und Audioinhalten).

Während viele Anbieter off-the-Shelf-Produkte für Big Data anbieten, fördern Experten für die Entwicklung interner Sonderanfertigungssysteme, wenn das Unternehmen über ausreichende technische Fähigkeiten verfügt.[61]

Regierung

Die Anwendung von Big Data im Rechtssystem zusammen mit Analysetechniken wird derzeit als eine der möglichen Möglichkeiten angesehen, die Justizverwaltung zu optimieren.

Die Verwendung und Übernahme von Big -Data innerhalb staatlicher Prozesse ermöglicht die Effizienz in Bezug auf Kosten, Produktivität und Innovation.[62] kommt aber nicht ohne seine Mängel. Die Datenanalyse erfordert häufig mehrere Teile der Regierung (zentral und lokal), um in Zusammenarbeit zu arbeiten und neue und innovative Prozesse zu erstellen, um das gewünschte Ergebnis zu erzielen. Eine gemeinsame staatliche Organisation, die Big Data nutzt, ist die National Security Administration (NSA), die die Aktivitäten des Internets ständig überwacht, um nach potenziellen Mustern verdächtiger oder illegaler Aktivitäten zu suchen, die ihr System möglicherweise aufnehmen kann.

Zivilregistrierung und wichtige Statistiken (CRVS) sammelt alle Zertifikatestatus von der Geburt bis zum Tod. CRVS ist eine Quelle von Big Data für Regierungen.

Internationale Entwicklung

Untersuchungen zur effektiven Verwendung von Informations- und Kommunikationstechnologien für die Entwicklung (auch als "ICT4D" bezeichnet) legt nahe, dass die Big -Data -Technologie wichtige Beiträge leisten kann, aber auch einzigartige Herausforderungen darstellen kann internationale Entwicklung.[63][64] Fortschritte bei der Big-Data-Analyse bieten kostengünstige Möglichkeiten zur Verbesserung der Entscheidungsfindung in kritischen Entwicklungsbereichen wie Gesundheitswesen, Beschäftigung und wirtschaftliche Produktivität, Kriminalität, Sicherheit und Naturkatastrophe und Ressourcenmanagement.[65][66][67] Darüber hinaus bieten benutzergenerierte Daten neue Möglichkeiten, dem ungehörten Stimme eine Stimme zu geben.[68] Langjährige Herausforderungen für die Entwicklung von Regionen wie unzureichende technologische Infrastruktur sowie wirtschaftliche und Personalknappheit verschärfen jedoch bestehende Bedenken mit Big -Data wie Datenschutz, unvollständiger Methodik und Interoperabilitätsproblemen.[65] Die Herausforderung von "Big Data for Development"[65] entwickelt sich derzeit für die Anwendung dieser Daten durch maschinelles Lernen, das als "künstliche Intelligenz für die Entwicklung (AI4D) bezeichnet wird.[69]

Vorteile

Eine wichtige praktische Anwendung von Big Data für die Entwicklung war "die Armut mit Daten".[70] Im Jahr 2015 schätzten Blumenstock und Kollegen die voraussichtliche vorhergesagte Armut und Wohlstand von Mobiltelefonmetadaten [71] Und 2016 kombinierten Jean und Kollegen Satellitenbilder und maschinelles Lernen, um Armut vorherzusagen.[72] Verwendung digitaler Spurendaten, um den Arbeitsmarkt und die digitale Wirtschaft in Lateinamerika, Hilbert und Kollegen zu untersuchen [73][74] argumentieren, dass digitale Trace -Daten mehrere Vorteile haben wie:

  • Thematische Abdeckung: Einschließlich Bereiche, die bisher schwer oder unmöglich zu messen waren
  • Geografische Berichterstattung: Unsere internationalen Quellen lieferten für fast alle Länder beträchtliche und vergleichbare Daten, einschließlich vieler kleiner Länder, die normalerweise nicht in internationalen Lagerbeständen enthalten sind
  • Detailebene: Bereitstellung feinkörniger Daten mit vielen miteinander verbundenen Variablen und neuen Aspekten wie Netzwerkverbindungen
  • Aktualität und Timeseries: Grafiken können innerhalb weniger Tage nach der Sammlung hergestellt werden

Herausforderungen

Gleichzeitig beseitigt die Arbeit mit digitalen Trace -Daten anstelle herkömmlicher Umfragedaten nicht die traditionellen Herausforderungen bei der Arbeit im Bereich der internationalen quantitativen Analyse. Prioritäten ändern sich, aber die grundlegenden Diskussionen bleiben gleich. Zu den Hauptherausforderungen gehören:

  • Repräsentativität. Während sich die traditionellen Entwicklungsstatistiken hauptsächlich mit der Repräsentativität von zufälligen Vermessungsproben befassen, sind digitale Spurendaten niemals eine Zufallsstichprobe.[75]
  • Generalisierbarkeit. Während Beobachtungsdaten diese Quelle immer sehr gut darstellen, repräsentiert sie nur das, was sie darstellt, und nichts weiter. Es ist zwar verlockend, sich von spezifischen Beobachtungen einer Plattform auf breitere Einstellungen zu verallgemeinern, dies ist jedoch oft sehr irreführend.
  • Harmonisierung. Digitale Spurendaten erfordern immer noch eine internationale Harmonisierung von Indikatoren. Es fügt die Herausforderung der sogenannten "Datenfusion", der Harmonisierung verschiedener Quellen hinzu.
  • Datenüberlastung. Analysten und Institutionen werden nicht verwendet, um eine große Anzahl von Variablen effektiv zu behandeln, was mit interaktiven Dashboards effizient durchgeführt wird. In den Praktikern fehlt immer noch ein Standard -Workflow, der es Forschern, Benutzern und politischen Entscheidungsträgern effizient und effektiv ermöglichen würde.[73]

Gesundheitspflege

Big Data Analytics wurde im Gesundheitswesen verwendet, indem personalisierte Medikamente und präskriptive Analysen, klinische Risikointerventionen und prädiktive Analysen, Abfall- und Pflegevariabilitätsreduzierung, automatisierte externe und interne Berichterstattung über Patientendaten, standardisierte medizinische Begriffe und Patientenregister verwendet wurden.[76][77][78][79] Einige Verbesserungsbereiche sind stärker als tatsächlich umgesetzt. Das in innerhalb generierte Datenniveau Gesundheitssysteme ist nicht trivial. Mit der zusätzlichen Einführung von MHealth, EHealth und tragbaren Technologien wird das Datenvolumen weiter zunehmen. Das beinhaltet elektronischer Gesundheitsakten Daten, Bildgebungsdaten, Patienten generierten Daten, Sensordaten und andere Formen von schwer zu verarbeitenden Daten. Es besteht jetzt eine noch größere Notwendigkeit, dass solche Umgebungen die Daten und Informationsqualität stärker beachtet.[80] "Big Data bedeutet sehr oft ''Schmutzige Daten„Und der Anteil der Datenunschaften nimmt mit dem Datenvolumenwachstum zu.“ Die menschliche Inspektion auf der Big -Data -Skala ist unmöglich und es gibt einen verzweifelten Bedarf an Gesundheitsdiensten für intelligente Tools für die Genauigkeit und Glaubwürdigkeitskontrolle und Handhabung von übersehenen Informationen.[81] Während umfangreiche Informationen im Gesundheitswesen jetzt elektronisch sind, passt sie in den Big -Data -Dach, da die meisten unstrukturiert und schwer zu bedienen sind.[82] Die Verwendung von Big Data im Gesundheitswesen hat erhebliche ethische Herausforderungen aufgeworfen, die von Risiken für individuelle Rechte, Privatsphäre und Autonomie, zu Transparenz und Vertrauen.[83]

Big Data in der Gesundheitsforschung ist insbesondere im Hinblick auf die explorative biomedizinische Forschung vielversprechend, da die datengesteuerte Analyse schneller als hypothesengesteuerte Forschung voranschreiten kann.[84] Dann können Trends in der Datenanalyse in traditioneller, hypothesengetriebener biologischer Forschung und schließlich klinische Forschung getestet werden.

Eine verwandte Anwendungsunterfläche, die stark auf Big Data beruht, ist im Bereich des Gesundheitswesens die von computergestützte Diagnose In Behandlung.[85] Zum Beispiel für Epilepsie Überwachung ist üblich, täglich 5 bis 10 GB Daten zu erstellen.[86] In ähnlicher Weise ein einzelnes unkomprimiertes Bild der Brust Tomosynthese Durchschnittlich 450 MB Daten.[87] Dies sind nur einige der vielen Beispiele, bei denen computergestützte Diagnose Verwendet Big Data. Aus diesem Grund wurde Big Data als eine der sieben wichtigen Herausforderungen anerkannt, die computergestützte Diagnosesysteme bewältigen müssen, um die nächste Leistungsstufe zu erreichen.[88]

Ausbildung

A McKinsey Global Institute Die Studie ergab einen Mangel an 1,5 Millionen hochqualifizierten Datenfachleuten und Managern[51] und eine Reihe von Universitäten[89] einschließlich Universität von Tennessee und UC Berkeley, haben Masters -Programme erstellt, um diese Nachfrage zu befriedigen. Private Bootcamps haben auch Programme entwickelt, um diese Nachfrage zu decken, einschließlich kostenloser Programme wie Der Datenkubator oder bezahlte Programme wie Generalversammlung.[90] Im speziellen Marketingbereich eines der Probleme, die Wedel und Kannan betonten[91] ist, dass Marketing über mehrere Subdomänen verfügt (z. B. Werbung, Werbeaktionen, Produktentwicklung, Branding), die verschiedene Arten von Daten verwenden.

Medien

Um zu verstehen, wie die Medien Big Data verwenden, ist es zunächst erforderlich, einen Kontext in den für den Medienprozess verwendeten Mechanismus bereitzustellen. Es wurde von Nick Suppry und Joseph Turow vorgeschlagen, dass Praktiker in Medien und Werbung Big Data so viele umsetzbare Informationen über Millionen von Personen nähern. Die Branche scheint sich vom traditionellen Ansatz zu entfernen, bestimmte Medienumgebungen wie Zeitungen, Zeitschriften oder Fernsehsendungen zu nutzen, und stattdessen an Verbraucher mit Technologien zugeschnitten, die an optimalen Zeiten an optimalen Zeiten gezielte Menschen erreichen. Das ultimative Ziel ist es, eine Nachricht oder Inhalte zu dienen oder zu vermitteln, die (statistisch gesehen) im Einklang mit der Denkweise des Verbrauchers entspricht. Zum Beispiel sind Veröffentlichungsumgebungen zunehmend Nachrichten (Anzeigen) und Inhalte (Artikel), um Verbraucher anzusprechen, die ausschließlich durch verschiedene durchgebracht wurden Datenminie Aktivitäten.[92]

  • Targeting von Verbrauchern (für Werbung durch Vermarkter)[93]
  • Datenerfassung
  • Datenjournalismus: Verlage und Journalisten verwenden Big -Data -Tools, um einzigartige und innovative Erkenntnisse zu liefern und Infografiken.

Kanal 4, die Briten Öffentlicher Dienst Fernsehsender ist führend im Bereich Big Data und Datenanalyse.[94]

Versicherung

Krankenversicherer sammeln Daten zu sozialen "Determinanten der Gesundheit" wie Lebensmittel und TV -Verbrauch, Familienstand, Kleidungsgröße und Kaufgewohnheiten, aus denen sie Vorhersagen über Gesundheitskosten machen, um gesundheitliche Probleme bei ihren Kunden zu erkennen. Es ist umstritten, ob diese Vorhersagen derzeit für die Preisgestaltung verwendet werden.[95]

Internet der Dinge (IoT)

Big Data und das IoT funktionieren zusammen. Daten, die aus IoT-Geräten extrahiert wurden, bieten eine Zuordnung der Inter-Konnektivität der Geräte. Solche Zuordnungen wurden von den Medienbranchen, Unternehmen und Regierungen genutzt, um ihre Zielgruppe genauer anzusprechen und die Medieneffizienz zu steigern. Das IoT wird auch zunehmend als Mittel zum Sammeln von sensorischen Daten angewendet, und diese sensorischen Daten wurden in medizinischer Sprache verwendet.[96] Herstellung[97] und Transport[98] Kontexte.

Kevin Ashton, der digitale Innovationsexperte, dem dasokinieren den Begriff zugeschrieben wird,[99] definiert das Internet der Dinge in diesem Zitat: "Wenn wir Computer hätten, die alles wussten, was es über Dinge zu wissen gab - Daten verwenden, die sie ohne Hilfe von uns gesammelt haben, könnten wir alles verfolgen und zählen und den Abfall erheblich reduzieren, Verlust und kosten. Wir würden wissen, wann Dinge ersetzt, reparieren oder abrufen mussten und ob sie frisch oder über ihr Bestes vorbei waren. "

Informationstechnologie

Insbesondere seit 2015 sind Big Data innerhalb von Bedeutung gewonnen Geschäftsbetrieb Als Instrument, mit dem Mitarbeitern effizienter arbeiten und die Sammlung und Verteilung von optimaler arbeiten können Informationstechnologie (ES). Die Verwendung von Big Data zur Behebung von IT- und Datenerfassungsproblemen innerhalb eines Unternehmens wird genannt IT Operations Analytics (Itoa).[100] Durch Anwenden von Big Data -Prinzipien in die Konzepte von Maschineninformation IT -Abteilungen können potenzielle Probleme vorhersagen und sie verhindern.[100] ITOA -Unternehmen bieten Plattformen für anbieten Systemmanagement das bringt Datensilos zusammen und generieren Erkenntnisse aus dem gesamten System und nicht aus isolierten Datentaschen.

Fallstudien

Regierung

China

  • Die integrierte gemeinsame Betriebsplattform (IJOP, 一体化 联合 作战 平台 平台) wird von der Regierung verwendet, um die Bevölkerung zu überwachen, insbesondere die Bevölkerung Uyghurs.[101] Biometrie, einschließlich DNA -Proben, werden durch ein Programm freier physischer Programme gesammelt.[102]
  • Bis 2020 plant China, allen seinen Bürgern eine persönliche "soziale Kredit" zu geben, basierend auf der Art und Weise, wie sie sich verhalten.[103] Das Sozialkreditsystem, jetzt in einer Reihe chinesischer Städte pilotiert, wird als Form von betrachtet Massenüberwachung die Big -Data -Analyse -Technologie verwendet.[104][105]

Indien

  • Die Big -Data -Analyse wurde für die ausprobiert BJP die indischen Parlamentswahlen 2014 gewinnen.[106]
  • Das Indische Regierung verwendet zahlreiche Techniken, um festzustellen, wie die indischen Wählerschaft auf staatliche Maßnahmen reagiert, sowie Ideen für die Verstärkung der Politik.

Israel

  • Personalisierte diabetische Behandlungen können durch die Big Data -Lösung von Glucome erzeugt werden.[107]

Vereinigtes Königreich

Beispiele für die Verwendung von Big Data in öffentlichen Diensten:

  • Daten zu verschreibungspflichtigen Arzneimitteln: Durch die Verbindung von Herkunft, Ort und Zeit der einzelnen Rezepts konnte eine Forschungseinheit die erhebliche Verzögerung zwischen der Freisetzung eines bestimmten Arzneimittels und einer britischen Anpassung des britischen Verfahrens veranschaulichen und untersuchen Nationales Institut für Gesundheits- und Pflege -Exzellenz Richtlinien. Dies deutet darauf hin, dass neue oder aktuellste Medikamente einige Zeit in Anspruch nehmen, um den allgemeinen Patienten durchzuführen.[108]
  • Beiträge an Daten: eine lokale Behörde Mischdaten über Dienstleistungen wie Road Gritting Rotas mit Dienstleistungen für gefährdete Personen, wie z. Essen auf Rädern. Die Verbindung von Daten ermöglichte es der örtlichen Behörde, wetterbezogene Verzögerung zu vermeiden.[109]

Vereinigte Staaten

Einzelhandel

  • Walmart Füllt mehr als 1 Million Kundentransaktionen pro Stunde, die in Datenbanken importiert werden, in denen geschätzt mehr als 2,5 Petabyte (2560 Terabyte) Daten enthalten sind - das Äquivalent des 167 -fachen der Informationen, die in allen Büchern in den USA enthalten sind Kongressbibliothek.[6]
  • Windermere Immobilien Verwendet Standortinformationen von fast 100 Millionen Fahrern, um neue Käufer von Eigenheimen zu helfen, ihre typischen Fahrzeiten für und von der Arbeit in verschiedenen Tageszeiten zu bestimmen.[119]
  • Das FICO -Kartenerkennungssystem schützt die Konten weltweit.[120]

Wissenschaft

  • Das Large Hadron Collider Experimente repräsentieren rund 150 Millionen Sensoren, die Daten 40 Millionen Mal pro Sekunde liefern. Es gibt fast 600 Millionen Kollisionen pro Sekunde. Nach dem Filtern und Absetzen von mehr als 99,99995%[121] Von diesen Strömen gibt es 1.000 Zinskollisionen pro Sekunde.[122][123][124]
    • Infolgedessen, nur mit weniger als 0,001% der Sensorstromdaten, entspricht der Datenfluss aus allen vier LHC). Dies wird nach der Replikation fast 200 Petabyte.
    • Wenn alle Sensordaten in LHC aufgezeichnet würden, wäre der Datenfluss extrem schwer zu bearbeiten. Der Datenfluss würde 150 Millionen Petabyte -Jahresrate oder fast 500 überschreiten Exabyte pro Tag vor der Replikation. Um die Zahl ins rechte Licht zu rücken, entspricht dies 500 Trillion (5 × 1020) Bytes pro Tag, fast 200 Mal mehr als alle anderen Quellen in der Welt.
  • Das Quadratkilometer -Array ist ein Radio -Teleskop aus Tausenden von Antennen. Es wird erwartet, dass bis 2024 in Betrieb genommen wird. Insgesamt wird erwartet, dass diese Antennen 14 Exabyte sammeln und einen Petabyte pro Tag aufbewahren.[125][126] Es gilt als eines der ehrgeizigsten wissenschaftlichen Projekte, die jemals durchgeführt wurden.[127]
  • Wenn der Sloan Digital Sky Survey (SDSS) begann 2000, astronomische Daten zu sammeln, und sammelte sich in den ersten Wochen mehr an als alle Daten, die in der Geschichte der Astronomie zuvor gesammelt wurden. SDSS sammelte sich mit einer Rate von etwa 200 GB pro Nacht und hat mehr als 140 Terabyte Informationen angehäuft.[6] Wenn der Großes Synoptik -Vermessungsteleskop, Nachfolger von SDSS, kommt im Jahr 2020 online. Die Designer erwarten, dass sie alle fünf Tage diese Datenmenge erwerben.[6]
  • Das menschliche Genom dekodieren Ursprünglich dauerte es 10 Jahre, um zu verarbeiten; Jetzt kann es in weniger als einem Tag erreicht werden. Die DNA -Sequencer haben die Sequenzierungskosten in den letzten zehn Jahren um 10.000 geteilt, was 100 -mal billiger ist als die Kosten, die von den Kosten vorhergesagt werden, durch Moores Gesetz.[128]
  • Das NASA Center for Climate Simulation (NCCS) speichert 32 Petabyte von Klimabeobachtungen und Simulationen zum Discover Supercomputing -Cluster.[129][130]
  • Googles DNASTACK -DNATACK erstellt und organisiert DNA -Proben genetischer Daten aus der ganzen Welt, um Krankheiten und andere medizinische Defekte zu identifizieren. Diese schnellen und genauen Berechnungen beseitigen "Reibungspunkte" oder menschliche Fehler, die von einem der zahlreichen Experten für Wissenschaft und Biologie gemacht werden könnten, die mit der DNA arbeiten. Dnastack, ein Teil der Google Genomics, ermöglicht Wissenschaftlern, die riesige Stichprobe von Ressourcen aus Googles Suchserver zu verwenden, um soziale Experimente zu skalieren, die in der Regel sofort Jahre dauern würden.[131][132]
  • 23andme's DNA -Datenbank Enthält die genetischen Informationen von über 1.000.000 Menschen weltweit.[133] Das Unternehmen untersucht den Verkauf der "anonymen aggregierten genetischen Daten" an andere Forscher und Pharmaunternehmen zu Forschungszwecken, wenn Patienten ihre Zustimmung einreichen.[134][135][136][137][138] Ahmad Hariri, Professor für Psychologie und Neurowissenschaften bei Duke University Wer seit 2009 in seiner Forschung 23andme verwendet, besagt, dass der wichtigste Aspekt des neuen Dienstes des Unternehmens die genetische Forschung für Wissenschaftler zugänglich und relativ billig macht.[134] Eine Studie, in der 15 Genomstellen identifiziert wurden, die mit Depressionen in der 23AndMe -Datenbank verbunden sind, führten zu einem Anstieg der Forderungen, mit 23andme -Feldplätzen in zwei Wochen nach der Veröffentlichung des Papiers auf das Repository zuzugreifen.[139]
  • Computerflüssigkeitsdynamik (CFD) und hydrodynamisch Turbulenz Forschung generiert massive Datensätze. Die Johns Hopkins Turbulence -Datenbanken (JHTDB) enthält über 350 Terabyte räumlich -zeitlicher Felder aus direkten numerischen Simulationen verschiedener turbulenter Strömungen. Solche Daten waren schwierig mit herkömmlichen Methoden wie dem Herunterladen von Flat -Simulations -Ausgabedateien zu teilen. Auf die Daten in JHTDB können mit "virtuellen Sensoren" mit verschiedenen Zugriffsmodi zugegriffen werden, die von direkten Webbrowser-Abfragen über MATLAB-, Python-, FORTRAN- und C-Programme reichen, die auf Kundenplattformen ausgeführt werden, um Dienste zum Herunterladen von Rohdaten auszuführen. Die Daten wurden in über 150 wissenschaftlichen Veröffentlichungen verwendet.

Sport

Big Data kann verwendet werden, um das Training und das Verständnis von Wettbewerbern mit Sportsensoren zu verbessern. Es ist auch möglich, Gewinner in einem Spiel mit Big Data Analytics vorherzusagen.[140] Die zukünftige Leistung der Spieler könnte ebenfalls vorhergesagt werden. Somit wird der Wert und das Gehalt der Spieler durch Daten bestimmt, die während der gesamten Saison gesammelt wurden.[141]

In den Formel -1 -Rennen erzeugen Rennwagen mit Hunderten von Sensoren Terabyte Daten. Diese Sensoren sammeln Datenpunkte vom Reifendruck zur Effizienz des Brennstoffverbrennens.[142] Basierend auf den Daten entscheiden Ingenieure und Datenanalysten, ob Anpassungen vorgenommen werden sollen, um ein Rennen zu gewinnen. Außerdem versuchen Rennteams mit Big Data, die Zeit, die das Rennen im Voraus beenden, vorherzusagen, basierend auf Simulationen, die Daten verwenden, die über die Saison gesammelt wurden.[143]

Technologie

  • eBay.com verwendet zwei Data Warehouse bei 7,5 Petabyte und 40PB sowie 40PB Hadoop Cluster für Suche, Verbraucherempfehlungen und Merchandising.[144]
  • Amazon.com täglich von Millionen von Back-End-Operationen sowie Abfragen von mehr als einer halben Million Drittverkäufern. Die Kerntechnologie, die Amazon läuft, ist Linux-basiert und ab 2005 Sie hatten die drei größten Linux -Datenbanken der Welt mit Kapazitäten von 7,8 TB, 18,5 TB und 24,7 TB.[145]
  • Facebook Geht 50 Milliarden Fotos von seiner Benutzerbasis ab.[146] Ab Juni 2017, Facebook erreichte 2 Milliarden Monatliche aktive Benutzer.[147]
  • Google wurde ab August 2012 rund 100 Milliarden Suchanfragen pro Monat bearbeitet.[148]

COVID-19

Während der Covid-19 PandemieBig Data wurde angehoben, um die Auswirkungen der Krankheit zu minimieren. Zu den signifikanten Anwendungen von Big Data gehörten die Minimierung der Ausbreitung des Virus, der Fallidentifikation und der Entwicklung der medizinischen Behandlung.[149]

Die Regierungen verwendeten Big Data, um infizierte Personen zu verfolgen, um die Ausbreitung zu minimieren. Zu den frühen Anwälten gehörten China, Taiwan, Südkorea und Israel.[150][151][152]

Forschungstätigkeit

Verschlüsselte Such- und Clusterbildung in Big Data wurde im März 2014 bei der American Society of Engineering Education demonstriert. Gautam Siwach engagiert sich an Die Herausforderungen von Big Data bewältigen durch MIT Informatik und künstliche Intelligenzlabor und Amir Esmailpour bei der UNH -Forschungsgruppe untersuchte die wichtigsten Merkmale von Big Data als Bildung von Clustern und deren Verbindungen. Sie konzentrierten sich auf die Sicherheit von Big Data und die Ausrichtung des Begriffs auf das Vorhandensein verschiedener Datenarten in einer verschlüsselten Form an der Cloud-Schnittstelle, indem sie die Rohdefinitionen und Echtzeitbeispiele innerhalb der Technologie bereitstellen. Darüber hinaus schlugen sie einen Ansatz vor, um die Codierungstechnik zu identifizieren, um eine beschleunigte Suche nach verschlüsseltem Text voranzutreiben, der zu den Sicherheitsverbesserungen in Big Data führt.[153]

Im März 2012 kündigte das Weiße Haus eine nationale "Big -Data -Initiative" an, die aus sechs Bundesabteilungen und Agenturen bestand, die mehr als 200 Millionen US -Dollar für Big -Data -Forschungsprojekte begangen haben.[154]

Die Initiative umfasste eine "Expeditionen in der National Science Foundation in die Berechnung" in Höhe von 10 Millionen US -Dollar über fünf Jahre im Amplab[155] an der University of California, Berkeley.[156] Der Amplab erhielt auch Mittel von DARPAund über ein Dutzend industrielle Sponsoren und verwendet Big Data, um eine breite Palette von Problemen anzugreifen, wenn man Verkehrsstaus vorhergesagt hat[157] gegen Krebs zu kämpfen.[158]

Die Big -Data -Initiative des Weißen Hauses beinhaltete auch eine Verpflichtung des Energieministeriums, über fünf Jahre über 25 Millionen US -Dollar für die Festlegung des skalierbaren Datenmanagement-, Analyse- und Visualisierungsinstituts (SDAV) bereitzustellen.[159] Unter der Leitung der Energieherktion Lawrence Berkeley Nationales Labor. Das SDAV -Institut zielt darauf ab, das Know -how von sechs nationalen Labors und sieben Universitäten zusammenzubringen, um neue Tools zu entwickeln, mit denen Wissenschaftler Daten über die Supercomputer der Abteilung verwalten und visualisieren können.

Der US -Bundesstaat der US -Bundesstaat Massachusetts kündigte die Big -Data -Initiative von Massachusetts im Mai 2012 an, die eine Vielzahl von Forschungsinstitutionen von der Landesregierung und privaten Unternehmen finanziert.[160] Das Massachusetts Institute of Technology Gastgeber des Intel Science and Technology Center für Big Data in der MIT Informatik und künstliche IntelligenzlaborKombination von Regierungs-, Unternehmens- und institutionellen Finanzierungs- und Forschungsbemühungen.[161]

Die Europäische Kommission finanziert das zweijährige Big Data Public Private Forum im Rahmen des siebten Rahmenprogramms, um Unternehmen, Akademiker und andere Interessengruppen bei der Erörterung von Big Data-Themen einzubeziehen. Das Projekt zielt darauf ab, eine Strategie in Bezug auf Forschung und Innovation zu definieren, um die Unterstützung von Maßnahmen der Europäischen Kommission bei der erfolgreichen Umsetzung der Big Data Economy zu leiten. Die Ergebnisse dieses Projekts werden als Eingabe für verwendet Horizont 2020, ihr nächstes Framework -Programm.[162]

Die britische Regierung kündigte im März 2014 die Gründung der Alan Turing Institute, benannt nach dem Computerpionier und Code-Breaker, der sich auf neue Möglichkeiten zum Sammeln und Analysieren großer Datensätze konzentriert.[163]

Bei der Campus der Universität von Waterloo Stratford Inspirationstag des Canadian Open Data Experience (Code), die Teilnehmer zeigten, wie die Verwendung von Datenvisualisierungen das Verständnis und die Attraktivität von Big -Data -Sets erhöhen und ihre Geschichte der Welt weiterleiten kann.[164]

Computer -Sozialwissenschaften- Jeder kann Anwendungsprogrammierschnittstellen (APIs) verwenden, das von Big -Data -Inhabern wie Google und Twitter bereitgestellt wird, um in den sozialen und verhaltensbezogenen Wissenschaften zu recherchieren.[165] Oft werden diese APIs kostenlos bereitgestellt.[165] Tobias präeis et al. Gebraucht Google Trends Daten, um nachzuweisen, dass Internetnutzer aus Ländern mit einem höheren Pro -Kopf -Bruttoinlandsprodukt (BIP) eher nach Informationen über die Zukunft suchen als Informationen über die Vergangenheit. Die Ergebnisse deuten darauf hin, dass es möglicherweise einen Zusammenhang zwischen Online-Verhalten und wirtschaftlichen Wirtschaftsindikatoren gibt.[166][167][168] Die Autoren der Studie untersuchten Google -Abfragenprotokolle, die durch das Verhältnis des Suchvolumens nach dem kommenden Jahr (2011) zum Suchvolumen für das Vorjahr (2009) hergestellt wurden, die sie als die nennen ","zukünftiger Orientierungsindex".[169] Sie verglichen den zukünftigen Orientierungsindex mit dem Pro -Kopf -BIP jedes Landes und fanden eine starke Tendenz für Länder, in denen Google -Benutzer mehr über die Zukunft nach einem höheren BIP nachfragen.

Tobias präeis und seine Kollegen Helen Susannah Moat und H. Eugene Stanley führte eine Methode zur Identifizierung von Online -Vorläufern für Aktienmarktbewegungen ein und verwendete Handelsstrategien anhand von Suchvolumendaten, die von Google Trends bereitgestellt wurden.[170] Ihre Analyse von Google Suchvolumen für 98 Bestimmungen unterschiedlicher finanzieller Relevanz, veröffentlicht in Wissenschaftliche Berichte,[171] deutet darauf hin, dass die Erhöhung des Suchvolumens für finanziell relevante Suchbegriffe in der Regel großen Verluste auf den Finanzmärkten vorausgeht.[172][173][174][175][176][177][178]

Big -Data -Sets sind mit algorithmischen Herausforderungen ausgestattet, die zuvor nicht bestand. Daher wird von einigen als Notwendigkeit angesehen, die Verarbeitungsmethoden grundlegend zu ändern.[179]

Die Workshops zu Algorithmen für moderne massive Datensätze (MMDs) bringen Informatiker, Statistiker, Mathematiker und Datenanalyse -Praktiker zusammen, um die algorithmischen Herausforderungen von Big Data zu diskutieren.[180] In Bezug auf Big Data sind solche Größenkonzepte relativ. Wie heißt es "Wenn die Vergangenheit eine Anleitung hat, wird die heutige Big Data höchstwahrscheinlich in naher Zukunft nicht als solches angesehen."[85]

Big Data austicheln

Eine Forschungsfrage, die zu Big -Data -Sets gestellt wird, ist, ob es erforderlich ist, die vollständigen Daten zu prüfen, um bestimmte Schlussfolgerungen über die Eigenschaften der Daten zu ziehen, oder ob eine Stichprobe gut genug ist. Der Name Big Data selbst enthält einen Begriff in Bezug auf die Größe und dies ist ein wichtiges Merkmal von Big Data. Aber Probenahme Ermöglicht die Auswahl der rechten Datenpunkte aus dem größeren Datensatz, um die Eigenschaften der gesamten Bevölkerung abzuschätzen. Bei der Herstellung verschiedener Arten von sensorischen Daten wie Akustik, Schwingung, Druck, Strom, Spannung und Controller sind in kurzen Zeitintervallen verfügbar. Um Ausfallzeiten vorherzusagen, ist es möglicherweise nicht erforderlich, alle Daten zu betrachten, aber eine Stichprobe kann ausreichen. Big Data können durch verschiedene Datenpunktkategorien wie demografische, psychografische, Verhaltens- und Transaktionsdaten unterteilt werden. Mit großen Datenpunkten können Vermarkter maßgeschneiderte Segmente von Verbrauchern für strategischere Ziele erstellen und verwenden.

Es wurden einige Arbeiten bei Stichprobenalgorithmen für Big Data durchgeführt. Es wurde eine theoretische Formulierung für Twitter -Daten zur Probenahme entwickelt.[181]

Kritik

Kritik des Big Data -Paradigmas gibt es in zwei Geschmacksrichtungen: diejenigen, die die Auswirkungen des Ansatzes selbst in Frage stellen, und diejenigen, die die Art und Weise in Frage stellen, wie es derzeit gemacht wird.[182] Ein Ansatz für diese Kritik ist das Feld von Kritische Datenstudien.

Kritik des Big Data Paradigmas

"Ein entscheidendes Problem ist, dass wir nicht viel über die zugrunde liegenden empirischen Mikroprozesse wissen, die zur Entstehung der typischen Netzwerkeigenschaften von Big Data führen."[23] In ihrer Kritik, Snijders, Matzat und REPS weisen darauf hin, dass oft sehr starke Annahmen über mathematische Eigenschaften getroffen werden, die möglicherweise überhaupt nicht das widerspiegeln, was auf der Ebene der Mikroprozesse wirklich vor sich geht. Mark Graham hat breite Kritik angegriffen Chris AndersonDie Behauptung, dass Big Data das Ende der Theorie bedeuten wird:[183] Insbesondere auf die Vorstellung konzentriert, dass Big Data immer in ihren sozialen, wirtschaftlichen und politischen Kontexten kontextualisiert werden muss.[184] Auch wenn Unternehmen acht- und neunstellige Summen investieren, um Einblicke aus dem Informationsstroming von Lieferanten und Kunden zu erhalten, haben weniger als 40% der Mitarbeiter ausreichend ausgereifte Prozesse und Fähigkeiten, um dies zu tun. Um dieses Erkenntnisdefizit zu überwinden, müssen Big Data, egal wie umfassend oder gut analysiert, laut einem Artikel in dem durch "große Urteilsvermögen" ergänzt werden Harvard Business Review.[185]

In der gleichen Linie wurde darauf hingewiesen, dass die Entscheidungen, die auf der Analyse von Big Data basieren, unvermeidlich "von der Welt wie in der Vergangenheit oder bestenfalls wie derzeit" informiert werden.[65] Algorithmen können von einer großen Anzahl von Daten zu früheren Erfahrungen gefüttert und können die zukünftige Entwicklung vorhersagen, wenn die Zukunft der Vergangenheit ähnlich ist.[186] Wenn sich die Dynamik des Systems in der zukünftigen Änderung verändert (wenn es nicht ein ist stationärer Prozess), die Vergangenheit kann wenig über die Zukunft sagen. Um Vorhersagen in sich ändernden Umgebungen zu treffen, wäre es notwendig, die Systemdynamik gründlich zu verstehen, was Theorie erfordert.[186] Als Reaktion auf diese Kritik schlagen Alemany Oliver und Vayre vor, "abduktive Argumentation als erster Schritt im Forschungsprozess zu verwenden, um den Kontext der digitalen Spuren der Verbraucher zu verleihen und neue Theorien hervorzubringen".[187] Darüber hinaus wurde vorgeschlagen, Big -Data -Ansätze mit Computersimulationen zu kombinieren, wie z. Agentenbasierte Modelle[65] und Komplexe Systeme. Agentenbasierte Modelle werden zunehmend besser bei der Vorhersage des Ergebniss der sozialen Komplexität unbekannter zukünftiger Szenarien durch Computersimulationen, die auf einer Sammlung von gegenseitig voneinander abhängigen Algorithmen basieren.[188][189] Schließlich die Verwendung multivariater Methoden, die nach der latenten Struktur der Daten untersuchen, wie z. Faktorenanalyse und Clusteranalyse, haben sich als analytische Ansätze als nützlich erwiesen, die weit über die bi-variate-Ansätze hinausgehen (z. Notfalltische) In der Regel mit kleineren Datensätzen verwendet.

In Gesundheit und Biologie basieren konventionelle wissenschaftliche Ansätze auf Experimenten. Für diese Ansätze sind der begrenzende Faktor die relevanten Daten, die die anfängliche Hypothese bestätigen oder widerlegen können.[190] Ein neues Postulat wird jetzt in Biosciences akzeptiert: die Informationen, die die Daten in riesigen Bänden bereitstellen (Omics) ohne vorherige Hypothese ist komplementär und manchmal notwendig, um konventionelle Ansätze auf der Grundlage von Experimentieren zu erhalten.[191][192] In den massiven Ansätzen handelt es sich um die Formulierung einer relevanten Hypothese, um die Daten zu erklären, die der begrenzende Faktor sind.[193] Die Suchlogik ist umgekehrt und die Grenzen der Induktion ("Ehre der Wissenschaft und Philosophieskandal", C. D. Broad, 1926) sind zu berücksichtigen.

Privatsphäre Befürworter sind besorgt über die Bedrohung für die Privatsphäre, die durch die Erhöhung der Lagerung und Integration von dargestellt wird persönlich identifizierbare Informationen; Expertenpanels haben verschiedene politische Empfehlungen veröffentlicht, um den Erwartungen der Privatsphäre zu praktizieren.[194] Der Missbrauch von Big Data in mehreren Fällen durch Medien, Unternehmen und sogar die Regierung hat die Abschaffung des Vertrauens in fast jede fundamentale Institution zugelassen, die die Gesellschaft innehat.[195]

Nayef al-Rodhan argumentiert, dass eine neue Art von sozialen Vertrag erforderlich sein wird, um einzelne Freiheiten im Kontext von Big Data und riesigen Unternehmen zu schützen, die große Mengen an Informationen besitzen, und dass die Verwendung von Big Data überwacht und besser reguliert werden sollte nationale und internationale Ebene.[196] Barocas und Nissenbaum argumentieren, dass eine Möglichkeit, einzelne Benutzer zu schützen, darin besteht, über die Arten der gesammelten Informationen informiert zu werden, mit denen sie geteilt wird, unter welchen Einschränkungen und zu welchen Zwecken.[197]

Kritik des "V" -Modells

Das "V" -Modell von Big Data ist besorgniserregend, da es sich um die Rechenskalierbarkeit konzentriert und einen Verlust in Bezug auf die Wahrnehmbarkeit und Verständlichkeit von Informationen fehlt. Dies führte zum Rahmen kognitiver Big Data, der Big Data -Anwendungen gemäß:[198]

  • Daten Vollständigkeit: Verständnis der Nicht-Beobachter aus Daten
  • Datenkorrelation, -verursachung und Vorhersehbarkeit: Kausalität als nicht wesentlicher Voraussetzung, um Vorhersagbarkeit zu erreichen
  • Erklärung und Interpretierbarkeit: Menschen wünschen sich zu verstehen und zu akzeptieren, was sie verstehen, wo Algorithmen damit nicht umgehen
  • Niveau von automatisierte Entscheidungsfindung: Algorithmen, die automatisierte Entscheidungsfindung und algorithmisches Selbstlern unterstützen

Kritik der Neuheit

Große Datensätze wurden seit weit über einem Jahrhundert von Computermaschinen analysiert, einschließlich der US -Volkszählungsanalytik von von IBM's Punch-Card-Maschinen, die Statistiken einschließlich Mittel und Abweichungen von Populationen auf dem gesamten Kontinent berechneten. In den letzten Jahrzehnten, wissenschaftliche Experimente wie Cern haben Daten zu ähnlichen Skalen wie aktuell kommerziell "Big Data" erstellt. Wissenschaftsexperimente haben ihre Daten jedoch mit spezialisierten, maßgeschneiderten Angaben analysiert High Performance Computing (Super-Computing) Cluster und Gitter und nicht als Wolken billiger Warencomputer wie in der aktuellen kommerziellen Welle, was einen Unterschied sowohl im Kultur- als auch im Technologiestapel impliziert.

Kritik der Big Data -Ausführung

ULF-Dietrich-Reisungen Und Uwe Matzat schrieb 2014, dass Big Data in wissenschaftlicher Forschung zu einer "Modeerscheinung" geworden sei.[165] Forscher Danah Boyd hat Bedenken hinsichtlich der Verwendung von Big Data in wissenschaftlicher Vernachlässigung von Prinzipien wie der Auswahl von a geäußert repräsentative Stichprobe durch zu besorgt über den Umgang mit den riesigen Datenmengen.[199] Dieser Ansatz kann zu Ergebnissen führen, die a haben Voreingenommenheit so oder so.[200] Die Integration über heterogene Datenressourcen hinweg - einige, die als Big Data und andere nicht angesehen werden könnten, sind gewaltige logistische sowie analytische Herausforderungen, aber viele Forscher argumentieren, dass solche Integrationen wahrscheinlich die vielversprechendsten neuen Grenzen der Wissenschaft darstellen.[201] Im provokativen Artikel "Kritische Fragen für Big Data",[202] Die Autoren treiben Big Data ein Teil von Mythologie: "Große Datensätze bieten eine höhere Form von Intelligenz und Wissen [...] mit der Aura der Wahrheit, Objektivität und Genauigkeit." Benutzer von Big Data werden oft "im bloßen Volumen der Zahlen verloren", und "mit Big Data zu arbeiten ist immer noch subjektiv, und was sie quantifiziert, hat nicht unbedingt einen engeren Anspruch auf objektive Wahrheit".[202] Jüngste Entwicklungen in der BI-Domäne, wie z. Filterung von Nicht genutzte Daten und Korrelationen.[203] Große Strukturen sind voller falscher Korrelationen[204] entweder wegen nicht-kausaler Zufälle (Gesetz der wirklich großen Anzahl), ausschließlich der großen Zufälligkeit[205] (Ramsey -Theorie) oder Existenz von Nicht eingelegte Faktoren Die Hoffnung für frühe Experimentatoren, große Datenbanken von Zahlen zu erstellen, sprechen "für sich selbst" und die wissenschaftliche Methode revolutionieren, wird in Frage gestellt.[206] Catherine Tucker hat auf "Hype" um Big Data hingewiesen, das Schreiben von sich selbst ist, dass Big Data es ist unwahrscheinlich, dass Big Data wertvoll ist. " Der Artikel erklärt: "Die vielen Kontexte, in denen Daten im Verhältnis zu den Kosten für die Verarbeitung von Talenten billig sind, deuten darauf hin, dass Verarbeitungsfähigkeiten wichtiger sind als Daten selbst, um Wert für ein Unternehmen zu schaffen."[207]

Die Big -Data -Analyse ist im Vergleich zur Analyse kleinerer Datensätze häufig flach.[208] In vielen Big -Data -Projekten gibt es keine große Datenanalyse, aber die Herausforderung besteht darin extrahieren, transformieren, laden Teil der Datenvorverarbeitung.[208]

Big Data ist a Schlagwort und ein "vagen Begriff",[209][210] Aber gleichzeitig eine "Besessenheit"[210] mit Unternehmern, Beratern, Wissenschaftlern und den Medien. Big Data -Präsentationen wie z. Google Grippe Trends In den letzten Jahren wurden keine guten Vorhersagen abgeliefert und die Grippeausbrüche um den Faktor zwei übertroffen. Ähnlich, Oscar-Verleihung und Wahlvorhersagen, die ausschließlich auf Twitter basierten, waren häufiger ausgeschaltet als das Ziel. Big Data stellt oft die gleichen Herausforderungen wie kleine Daten. Das Hinzufügen weiterer Daten löst keine Verzerrungsprobleme, kann jedoch andere Probleme betonen. Insbesondere Datenquellen wie Twitter sind nicht repräsentativ für die Gesamtbevölkerung, und die Ergebnisse aus solchen Quellen können dann zu falschen Schlussfolgerungen führen. Google Übersetzer- Das basiert auf der statistischen Big -Data -Analyse des Textes - hat einen guten Job bei der Übersetzung von Webseiten. Die Ergebnisse von spezialisierten Domänen können jedoch dramatisch verzerrt werden. Andererseits können Big Data auch neue Probleme einführen, wie die Multiple Vergleichsprobleme: Gleichzeitig testen ein großer Satz von Hypothesen wahrscheinlich viele falsche Ergebnisse, die fälschlicherweise signifikant erscheinen. Ioannidis argumentierte, dass "die meisten veröffentlichten Forschungsergebnisse falsch sind".[211] Aufgrund des wesentlichen Auswirkungen Wenn also nur positive Ergebnisse veröffentlicht werden. Darüber hinaus sind die Ergebnisse der Big Data Analytics nur so gut wie das Modell, auf das sie beruht. In einem Beispiel nahmen Big Data an dem Versuch teil, die Ergebnisse der US -Präsidentschaftswahlen 2016 vorherzusagen[212] mit unterschiedlichem Erfolg.

Kritik an Big Data Politik und Überwachung

Big Data wurde von Institutionen wie bei der Polizeiarbeit und Überwachung verwendet Strafverfolgung und Unternehmen.[213] Aufgrund der weniger sichtbaren Natur der datenbasierten Überwachung im Vergleich zu herkömmlichen Überwachungsmethoden treten die Einwände gegen die Big-Data-Politik weniger wahrscheinlich auf. Laut Sarah Braynes's Big Data Surveillance: Der Fall der Polizeiarbeit,[214] Big Data -Polizeiarbeit kann vorhanden sein gesellschaftliche Ungleichheiten Auf drei Arten:

  • Menschen unter Verwendung eines mathematischen und damit unvoreingenommenen Algorithmus unter Verwendung einer erhöhten Überwachung setzen
  • Erhöhen des Umfangs und der Anzahl der Personen, die der Verfolgung der Strafverfolgungsbehörden unterliegen, und die bestehenden Verstärkung verschärfen Rassenüberrepräsentation im Strafjustizsystem
  • Ermutigung von Mitgliedern der Gesellschaft, Interaktionen mit Institutionen aufzugeben, die eine digitale Spur schaffen und so Hindernisse für die soziale Eingliederung schaffen

Wenn diese potenziellen Probleme nicht korrigiert oder reguliert werden, können die Auswirkungen der Big -Data -Polizeiarbeit weiterhin gesellschaftliche Hierarchien beeinflussen. Die gewissenhafte Verwendung von Big Data Politik könnte verhindern, dass individuelle Verzerrungen zu institutionellen Vorurteilen werden, stellt Brayne auch fest.

In der Populärkultur

Bücher

  • Geldball ist ein Sachbuchbuch, in dem untersucht wird, wie die Leichtathletik von Oakland statistische Analysen verwendet hat, um Teams mit größeren Budgets zu übertreffen. 2011 a Filmanpassung mit Brad Pitt wurde veröffentlicht.

Film

Siehe auch

Verweise

  1. ^ Hilbert, Martin; López, Priscila (2011). "Die technologische Fähigkeit der Welt, Informationen zu speichern, zu kommunizieren und zu berechnen". Wissenschaft. 332 (6025): 60–65. Bibcode:2011sci ... 332 ... 60h. doi:10.1126/Science.1200970. PMID 21310967. S2CID 206531385. Archiviert Aus dem Original am 14. April 2016. Abgerufen 13. April 2016.
  2. ^ Breur, Tom (Juli 2016). "Statistische Machtanalyse und die zeitgenössische" Krise "in den Sozialwissenschaften". Journal of Marketing Analytics. London, England: Palgrave Macmillan. 4 (2–3): 61–65. doi:10.1057/s41270-016-0001-3. ISSN 2050-3318.
  3. ^ a b "Die 5 V von Big Data". Watson -Gesundheitsperspektiven.17. September 2016. Archiviert Aus dem Original am 18. Januar 2021. Abgerufen 20. Januar 2021.
  4. ^ Cappa, Francesco; Oriani, Raffaele; Peruffo, Enzo; McCarthy, Ian (2021). "Big Data zum Schaffen und Erhalten von Wert in der digitalisierten Umgebung: Ausübung der Auswirkungen von Volumen, Vielfalt und Wahrhaftigkeit auf die Unternehmensleistung*". Journal of Product Innovation Management. 38 (1): 49–67. doi:10.1111/jpim.12545. ISSN 0737-6782. S2CID 225209179.
  5. ^ Boyd, Dana; Crawford, Kate (21. September 2011). "Sechs Provokationen für Big Data". Social Science Research Network: Ein Jahrzehnt in der Internetzeit: Symposium über die Dynamik des Internets und der Gesellschaft. doi:10.2139/ssrn.1926431. S2CID 148610111. Archiviert vom Original am 28. Februar 2020. Abgerufen 12. Juli 2019.
  6. ^ a b c d e f g "Daten, Daten überall". Der Ökonom. 25. Februar 2010. Archiviert vom Original am 27. Mai 2018. Abgerufen 9. Dezember 2012.
  7. ^ "Gemeinschaftsklugheit erforderlich". Natur. 455 (7209): 1. September 2008. Bibcode:2008natur.455 .... 1.. doi:10.1038/455001a. PMID 18769385.
  8. ^ Reichman OJ, Jones MB, Schildhauer MP (Februar 2011). "Herausforderungen und Möglichkeiten offener Daten in der Ökologie". Wissenschaft. 331 (6018): 703–5. Bibcode:2011sci ... 331..703r. doi:10.1126/Science.1197962. PMID 21311007. S2CID 22686503. Archiviert Aus dem Original am 19. Oktober 2020. Abgerufen 12. Juli 2019.
  9. ^ Hellerstein, Joe (9. November 2008). "Parallele Programmierung im Zeitalter von Big Data". Gigaom -Blog. Archiviert Aus dem Original am 7. Oktober 2012. Abgerufen 21. April 2010.
  10. ^ Segaran, Toby; Hammerbacher, Jeff (2009). Schöne Daten: Die Geschichten hinter eleganten Datenlösungen. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1. Archiviert vom Original am 12. Mai 2016. Abgerufen 31. Dezember 2015.
  11. ^ a b Hilbert M, López P (April 2011). "Die technologische Fähigkeit der Welt, Informationen zu speichern, zu kommunizieren und zu berechnen" (PDF). Wissenschaft. 332 (6025): 60–5. Bibcode:2011sci ... 332 ... 60h. doi:10.1126/Science.1200970. PMID 21310967. S2CID 206531385. Archiviert (PDF) Aus dem Original am 19. August 2019. Abgerufen 11. Mai 2019.
  12. ^ "IBM Was ist Big Data? - Big Data in das Unternehmen bringen". ibm.com. Archiviert Aus dem Original am 24. August 2013. Abgerufen 26. August 2013.
  13. ^ Reinsel, David; Gantz, John; Rydning, John (13. April 2017). "Datenalter 2025: Die Entwicklung von Daten zu lebenskritisch" (PDF). Seagate.com. Framingham, MA, USA: Internationale Data Corporation. Archiviert (PDF) Aus dem Original am 8. Dezember 2017. Abgerufen 2. November 2017.
  14. ^ "Die globalen Ausgaben für Big Data und Analytics Solutions werden laut einer neuen IDC -Ausgabenhandbuch im Jahr 2021 215,7 Milliarden US -Dollar erreichen".
  15. ^ "Big Data und Business Analytics Revenue 2022".
  16. ^ "Globale Marktgröße der Big Data-Branche 2011-2027".
  17. ^ a b c https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_exec_summary.pdf[Bare URL PDF]
  18. ^ Oracle und FSN, "Mastering Big Data: CFO -Strategien, um den Einblick in Chancen zu verwandeln" Archiviert 4. August 2013 bei der Wayback -Maschine, Dezember 2012
  19. ^ Jacobs, A. (6. Juli 2009). "Die Pathologien von Big Data". Acmqueue. Archiviert Aus dem Original am 8. Dezember 2015. Abgerufen 21. April 2010.
  20. ^ Magoulas, Roger; Lorica, Ben (Februar 2009). "Einführung in Big Data". Release 2.0. Sebastopol CA: O'Reilly Media (11). Archiviert vom Original am 2. November 2021. Abgerufen 26. Februar 2021.
  21. ^ John R. Mashey (25. April 1998). "Big Data ... und die nächste Welle der Infrastresse" (PDF). Folien von eingeladenem Gespräch. Usenix. Archiviert (PDF) Aus dem Original am 12. Oktober 2016. Abgerufen 28. September 2016.
  22. ^ Steve Lohr (1. Februar 2013). "Die Ursprünge von 'Big Data': Eine etymologische Detektivgeschichte". Die New York Times. Archiviert Aus dem Original am 6. März 2016. Abgerufen 28. September 2016.
  23. ^ a b Snijders, C.; Matzat, U.; REPS, U.D. (2012). "'Big Data': große Wissenslücken im Bereich Internet ". Internationales Journal of Internet Science. 7: 1–5. Archiviert Aus dem Original am 23. November 2019. Abgerufen 13. April 2013.
  24. ^ Dedić, N.; Stanier, C. (2017). "Um Business Intelligence, Big Data, Data Analytics und Wissens Discovery zu unterscheiden". Innovationen im Bereich des Unternehmens und des Ingenieurwesens von Unternehmensinformationssystemen. Vorlesungen in der Verarbeitung von Geschäftsinformationen. Vol. 285. Berlin; Heidelberg: Springer International Publishing. S. 114–122. doi:10.1007/978-3-319-58801-8_10. ISBN 978-3-319-58800-1. ISSN 1865-1356. OCLC 909580101. Archiviert vom Original am 27. November 2020. Abgerufen 7. September 2019.
  25. ^ Everts, Sarah (2016). "Informationsüberlastung". Destillationen. Vol. 2, nein. 2. S. 26–33. Archiviert Aus dem Original am 3. April 2019. Abgerufen 22. März 2018.
  26. ^ Ibrahim; Targio Haschem, Abaker; Yaqoob, Ibrar; Badrul Anuar, noch; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "Big Data" on Cloud Computing: Überprüfung und offene Forschungsprobleme ". Informationssysteme. 47: 98–115. doi:10.1016/j.is.2014.07.006.
  27. ^ Grimes, Seth. "Big Data: Vermeiden Sie 'will V' Verwirrung". Informationswoche. Archiviert Aus dem Original am 23. Dezember 2015. Abgerufen 5. Januar 2016.
  28. ^ Fox, Charles (25. März 2018). Datenwissenschaft für den Transport. Springer -Lehrbücher in Geowissenschaften, Geographie und Umwelt. Springer. ISBN 9783319729527. Archiviert Aus dem Original am 1. April 2018. Abgerufen 31. März 2018.
  29. ^ Kitchin, Rob; McARDLE, Gavin (2016). "Was macht Big Data, Big Data? Erforschung der ontologischen Eigenschaften von 26 Datensätzen". Big Data & Society. 3: 1–10. doi:10.1177/2053951716631130. S2CID 55539845.
  30. ^ Balazka, Dominik; Rodighiero, Dario (2020). "Big Data und der kleine Urknall: Eine erkenntnistheoretische (r) Evolution". Grenzen in Big Data. 3: 31. doi:10.3389/fdata.2020.00031. HDL:1721.1/128865. PMC 7931920. PMID 33693404.
  31. ^ "AVec Focalisation Sur Big Data & Analytique" (PDF). BigDataparis.com. Archiviert von das Original (PDF) am 25. Februar 2021. Abgerufen 8. Oktober 2017.
  32. ^ a b Billings S.A. Wiley, 2013
  33. ^ "le Blog undsi» dsi Big Data ". Undsi.fr. Archiviert Aus dem Original am 10. Oktober 2017. Abgerufen 8. Oktober 2017.
  34. ^ Les Echos (3. April 2013). "Les Echos-Big Data Car-Daten mit niedriger Dichte?. Lesechos.fr. Archiviert vom Original am 30. April 2014. Abgerufen 8. Oktober 2017.
  35. ^ Sagiroglu, Seref (2013). "Big Data: Eine Bewertung". 2013 Internationale Konferenz zu Zusammenarbeitstechnologien und Systemen (CTS): 42–47. doi:10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. S2CID 5724608.
  36. ^ Kitchin, Rob; McARDLE, Gavin (17. Februar 2016). "Was macht Big Data, Big Data? Erforschung der ontologischen Eigenschaften von 26 Datensätzen". Big Data & Society. 3 (1): 205395171663113. doi:10.1177/2053951716631130.
  37. ^ Onay, Ceylan; Öztürk, Elif (2018). "Eine Überprüfung der Kreditbewertungsforschung im Zeitalter von Big Data". Journal of Financial Regulation and Compliance. 26 (3): 382–405. doi:10.1108/JFRC-06-2017-0054. S2CID 158895306.
  38. ^ Big Data's Viertes V.
  39. ^ "Messung des Geschäftswertes von Big Data | IBM Big Data & Analytics Hub". www.ibmbigdatahub.com. Archiviert vom Original am 28. Januar 2021. Abgerufen 20. Januar 2021.
  40. ^ Kitchin, Rob; McARDLE, Gavin (5. Januar 2016). "Was macht Big Data, Big Data? Erforschung der ontologischen Eigenschaften von 26 Datensätzen". Big Data & Society. 3 (1): 205395171663113. doi:10.1177/2053951716631130. ISSN 2053-9517.
  41. ^ "Umfrage: Größte Datenbanken nähern sich 30 Terabyte". Eweek.com. 8. November 2003. Abgerufen 8. Oktober 2017.
  42. ^ "LexisNexis, um Seisint für 775 Millionen US -Dollar zu kaufen". Die Washington Post. Archiviert Aus dem Original am 24. Juli 2008. Abgerufen 15. Juli 2004.
  43. ^ "Die Washington Post". Die Washington Post. Archiviert Aus dem Original am 19. Oktober 2016. Abgerufen 24. August 2017.
  44. ^ Bertolucci, Jeff "Hadoop: Vom Experiment bis zur führenden Big -Data -Plattform" Archiviert 23. November 2020 bei der Wayback -Maschine, "Information Week", 2013. Abgerufen am 14. November 2013.
  45. ^ Webster, John. "MapReduce: Vereinfachte Datenverarbeitung bei großen Clustern" Archiviert 14. Dezember 2009 bei der Wayback -Maschine, "Search Storage", 2004. Abgerufen am 25. März 2013.
  46. ^ "Big Data -Lösung Angebot". Mike2.0. Archiviert Aus dem Original am 16. März 2013. Abgerufen 8. Dezember 2013.
  47. ^ "Big Data Definition". Mike2.0. Archiviert Aus dem Original am 25. September 2018. Abgerufen 9. März 2013.
  48. ^ Boja, C; Pocovnicu, a; Bătăgan, L. (2012). "Verteilte parallele Architektur für Big Data". Informatica Economica. 16 (2): 116–127.
  49. ^ "Lösen wichtiger Geschäftsherausforderungen mit einem Big Data Lake" (PDF). Hcltech.com. August 2014. Archiviert (PDF) Aus dem Original am 3. Juli 2017. Abgerufen 8. Oktober 2017.
  50. ^ "Methode zum Testen der Fehlertoleranz von MapReduce -Frameworks" (PDF). Computernetzwerke. 2015. Archiviert (PDF) Aus dem Original am 22. Juli 2016. Abgerufen 13. April 2016.
  51. ^ a b Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (Mai 2011). "Big Data: Die nächste Grenze für Innovation, Wettbewerb und Produktivität" (PDF).McKinsey Global Institute. Archiviert (PDF) vom Original am 25. Juli 2021. Abgerufen 22. Mai 2021. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  52. ^ "Zukünftige Richtungen in Tensorbasierter Berechnung und Modellierung" (PDF). Mai 2009. Archiviert (PDF) Aus dem Original am 17. April 2018. Abgerufen 4. Januar 2013.
  53. ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "Eine Umfrage zum multilinearen Unterraumlernen für Tensordaten" (PDF). Mustererkennung. 44 (7): 1540–1551. Bibcode:2011patre..44.1540L. doi:10.1016/j.patcog.2011.01.004. Archiviert (PDF) Aus dem Original am 10. Juli 2019. Abgerufen 21. Januar 2013.
  54. ^ Pllana, Sabri; Janciak, Ivan; Brezany, Peter; Wörer, Alexander (2016). "Eine Übersicht über den Stand der Technik in Data Mining and Integration Abfragesprachen". 2011 14. Internationale Konferenz über netzwerkbasierte Informationssysteme. 2011 Internationale Konferenz über netzwerkbasierte Informationssysteme (NBIS 2011). IEEE Computer Society. S. 341–348. Arxiv:1603.01113. Bibcode:2016ArXIV160301113p. doi:10.1109/nbis.2011.58. ISBN 978-1-4577-0789-6. S2CID 9285984.
  55. ^ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (Oktober 2014). "Charakterisierung und Optimierung von Mapreduce für Speicherbewohner auf HPC-Systemen". 2014 IEEE 28. International Parallel and Distributed Processing Symposium. IEEE. S. 799–808. doi:10.1109/ipdps.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.
  56. ^ L'Heureux, A.; Grolinger, K.; Elyamany, H. F.; Capretz, M. A. M. (2017). "Maschinelles Lernen mit Big Data: Herausforderungen und Ansätze". IEEE -Zugang. 5: 7776–7797. doi:10.1109/access.2017.2696365. ISSN 2169-3536.
  57. ^ Monash, Curt (30. April 2009). "Ebays zwei enorme Data Warehouses". Archiviert vom Original am 31. März 2019. Abgerufen 11. November 2010.
    Monash, Curt (6. Oktober 2010). "eBay Followup - Greenplum out, teradata> 10 Petabyte, Hadoop hat einen gewissen Wert und mehr". Archiviert vom Original am 31. März 2019. Abgerufen 11. November 2010.
  58. ^ "Ressourcen für die topologische Datenanalyse werden zur Analyse von Big Data verwendet". Ayasdi. Archiviert Aus dem Original am 3. März 2013. Abgerufen 5. März 2013.
  59. ^ CNET News (1. April 2011). "Speicherbereichsnetzwerke müssen sich nicht bewerben". Archiviert Aus dem Original am 18. Oktober 2013. Abgerufen 17. April 2013.
  60. ^ Hilbert, Martin (2014). "Was ist der Inhalt der technologisch vermittelten Informations- und Kommunikationskapazität der Welt: Wie viel Text, Bild, Audio und Video?". Die Informationsgesellschaft. 30 (2): 127–143. doi:10.1080/01972243.2013.873748. S2CID 45759014. Archiviert vom Original am 24. Juni 2020. Abgerufen 12. Juli 2019.
  61. ^ Rajpurohit, Anmol (11. Juli 2014). "Interview: Amy Gershkoff, Direktorin von Kundenanalyse und Insights, eBay zum Entwerfen von benutzerdefinierten internen BI-Tools". Kdnuggets. Archiviert Aus dem Original am 14. Juli 2014. Abgerufen 14. Juli 2014. Im Allgemeinen stelle ich fest, dass Off-the-Shelf Business Intelligence-Tools nicht den Anforderungen von Kunden entsprechen, die benutzerdefinierte Erkenntnisse aus ihren Daten abgeben möchten. Daher empfehle ich für mittlere bis große Organisationen mit Zugang zu starken technischen Talenten normalerweise internen Lösungen.
  62. ^ "Die Regierung und Big Data: Verwendung, Probleme und Potenzial". Computerwelt. 21. März 2012. Archiviert Aus dem Original am 15. September 2016. Abgerufen 12. September 2016.
  63. ^ "White Paper: Big Data for Development: Chancen & Challenges (2012) - Globaler Puls der Vereinten Nationen". Unglobalpulse.org. Archiviert vom Original am 1. Juni 2020. Abgerufen 13. April 2016.
  64. ^ "WEF (Weltwirtschaftsforum), & Vital Wave Consulting. (2012). Big Data, Big Impact: Neue Möglichkeiten für die internationale Entwicklung". Weltwirtschaftsforum. Archiviert vom Original am 1. Juni 2020. Abgerufen 24. August 2012.
  65. ^ a b c d e Hilbert, M. (2016). Big Data für die Entwicklung: Eine Überprüfung von Versprechen und Herausforderungen. Überprüfung der Entwicklungspolitik, 34 (1), 135–174. https://doi.org/10.1111/dpr.12142 Archiviert 1. Juni 2022 bei der Wayback -Maschine den freien Zugang: https://www.martinhilbert.net/big-data-for-development/ Archiviert 21. April 2021 bei der Wayback -Maschine
  66. ^ "Elena Kvochko, vier Möglichkeiten, über Big Data (Information Communication Technologies for Development Series) zu sprechen". Worldbank.org. 4. Dezember 2012. Archiviert Aus dem Original am 15. Dezember 2012. Abgerufen 30. Mai 2012.
  67. ^ "Daniele Medri: Big Data & Business: Eine laufende Revolution". Statistikansichten. 21. Oktober 2013. archiviert von das Original am 17. Juni 2015. Abgerufen 21. Juni 2015.
  68. ^ Tobias Knobloch und Julia Manske (11. Januar 2016). "Verantwortliche Verwendung von Daten". D+C, Entwicklung und Zusammenarbeit. Archiviert Aus dem Original am 13. Januar 2017. Abgerufen 11. Januar 2017.
  69. ^ Mann, S. & Hilbert, M. (2020). AI4D: Künstliche Intelligenz für die Entwicklung. International Journal of Communication, 14 (0), 21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/ Archiviert 22. April 2021 bei der Wayback -Maschine
  70. ^ Blumenstock, J. E. (2016). Bekämpfung der Armut mit Daten. Science, 353 (6301), 753–754. https://doi.org/10.1126/science.aah5217 Archiviert 1. Juni 2022 bei der Wayback -Maschine
  71. ^ J. Blumenstock, G. Cadamuro & R. (2015). Vorhersage von Armut und Wohlstand von Handy -Metadaten. Science, 350 (6264), 1073–1076. https://doi.org/10.1126/science.aac4420 Archiviert 1. Juni 2022 bei der Wayback -Maschine
  72. ^ Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S. (2016). Kombination von Satellitenbildern und maschinellem Lernen zur Vorhersage der Armut. Science, 353 (6301), 790–794. https://doi.org/10.1126/science.aaf7894 Archiviert 1. Juni 2022 bei der Wayback -Maschine
  73. ^ a b Hilbert, M. & Lu, K. (2020). Der Online -Arbeitsmarkt in Lateinamerika und in der Karibik (UN ECLAC LC/TS.2020/83; S. 79). Wirtschaftskommission der Vereinten Nationen für Lateinamerika und die Karibik. https://www.cepal.org/en/publications/45892-online-job-market-latin-america-and-caribbean Archiviert 22. September 2020 bei der Wayback -Maschine
  74. ^ UN ECLAC (Wirtschaftskommission der Vereinten Nationen für Lateinamerika und die Karibik). (2020). Verfolgung des digitalen Fußabdrucks in Lateinamerika und der Karibik: Lehren aus der Verwendung von Big Data zur Bewertung der digitalen Wirtschaft (produktive Entwicklung, Gender -Angelegenheiten LC/TS.2020/12; Documentos de Proyecto). Eclac der Vereinten Nationen. https://repositorio.cepal.org/handle/11362/45484 Archiviert 18. September 2020 bei der Wayback -Maschine
  75. ^ Banerjee, Amitav; Chaudhury, Supakash (2010). "Statistiken ohne Tränen: Populationen und Proben". Industrial Psychiatry Journal. 19 (1): 60–65. doi:10.4103/0972-6748.77642. ISSN 0972-6748. PMC 3105563. PMID 21694795.
  76. ^ Huser V, Cimino JJ (Juli 2016). "Bevorstehende Herausforderungen für die Verwendung von Big Data". Internationales Journal für Strahlung Onkologie, Biologie, Physik. 95 (3): 890–894. doi:10.1016/j.ijrobp.2015.10.060. PMC 4860172. PMID 26797535.
  77. ^ Sejdic, Ervin; Falk, Tiago H. (4. Juli 2018). Signalverarbeitung und maschinelles Lernen für biomedizinische Big Data. Sejdić, Ervin, Falk, Tiago H. [Veröffentlichungsort nicht identifiziert]. ISBN 9781351061216. OCLC 1044733829.
  78. ^ Raghupathi W, Raghupathi V (Dezember 2014). "Big Data Analytics im Gesundheitswesen: Versprechen und Potenzial". Gesundheitsinformationswissenschaft und Systeme. 2 (1): 3. doi:10.1186/2047-2501-2-3. PMC 4341817. PMID 25825667.
  79. ^ Viceconti M, Hunter P, Schlauch R (Juli 2015). "Big Data, Big Knowledge: Big Data für personalisierte Gesundheitsversorgung" (PDF). IEEE Journal of Biomedical and Health Informatics. 19 (4): 1209–15. doi:10.1109/jbhi.2015.2406883. PMID 26218867. S2CID 14710821. Archiviert (PDF) Aus dem Original am 23. Juli 2018. Abgerufen 21. September 2019.
  80. ^ O'Donoghue, John; Herbert, John (1. Oktober 2012). "Datenmanagement in MHealth -Umgebungen: Patientensensoren, mobile Geräte und Datenbanken". Zeitschrift für Daten und Informationsqualität. 4 (1): 5: 1–5: 20. doi:10.1145/2378016.2378021. S2CID 2318649.
  81. ^ Mirkes EM, Coats TJ, Levesley J, Gorban AN (August 2016). "Umgang mit fehlenden Daten im großen Gesundheitsdatensatz: Eine Fallstudie zu unbekannten Traumaergebnissen". Computers in Biology and Medicine. 75: 203–16. Arxiv:1604.00627. Bibcode:2016ArXIV160400627m. doi:10.1016/j.compbiomed.2016.06.004. PMID 27318570. S2CID 5874067.
  82. ^ Murdoch TB, Detsky AS (April 2013). "Die unvermeidliche Anwendung von Big Data auf die Gesundheitsversorgung". Jama. 309 (13): 1351–2. doi:10.1001/jama.2013.393. PMID 23549579.
  83. ^ Vayena E, Salathé M, Madoff LC, Brownstein JS (Februar 2015). "Ethische Herausforderungen von Big Data in der öffentlichen Gesundheit". PLoS Computational Biology. 11 (2): e1003904. Bibcode:2015PLSCB..11E3904V. doi:10.1371/journal.pcbi.1003904. PMC 4321985. PMID 25664461.
  84. ^ Copeland, CS (Juli -August 2017). "Erkennung von Daten treiben" (PDF). Healthcare Journal of New Orleans: 22–27. Archiviert (PDF) Aus dem Original am 5. Dezember 2019. Abgerufen 5. Dezember 2019.
  85. ^ a b Yanase J, Triantaphyllou E (2019). "Eine systematische Untersuchung der computergestützten Diagnose in der Medizin: frühere und gegenwärtige Entwicklungen". Expertensysteme mit Anwendungen. 138: 112821. doi:10.1016/j.eswa.2019.112821. S2CID 199019309.
  86. ^ Dong X, Bahrroos N, Sadhu E, Jackson T., Chukhman M., Johnson R., Boyd A., Hynes D. (2013). "Hadoop -Framework für landlebige klinische Informatikanwendungen nutzen". Amia gemeinsame Gipfel zu translationalen Wissenschaftsverfahren. Amia gemeinsame Gipfel zur Translationalen Wissenschaft. 2013: 53. PMID 24303235.
  87. ^ Clunie D (2013). "Brusttomosynthese fordert die digitale Bildgebungsinfrastruktur heraus". Archiviert vom Original am 24. Februar 2021. Abgerufen 24. Juli 2019. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  88. ^ Yanase J, Triantaphyllou E (2019). "Die sieben wichtigen Herausforderungen für die Zukunft der computergestützten Diagnose in der Medizin". Internationales Journal of Medical Informatics. 129: 413–422. doi:10.1016/j.ijmedInf.2019.06.017. PMID 31445285. S2CID 198287435.
  89. ^ "Abschlüsse in Big Data: Modeerscheinung oder schneller Track zum Karriereerfolg". Forbes. Archiviert Aus dem Original am 3. März 2016. Abgerufen 21. Februar 2016.
  90. ^ "NY bekommt ein neues Bootcamp für Datenwissenschaftler: Es ist kostenlos, aber schwieriger, sich auf als Harvard einzugeben.". Venture Beat. Archiviert Aus dem Original am 15. Februar 2016. Abgerufen 21. Februar 2016.
  91. ^ Wedel, Michel; Kannan, PK (2016). "Marketinganalysen für datenreiche Umgebungen". Journal of Marketing. 80 (6): 97–121. doi:10.1509/jm.15.0413. S2CID 168410284.
  92. ^ Könnte, Nick; Turow, Joseph (2014). "Werbung, Big Data und die Freigabe des öffentlichen Bereichs: Neue Ansätze der Vermarkter für die Inhaltszuschub". Internationales Journal of Communication. 8: 1710–1726.
  93. ^ "Warum digitale Werbeagenturen bei der Akquisition saugen und dringend ein AI -unterstütztes Upgrade benötigen". Ishti.org. 15. April 2018. archiviert von das Original am 12. Februar 2019. Abgerufen 15. April 2018.
  94. ^ "Big Data und Analytics: C4 und Genius Digital". Ibc.org. Archiviert Aus dem Original am 8. Oktober 2017. Abgerufen 8. Oktober 2017.
  95. ^ Marshall Allen (17. Juli 2018). "Krankenversicherer saugen Details über Sie aus - und dies könnte Ihre Preise erhöhen.". www.propublica.org. Archiviert Aus dem Original am 21. Juli 2018. Abgerufen 21. Juli 2018.
  96. ^ "Quios -Innovations -Champion der Accenture HealthTech Innovation Challenge". BusinessWire.com. 10. Januar 2017. Archiviert Aus dem Original am 22. März 2017. Abgerufen 8. Oktober 2017.
  97. ^ "Eine Softwareplattform für operative Technologieinnovationen" (PDF). Predix.com. Archiviert von das Original (PDF) am 22. März 2017. Abgerufen 8. Oktober 2017.
  98. ^ Z. Jenipher Wang (März 2017). "Big Data Driven Smart Transportation: Die zugrunde liegende Geschichte von IoT transformierte Mobilität". Archiviert Aus dem Original am 4. Juli 2018. Abgerufen 4. Juli 2018.
  99. ^ "Das Internet der Dinge". 22. Juni 2009. Archiviert vom Original am 2. Mai 2013. Abgerufen 29. Dezember 2017.
  100. ^ a b Solnik, Ray. "Die Zeit ist gekommen: Analytics liefert IT -Operationen". Data Center Journal. Archiviert Aus dem Original am 4. August 2016. Abgerufen 21. Juni 2016.
  101. ^ Josh Rogin (2. August 2018). "Ethnische Säuberung feiert ein Comeback - in China". Nr. Washington Post. Archiviert von das Original am 31. März 2019. Abgerufen 4. August 2018. Hinzu kommt, dass der beispielloses Sicherheits- und Überwachungszustand in Xinjiang, der eine umfassende Überwachung beinhaltet, die auf Identitätskarten, Kontrollpunkten, Gesichtserkennung und der Sammlung von DNA von Millionen von Individuen basiert. Die Behörden füttern alle diese Daten in eine künstliche Intelligenzmaschine, die die Loyalität der Menschen gegenüber der Kommunistischen Partei bewertet, um jeden Aspekt ihres Lebens zu kontrollieren.
  102. ^ "China: Big Data fördert das Vorgehen in der Minderheit.. Hrw.org. Human Rights Watch. 26. Februar 2018. Archiviert Aus dem Original am 21. Dezember 2019. Abgerufen 4. August 2018.
  103. ^ "Disziplin und Bestrafung: Die Geburt des chinesischen Sozialkreditsystems". Die Nation. 23. Januar 2019. Archiviert Aus dem Original am 13. September 2019. Abgerufen 8. August 2019.
  104. ^ "Chinas Verhaltensüberwachungssystem verbietet einige von Reisen, Kauf von Immobilien". CBS News. 24. April 2018. Archiviert Aus dem Original am 13. August 2019. Abgerufen 8. August 2019.
  105. ^ "Die komplizierte Wahrheit über Chinas soziales Kreditsystem". VERDRAHTET. 21. Januar 2019. Archiviert Aus dem Original am 8. August 2019. Abgerufen 8. August 2019.
  106. ^ "Nachrichten: Live Mint". Machen indische Unternehmen genug Sinn für Big Data?. Live Mint. 23. Juni 2014. Archiviert vom Original am 29. November 2014. Abgerufen 22. November 2014.
  107. ^ "Israeli Startup verwendet Big Data, minimale Hardware zur Behandlung von Diabetes". Die Zeiten Israels. Archiviert Aus dem Original am 1. März 2018. Abgerufen 28. Februar 2018.
  108. ^ Singh, Gurparkash, Duane Schulthess, Nigel Hughes, Bart Vannieuwenhuyse und Dipak Kalra (2018). "Real World Big Data für klinische Forschung und Arzneimittelentwicklung". Drogenentdeckung heute. 23 (3): 652–660. doi:10.1016/j.drudis.2017.12.002. PMID 29294362.{{}}: Cs1 montiert: Mehrfachnamen: Autorenliste (Link)
  109. ^ "Jüngste Fortschritte, die von Mobile Cloud Computing und Internet der Dinge für Big Data -Anwendungen geliefert werden: eine Umfrage". Internationales Journal of Network Management. 11. März 2016. Archiviert vom Original am 1. Juni 2022. Abgerufen 14. September 2016.
  110. ^ Kalil, Tom (29. März 2012). "Big Data ist eine große Sache". Whitehouse.gov. Archiviert Aus dem Original am 10. Januar 2017. Abgerufen 26. September 2012 - via Nationalarchive.
  111. ^ Exekutivbüro des Präsidenten (März 2012). "Big Data in der Bundesregierung" (PDF). Amt für Wissenschaft und Technologiepolitik. Archiviert (PDF) Aus dem Original am 21. Januar 2017. Abgerufen 26. September 2012 - via Nationalarchive.
  112. ^ Lampitt, Andrew (14. Februar 2013). "Die wirkliche Geschichte, wie Big Data Analytics Obama geholfen hat zu gewinnen". InfoWorld. Archiviert Aus dem Original am 5. Juli 2014. Abgerufen 31. Mai 2014.
  113. ^ "November 2018 | Top500 Supercomputer -Websites". Archiviert vom Original am 12. Juni 2020. Abgerufen 13. November 2018.
  114. ^ Hoover, J. Nicholas. "Die 10 mächtigsten Supercomputer der Regierung". Informationswoche. UBM. Archiviert Aus dem Original am 16. Oktober 2013. Abgerufen 26. September 2012.
  115. ^ Bamford, James (15. März 2012). "Die NSA baut das größte Spionagezentrum des Landes (beobachten Sie, was Sie sagen).". Verdrahtet. Archiviert Aus dem Original am 4. April 2012. Abgerufen 18. März 2013.
  116. ^ "Bahnbrechende Zeremonie für 1,2 Milliarden US -Dollar in Utah Rechenzentrum". Nationaler Sicherheitsbehörde zentraler Sicherheitsdienst. Archiviert von das Original am 5. September 2013. Abgerufen 18. März 2013.
  117. ^ Hill, Kaschmir. "Blaupausen des lächerlich teuren Rechenzentrums von NSA in Utah deuten darauf hin, dass es weniger Informationen enthält als gedacht.". Forbes. Archiviert vom Original am 29. März 2018. Abgerufen 31. Oktober 2013.
  118. ^ Smith, Gerry; Hallman, Ben (12. Juni 2013). "NSA -Spionage -Kontroversen hebt die Highlights von Big Data zu.". Huffington Post. Archiviert Aus dem Original am 19. Juli 2017. Abgerufen 7. Mai 2018.
  119. ^ Wingfield, Nick (12. März 2013). "Vorhersage der Pendler genauer für potenzielle Käufer von Eigenheimen". Die New York Times. Archiviert vom Original am 29. Mai 2013. Abgerufen 21. Juli 2013.
  120. ^ "FICO® Falcon® Betrugsmanager". Fico.com. Archiviert Aus dem Original am 11. November 2012. Abgerufen 21. Juli 2013.
  121. ^ Alexandru, Dan. "Prof" (PDF). cds.cern.ch. Cern. Archiviert (PDF) Aus dem Original am 15. Juli 2017. Abgerufen 24. März 2015.
  122. ^ "LHC -Broschüre, englische Version. Eine Präsentation des größten und mächtigsten Partikelbeschleunigers der Welt, des großen Hadron -Collider (LHC), der 2008 begann. Seine Rolle, Eigenschaften, Technologien usw. werden für den General erklärt Öffentlichkeit". CERN-BROCHURE-2010-006-ENG. LHC -Broschüre, englische Version. Cern. Archiviert Aus dem Original am 19. März 2019. Abgerufen 20. Januar 2013.
  123. ^ "LHC Guide, englische Version. Eine Sammlung von Fakten und Figuren über den großen Hadron Collider (LHC) in Form von Fragen und Antworten". CERN-BROCHURE-2008-001-ENG. LHC Guide, englische Version. Cern. Archiviert vom Original am 7. April 2020. Abgerufen 20. Januar 2013.
  124. ^ Brumfiel, Geoff (19. Januar 2011). "Hochenergetische Physik: Auf dem Petabyte Highway". Natur. 469 (7330): 282–83. Bibcode:2011natur.469..282b. doi:10.1038/469282a. PMID 21248814. S2CID 533166. Archiviert Aus dem Original am 30. Juli 2017. Abgerufen 2. Februar 2012.
  125. ^ "IBM Research - Zürich" (PDF). Zürich.ibm.com. Archiviert vom Original am 1. Juni 2022. Abgerufen 8. Oktober 2017.
  126. ^ "Future Telescope Array treibt die Entwicklung der Exabyte -Verarbeitung vor". ARS Technica. 2. April 2012. Archiviert vom Original am 31. März 2019. Abgerufen 15. April 2015.
  127. ^ "Australiens Angebot für das Quadratkilometer -Array - die Perspektive eines Insiders". Die Unterhaltung. 1. Februar 2012. Archiviert Aus dem Original am 12. Oktober 2016. Abgerufen 27. September 2016.
  128. ^ "Delort P., OECD ICCP Technology Foresight Forum, 2012" (PDF). OECD.org. Archiviert (PDF) Aus dem Original am 19. Juni 2017. Abgerufen 8. Oktober 2017.
  129. ^ "NASA - Die NASA Goddard stellt das NASA -Zentrum für Klimasimulation vor.". Nasa.gov. Archiviert Aus dem Original am 3. April 2016. Abgerufen 13. April 2016.
  130. ^ Webster, Phil. "Supercomputing the Climate: Big Data Mission der NASA". CSC -Welt. Computer Sciences Corporation. Archiviert von das Original on 4 January 2013. Abgerufen 18. Januar 2013.
  131. ^ "Diese sechs großartigen Neurowissenschaften könnten den Sprung von Labor zu Markt machen". The Globe and Mail. 20. November 2014. Archiviert Aus dem Original am 11. Oktober 2016. Abgerufen 1. Oktober 2016.
  132. ^ "Dnastack befasst sich mit massiven, komplexen DNA -Datensätzen mit Google Genomics". Google Cloud -Plattform. Archiviert Aus dem Original am 24. September 2016. Abgerufen 1. Oktober 2016.
  133. ^ "23andme - Ancestry". 23andme.com. Archiviert Aus dem Original am 18. Dezember 2016. Abgerufen 29. Dezember 2016.
  134. ^ a b Potenza, Alessandra (13. Juli 2016). "23andme möchte, dass Forscher ihre Kits verwenden, um ihre Sammlung genetischer Daten zu erweitern". Der Verge. Archiviert vom Original am 29. Dezember 2016. Abgerufen 29. Dezember 2016.
  135. ^ "Dieses Startup wird Ihre DNA sequenzieren, sodass Sie zur medizinischen Forschung beitragen können". Schnelle Firma. 23. Dezember 2016. Archiviert vom Original am 29. Dezember 2016. Abgerufen 29. Dezember 2016.
  136. ^ Seeife, Charles. "23andme ist erschreckend, aber nicht aus den Gründen, aus denen die FDA denkt". Wissenschaftlicher Amerikaner. Archiviert vom Original am 29. Dezember 2016. Abgerufen 29. Dezember 2016.
  137. ^ Zaleski, Andrew (22. Juni 2016). "Dieses Biotech-Start-up setzt, dass Ihre Gene das nächste Wundermittel bringen werden". CNBC. Archiviert vom Original am 29. Dezember 2016. Abgerufen 29. Dezember 2016.
  138. ^ Regalado, Antonio. "Wie 23andme Ihre DNA in eine 1 -Milliarden -Dollar -Arzneimittelentdeckungsmaschine verwandelt hat". MIT Technology Review. Archiviert vom Original am 29. Dezember 2016. Abgerufen 29. Dezember 2016.
  139. ^ "23andme Berichte springen in Anfragen nach Daten nach der Pfizer -Depressionsstudie | Fiercebiotech". fiercebiotech.com. 22. August 2016. Archiviert vom Original am 29. Dezember 2016. Abgerufen 29. Dezember 2016.
  140. ^ Bewundern Moyo (23. Oktober 2015). "Datenwissenschaftler sagen die Niederlage der Springbok voraus". itweb.co.za. Archiviert vom Original am 22. Dezember 2015. Abgerufen 12. Dezember 2015.
  141. ^ Regina Pazvakavambwa (17. November 2015). "Predictive Analytics, Big Data Transform Sport". itweb.co.za. Archiviert vom Original am 22. Dezember 2015. Abgerufen 12. Dezember 2015.
  142. ^ Dave Ryan (13. November 2015). "Sport: Wo Big Data endlich Sinn macht". Huffingtonpost.com. Archiviert vom Original am 22. Dezember 2015. Abgerufen 12. Dezember 2015.
  143. ^ Frank Bi. "Wie Formel -1 -Teams Big Data verwenden, um die Innenkante zu erhalten". Forbes. Archiviert vom Original am 20. Dezember 2015. Abgerufen 12. Dezember 2015.
  144. ^ Tay, Liz. "Innerhalb von Ebays 90PB Data Warehouse". ItNews. Archiviert Aus dem Original am 15. Februar 2016. Abgerufen 12. Februar 2016.
  145. ^ Layton, Julia (25. Januar 2006). "Amazon -Technologie". Money.WowStuffworks.com. Archiviert Aus dem Original am 28. Februar 2013. Abgerufen 5. März 2013.
  146. ^ "Facebook auf 500 Millionen Benutzer und darüber hinaus Skalierung". Facebook.com. Archiviert Aus dem Original am 5. Juli 2013. Abgerufen 21. Juli 2013.
  147. ^ Constine, Josh (27. Juni 2017). "Facebook hat jetzt 2 Milliarden monatliche Benutzer ... und Verantwortung". Techcrunch. Archiviert vom Original am 27. Dezember 2020. Abgerufen 3. September 2018.
  148. ^ "Google macht immer noch mindestens 1 Billionen Suchanfragen pro Jahr". Suchmaschinenland. 16. Januar 2015. Archiviert Aus dem Original am 15. April 2015. Abgerufen 15. April 2015.
  149. ^ Haleem, Abid; Javaid, Mohd; Khan, Ibrahim; Vaishya, Raju (2020). "Signifikante Anwendungen von Big Data in Covid-19-Pandemie". Indian Journal of Orthopaedics. 54 (4): 526–528. doi:10.1007/S43465-020-00129-Z. PMC 7204193. PMID 32382166.
  150. ^ Mancourt, Vincent (10. März 2020). "Coronavirus testet die Entschlossenheit Europas in Bezug auf Privatsphäre". Politico. Archiviert vom Original am 20. März 2020. Abgerufen 30. Oktober 2020.
  151. ^ Choudhury, Amit Roy (27. März 2020). "Regierung in der Zeit von Corona". Gov Insider. Archiviert vom Original am 20. März 2020. Abgerufen 30. Oktober 2020.
  152. ^ Cellan-Jones, Rory (11. Februar 2020). "China startet Coronavirus 'enger Kontaktdetektor' App". BBC. Archiviert von das Original am 28. Februar 2020. Abgerufen 30. Oktober 2020.
  153. ^ Siwach, Gautam; Esmailpour, Amir (März 2014). Verschlüsselte Such- und Clusterbildung in Big Data (PDF). ASEE 2014 Zone I -Konferenz. Universität Bridgeport, Bridgeport, Connecticut, wir. Archiviert von das Original (PDF) am 9. August 2014. Abgerufen 26. Juli 2014.
  154. ^ "Obama Administration enthüllt" Big Data "-Initiative: kündigt 200 Millionen US -Dollar für neue F & E -Investitionen an" (PDF). Amt für Wissenschaft und Technologiepolitik. Archiviert (PDF) vom Original am 21. Januar 2017 - via Nationalarchive.
  155. ^ "Amplab an der University of California, Berkeley". Amplab.Cs.berkeley.edu. Archiviert Aus dem Original am 6. Mai 2011. Abgerufen 5. März 2013.
  156. ^ "NSF leitet Bundesbemühungen in Big Data". National Science Foundation (NSF). 29. März 2012. Archiviert vom Original am 31. März 2019. Abgerufen 6. April 2018.
  157. ^ Timothy Hunter; Teodor Moldawien; Matei zaharia; Justin MA; Michael Franklin; Pieter Abbeel; Alexandre Bayen (Oktober 2011). Skalierung des mobilen Millennium -Systems in der Cloud. Archiviert vom Original am 31. März 2019. Abgerufen 2. November 2012.
  158. ^ David Patterson (5. Dezember 2011). "Informatiker haben möglicherweise das Zeug dazu, Krebs zu heilen.". Die New York Times. Archiviert Aus dem Original am 30. Januar 2017. Abgerufen 26. Februar 2017.
  159. ^ "Sekretär Chu kündigt ein neues Institut an, das Wissenschaftlern bei der Verbesserung der massiven Datensatzforschung von DOE -Supercomputern unterstützt.". Energie.gov. Archiviert Aus dem Original am 3. April 2019. Abgerufen 2. November 2012.
  160. ^ Young, Shannon (30. Mai 2012). "Mass. Gouverneur, MIT kündigt Big Data Initiative an". Boston.com. Archiviert vom Original am 29. Juli 2021. Abgerufen 29. Juli 2021.
  161. ^ "Big Data @ csail". BigData.csail.mit.edu. 22. Februar 2013. archiviert von das Original am 30. März 2013. Abgerufen 5. März 2013.
  162. ^ "Big Data Public Private Forum". cordis.europa.eu. 1. September 2012. Archiviert vom Original am 9. März 2021. Abgerufen 16. März 2020.
  163. ^ "Alan Turing Institute, um Big Data zu erforschen". BBC News. 19. März 2014. Archiviert vom Original am 18. August 2021. Abgerufen 19. März 2014.
  164. ^ "Inspirationstag an der Universität von Waterloo, Stratford Campus". Betakit.com/. Archiviert von das Original am 26. Februar 2014. Abgerufen 28. Februar 2014.
  165. ^ a b c REPS, ULF-Dietrich; Matzat, Uwe (2014). "Mining" Big Data "mithilfe von Big Data Services". Internationales Journal of Internet Science. 1 (1): 1–8. Archiviert Aus dem Original am 14. August 2014. Abgerufen 14. August 2014.
  166. ^ Preis T, Moat HS, Stanley HE, Bishop SR (2012). "Quantifizieren Sie den Vorteil des Nachvors". Wissenschaftliche Berichte. 2: 350. Bibcode:2012natsr ... 2E.350p. doi:10.1038/srep00350. PMC 3320057. PMID 22482034.
  167. ^ Marks, Paul (5. April 2012). "Online -Suche nach zukünftigen im Zusammenhang mit dem wirtschaftlichen Erfolg". Neuer Wissenschaftler. Archiviert Aus dem Original am 8. April 2012. Abgerufen 9. April 2012.
  168. ^ Johnston, Casey (6. April 2012). "Google Trends enthüllt Hinweise auf die Mentalität reicherer Nationen". ARS Technica. Archiviert Aus dem Original am 7. April 2012. Abgerufen 9. April 2012.
  169. ^ Tobias präeis (24. Mai 2012). "Ergänzende Informationen: Der zukünftige Orientierungsindex steht zum Download zur Verfügung." (PDF). Archiviert (PDF) Aus dem Original am 17. Januar 2013. Abgerufen 24. Mai 2012.
  170. ^ Philip Ball (26. April 2013). "Das Zählen von Google -Suchvorgängen sagt Marktbewegungen voraus". Natur. doi:10.1038/Nature.2013.12879. S2CID 167357427. Archiviert Aus dem Original am 27. September 2013. Abgerufen 9. August 2013.
  171. ^ Präeis T, Moat HS, Stanley HE (2013). "Quantifizierung des Handelsverhaltens auf Finanzmärkten mithilfe von Google -Trends". Wissenschaftliche Berichte. 3: 1684. Bibcode:2013natsr ... 3e1684p. doi:10.1038/srep01684. PMC 3635219. PMID 23619126.
  172. ^ Nick Bilton (26. April 2013). "Google -Suchbegriffe können den Aktienmarkt vorhersagen", findet die Studie fest. ". Die New York Times. Archiviert Aus dem Original am 2. Juni 2013. Abgerufen 9. August 2013.
  173. ^ Christopher Matthews (26. April 2013). "Problem mit Ihrem Anlageportfolio? Google It!". Zeit. Archiviert Aus dem Original am 21. August 2013. Abgerufen 9. August 2013.
  174. ^ Philip Ball (26. April 2013). "Das Zählen von Google -Suchvorgängen sagt Marktbewegungen voraus". Natur. doi:10.1038/Nature.2013.12879. S2CID 167357427. Archiviert Aus dem Original am 27. September 2013. Abgerufen 9. August 2013.
  175. ^ Bernhard Warner (25. April 2013). "Die Forscher von 'Big Data' wenden sich an Google, um die Märkte zu schlagen. ". Bloomberg BusinessWeek. Archiviert Aus dem Original am 23. Juli 2013. Abgerufen 9. August 2013.
  176. ^ Hamish McRae (28. April 2013). "Hamish McRae: Benötigen Sie einen wertvollen Griff zur Investorenstimmung? Google It". Der Unabhängige. London. Archiviert Aus dem Original am 25. Juli 2018. Abgerufen 9. August 2013.
  177. ^ Richard Waters (25. April 2013). "Die Google -Suche ist ein neues Wort in der Vorhersage von Börsenmarkten". Finanzzeiten. Archiviert vom Original am 1. Juni 2022. Abgerufen 9. August 2013.
  178. ^ Jason Palmer (25. April 2013). "Google -Suche prognostiziert Marktbewegungen". BBC. Archiviert Aus dem Original am 5. Juni 2013. Abgerufen 9. August 2013.
  179. ^ E. Sejdić (März 2014). "Anpassen aktuelle Tools für die Verwendung mit Big Data". Natur. 507 (7492): 306.
  180. ^ Stanford. "MMDS. Workshop über Algorithmen für moderne massive Datensätze" Archiviert 4. Dezember 2019 bei der Wayback -Maschine.
  181. ^ Deepan Palguna; Vikas Joshi; Venkatesan Chakravarthy; Ravi Kothari & L. V. Subramaniam (2015). Analyse von Stichprobenalgorithmen für Twitter. Internationale gemeinsame Konferenz über künstliche Intelligenz.
  182. ^ Chris Kimble; Giannis Milolidakis (7. Oktober 2015). "Big Data und Business Intelligence: Debunking der Mythen". Globale Geschäfts- und Organisationspunktzahlen. 35 (1): 23–34. Arxiv:1511.03085. doi:10.1002/joe.21642. ISSN 1932-2054. WikidataQ56532925.
  183. ^ Chris Anderson (23. Juni 2008). "Das Ende der Theorie: Die Datenflut macht die wissenschaftliche Methode veraltet". Verdrahtet. Archiviert Aus dem Original am 27. März 2014. Abgerufen 5. März 2017.
  184. ^ Graham M. (9. März 2012). "Big Data und das Ende der Theorie?". Der Wächter. London. Archiviert Aus dem Original am 24. Juli 2013. Abgerufen 14. Dezember 2016.
  185. ^ Shah, Shvetank; Horne, Andrew; Capellá, Jaime (April 2012). "Gute Daten garantieren keine guten Entscheidungen". Harvard Business Review. Archiviert Aus dem Original am 11. September 2012. Abgerufen 8. September 2012.
  186. ^ a b Big Data erfordert große Visionen für große Veränderungen. Archiviert 2. Dezember 2016 bei der Wayback -Maschine, Hilbert, M. (2014). London: TEDX UCL, x = unabhängig organisierte TED -Gespräche
  187. ^ Alemany Oliver, Mathieu; Vayre, Jean-Sebastien (2015). "Big Data und die Zukunft der Wissensproduktion in der Marketingforschung: Ethik, digitale Spuren und abduktives Denken". Journal of Marketing Analytics. 3 (1): 5–13. doi:10.1057/JMA.2015.1. S2CID 111360835.
  188. ^ Jonathan Rauch (1. April 2002). "In Ecken herum sehen". Der Atlantik. Archiviert Aus dem Original am 4. April 2017. Abgerufen 5. März 2017.
  189. ^ J. M. Epstein & R. L. Axtell (1996). Wachsende künstliche Gesellschaften: Sozialwissenschaft von unten nach oben. Ein Bradford -Buch.
  190. ^ "Delort P., Big Data in Biosciences, Big Data Paris, 2012" (PDF). BigDataparis.com. Archiviert von das Original (PDF) am 30. Juli 2016. Abgerufen 8. Oktober 2017.
  191. ^ "Genomik der nächsten Generation: Ein integrativer Ansatz" (PDF). Natur. Juli 2010. Archiviert (PDF) vom Original am 13. August 2017. Abgerufen 18. Oktober 2016.
  192. ^ "Big Data in Biosciences". Oktober 2015. Archiviert vom Original am 1. Juni 2022. Abgerufen 18. Oktober 2016.
  193. ^ "Big Data: Machen wir einen großen Fehler?". Finanzzeiten. 28. März 2014. Archiviert vom Original am 30. Juni 2016. Abgerufen 20. Oktober 2016.
  194. ^ Ohm, Paul (23. August 2012). "Erstellen Sie keine Datenbank des Ruins". Harvard Business Review. Archiviert Aus dem Original am 30. August 2012. Abgerufen 29. August 2012.
  195. ^ Bond-Graham, Darwin (2018). "Die Perspektive auf Big Data" Archiviert 9. November 2020 bei der Wayback -Maschine. Die Perspektive.
  196. ^ Al-Rodhan, Nayef (16. September 2014). "Der Social Contract 2.0: Big Data und die Notwendigkeit, Privatsphäre und bürgerliche Freiheiten zu garantieren - Harvard International Review". Harvard International Review. Archiviert von das Original am 13. April 2017. Abgerufen 3. April 2017.
  197. ^ Barocas, Solon; Nissenbaum, Helen; Lane, Julia; Stodden, Victoria; Bender, Stefan; Nissenbaum, Helen (Juni 2014). Das Ende von Big Data läuft um Anonymität und Zustimmung. Cambridge University Press. S. 44–75. doi:10.1017/CBO9781107590205.004. ISBN 9781107067356. S2CID 152939392.
  198. ^ Lugmayr, Artur; Stockleben, Bjoern; Scheib, Christoph; Mailaparampil, Mathew; Mesia, Noora; Ranta, Hannu; Labor, Emmi (1. Juni 2016). "Eine umfassende Umfrage zur Big-Data-Forschung und ihrer Auswirkungen-was ist wirklich neu in Big Data?-Es ist kognitive Big Data!". Archiviert vom Original am 1. Juni 2022. Abgerufen 30. Dezember 2017. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  199. ^ Danah Boyd (29. April 2010). "Privatsphäre und Werbung im Kontext von Big Data". WWW 2010 Konferenz. Archiviert Aus dem Original am 22. Oktober 2018. Abgerufen 18. April 2011.
  200. ^ Katyal, Sonia K. (2019). "Künstliche Intelligenz, Werbung und Desinformation". Werbung & Gesellschaft vierteljährlich. 20 (4). doi:10.1353/ASR.2019.0026. ISSN 2475-1790. S2CID 213397212. Archiviert vom Original am 28. Oktober 2020. Abgerufen 18. November 2020.
  201. ^ Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "Die neue Bioinformatik: Integration ökologischer Daten aus dem Gen in die Biosphäre" (PDF). Jährliche Überprüfung von Ökologie, Evolution und Systematik. 37 (1): 519–544. doi:10.1146/annurev.ecolsys.37.091305.110031. Archiviert (PDF) Aus dem Original am 8. Juli 2019. Abgerufen 19. September 2012.
  202. ^ a b Boyd, D.; Crawford, K. (2012). "Kritische Fragen für Big Data". Information, Kommunikation & Gesellschaft. 15 (5): 662–679. doi:10.1080/1369118x.2012.678878. HDL:10983/1320. S2CID 51843165.
  203. ^ Versäumnis des Starts: Von Big Data bis zu großen Entscheidungen Archiviert 6. Dezember 2016 bei der Wayback -Maschine, Forte Waren.
  204. ^ "15 verrückte Dinge, die miteinander korrelieren". Archiviert Aus dem Original am 27. Juni 2019. Abgerufen 27. Juni 2019.
  205. ^ "Zufällige Strukturen & Algorithmen". Archiviert Aus dem Original am 27. Juni 2019. Abgerufen 27. Juni 2019.
  206. ^ Cristian S. Calude, Giuseppe Longo, (2016), Die Flut der falschen Korrelationen in Big Data, Grundlagen der Wissenschaft
  207. ^ Anja Lambrecht und Catherine Tucker (2016) "Die 4 Fehler, die die meisten Manager mit Analytics machen", " Harvard Business Review, 12. Juli. https://hbr.org/2016/07/the-4-mistakes-most-managers-make-ith-analytics Archiviert 26. Januar 2022 bei der Wayback -Maschine
  208. ^ a b Gregory Piatetsky (12. August 2014). "Interview: Michael Berthold, Knime -Gründer, über Forschung, Kreativität, Big Data und Privatsphäre, Teil 2". Kdnuggets. Archiviert Aus dem Original am 13. August 2014. Abgerufen 13. August 2014.
  209. ^ Pelt, Mason (26. Oktober 2015). ""Big Data" ist ein übergebrauchtes Schlagwort, und dieser Twitter -Bot beweist es. ". Silikonangle. Archiviert Aus dem Original am 30. Oktober 2015. Abgerufen 4. November 2015.
  210. ^ a b Harford, Tim (28. März 2014). "Big Data: Machen wir einen großen Fehler?". Finanzzeiten. Archiviert Aus dem Original am 7. April 2014. Abgerufen 7. April 2014.
  211. ^ Ioannidis JP (August 2005). "Warum die meisten veröffentlichten Forschungsergebnisse falsch sind". PLOS -Medizin. 2 (8): e124. doi:10.1371/journal.pMed.0020124. PMC 1182327. PMID 16060722.
  212. ^ Lohr, Steve; Sänger Natasha (10. November 2016). "Wie Daten uns beim Aufrufen einer Wahl nicht bestanden haben". Die New York Times. ISSN 0362-4331. Archiviert Aus dem Original am 25. November 2016. Abgerufen 27. November 2016.
  213. ^ "Wie datengesteuerte Polizeiarbeit die menschliche Freiheit bedroht". Der Ökonom. 4. Juni 2018. ISSN 0013-0613. Archiviert Aus dem Original am 27. Oktober 2019. Abgerufen 27. Oktober 2019.
  214. ^ Brayne, Sarah (29. August 2017)."Big Data Surveillance: Der Fall der Polizeiarbeit". Amerikanische soziologische Überprüfung. 82 (5): 977–1008. doi:10.1177/0003122417725865. S2CID 3609838.

Weitere Lektüre

Externe Links

  • Medien im Zusammenhang mit Big Data bei Wikimedia Commons
  • Die Wörterbuchdefinition von Große Daten bei wiktionary