Datenanalysebibliothek
Entwickler (en) | Intel |
---|---|
Erstveröffentlichung | 25. August 2015 |
Stabile Version | 2021 Update 4 /2021[1] |
Repository | |
Geschrieben in | C ++, Java, Python[2] |
Betriebssystem | Microsoft Windows, Linux, Mac OS[2] |
Plattform | Intel Atom, Intel Core Prozessor, Intel Xeon[2] |
Typ | Bibliothek oder Rahmen |
Lizenz | Apache -Lizenz 2.0[3] |
Webseite | Software |
Oneapi Datenanalysebibliothek (Onedal; ehemals Intel Data Analytics Acceleration Library oder Intel Daal) ist a Bibliothek von optimierten algorithmischen Bausteinen für Datenanalyse Stufen am häufigsten mit der Lösung verbunden Große Daten Probleme.[4][5][6][7]
Die Bibliothek unterstützt Intel -Prozessoren und ist für verfügbar Fenster, Linux und Mac OS Betriebssysteme.[2] Die Bibliothek wurde für die Verwendung beliebter Datenplattformen einschließlich der Verwendung von verwendet Hadoop, Funke, R, und Matlab.[4][8]
Geschichte
Intel startete am 8. Dezember 2020 die Intel Data Analytics Library (Onedal). Die Datenanalyse -Beschleunigungsbibliothek wurde am 25. August 2015 außerdem gestartet und es als Intel Data Analytics Acceleration Library 2016 (Intel Daal 2016) bezeichnet.[9] Onedal wird mit Intel Oneapi -Basis -Toolkit als kommerzielles Produkt gebündelt. Eine eigenständige Version ist im Handel oder frei erhältlich,[3][10] Der einzige Unterschied ist Unterstützung und Wartung.
Lizenz
Apache -Lizenz 2.0
Einzelheiten
Funktionskategorien
Intel Daal hat die folgenden Algorithmen:[11][4][12]
- Analyse
- Momente mit geringer Ordnung: Beinhaltet Computer min, max, Mittelwert, Standardabweichung, Varianz usw. für einen Datensatz.
- Quantile: Aufteilung von Beobachtungen in gleich große Gruppen, die durch quantile Ordnungen definiert sind.
- Korrelationsmatrix und Varianzkovarianzmatrix: Ein grundlegendes Instrument zum Verständnis der statistischen Abhängigkeit zwischen Variablen. Der Korrelationsgrad zeigt die Tendenz einer Änderung an, um die wahrscheinliche Veränderung in einer anderen anzuzeigen.
- Cosinus -Distanzmatrix: Messung der paarweisen Abstand mit Kosinusabstand.
- Korrelationsdistanzmatrix: Messen Sie den paarweise Abstand zwischen den Elementen unter Verwendung des Korrelationsabstands.
- Clustering: Gruppierung von Daten in unbezeichnete Gruppen. Dies ist eine typische Technik, die im „unbeaufsichtigten Lernen“ verwendet wird, bei dem kein Modell eingerichtet ist, auf das sich nicht verlassen kann. Intel Daal bietet 2 Algorithmen zum Clustering: K-Means und „EM für GMM“.
- Hauptkomponentenanalyse (PCA): Der beliebteste Algorithmus für die Reduzierung der Dimensionalität.
- Association Rules Mining: Erfassungsko-auferlegender Aufrufmuster. Allgemein bekannt als "Einkaufskorbbett".
- Datenumwandlung durch Matrixabbau: Daal bietet Cholesky-, QR- und SVD -Zersetzungsalgorithmen.
- Ausreißererkennung: Identifizierung von Beobachtungen, die ungewöhnlich von der typischen Verteilung anderer Beobachtungen entfernt sind.
- Training und Vorhersage
- Regression
- Lineare Regression: Die einfachste Regressionsmethode. Anpassen einer linearen Gleichung, um die Beziehung zwischen abhängigen Variablen (zu vorhergesagten Dingen) und erklärenden Variablen (bekannte Dinge) zu modellieren.
- Einstufung: Erstellen eines Modells, um Elemente in verschiedene beschriftete Gruppen zuzuweisen. Daal bietet mehrere Algorithmen in diesem Bereich, einschließlich naiver Bayes-Klassifikator, Support-Vektormaschine und Klassifikatoren für Multi-Klasse.
- Empfehlungssysteme
- Neuronale Netze
- Regression
Intel Daal unterstützte drei Verarbeitungsmodi:
- Stapelverarbeitung: Wenn alle Daten in den Speicher passen, wird eine Funktion aufgerufen, um die Daten auf einmal zu verarbeiten.
- Online -Verarbeitung (auch Streaming genannt): Wenn nicht alle Daten in den Speicher passen. Intel® DAAL kann Datenbrocken einzeln verarbeiten und alle Teilergebnisse in der Abschlussphase kombinieren.
- Verteilte Verarbeitung: Daal unterstützt ein Modell, das MapReduce ähnelt. Verbraucher in einem Clusterprozess lokalen Daten (MAP -Stufe) und dann sammelt und kombiniert der Produzentenprozess Teilergebnisse von Verbrauchern (reduzieren die Stufe). Intel Daal bietet in diesem Modus Flexibilität, indem die Kommunikationsfunktionen vollständig dem Entwickler überlassen werden. Entwickler können die Datenbewegung in einem Framework wie Hadoop oder Spark verwenden oder die Kommunikation explizit mit MPI kodieren.
Verweise
- ^ "Intel® Data Analytics Acceleration Library Release -Notizen". Software.intel.com.
- ^ a b c d Intel® Data Analytics Acceleration Library (Intel® DAAL) | Intel® -Software
- ^ a b "Open Source -Projekt: Intel Data Analytics Acceleration Library (DAAL)".
- ^ a b c "Daal Github".
- ^ "Intel aktualisiert Developer Toolkit mit Datenanalyse Beschleunigungsbibliothek".
- ^ "Intel fügt mathematische Bibliotheken Big Data -Funktionen hinzu".
- ^ "Intel nutzt HPC Core für Analytics Tooling Push". Nextplatform.com. 2015-08-25.
- ^ "Probieren Sie Intel Daal aus, um Big Data zu verarbeiten".
- ^ "Intel Data Analytics Acceleration Library".
- ^ "Community -Lizenzierung von Intel Performance -Bibliotheken".
- ^ Entwicklerhandbuch für Intel (R) Datenanalyse Beschleunigungsbibliothek 2020
- ^ "Einführung in Intel Daal, Teil 1: Polynomregression mit dem Stapelmodusberechnung".