Dimensionsreduzierung
Dimensionsreduzierung, oder Dimensionsreduzierung, ist die Umwandlung von Daten aus einem hochdimensionalen Raum in einen niedrigdimensionalen Raum, so dass die niedrigdimensionale Darstellung einige sinnvolle Eigenschaften der ursprünglichen Daten behält, idealerweise nahe an seiner intrinsische Dimension. Die Arbeit in hochdimensionalen Räumen kann aus vielen Gründen unerwünscht sein. Rohdaten sind oft spärlich als Folge der Fluch der Dimensionalitätund die Analyse der Daten ist normalerweise rechnerisch unlösbar (schwer zu kontrollieren oder umzugehen). Die Reduzierung der Dimensionalität ist häufig in Feldern, die sich mit einer großen Anzahl von Beobachtungen und/oder einer großen Anzahl von Variablen befassen Signalverarbeitung, Spracherkennung, Neuroinformatik, und Bioinformatik.[1]
Methoden werden üblicherweise in lineare und nichtlineare Ansätze unterteilt.[1] Ansätze können auch unterteilt werden in Merkmalsauswahl und Feature -Extraktion.[2] Dimensionalitätsreduzierung kann für verwendet werden Lärmminderung, Datenvisualisierung, Clusteranalyse, oder als Zwischenschritt, um andere Analysen zu erleichtern.
Merkmalsauswahl
Merkmalsauswahl Ansätze versuchen, eine Teilmenge der Eingabevariablen (auch Merkmale oder Attribute genannt) zu finden. Die drei Strategien sind: die Filter Strategie (z. Informationsgewinn), das Verpackung Strategie (z. B. von Genauigkeit geleitete Suche) und die eingebettet Strategie (Ausgewählte Funktionen werden hinzugefügt oder entfernt, während das Modell basierend auf Vorhersagefehlern erstellt wird).
Datenanalyse wie zum Beispiel Regression oder Einstufung kann im reduzierten Raum genauer als im ursprünglichen Raum erfolgen.[3]
Feature -Projektion
Feature -Projektion (auch Feature Extraction genannt) transformiert die Daten aus dem Hochdimensionaler Raum zu einem Raum mit weniger Dimensionen. Die Datenumwandlung kann linear sein, wie in Hauptkomponentenanalyse (PCA), aber viele Nichtlineare Dimensionsreduzierung Es gibt auch Techniken.[4][5] Für mehrdimensionale Daten,, Tensordarstellung kann zur Reduzierung der Dimensionalität durch verwendet werden Multilineares Subspace -Lernen.[6]

Hauptkomponentenanalyse (PCA)
Die wichtigste lineare Technik für die Reduktion der Dimensionalität, Hauptkomponentenanalyse, führt eine lineare Zuordnung der Daten in einen niedrigerdimensionalen Raum durch, so dass die Varianz der Daten in der niedrigdimensionalen Darstellung maximiert wird. In der Praxis die Kovarianz (und manchmal die Korrelation) Matrix der Daten werden konstruiert und die Eigenvektoren auf dieser Matrix werden berechnet. Die Eigenvektoren, die den größten Eigenwerten (die Hauptkomponenten) entsprechen, können nun verwendet werden, um einen großen Teil der Varianz der Originaldaten zu rekonstruieren. Darüber hinaus können die ersten Eigenvektoren häufig im Hinblick auf das großflächige physikalische Verhalten des Systems interpretiert werden, da sie häufig die überwiegende Mehrheit der Systemenergie beitragen, insbesondere in niedrigdimensionalen Systemen. Dies muss jedoch von Fall zu Fall nachgewiesen werden, da nicht alle Systeme dieses Verhalten aufweisen. Der ursprüngliche Raum (mit Dimension der Anzahl der Punkte) wurde reduziert (mit Datenverlust, aber hoffentlich die wichtigste Varianz) zu dem Raum, der von einigen Eigenvektoren überspannt wurde.
Nicht negative Matrixfaktorisierung (NMF)
NMF zert[7][8] wie Astronomie.[9][10] NMF ist seit der multiplikativen Aktualisierungsregel von Lee & Seung bekannt.[7] die kontinuierlich entwickelt wurde: die Einbeziehung von Unsicherheiten,[9] Die Berücksichtigung fehlender Daten und paralleler Berechnung,[11] Sequentielle Konstruktion[11] was zur Stabilität und Linearität von NMF führt,[10] sowie andere Aktualisierung einschließlich fehlender Daten in fehlende Daten in digitale Bildverarbeitung.[12]
Mit einer stabilen Komponentenbasis während der Konstruktion und einem linearen Modellierungsprozess, Sequentielle NMF[11] ist in der Lage, den Fluss in der direkten Bildgebung von Umstandstrukturen in der Astronomie zu bewahren,[10] als einer der Methoden zur Erkennung von Exoplaneten, besonders für die direkte Bildgebung von Umgehungsscheiben. Im Vergleich zu PCA entfernt NMF den Mittelwert der Matrizen nicht, was zu unphysikalischen nicht negativen Flüssen führt. Daher ist NMF in der Lage, mehr Informationen als PCA zu erhalten, wie von Ren et al.[10]
Kernel PCA
Die Hauptkomponentenanalyse kann nichtlinear mithilfe der Kerneltrick. Die resultierende Technik kann nichtlineare Zuordnungen konstruieren, die die Varianz der Daten maximieren. Die resultierende Technik heißt Kernel PCA.
Graph-basierte Kernel PCA
Andere prominente nichtlineare Techniken sind vielfältiges Lernen Techniken wie Isomap, lokal lineare Einbettung (Lle),[13] Hessische Lle, Laplace -Eigenmaps und Methoden basierend auf der Tangenten -Raumanalyse.[14][15] Diese Techniken konstruieren eine niedrigdimensionale Datendarstellung unter Verwendung einer Kostenfunktion, die lokale Eigenschaften der Daten behält und als Definieren eines draphbasierten Kernels für Kernel PCA angesehen werden kann.
In jüngerer Zeit wurden Techniken vorgeschlagen, anstatt einen festen Kernel zu definieren, versuchen Sie, den Kernel mithilfe zu lernen Semidefinite Programmierung. Das bekannteste Beispiel für eine solche Technik ist maximale Varianz entfaltet sich (MVU). Die zentrale Idee von MVU besteht darin, alle paarweisen Abstände zwischen den nächsten Nachbarn (im inneren Produktraum) genau zu bewahren und gleichzeitig die Abstände zwischen Punkten zu maximieren, die keine nächsten Nachbarn sind.
Ein alternativer Ansatz zur Erhaltung der Nachbarschaft erfolgt durch die Minimierung einer Kostenfunktion, die die Unterschiede zwischen den Entfernungen in Eingabe- und Ausgangsräumen misst. Wichtige Beispiele für solche Techniken sind: klassisch Mehrdimensionale Skalierung, was identisch mit PCA ist; Isomap, die geodätische Entfernungen im Datenraum verwendet; Diffusionskarten, die Diffusionsabstände im Datenraum verwenden; T-verteilte stochastische Nachbarn einbettet (T-Sne), das die Divergenz zwischen Verteilungen über Punktpaare minimiert; und krummlinige Komponentenanalyse.
Ein anderer Ansatz bei der Reduzierung der nichtlinearen Dimensionalität ist die Verwendung von Autoencoder, eine besondere Art von Feedforward Neural Networks mit einer versteckten Schicht mit Flaschenhals.[16] Das Training von tiefen Encodern wird typischerweise unter Verwendung einer gierigen Schicht vor dem Training durchgeführt (z. B. unter Verwendung eines Stapels von eingeschränkte Boltzmann -Maschinen), gefolgt von einer Finetuning -Stufe basierend auf Backpropagation.

Lineare Diskriminanzanalyse (LDA)
Die lineare Diskriminanzanalyse (LDA) ist eine Verallgemeinerung der linearen Diskriminanz von Fisher, einer Methode, die in Statistik, Mustererkennung und maschinellem Lernen verwendet wird, um eine lineare Kombination von Merkmalen zu finden, die zwei oder mehr Klassen von Objekten oder Ereignissen charakterisiert oder trennt.
Generalisierte Diskriminanzanalyse (GDA)
GDA befasst sich mit einer nichtlinearen Diskriminanzanalyse unter Verwendung des Kernel -Funktionsoperators. Die zugrunde liegende Theorie liegt nahe an der Support-Vektor-Maschinen (SVM) Insofern bietet die GDA-Methode eine Zuordnung der Eingangsvektoren in einen hochdimensionalen Merkmalsraum.[17][18] Ähnlich wie bei LDA ist es das Ziel der GDA, eine Projektion für die Merkmale in einen niedrigeren Dimensionsraum zu finden, indem das Verhältnis der Streuung zwischen der Klasse zu einer Streuung innerhalb der Klasse maximiert wird.
Autocoder
AutoCodierer können verwendet werden, um nichtlineare Dimensionsreduzierungsfunktionen und -codierungen zusammen mit einer umgekehrten Funktion von der Codierung bis zur ursprünglichen Darstellung zu lernen.
T-Sne
T-verteilte stochastische Nachbareinbettung (T-SNE) ist eine nichtlineare Dimensionalitätsreduktionstechnik, die für die Visualisierung hochdimensionaler Datensätze nützlich ist. Es wird nicht für die Verwendung in der Analyse wie Clustering oder Ausreißererkennung empfohlen, da es nicht unbedingt die Dichten oder Entfernungen gut bewahrt.[19]
Umap
Einheitliche Verteiler -Annäherung und -projektion (UMAP) ist eine nichtlineare Dimensionalitätsreduktionstechnik. Visuell ähnelt es T-Sne, geht jedoch davon aus, dass die Daten auf a einheitlich verteilt sind lokal verbunden Riemanner Verteiler und das das Riemannsche Metrik ist lokal konstant oder ungefähr lokal konstant.
Dimensionsreduzierung
Für hochdimensionale Datensätze (d. H. Mit der Anzahl der Abmessungen mehr als 10) wird die Dimensionsreduzierung normalerweise vor der Anwendung a durchgeführt K-Nearest Nachbar Algorithmus (K-nn) um die Auswirkungen der Auswirkungen der Auswirkungen zu vermeiden Fluch der Dimensionalität.[20]
Feature -Extraktion und Dimensionsreduzierung kann in einem Schritt miteinander kombiniert werden Hauptkomponentenanalyse (PCA), Lineare Diskriminanzanalyse (LDA), kanonische Korrelationsanalyse (CCA) oder Nicht negative Matrixfaktorisierung (NMF) -Techniken als Vorverarbeitungsschritt, gefolgt von Clustering von K-NN auf Feature Vektoren im Bereich reduzierter Dimensionen. Im maschinelles Lernen Dieser Prozess wird auch als niedrigdimensional bezeichnet Einbettung.[21]
Für sehr hohe dimensionale Datensätze (z. B. bei der Durchführung der Ähnlichkeitssuche in Live-Video-Streams, DNA-Daten oder hochdimensionaler Zeitfolgen) Fast laufen ungefähr K-nn-Suche mit lokalempfindliches Hashing, zufällige Projektion,[22] "Skizzen",[23] oder andere hochdimensionale Ähnlichkeitssuchentechniken aus dem VLDB -Konferenz Toolbox ist möglicherweise die einzige mögliche Option.
Anwendungen
Eine Dimensionalitätsreduktionstechnik, die manchmal in verwendet wird Neurowissenschaften ist Maximal informative Dimensionen, was eine niedrigerdimensionale Darstellung eines Datensatzes so viel findet, so viel Information Wie möglich über die ursprünglichen Daten bleiben erhalten.
Siehe auch
- CUR -Matrix -Approximation
- Datenumwandlung (Statistik)
- Hyperparameteroptimierung
- Informationsgewinn in Entscheidungsbäumen
- Johnson -Lindenstraus Lemma
- Latente semantische Analyse
- Lokale Tangenten -Raumausrichtung
- Lokalempfindliches Hashing
- Minhash
- Multifaktordimensionalitätsreduzierung
- Suche nach Nachbarn
- Nichtlineare Dimensionsreduzierung
- Zufällige Projektion
- Sammon Mapping
- Semantische Mapping (Statistik)
- Semidefinite Einbettung
- Einzelwertzerlegung
- Ausreichende Dimensionsreduzierung
- Topologische Datenanalyse
- Gewichtete Korrelationsnetzwerkanalyse
Anmerkungen
- ^ a b Van der Maaten, Laurens; Postma, Eric; Van den Herik, Jaap (26. Oktober 2009). "Dimensionalitätsreduzierung: Eine vergleichende Überprüfung" (PDF). J Mach Learn Res Res. 10: 66–71.
- ^ Pudil, P.; Novovičová, J. (1998). "Neuartige Methoden zur Auswahl der Merkmalsuntermenge in Bezug auf Problemwissen". In Liu, Huan; MOPODA, Hiroshi (Hrsg.). Merkmalextraktion, Konstruktion und Auswahl. p. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
- ^ Rico-Sulayes, Antonio (2017). "Reduzierung der Dimensionalität des Vektorraums in der automatischen Klassifizierung für die Zuordnung von Autoren". Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26–35. ISSN 1815-5928.
- ^ Samet, H. (2006) Grundlagen mehrdimensionaler und metrischer Datenstrukturen. Morgan Kaufmann. ISBN0-12-369446-9
- ^ C. Ding, X. He, H. Zha, H.D. Simon, Reduktion der adaptiven Dimension zur Clusterbildung hoher Dimensionsdaten, Proceedings of International Conference on Data Mining, 2002
- ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "Eine Umfrage zum multilinearen Unterraumlernen für Tensordaten" (PDF). Mustererkennung. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004.
- ^ a b Daniel D. Lee & H. Sebastian Seung (1999). "Erlernen der Teile von Objekten durch nicht negative Matrixfaktorisierung". Natur. 401 (6755): 788–791. Bibcode:1999Natur.401..788l. doi:10.1038/44565. PMID 10548103. S2CID 4428232.
- ^ Daniel D. Lee & H. Sebastian Seung (2001). Algorithmen für die nicht negative Matrixfaktorisierung (PDF). Fortschritte in den neuronalen Informationsverarbeitungssystemen 13: Verfahren der Konferenz 2000. MIT Press. S. 556–562.
- ^ a b Blanton, Michael R.; Roweis, Sam (2007). "K-Korrekturen und Filtertransformationen im ultravioletten, optischen und in der Nähe von Infrarot". Das astronomische Journal. 133 (2): 734–754. Arxiv:Astro-Ph/0606170. Bibcode:2007aj .... 133..734b. doi:10.1086/510127. S2CID 18561804.
- ^ a b c d Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). "Nicht negative Matrixfaktorisierung: robuste Extraktion erweiterter Strukturen". Das Astrophysical Journal. 852 (2): 104. Arxiv:1712.10317. Bibcode:2018APJ ... 852..104R. doi:10.3847/1538-4357/AAA1F2. S2CID 3966513.
- ^ a b c Zhu, Guangtun B. (2016-12-19). "Nichtnegative Matrixfaktorisierung (NMF) mit heteroskedastischen Unsicherheiten und fehlenden Daten". Arxiv:1612.06037 [Astro-Ph.im].
- ^ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H.; Duschene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "Verwenden von Datenimputationen für die Signaltrennung in der Bildgebung mit hoher Kontrast". Das Astrophysical Journal. 892 (2): 74. Arxiv:2001.00563. Bibcode:2020APJ ... 892 ... 74R. doi:10.3847/1538-4357/AB7024. S2CID 209531731.
- ^ Roweis, S. T.; Saul, L. K. (2000). "Nichtlineare Dimensionalitätsreduzierung durch lokal lineare Einbettung". Wissenschaft. 290 (5500): 2323–2326. Bibcode:2000SCI ... 290.2323R. Citeseerx 10.1.1.111.3313. doi:10.1126/science.290.5500.2323. PMID 11125150.
- ^ Zhang, Zhenyue; Zha, Hongyuan (2004). "Hauptverkäufe und nichtlineare Dimensionalitätsreduzierung durch Tangentenraumausrichtung". Siam Journal über wissenschaftliches Computer. 26 (1): 313–338. doi:10.1137/s1064827502419154.
- ^ Bengio, Yoshua; Monperrus, Martin; Larochelle, Hugo (2006). "Nichtlokale Schätzung der Verteilerstruktur". Neuronale Berechnung. 18 (10): 2509–2528. Citeseerx 10.1.1.116.4230. doi:10.1162/neco.2006.18.10.2509. PMID 16907635. S2CID 1416595.
- ^ Hongbing Hu, Stephen A. Zahorian, (2010) "Dimensionalitätsreduzierungsmethoden für die phonetische Erkennung von HMM", ICASSP 2010, Dallas, TX
- ^ Baudat, G.; Anouar, F. (2000). "Generalisierte Diskriminanzanalyse unter Verwendung eines Kernel -Ansatzes". Neuronale Berechnung. 12 (10): 2385–2404. Citeseerx 10.1.1.412.760. doi:10.1162/089976600300014980. PMID 11032039. S2CID 7036341.
- ^ Haghighat, Mohammad; Zonouz, Saman; Abdel-Mottaleb, Mohamed (2015). "CloudID: vertrauenswürdige Cloud-basierte und kreuzweise biometrische Identifizierung". Expertensysteme mit Anwendungen. 42 (21): 7905–7916. doi:10.1016/j.eswa.2015.06.025.
- ^ Schubert, Erich; Gertz, Michael (2017). Bienen, Christin; Borutta, Felix; Kröger, Peer; Seidl, Thomas (Hrsg.). "Intrinsische T-stochastische Nachbarn einbettet, um sich zur Visualisierung und Ausreißer zu erkennen". Ähnlichkeitssuche und Anwendungen. Vorlesungsnotizen in Informatik. Cham: Springer International Publishing. 10609: 188–203. doi:10.1007/978-3-319-68474-1_13. ISBN 978-3-319-68474-1.
- ^ Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri -Shaft (1999) "Wann ist" nächster Nachbar "bedeutungsvoll?". Datenbanktheorie - ICDT99, 217–235
- ^ Shaw, b.; Jebara, T. (2009). "Struktur Erhaltungseinbettung" (PDF). Proceedings der 26. jährlichen Internationalen Konferenz über maschinelles Lernen - ICML '09. p. 1. Citeseerx 10.1.1.161.451. doi:10.1145/1553374.1553494. ISBN 9781605585161. S2CID 8522279.
- ^ Bingham, E.; Mannila, H. (2001). "Zufällige Projektion in der Dimensionalitätsreduzierung". Proceedings der siebten ACM Sigkdd Internationalen Konferenz über Wissensentdeckung und Data Mining - KDD '01. p. 245. doi:10.1145/502512.502546. ISBN 978-1581133912. S2CID 1854295.
- ^ Shasha, D High (2004) Performance Discovery in Time Series Berlin: Springer. ISBN0-387-00857-8
Verweise
- Boehmke, Brad; Greenwell, Brandon M. (2019). "Dimensionsreduzierung". Praktisches maschinelles Lernen mit r. Chapman & Hall. S. 343–396. ISBN 978-1-138-49568-5.
- Cunningham, P. (2007). Dimensionsreduzierung (Technischer Bericht). University College Dublin. UCD-CSI-2007-7.
- Fodor, I. (2002). Eine Übersicht über Techniken zur Dimensionsreduktion (Technischer Bericht). Zentrum für angewandtes wissenschaftliches Computer, Lawrence Livermore National. UCRL-ID-148494.
- Lakshmi Padmaja, Dhyaram; Vishnuvardhan, B (2016). "Vergleichende Untersuchung der Merkmalsuntermengenauswahlmethoden zur Reduzierung der Dimensionalität auf wissenschaftlichen Daten". 2016 IEEE 6. Internationale Konferenz für Advanced Computing (IACC). S. 31–34. doi:10.1109/iacc.2016.16. ISBN 978-1-4673-8286-1. S2CID 14532363.