Unbeaufsichtigtes Lernen
Unbeaufsichtigtes Lernen ist eine Art von Algorithmus, der Muster aus nicht getagelten Daten lernt. Die Hoffnung ist, dass die Maschine durch Mimikry, was eine wichtige Art des Lernens bei Menschen ist, gezwungen ist, eine kompakte interne Darstellung ihrer Welt zu erstellen und dann fantasievolle Inhalte daraus zu erzeugen. Im Kontrast zu überwachtes Lernen wobei Daten von einem Experten markiert werden, z. Als "Ball" oder "Fisch" zeigen unbeaufsichtigte Methoden Selbstorganisation, die Muster als Wahrscheinlichkeitsdichten erfasst [1] oder eine Kombination aus neuronalen Merkmalen. Die anderen Ebenen im Überwachungsspektrum sind Verstärkungslernen wo die Maschine nur eine numerische Leistungsbewertung als Anleitung erhält und Semi-betriebliches Lernen wo ein kleinerer Teil der Daten markiert ist.
Zwei breite Methoden im unbeaufsichtigten Lernen sind Neuronale Netze und Probabilistische Methoden.
Neuronale Netze
Aufgaben vs. Methoden

Neurales Netzwerk Aufgaben werden häufig als diskriminativ (Erkennung) oder generativ (Vorstellungskraft) eingestuft. Oft, aber nicht immer, verwenden diskriminative Aufgaben beaufsichtigte Methoden und generative Aufgaben, die unbeaufsichtigt sind (siehe Venn-Diagramm); Die Trennung ist jedoch sehr dunstig. Beispielsweise bevorzugt die Objekterkennung überwachtes Lernen, aber unbeaufsichtigtes Lernen kann auch Objekte in Gruppen einteilen. Wenn der Fortschritt weitermärbt, verwenden einige Aufgaben beide Methoden, und einige Aufgaben schwingen von einem zum anderen. Zum Beispiel begann die Bilderkennung als stark beaufsichtigt, wurde jedoch durch die Verwendung von unbeaufsichtigter Vorverarbeitung hybrid und bewegte sich dann erneut mit dem Aufkommen von Ausstieg, Relu und adaptiven Lernraten auf die Aufsicht.
Ausbildung
Während der Lernphase versucht ein unbeaufsichtigtes Netzwerk, die von ihm angegebenen Daten nachzuahmen, und verwendet den Fehler in seiner nachgeahmten Ausgabe, um sich selbst zu korrigieren (dh seine Gewichte und Verzerrungen). Dies ähnelt dem Mimikryverhalten von Kindern, wenn sie eine Sprache lernen. Manchmal wird der Fehler als geringe Wahrscheinlichkeit ausgedrückt, dass die fehlerhafte Ausgabe auftritt, oder er kann als instabiler Hochenergiezustand im Netzwerk ausgedrückt werden.
Im Gegensatz zur dominanten Verwendung der überwachten Methode von Backpropagation, unbeaufsichtigtes Lernen verwendet auch andere Methoden, darunter: Hopfield -Lernregel, Boltzmann -Lernregel, kontrastive Divergenz, Wake -Schlaf, Variationsinferenz, maximale Wahrscheinlichkeit, maximale A -posteriori, Gibbs -Abtastung und Backpropagierende Rekonstruktionsfehler oder Hidden State Reparametriationen. Weitere Informationen finden Sie in der folgenden Tabelle.
Energie
Eine Energiefunktion ist ein makroskopisches Maß für den Aktivierungszustand eines Netzwerks. In Boltzmann -Maschinen spielt es die Rolle der Kostenfunktion. Diese Analogie zur Physik ist inspiriert von Ludwig Boltzmanns Analyse einer makroskopischen Energie eines Gass aus den mikroskopischen Wahrscheinlichkeiten der Partikelbewegung p eE/KT, wobei k die Boltzmann -Konstante und T Temperatur ist. Im RBM -Netzwerk ist die Beziehung p = e–E / Z,[2] wobei P & E über jedes mögliche Aktivierungsmuster und z = variieren e -E (Muster). Genauer sein, p (a) = e-E (a) / Z, wobei a ein Aktivierungsmuster aller Neuronen ist (sichtbar und versteckt). Frühe neuronale Netze tragen daher den Namen Boltzmann -Maschine. Paul Smolensky nennt die Harmonie. Ein Netzwerk sucht niedrige Energie, was eine hohe Harmonie ist.
Netzwerke
Diese Tabelle zeigt Verbindungsdiagramme verschiedener unbeaufsichtigter Netzwerke, deren Einzelheiten im Abschnittsvergleich des Netzwerks angegeben werden. Kreise sind Neuronen und Kanten zwischen ihnen sind Verbindungsgewichte. Wenn sich das Netzwerkdesign ändert, werden Funktionen hinzugefügt, um neue Funktionen zu ermöglichen, oder um das Lernen schneller zu gestalten. Für Fälle ändert sich Neuronen zwischen deterministischem (Hopfield) und Stochastik (Boltzmann), um eine robuste Ausgabe zu ermöglichen. Die Gewichte werden innerhalb einer Schicht (RBM) entfernt, um das Lernen zu beschleunigen, oder Verbindungen dürfen asymmetrisch werden (Helmholtz).
Hopfield | Boltzmann | RBM | Gestapelter Boltzmann | Helmholtz | Autocoder | Vae |
---|---|---|---|---|---|---|
![]() Ein Netzwerk, das auf magnetischen Domänen in Eisen mit einer einzigen selbstverbundenen Schicht basiert. Es kann als inhaltsadressierbares Speicher verwendet werden. | ![]() Das Netzwerk ist in 2 Schichten (versteckt gegen sichtbar) unterteilt, aber immer noch symmetrische 2-Wege-Gewichte. Nach der Thermodynamik von Boltzmann führen einzelne Wahrscheinlichkeiten zu makroskopischen Energien. | ![]() Eingeschränkte Boltzmann -Maschine. Dies ist eine Boltzmann -Maschine, auf der laterale Verbindungen innerhalb einer Schicht verboten sind, Analysen zu verwirklichen. | ![]() Dieses Netzwerk verfügt über mehrere RBMs, um eine Hierarchie versteckter Funktionen zu codieren. Nachdem ein einzelnes RBM trainiert wurde, wird eine weitere blaue versteckte Schicht (siehe links RBM) hinzugefügt und die oberen 2 Schichten werden als rot & blaues RBM trainiert. So wirken die mittleren Schichten eines RBM abhängig von der Trainingsphase, in der es sich befindet, als verborgen oder sichtbar. | ![]() Anstelle der bidirektionalen symmetrischen Verbindung der gestapelten Boltzmann-Maschinen haben wir separate Einwegverbindungen, um eine Schleife zu bilden. Es führt sowohl Generation als auch Diskriminierung. | ![]() Ein Feed -Forward -Netzwerk, das eine gute Darstellung der mittleren Schicht seiner Eingangswelt finden soll. Dieses Netzwerk ist deterministisch, daher ist es nicht so robust wie sein Nachfolger der VAE. | ![]() Wendet die variationsübergreifende Inferenz auf den Autocoder an. Die mittlere Schicht ist eine Reihe von Mitteln und Abweichungen für Gaußsche Verteilungen. Die stochastische Natur ermöglicht eine robustere Vorstellungskraft als der deterministische Autocoder. |
Von den Netzwerken mit den Namen der Menschen arbeitete nur Hopfield direkt mit neuronalen Netzwerken. Boltzmann und Helmholtz kamen vor künstlichen neuronalen Netzwerken, aber ihre Arbeit in der Physik und Physiologie inspirierte die angewandten analytischen Methoden.
Geschichte
1969 | Perceptrons von Minsky & Papert zeigt eine Wahrnehmung ohne versteckte Schichten auf XOR |
1970er Jahre | (ungefähre Daten) ai Winter i |
1974 | ISING Magnetic -Modell, das von WA wenig für die Wahrnehmung vorgeschlagen wurde |
1980 | Fukushima stellt das Neocognitron vor, das später als Neuralnetzwerk als Faltungsnetz bezeichnet wird. Es wird hauptsächlich in SL verwendet, verdient aber hier eine Erwähnung. |
1982 | Ising Variante Hopfield Net, das von John Hopfield als Cams und Klassifizierer beschrieben wird. |
1983 | Ising -Variante Boltzmann -Maschine mit probabilistischen Neuronen, die von Hinton & Sejnowski nach Sherington & Kirkpatricks Arbeit von 1975 beschrieben wurden. |
1986 | Paul Smolensky veröffentlicht die Harmonie -Theorie, die ein RBM mit praktisch gleicher Boltzmann -Energiefunktion ist. Smolensky gab kein praktisches Trainingssystem. Hinton hat es Mitte der 2000er Jahre getan |
1995 | Schmidthuber stellt das LSTM -Neuron für Sprachen ein. |
1995 | Dayan & Hinton stellt die Helmholtz -Maschine ein |
1995-2005 | (ungefähre Daten) ai Winter II |
2013 | Kingma, Rezende & co. Einführte Variationsautoencoder als Bayes'sche Grafikwahrscheinlichkeitsnetzwerk mit neuronalen Netzen als Komponenten. |
Spezifische Netzwerke
Hier heben wir einige Merkmale von ausgewählten Netzwerken hervor. Die Details davon sind in der folgenden Vergleichstabelle angegeben.
- Hopfield -Netzwerk
- Ferromagnetismus inspirierte Hopfield -Netzwerke. Ein Neuron entspricht einer Eisendomäne mit binären magnetischen Momenten nach oben und unten, und neuronale Verbindungen entsprechen dem Einfluss der Domäne aufeinander. Symmetrische Verbindungen ermöglichen eine globale Energieformulierung. Während der Inferenz aktualisiert das Netzwerk jeden Status über die Standardaktivierungsschrittfunktion. Symmetrische Gewichte und die richtigen Energiefunktionen garantieren Konvergenz für ein stabiles Aktivierungsmuster. Asymmetrische Gewichte sind schwer zu analysieren. Hopfield -Netze werden als inhaltsadressierbare Erinnerungen (CAM) verwendet.
- Boltzmann -Maschine
- Dies sind stochastische Hopfield -Netze. Ihr Zustandswert wird von diesem PDF wie folgt abgetastet: Angenommen, ein binäres Neuron feuert mit der Bernoulli -Wahrscheinlichkeit P (1) = 1/3 und ruht mit P (0) = 2/3. Eine Stichproben daraus durch Einnahme einer gleichmäßig verteilten Zufallszahl y und an die umgekehrte kumulative Verteilungsfunktion angeschlossen, die in diesem Fall die Schrittfunktion bei 2/3 ist. Die inverse Funktion = {0 wenn x <= 2/3, 1 wenn x> 2/3}
- Sigmoid Glaubensnetz
- Dieses von Radford Neal 1992 eingeführte Netzwerk wendet Ideen von probabilistischen grafischen Modellen auf neuronale Netze an. Ein wesentlicher Unterschied besteht darin, dass Knoten in grafischen Modellen vorab zugewiesene Bedeutungen haben, während die Merkmale von Glaubensnetz-Neuronen nach dem Training bestimmt werden. Das Netzwerk ist ein spärlich verbundenes acyclisches Graphen, das aus binären stochastischen Neuronen besteht. Die Lernregel kommt aus der maximalen Wahrscheinlichkeit bei P (x): ΔWij sj * (si - pi), wo pi = 1 / (1 + eGewichtete Eingaben in Neuron I. ). sj's sind Aktivierungen aus einer unvoreingenommenen Stichprobe der hinteren Verteilung, und dies ist aufgrund des von Juda Perl aufgeworfenen Erklärungsproblems problematisch. Variations -Bayes'sche Methoden Verwendet ein Ersatzposterior und ignoriert diese Komplexität offen.
- Tiefes Glaubensnetzwerk
- Dieses von Hinton eingeführte Netzwerk ist ein Mischung aus RBM und Sigmoid Glaubensnetzwerk. Die oberen 2 Schichten sind ein RBM und die zweite Schicht nach unten bildet ein Sigmoid -Glaubensnetzwerk. Man trainiert es durch die gestapelte RBM -Methode und wirft dann die Erkennungsgewichte unter die obere RBM weg. Ab 2009 scheinen 3-4 Schichten die optimale Tiefe zu sein.[3]
- Helmholtz -Maschine
- Dies sind frühe Inspirationen für die Variations -Auto -Encoder. Es sind 2 Netzwerke zusammen in einem - umweilige Gewichte bedienen Erkennung und Rückwärtsgewichte implementiert die Vorstellungskraft. Es ist vielleicht das erste Netzwerk, das beides macht. Helmholtz arbeitete nicht im maschinellen Lernen, aber er inspirierte die Ansicht der "statistischen Inferenz -Engine, deren Funktion die wahrscheinlichen Ursachen für sensorische Eingabe" (3) abschließen soll. Das stochastische binäre Neuron gibt eine Wahrscheinlichkeit aus, dass sein Zustand 0 oder 1 beträgt. Der Dateneingang wird normalerweise nicht als Schicht betrachtet, sondern im Helmholtz -Maschinenerzeugungsmodus erhält die Datenschicht für diesen Zweck separate Gewichte. Es wird als Schicht betrachtet. Daher hat dieses Netzwerk 3 Schichten.
- Variations -Autocoder
- Diese werden von Helmholtz -Maschinen inspiriert und kombiniert das Wahrscheinlichkeitsnetzwerk mit neuronalen Netzwerken. Ein Autocoder ist ein 3-Schicht-CAM-Netzwerk, in dem die mittlere Schicht eine interne Darstellung von Eingabemustern sein soll. Das neuronale Netz von Encoder ist eine Wahrscheinlichkeitsverteilung Qφ(z gegeben x) und das Decoder -Netzwerk ist pθ(x gegeben Z). Die Gewichte werden eher Phi & Theta als W und V als in Helmholtz bezeichnet - ein kosmetischer Unterschied. Diese 2 Netzwerke können hier vollständig verbunden sein oder ein anderes NN -Schema verwenden.
Vergleich von Netzwerken
Hopfield | Boltzmann | RBM | Stapelter RBM | Helmholtz | Autocoder | Vae | |
---|---|---|---|---|---|---|---|
Nutzung & Notables | Cam, reisender Verkäuferproblem | NOCKEN. Die Freiheit der Verbindungen macht es schwierig, dieses Netzwerk zu analysieren. | Mustererkennung. Wird in MNIST -Ziffern und Sprache verwendet. | Erkennung & Vorstellungskraft. Ausgebildet mit unbeaufsichtigter Vorausbildung und/oder beaufsichtigter Feinabstimmung. | Vorstellungskraft, Mimikry | Sprache: Kreatives Schreiben, Übersetzung. Vision: Verbesserung verschwommener Bilder | Generieren Sie realistische Daten |
Neuron | deterministischer binärer Zustand. Activation = {0 (oder -1) Wenn x negativ ist, 1 sonst} | Stochastischer binärer Hopfield -Neuron | ← Gleich. (Ausgeweitet auf reale Wertmitte Mitte der 2000er Jahre) | ← Gleich | ← Gleich | Sprache: LSTM. Vision: Lokale Empfängnisfelder. Normalerweise real geschätzte Relu -Aktivierung. | Middle Layer -Neuronen codieren Mittel und Varianzen für Gaußschen. Im Laufmodus (Inferenz) sind die Ausgabe der mittleren Schicht abgetastete Werte der Gaußschen. |
Verbindungen | 1-layer mit symmetrischen Gewichten. Keine Selbstverbindungen. | 2-Schichten. 1 versteckt und 1 sichtbar. Symmetrische Gewichte. | ← Gleich. Keine lateralen Verbindungen innerhalb einer Schicht. | Die oberste Schicht ist ungerichtet, symmetrisch. Andere Schichten sind 2-Wege, asymmetrisch. | 3-Layer: Asymmetrische Gewichte. 2 Netzwerke kombiniert zu 1. | 3-Layer. Die Eingabe wird als Schicht angesehen, obwohl er keine eingehenden Gewichte hat. Wiederkehrende Schichten für NLP. Feedforward -Konvolutionen für das Sehen. Eingabe & Ausgabe haben die gleichen Neuronenzahlen. | 3-Layer: Eingabe, Encoder, Verteilungsabtaster-Decoder. Der Sampler wird nicht als Schicht (e) angesehen |
Inferenz & Energie | Energie wird durch Gibbs Wahrscheinlichkeitsmaß gegeben: | ← Gleich | ← Gleich | Minimieren Sie die KL -Divergenz | Inferenz ist nur Futtermittel. Frühere UL -Netzwerke rannten vorwärts und rückwärts | MINIMMINIEREN SIE FEHLER = Rekonstruktionsfehler - KLD | |
Ausbildung | ΔWij = si*sjfür +1/-1 Neuron | ΔWij = e*(pij - p'ij). Dies leitet sich aus der Minimierung von KLD ab. E = Lernrate, p '= vorhergesagt und p = tatsächliche Verteilung. | ΔWij = e*(<vi hj >Daten - <vi hj >Gleichgewicht ). Dies ist eine Form einer kontrastiven Divergenz mit Gibbs -Probenahme. "<>" sind Erwartungen. | ← ähnlich. trainieren Sie jeweils eine 1-Schicht. Ungefähres Gleichgewichtszustand mit einem 3-Segment-Pass. Keine Rückenausbreitung. | Wake-Sleep 2-Phasen-Training | Rücken verbreiten den Rekonstruktionsfehler | Versteckte Staat für Backprops rekarametherisieren |
Stärke | ähnelt physischen Systemen, so dass es ihre Gleichungen erbt | ← Gleich. Versteckte Neuronen wirken als interne Repräsentation der Außenwelt | schnellerer praktischere Trainingsschema als Boltzmann -Maschinen | Züge schnell. gibt eine hierarchische Merkmalschicht | leicht anatomisch. Analyzierbar mit Informationstheorie und statistische Mechanik | ||
Die Schwäche | Schwer zu trainieren aufgrund lateraler Verbindungen | Das Gleichgewicht erfordert zu viele Iterationen | ganzzahlige und realbewertete Neuronen sind komplizierter. |
Hebbisch -Lernen, Kunst, Som
Das klassische Beispiel für unbeaufsichtigtes Lernen im Studium neuronaler Netze ist Donald HebbDas Prinzip, das heißt Neuronen, die zusammen zusammenfassen.[4] Im Hebbisch -LernenDie Verbindung wird unabhängig von einem Fehler verstärkt, ist jedoch ausschließlich eine Funktion des Zufalls zwischen Aktionspotentialen zwischen den beiden Neuronen.[5] Eine ähnliche Version, die synaptische Gewichte verändert, berücksichtigt die Zeit zwischen den Aktionspotentialen (Spike-Timing-abhängige Plastizität oder stdp). Das Hebbian -Lernen wurde angenommen, eine Reihe kognitiver Funktionen zugrunde, wie z. Mustererkennung und experimentelles Lernen.
Unter neurales Netzwerk Modelle, die selbstorganisierende Karte (Som) und Adaptive Resonanztheorie (ART) werden häufig in unbeaufsichtigten Lernalgorithmen verwendet. Das SOM ist eine topografische Organisation, in der sich die nahe gelegenen Standorte in der Karte in Eingaben mit ähnlichen Eigenschaften darstellen. Das Kunstmodell ermöglicht es der Anzahl der Cluster, mit der Problemgröße zu variieren und den Benutzer den Grad der Ähnlichkeit zwischen den Mitgliedern derselben Cluster mithilfe einer benutzerdefinierten Konstante, die als Wachmannparameter bezeichnet wird, zu steuern. Kunstnetzwerke werden für viele Mustererkennungsaufgaben verwendet, wie z. Automatische Zielerkennung und seismische Signalverarbeitung.[6]
Probabilistische Methoden
Zwei der Hauptmethoden, die beim unbeaufsichtigten Lernen verwendet werden Hauptbestandteil und Clusteranalyse. Clusteranalyse wird im unbeaufsichtigten Lernen für Gruppen oder Segments, Datensätze mit gemeinsam genutzten Attributen verwendet, um algorithmische Beziehungen zu extrapolieren.[7] Die Clusteranalyse ist ein Zweig von maschinelles Lernen Das gruppiert die Daten, die nicht gewesen sind beschriftet, klassifiziert oder kategorisiert. Anstatt auf Feedback zu reagieren, identifiziert die Clusteranalyse Gemeinsamkeiten in den Daten und Reaktionen auf der Grundlage des Vorhandenseins oder der Fehlen solcher Gemeinsamkeiten in jedem neuen Daten. Dieser Ansatz hilft bei der Erkennung von anomalen Datenpunkten, die in keiner Gruppe passen.
Eine zentrale Anwendung des unbeaufsichtigten Lernens befindet sich im Bereich von Dichteschätzung in Statistiken,[8] Obwohl unbeaufsichtigtes Lernen viele andere Bereiche umfasst, die Datenfunktionen zusammenfassen und erklären. Es kann mit dem überwachten Lernen kontrastiert werden, indem er sagt, dass das überwachte Lernen beabsichtigt, a zu schließen Bedingte Wahrscheinlichkeitsverteilung konditioniert auf der Etikett von Eingabedaten; unbeaufsichtigtes Lernen beabsichtigt, einen zu schließen a priori Wahrscheinlichkeit Verteilung .
Ansätze
Einige der häufigsten Algorithmen, die beim unbeaufsichtigten Lernen verwendet werden, umfassen: (1) Clustering, (2) Anomalieerkennung, (3) Ansätze zum Lernen von latenten Variablenmodellen. Jeder Ansatz verwendet verschiedene Methoden wie folgt:
- Clustering Methoden umfassen: Hierarchische Clustering,[9] k-means,[10] Mischmodelle, DBSCAN, und OPTICS algorithm
- Anomalieerkennung Methoden umfassen: Lokaler Ausreißerfaktor, und Isolationswald
- Ansätze zum Lernen Latente variable Modelle wie zum Beispiel Erwartungs -Maximierungsalgorithmus (EM), Momente Methode, und Blindsignaltrennung Techniken (Hauptkomponentenanalyse, Unabhängige Komponentenanalyse, Nicht negative Matrixfaktorisierung, Einzelwertzerlegung)
Momente Methode
Einer der statistischen Ansätze für unbeaufsichtigtes Lernen ist das Momente Methode. In der Methode der Momente beziehen sich die unbekannten Parameter (von Interesse) im Modell mit den Momenten einer oder mehrerer zufälliger Variablen, und daher können diese unbekannten Parameter angesichts der Momente geschätzt werden. Die Momente werden normalerweise empirisch aus Proben geschätzt. Die grundlegenden Momente sind Momente der ersten und zweiten Ordnung. Für einen zufälligen Vektor ist der Moment erster Ordnung der Moment bedeuten Vektor, und der Moment zweiter Ordnung ist der Kovarianzmatrix (wenn der Mittelwert Null ist). Momente höherer Ordnung werden normalerweise verwendet Tensoren Die Verallgemeinerung von Matrizen auf höhere Ordnungen als mehrdimensionale Arrays.
Insbesondere wird gezeigt, dass die Methode der Momente beim Lernen der Parameter von wirksam ist Latente variable Modelle. Latente Variablenmodelle sind statistische Modelle, bei denen zusätzlich zu den beobachteten Variablen auch ein Satz latenter Variablen existiert, was nicht beobachtet wird. Ein sehr praktisches Beispiel für latente Variablenmodelle im maschinellen Lernen ist die Themenmodellierung Dies ist ein statistisches Modell zum Generieren der Wörter (beobachtete Variablen) im Dokument basierend auf dem Thema (latente Variable) des Dokuments. In der Themenmodellierung werden die Wörter im Dokument nach verschiedenen statistischen Parametern generiert, wenn das Thema des Dokuments geändert wird. Es wird gezeigt, dass die Methode der Momente (Tensor -Zersetzungstechniken) die Parameter einer großen Klasse latenter Variablenmodelle unter einigen Annahmen konsistent wiederherstellen.[11]
Das Erwartungs -Maximierungsalgorithmus (EM) ist auch eine der praktischsten Methoden zum Lernen von latenten Variablenmodellen. Es kann jedoch in lokaler Optima hängen bleiben, und es ist nicht garantiert, dass der Algorithmus zu den wahren unbekannten Parametern des Modells konvergiert. Im Gegensatz dazu wird für die Methode der Momente die globale Konvergenz unter bestimmten Bedingungen garantiert.
Siehe auch
- Automatisiertes maschinelles Lernen
- Clusteranalyse
- Anomalieerkennung
- Erwartungs -Maximierungsalgorithmus
- Generative topografische Karte
- Meta-Learning (Informatik)
- Multivariate Analyse
- Radialbasisfunktionsnetzwerk
- Schwache Überwachung
Verweise
- ^ Hinton, Geoffrey; Sejnowski, Terrence (1999). Unbeaufsichtigtes Lernen: Grundlagen der neuronalen Berechnung. MIT Press. ISBN 978-0262581684.
- ^ Hinton, G. (2010-08-02). "Ein praktischer Leitfaden für das Training beschränkte Boltzmann -Maschinen".
- ^ Hinton, Geoffrey (September 2009). "Tiefe Glaubensnetze" (Video).
- ^ Buhmann, J.; Kuhnel, H. (1992). "Unüberwachte und überwachte Datenclustering mit wettbewerbsfähigen neuronalen Netzwerken". [Proceedings 1992] IJCNN Internationale gemeinsame Konferenz über neuronale Netze. Vol. 4. IEEE. S. 796–801. doi:10.1109/ijcnn.1992.227220. ISBN 0780305590. S2CID 62651220.
- ^ Comesaña-Campos, Alberto; Bouza-Rodríguez, José Benito (Juni 2016). "Eine Anwendung des hebbischen Lernens in der Entscheidungsfindung des Designprozesses". Journal of Intelligent Manufacturing. 27 (3): 487–506. doi:10.1007/S10845-014-0881-Z. ISSN 0956-5515. S2CID 207171436.
- ^ Zimmermann, G.A. & Grossberg, S. (1988). "Die Kunst der adaptiven Mustererkennung durch ein selbstorganisierendes neuronales Netzwerk" (PDF). Computer. 21 (3): 77–88. doi:10.1109/2.33. S2CID 14625094.
- ^ Roman, Victor (2019-04-21). "Unbeaufsichtigtes maschinelles Lernen: Clustering -Analyse". Mittel. Abgerufen 2019-10-01.
- ^ Jordan, Michael I.; Bishop, Christopher M. (2004). "Neuronale Netze". In Allen B. Tucker (Hrsg.). Informatikhandbuch, zweite Ausgabe (Abschnitt VII: Intelligente Systeme). Boca Raton, Florida: Chapman & Hall/CRC Press LLC. ISBN 1-58488-360-x.
- ^ Hastie, Trevor, Robert Tibshirani, Friedman, Jerome (2009). Die Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage. New York: Springer. S. 485–586. ISBN 978-0-387-84857-0.
{{}}
: Cs1 montiert: Mehrfachnamen: Autorenliste (Link) - ^ Garbade, Dr. Michael J. (2018-09-12). "Verstehen von K-Means, die sich im maschinellen Lernen zusammenschließen". Mittel. Abgerufen 2019-10-31.
- ^ Anandkumar, Animashree; GE, Rong; Hsu, Daniel; Kakade, Schein; Telgarsky, Matus (2014). "Tensor -Zerlegungen zum Lernen von latenten Variablenmodellen" (PDF). Journal of Machine Learning Research. 15: 2773–2832. Arxiv:1210.7559. Bibcode:2012ArXIV1210.7559a.
Weitere Lektüre
- Bousquet, O.; von Luxburg, U.; Raetsch, G., Hrsg. (2004). Fortgeschrittene Vorlesungen über maschinelles Lernen. Springer-Verlag. ISBN 978-3540231226.
- Duda, Richard O.; Hart, Peter E.; Stork, David G. (2001). "Unbeaufsichtigtes Lernen und Clustering". Musterklassifizierung (2. Aufl.). Wiley. ISBN 0-471-05669-3.
- Hastie, Trevor; Tibshirani, Robert (2009). Die Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage. New York: Springer. S. 485–586. doi:10.1007/978-0-387-84858-7_14. ISBN 978-0-387-84857-0.
- Hinton, Geoffrey; Sejnowski, Terrence J., eds. (1999). Unbeaufsichtigtes Lernen: Grundlagen der neuronalen Berechnung. MIT Press. ISBN 0-262-58168-x.