Künstliche neuronale Netz

Künstliche neurale Netzwerke (Anns), normalerweise einfach genannt Neuronale Netze (Nns) oder einfacher, noch, neuronale Netze,[1] sind Computersysteme inspiriert von der Biologische neuronale Netze Das bildet ein Tier Gehirn.[2]
Eine Ann basiert auf einer Sammlung von verbundenen Einheiten oder Knoten, die genannt werden künstliche Neuronen, die lose modellieren Neuronen in einem biologischen Gehirn. Jede Verbindung, wie die Synapsen In einem biologischen Gehirn können ein Signal an andere Neuronen übertragen. Ein künstliches Neuron erhält Signale, dann verarbeitet sie und kann mit ihm verbundene Neuronen signalisieren. Das "Signal" bei einer Verbindung ist a reelle Zahlund die Ausgabe jedes Neurons wird durch eine nichtlineare Funktion der Summe seiner Eingänge berechnet. Die Verbindungen werden genannt Kanten. Neuronen und Kanten haben normalerweise a Gewicht Das passt sich an, wenn das Lernen fortgesetzt wird. Das Gewicht nimmt die Festigkeit des Signals bei einer Verbindung zu oder verringert sie. Neuronen können einen Schwellenwert haben, so dass nur ein Signal gesendet wird, wenn das Aggregatsignal diesen Schwellenwert kreuzt. Typischerweise werden Neuronen in Schichten aggregiert. Unterschiedliche Ebenen können unterschiedliche Transformationen in ihren Eingaben durchführen. Signale wandern von der ersten Ebene (der Eingangsschicht) bis zur letzten Schicht (die Ausgangsschicht), möglicherweise nach mehrmaliger Durchführung der Ebenen.
Ausbildung
Neuronale Netze Lernen (oder werden trainiert) durch Verarbeitungsbeispiele, von denen jede eine bekannte "Eingabe" und "Ergebnis" enthält, wobei die Wahrscheinlichkeitsgewicht zwischen den beiden bildet, die innerhalb der Datenstruktur des Netzes selbst gespeichert sind. Die Schulung eines neuronalen Netzwerks aus einem bestimmten Beispiel wird normalerweise durchgeführt, indem die Differenz zwischen der verarbeiteten Ausgabe des Netzwerks (häufig eine Vorhersage) und einer Zielausgabe bestimmt wird. Dieser Unterschied ist der Fehler. Das Netzwerk passt dann seine gewichteten Assoziationen nach einer Lernregel an und verwendet diesen Fehlerwert. Aufeinanderfolgende Anpassungen werden dazu führen, dass das neuronale Netzwerk eine Ausgabe erzeugt, die der Zielausgabe zunehmend ähnlich ist. Nach einer ausreichenden Anzahl dieser Anpassungen kann das Training aufgrund bestimmter Kriterien beendet werden. Dies ist bekannt als als überwachtes Lernen.
Solche Systeme "lernen", um Aufgaben auszuführen, indem Beispiele in Betracht gezogen werden, ohne mit aufgabenspezifischen Regeln programmiert zu werden. Zum Beispiel in BilderkennungSie lernen möglicherweise, Bilder zu identifizieren, die Katzen enthalten, indem sie Beispielbilder analysieren, die manuell waren beschriftet als "Katze" oder "keine Katze" und verwenden die Ergebnisse, um Katzen in anderen Bildern zu identifizieren. Sie tun dies ohne Vorkenntnis von Katzen, zum Beispiel, dass sie Pelz, Schwänze, Schnurrhaare und katze ähnliche Gesichter haben. Stattdessen generieren sie automatisch identifizierende Merkmale aus den Beispielen, die sie verarbeiten.
Geschichte
Warren McCulloch und Walter Pitts[3] (1943) eröffneten das Subjekt, indem sie ein Computermodell für neuronale Netze erstellten.[4] Ende der 1940er Jahre, D. O. Hebb[5] schuf ein Lernen Hypothese basierend auf dem Mechanismus von neuronale Plastizität das wurde bekannt als als Hebbisch -Lernen. Farley und Wesley A. Clark[6] (1954) verwendeten zuerst Computermaschinen, die dann als "Taschenrechner" bezeichnet wurden, um ein hebbisches Netzwerk zu simulieren. 1958 Psychologe Frank Rosenblatt erfand die Perzeptron, das erste künstliche neuronale Netzwerk,[7][8][9][10] von den Vereinigten Staaten finanziert Büro für Marineforschung.[11] Die ersten funktionalen Netzwerke mit vielen Schichten wurden von veröffentlicht von Ivakhnenko und Lapa im Jahr 1965 wie die Gruppenmethode der Datenhandhabung.[12][13][14] Die Grundlagen der kontinuierlichen Backpropagation[12][15][16][17] wurden im Kontext von abgeleitet Kontrolltheorie durch Kelley[18] im Jahr 1960 und von Bryson 1961,,[19] Verwendung von Prinzipien von Dynamische Programmierung. Danach stagnierten die Forschung nachfolgend Minsky und Paper (1969),[20] Wer entdeckte, dass grundlegende Wahrnehmungsstoffe nicht in der Lage waren, die exklusive oder Schaltung zu verarbeiten, und dass Computern keine ausreichende Leistung hatten, um nützliche neuronale Netze zu verarbeiten.
1970,, Seppo Linnainmaa veröffentlichte die allgemeine Methode für Automatische Differenzierung (Anzeige) diskreter vernetzter Netzwerke verschachtelter Netze differenzierbar Funktionen.[21][22] 1973 verwendete Dreyfus Backpropagation anpassen Parameter von Controllern proportional zu Fehlergradienten.[23] Werbos's (1975) Backpropagation Der Algorithmus ermöglichte die praktische Ausbildung von mehrschichtigen Netzwerken. 1982 wandte er Linnainmaas AD -Methode auf neuronale Netzwerke in der Art und Weise an, die weit verbreitet wurde.[15][24]
Die Entwicklung von Metal -Oxid -Jemonductor (Mos) Sehr große Integration (VLSI) in Form von Komplementäre Mos (CMOS) -Technologie, ermöglichte zunehmend MOS Transistor zählt in Digitale Elektronik. Dies lieferte mehr Verarbeitungskraft für die Entwicklung praktischer künstlicher neuronaler Netze in den 1980er Jahren.[25]
1986 Rumelhart, Hinton und Williams zeigten, dass die Backpropagation interessante interne Darstellungen von Wörtern als Merkmalsvektoren lernte, wenn sie trainiert wurden, um das nächste Wort in einer Sequenz vorherzusagen.[26]
Ab 1988, voran,[27][28] Die Verwendung neuronaler Netze transformierte das Feld der Proteinstrukturvorhersage, insbesondere wenn die ersten Kaskadierungsnetzwerke trainiert wurden Profile (Matrizen), die durch mehrere Sequenzausrichtungen erzeugt werden.[29]
Im Jahr 1992, Max-Pooling wurde eingeführt, um bei der Invarianz und Toleranz gegenüber Deformation zu helfen, um zu helfen 3D -Objekterkennung.[30][31][32] Schmidhuber verabschiedete eine mehrstufige Hierarchie von Netzwerken (1992), die jeweils eine Stufe vorhanden hat unbeaufsichtigtes Lernen und fein abgestimmt von Backpropagation.[33]
Die frühen Erfolge der neuronalen Netze umfassten die Vorhersage des Aktienmarktes und 1995 ein (meistens) selbstfahrendes Auto.[a][34]
Geoffrey Hinton et al. (2006) schlugen vor latente Variablen mit einer eingeschränkte Boltzmann -Maschine[35] modellieren jede Schicht. In 2012, Ng und Dean Erstellte ein Netzwerk, das gelernt hat, Konzepte auf höherer Ebene wie Katzen zu erkennen, nur durch das Anschauen von unbezeichneten Bildern.[36] Unbeaufsichtigte Vorausbildung und erhöhte Rechenleistung von GPUS und verteiltes Computer Ermöglichte die Verwendung größerer Netzwerke, insbesondere bei Bild- und visuellen Erkennungsproblemen, die als "bekannt wurden"tiefes Lernen".[37]
Ciresan und Kollegen (2010)[38] zeigte das trotz der Verschwandungsgradientenproblem, GPUs machen die Backpropagation für vielschichtige Feedforward Neural Networks machbar.[39] Zwischen 2009 und 2012 begannen Anns, Preise für Bilderkennungswettbewerbe zu gewinnen, und näherten Mustererkennung und Handschrifterkennung.[40][41] Zum Beispiel die bidirektionale und mehrdimensionale langes Kurzzeitgedächtnis (LSTM)[42][43] von Gräber et al. Sie gewannen 2009 drei Wettbewerbe in der vernetzten Handschrift anerkannt.[42][43]
Ciresan und Kollegen bauten die ersten Mustererkenner, um menschlich-wettbewerbswidrige/übermenschliche Leistung zu erreichen[44] auf Benchmarks wie Verkehrszeichenerkennung (IJCNN 2012).
Modelle

ANNS begann als Versuch, die Architektur des menschlichen Gehirns auszunutzen, um Aufgaben auszuführen, mit denen herkömmliche Algorithmen wenig Erfolg hatten. Sie richteten sich bald neu aus, um die empirischen Ergebnisse zu verbessern und hauptsächlich Versuche aufzugeben, ihren biologischen Vorläufern treu zu bleiben. Neuronen sind in verschiedenen Mustern miteinander verbunden, damit die Ausgabe einiger Neuronen zur Eingabe anderer wird. Das Netzwerk bildet a gerichtet, gewichtete Grafik.[45]
Ein künstliches neuronales Netzwerk besteht aus einer Sammlung simulierter Neuronen. Jedes Neuron ist a Knoten das ist mit anderen Knoten über verbunden Links Das entspricht biologischen Axon-Synapse-Dendriten-Verbindungen. Jedes Link hat ein Gewicht, das die Stärke des Einflusses eines Knotens auf einen anderen bestimmt.[46]
Künstliche Neuronen
Anns bestehen aus künstliche Neuronen die konzeptionell aus biologisch abgeleitet werden Neuronen. Jedes künstliche Neuron hat Eingaben und erzeugt eine einzelne Ausgabe, die an mehrere andere Neuronen gesendet werden kann.[47] Die Eingaben können die Merkmalswerte einer Stichprobe externer Daten wie Bilder oder Dokumente sein oder die Ausgaben anderer Neuronen sein. Die Ausgänge des Finales Ausgangsneuronen des neuronalen Netzes erledigen die Aufgabe, wie das Erkennen eines Objekts in einem Bild.
Um die Ausgabe des Neurons zu finden, nehmen wir die gewichtete Summe aller Eingänge, gewichtet von der Gewichte des Verbindungen von den Eingaben zum Neuron. Wir fügen a hinzu Voreingenommenheit Begriff zu dieser Summe.[48] Diese gewichtete Summe wird manchmal die genannt Aktivierung. Diese gewichtete Summe wird dann durch a (normalerweise nichtlinear) geleitet Aktivierungsfunktion die Ausgabe erzeugen. Die ersten Eingaben sind externe Daten wie Bilder und Dokumente. Die ultimativen Ausgänge erfüllen die Aufgabe, z. B. das Erkennen eines Objekts in einem Bild.[49]
Organisation
Die Neuronen sind typischerweise in mehrere Schichten organisiert, insbesondere in tiefes Lernen. Neuronen einer Schicht verbinden sich nur mit Neuronen der unmittelbar vorhergehenden und unmittelbar folgenden Schichten. Die Schicht, die externe Daten empfängt, ist die Eingangsschicht. Die Schicht, die das ultimative Ergebnis erzeugt, ist die Ausgangsschicht. Dazwischen sind Null oder mehr Versteckte Schichten. Einzelschicht- und nicht bewegte Netzwerke werden ebenfalls verwendet. Zwischen zwei Schichten sind mehrere Verbindungsmuster möglich. Sie können "vollständig verbunden" sein, wobei jedes Neuron in einer Schicht in der nächsten Schicht mit jedem Neuron verbunden ist. Sie können sein Pooling, wobei eine Gruppe von Neuronen in einer Schicht in der nächsten Schicht mit einem einzelnen Neuron verbunden ist, wodurch die Anzahl der Neuronen in dieser Schicht reduziert wird.[50] Neuronen mit nur solchen Verbindungen bilden a Regie acyclische Graphen und sind bekannt als als Feedforward -Netzwerke.[51] Alternativ werden Netzwerke, die Verbindungen zwischen Neuronen im gleichen oder früheren Schichten ermöglichen wiederkehrende Netzwerke.[52]
Hyperparameter
A Hyperparameter ist eine Konstante Parameter deren Wert vor dem Beginn des Lernprozesses festgelegt wird. Die Werte von Parameter werden durch Lernen abgeleitet. Beispiele für Hyperparameter sind Lernrate, die Anzahl der versteckten Schichten und die Chargengröße.[53] Die Werte einiger Hyperparameter können von denen anderer Hyperparameter abhängig sein. Beispielsweise kann die Größe einiger Schichten von der Gesamtzahl der Schichten abhängen.
Lernen
Lernen ist die Anpassung des Netzwerks, um eine Aufgabe besser zu erledigen, indem sie Stichprobenbeobachtungen berücksichtigen. Das Lernen beinhaltet die Anpassung der Gewichte (und optionalen Schwellenwerte) des Netzwerks, um die Genauigkeit des Ergebnisses zu verbessern. Dies geschieht durch Minimierung der beobachteten Fehler. Das Lernen ist abgeschlossen, wenn die Untersuchung zusätzlicher Beobachtungen die Fehlerrate nicht nützlich verringert. Auch nach dem Lernen erreicht die Fehlerrate normalerweise nicht 0. Wenn nach dem Lernen die Fehlerrate zu hoch ist, muss das Netzwerk normalerweise neu gestaltet werden. Praktisch geschieht dies durch Definition a Kostenfunktion Das wird während des Lernens regelmäßig bewertet. Solange seine Produktion weiter sinkt, geht das Lernen weiter. Die Kosten werden häufig als definiert als Statistik deren Wert kann nur angenähert werden. Die Ausgänge sind tatsächlich Zahlen. Wenn der Fehler niedrig ist, ist die Differenz zwischen der Ausgabe (mit ziemlicher Sicherheit eine Katze) und der richtigen Antwort (Katze) klein. Lernversuche, um die Gesamtunterschiede zwischen den Beobachtungen zu verringern. Die meisten Lernmodelle können als einfache Anwendung von betrachtet werden Optimierung Theorie und Statistische Schätzung.[45][54]
Lernrate
Die Lernrate definiert die Größe der Korrekturschritte, die das Modell für die Anpassung auf Fehler in jeder Beobachtung erfordert.[55] Eine hohe Lernrate verkürzt die Trainingszeit, aber mit einer geringeren ultimativen Genauigkeit, während eine niedrigere Lernrate länger dauert, jedoch mit dem Potenzial für eine größere Genauigkeit. Optimierungen wie Schnellprop zielen hauptsächlich darauf ab, die Fehlerminimierung zu beschleunigen, während andere Verbesserungen hauptsächlich versuchen, die Zuverlässigkeit zu erhöhen. Um zu vermeiden Schwingung Innerhalb des Netzwerks wie wechselnde Verbindungsgewichte und um die Konvergenzrate zu verbessern, verwenden Verfeinerungen eine Adaptive Lernrate Das nimmt nach Bedarf zu oder nimmt ab.[56] Das Impulskonzept ermöglicht es, dass das Gleichgewicht zwischen dem Gradienten und der vorherigen Änderung so gewichtet wird, dass die Gewichtsanpassung bis zu einem gewissen Grad von der vorherigen Änderung abhängt. Eine Dynamik in der Nähe von 0 betont den Gradienten, während ein Wert nahe 1 die letzte Änderung betont.
Kostenfunktion
Es ist zwar möglich, eine Kostenfunktion zu definieren ad hochäufig wird die Wahl durch die wünschenswerten Eigenschaften der Funktion bestimmt (wie z. Konvexität) oder weil es aus dem Modell entsteht (z. B. in einem probabilistischen Modell das Modell des Modells hintere Wahrscheinlichkeit kann als umgekehrte Kosten verwendet werden).
Backpropagation
Backpropagation ist eine Methode, mit der die Verbindungsgewichte angepasst werden können, um jeden beim Lernen gefundenen Fehler zu kompensieren. Die Fehlermenge wird in den Verbindungen effektiv aufgeteilt. Technisch gesehen berechnet Backprop die Gradient (die Ableitung) der Kostenfunktion im Zusammenhang mit einem bestimmten Zustand in Bezug auf die Gewichte. Die Gewichtsaktualisierungen können über durchgeführt werden Stochastischer Gradientenabstieg oder andere Methoden wie z. Extreme Lernmaschinen,[57] "No-Prop" -Netzwerke,[58] Training ohne Backtracking,[59] "schwerelose" Netzwerke,[60][61] und Non-Connectionist Neural Networks.
Paradigmen lernen
Das maschinelle Lernen wird üblicherweise in drei Hauptlernparadigmen unterteilt, überwachtes Lernen, unbeaufsichtigtes Lernen und Verstärkungslernen.[62] Jedes entspricht einer bestimmten Lernaufgabe.
Überwachtes Lernen
Überwachtes Lernen Verwendet eine Reihe gepaarter Eingänge und gewünschter Ausgänge. Die Lernaufgabe besteht darin, die gewünschte Ausgabe für jeden Eingang zu erzeugen. In diesem Fall hängt die Kostenfunktion mit der Beseitigung falscher Abzüge zusammen.[63] Ein häufig verwendeter Kosten sind die mittlere quadratische Fehler, was versucht, den durchschnittlichen quadratischen Fehler zwischen der Ausgabe des Netzwerks und der gewünschten Ausgabe zu minimieren. Aufgaben, die für überwachtes Lernen geeignet sind, sind Mustererkennung (auch als Klassifizierung bezeichnet) und Regression (auch als Funktionsnäherung bezeichnet). Das überwachte Lernen ist auch für sequentielle Daten anwendbar (z. B. für Handschreiben, Sprache und Gestenerkennung). Dies kann als Lern mit einem "Lehrer" in Form einer Funktion betrachtet werden, die kontinuierliches Feedback zur Qualität der bisher erhaltenen Lösungen liefert.
Unbeaufsichtigtes Lernen
Im unbeaufsichtigtes Lernen, Eingabedaten werden zusammen mit der Kostenfunktion, einer einigen Funktion der Daten, angegeben und die Ausgabe des Netzwerks. Die Kostenfunktion ist abhängig von der Aufgabe (der Modelldomäne) und jeder a priori Annahmen (die impliziten Eigenschaften des Modells, seine Parameter und die beobachteten Variablen). Betrachten Sie als triviales Beispiel das Modell wo ist eine Konstante und die Kosten . Das Minimieren dieser Kosten erzeugt einen Wert von Das entspricht dem Mittelwert der Daten. Die Kostenfunktion kann viel komplizierter sein. Die Form hängt von der Anwendung ab: zum Beispiel in Kompression es könnte mit dem zusammenhängen gegenseitige Information zwischen und während in der statistischen Modellierung sie mit dem zusammenhängen könnte hintere Wahrscheinlichkeit des Modells angesichts der Daten (beachten Sie, dass diese Größen in beiden Beispielen eher maximiert als minimiert werden). Aufgaben, die in das Paradigma des unbeaufsichtigten Lernens fallen Einschätzung Probleme; Die Anwendungen umfassen Clusteringdie Schätzung von Statistische Verteilungen, Kompression und Filterung.
Verstärkungslernen
Bei Anwendungen wie dem Spielen von Videospielen ergriffen ein Schauspieler eine Reihe von Aktionen und erhält nach jedem einzelnen eine allgemein unvorhersehbare Antwort aus der Umgebung. Das Ziel ist es, das Spiel zu gewinnen, d. H. Die positivsten (niedrigsten Kosten-) Antworten zu generieren. Im VerstärkungslernenZiel ist es, das Netzwerk (eine Richtlinie zu entwickeln) zu gewichten, um Aktionen durchzuführen, die langfristige (erwartete kumulative) Kosten minimieren. Zu jedem Zeitpunkt führt der Agent eine Aktion aus, und die Umgebung erzeugt eine Beobachtung und eine sofortig Kosten nach einigen (normalerweise unbekannten) Regeln. Die Regeln und die langfristigen Kosten können normalerweise nur geschätzt werden. Zu jedem Zeitpunkt entscheidet der Agent, ob neue Maßnahmen zur Aufdeckung seiner Kosten erforscht oder frühere Lernen ausgenutzt werden sollen, um schneller vorzugehen.
Formal ist die Umgebung als modelliert als Markov -Entscheidungsprozess (MDP) mit Zuständen und Handlungen . Da die Zustandsübergänge nicht bekannt sind, werden stattdessen Wahrscheinlichkeitsverteilungen verwendet: die sofortige Kostenverteilung die Beobachtungsverteilung und die Übergangsverteilung während eine Richtlinie als die bedingte Verteilung über Maßnahmen angesichts der Beobachtungen definiert ist. Zusammengenommen definieren die beiden a Markov -Kette (MC). Ziel ist es, den niedrigsten MC zu entdecken.
ANNs dienen als Lernkomponente in solchen Anwendungen.[64][65] Dynamische Programmierung gepaart mit Anns (geben neurodynamisch Programmierung)[66] wurde auf Probleme wie die Beteiligten angewendet Fahrzeugrouting,[67] Videospiele, natürliches Ressourcenmanagement[68][69] und Medizin[70] Aufgrund der Fähigkeit der Anns, Genauigkeitsverluste zu mildern, selbst wenn die Verringerung der Diskretisierung Gitterdichte zur numerischen Annäherung an die Lösung von Kontrollproblemen. Aufgaben, die in das Paradigma des Verstärkungslernens fallen, sind Kontrollprobleme. Spiele und andere aufeinanderfolgende Entscheidungsaufgaben.
Selbstlernend
Das Selbstlern in neuronalen Netzwerken wurde 1982 zusammen mit einem neuronalen Netzwerk eingeführt, das sich selbst lernt, Crossbar Adaptive Array (CAA).[71] Es ist ein System mit nur einer Eingabe, Situation und nur einer Ausgabe, einer Aktion (oder einem Verhalten) a. Es hat weder externe Ratschläge noch externe Verstärkungseingaben aus der Umgebung. Die CAA berechnet in Querlatte sowohl Entscheidungen über Handlungen als auch Emotionen (Gefühle) über angetroffene Situationen. Das System wird von der Wechselwirkung zwischen Erkenntnis und Emotion angetrieben.[72] Bei der Speichermatrix, w = || w (a, s) ||, führt der Querschalle selbst-Learning-Algorithmus in jeder Iteration die folgende Berechnung durch:
In Situation s führt S Action a; Konsequenzsituation erhalten s '; Berechnen Sie die Emotionen des Seins in Konsequenzsituation V (S '); Aktualisieren Sie das Crossschelspeicher w '(a, s) = w (a, s) + v (s').
Der Back -Propag -Wert (sekundäre Verstärkung) ist die Emotion in Richtung der Konsequenzsituation. Die CAA existiert in zwei Umgebungen, eine Verhaltensumgebung, in der es sich verhält, und die andere ist eine genetische Umgebung, in der sie zunächst und nur einmal anfängliche Emotionen erhalten, um Situationen in der Verhaltensumgebung zu begegnen. Nachdem der Genomvektor (Artenvektor) aus der genetischen Umgebung erhalten wurde, lernt die CAA ein Zielsuchverhalten in der Verhaltensumgebung, die sowohl wünschenswerte als auch unerwünschte Situationen enthält.[73]
Neuroevolution
Neuroevolution kann Topologien und Gewichte neuronaler Netzwerke mithilfe von Erzeugen erzeugen Evolutionsberechnung. Es ist wettbewerbsfähig mit hoch entwickelten Gradientenabstiegsansätzen. Ein Vorteil der Neuroevolution besteht darin, dass es weniger anfällig ist, sich in "Sackgassen" zu befinden.[74]
Stochastisches neuronales Netzwerk
Stochastische neuronale Netzwerke ausgehend von Sherrington -Kirkpatrick -Modelle sind eine Art künstliches neuronales Netzwerk, das durch Einführung zufälliger Variationen in das Netzwerk erstellt wurde, entweder durch Angeben des Netzwerks des Netzwerks künstliche Neuronen stochastisch Übertragungsfunktionen oder indem sie ihnen stochastische Gewichte geben. Dies macht sie nützliche Werkzeuge für Optimierung Probleme, da die zufälligen Schwankungen dem Netzwerk helfen Lokale Minima.[75]
Sonstiges
In einem Bayesian Framework, eine Verteilung über die zulässigen Modelle, wird ausgewählt, um die Kosten zu minimieren. Evolutionsmethoden,[76] Genexpressionsprogrammierung,[77] simuliertes Glühen,[78] Erwartungsmaximierung, Nicht parametrische Methoden und Partikelschwarmoptimierung[79] sind andere Lernalgorithmen. Konvergente Rekursion ist ein Lernalgorithmus für Artikulationskontroller des Kleinhirnmodells (CMAC) Neuronale Netze.[80][81]
Modi
Zwei Lernmodi sind verfügbar: stochastisch und Batch. Beim stochastischen Lernen erzeugt jede Eingabe eine Gewichtsanpassung. In Batch Learning -Gewichten werden basierend auf einer Stapel -Eingabestands eingestellt, wobei Fehler über der Charge ansammeln. Das stochastische Lernen führt "Rauschen" in den Prozess ein und unter Verwendung des aus einem Datenpunkt berechneten lokalen Gradienten. Dies verringert die Wahrscheinlichkeit, dass das Netzwerk in lokalen Minima hängen bleibt. Das Batch -Lernen ergibt jedoch typischerweise einen schnelleren, stabileren Abstieg auf ein lokales Minimum, da jedes Update in Richtung des durchschnittlichen Fehlers des Charge durchgeführt wird. Ein häufiger Kompromiss ist die Verwendung von "Mini-Batches", kleine Chargen mit Proben in jeder Stapel, die stochistisch aus dem gesamten Datensatz ausgewählt wurden.
Typen
ANNs haben sich zu einer breiten Familie von Techniken entwickelt, die den Stand der Technik in mehreren Bereichen vorangetrieben haben. Die einfachsten Typen haben eine oder mehrere statische Komponenten, einschließlich Anzahl der Einheiten, Anzahl der Schichten, Einheitengewichte und Topologie. Dynamische Typen ermöglichen es einem oder mehreren davon, sich durch Lernen zu entwickeln. Letztere sind viel komplizierter, können aber Lernperioden verkürzen und bessere Ergebnisse erzielen. Einige Typen ermöglichen/erfordern das Lernen, vom Bediener "überwacht" zu werden, während andere unabhängig operieren. Einige Typen arbeiten nur in Hardware, während andere nur Software sind und auf allgemeinen Computern ausgeführt werden.
Einige der Hauptbrettungen umfassen: Faltungsnetzwerke die sich als besonders erfolgreich bei der Verarbeitung visueller und anderer zweidimensionaler Daten erwiesen haben;[82][83] Langes Kurzzeitgedächtnis vermeiden das Verschwandungsgradientenproblem[84] und kann Signale mit einer Mischung aus niedrigen und hochfrequenten Komponenten verarbeiten, die mit großer Vokabular-Spracherkennung unterstützt werden,[85][86] Text-to-Speech-Synthese,[87][15][88] und foto-reale sprechende Köpfe;[89] wettbewerbsfähige Netzwerke wie generative kontroverse Netzwerke in denen mehrere Netzwerke (unterschiedlicher Struktur) bei Aufgaben wie dem Gewinnen eines Spiels miteinander konkurrieren[90] oder als er den Gegner über die Authentizität eines Eingangs täuscht.[91]
Netzwerk-Design
Die Neural Architecture Search (NAS) verwendet maschinelles Lernen, um Ann Design zu automatisieren. Verschiedene Ansätze für NAS haben Netzwerke entworfen, die sich gut mit handgesteuerten Systemen vergleichen. Der grundlegende Suchalgorithmus besteht darin, ein Kandidatenmodell vorzuschlagen, es anhand eines Datensatzes zu bewerten und die Ergebnisse als Feedback zu verwenden, um das NAS -Netzwerk zu unterrichten.[92] Zu den verfügbaren Systemen gehören Automl und Autokeras.[93]
Zu den Designproblemen gehört die Entscheidung der Anzahl, der Art und der Verbindung von Netzwerkebenen sowie der Größe der einzelnen und des Verbindungstyps (voll, Pooling, ...).
Hyperparameter Muss auch als Teil des Designs definiert werden (sie werden nicht gelernt), regierende Angelegenheiten wie viele Neuronen in jeder Schicht, Lernrate, Schritt, Schritt, Tiefe, empfänglichem Feld und Polsterung (für CNNs) usw.[94]
Verwenden
Die Verwendung künstlicher neuronaler Netzwerke erfordert ein Verständnis für ihre Merkmale.
- Auswahl des Modells: Dies hängt von der Datendarstellung und der Anwendung ab. Übermäßig komplexe Modelle sind langsames Lernen.
- Lernalgorithmus: Es gibt zahlreiche Kompromisse zwischen Lernalgorithmen. Fast jeder Algorithmus funktioniert gut mit den richtigen Hyperparameter Für das Training auf einem bestimmten Datensatz. Die Auswahl und Abstimmung eines Algorithmus für das Training in unsichtbaren Daten erfordert jedoch erhebliche Experimente.
- Robustheit: Wenn das Modell, die Kostenfunktion und der Lernalgorithmus angemessen ausgewählt werden, kann die resultierende Ann robust werden.
Ann -Fähigkeiten fallen in die folgenden breiten Kategorien:
- Funktionsnäherung, oder Regressionsanalyse, einschließlich Zeitreihenvorhersage, Fitnessnäherung und Modellierung.
- Einstufung, einschließlich Muster und Sequenzerkennung, Neuheitserkennung und sequentielle Entscheidungsfindung.[95]
- Datenverarbeitung, einschließlich Filterung, Clustering, Blinde Quelltrennung und Komprimierung.
- Robotik, einschließlich der Regie von Manipulatoren und Prothesen.
Anwendungen
Aufgrund ihrer Fähigkeit, nichtlineare Prozesse zu reproduzieren und zu modellieren, haben künstliche neuronale Netze in vielen Disziplinen Anwendungen gefunden. Anwendungsbereiche umfassen Systemidentifikation und Kontrolle (Fahrzeugkontrolle, Flugbahnvorhersage,[96] Prozesssteuerung, natürliches Ressourcenmanagement), Quantenchemie,[97] Allgemeines Spiel spielen,[98] Mustererkennung (Radarsysteme, Gesichtsindentifizierung, Signalklassifizierung,[99] 3D -Rekonstruktion,[100] Objekterkennung und mehr), Sensordatenanalyse,[101] Sequenzerkennung (Geste, Sprache, handgeschrieben und gedruckte Texterkennung[102]), medizinische Diagnose, Finanzen[103] (z.B. automatisierte Handelssysteme), Data Mining, Visualisierung, MaschinenübersetzungFilterung des sozialen Netzwerks[104] und E-Mail-Spam Filterung. Anns wurden verwendet, um verschiedene Krebsarten zu diagnostizieren[105][106] und hochinvasive Krebszelllinien von weniger invasiven Linien mit nur Zellforminformationen zu unterscheiden.[107][108]
Anns wurden verwendet, um die Zuverlässigkeitsanalyse von Infrastrukturen zu beschleunigen, die Naturkatastrophen unterliegen[109][110] und die Siedlungen der Stiftung vorherzusagen.[111] ANNs wurden auch zum Erstellen von Black-Box-Modellen in verwendet Geowissenschaften: Hydrologie,[112][113] Ozeanmodellierung und Küsteningenieurwesen,[114][115] und Geomorphologie.[116] Anns wurden in beschäftigt in Internet-Sicherheitmit dem Ziel, zwischen legitimen und böswilligen Aktivitäten zu unterscheiden. Zum Beispiel wurde maschinelles Lernen zur Klassifizierung von Android -Malware verwendet,[117] Für die Identifizierung von Domänen, die zu Bedrohungsakteuren gehören und URLs erkennen, die ein Sicherheitsrisiko darstellen.[118] Die Forschung wird zu Ann -Systemen im Gange, die für Penetrationstests entwickelt wurden, zum Erkennen von Botneten,[119] Kreditkarten Betrug[120] und Netzwerkintrusionen.
Anns wurden als Werkzeug zur Lösung vorgeschlagen partielle Differentialgleichungen in der Physik[121][122][123] und simulieren die Eigenschaften eines Vielkörpers Offene Quantensysteme.[124][125][126][127] In der Gehirnforschung haben Anns das kurzfristige Verhalten von untersucht Einzelne Neuronen,[128] Die Dynamik der neuronalen Schaltkreise ergeben sich aus Wechselwirkungen zwischen einzelnen Neuronen und wie Verhalten aus abstrakten neuronalen Modulen entstehen kann, die vollständige Subsysteme darstellen. Studien berücksichtigten eine langfristige Plastizität neuronaler Systeme und ihre Beziehung zu Lernen und Gedächtnis vom einzelnen Neuron bis zur Systemebene.
Theoretische Eigenschaften
Rechenleistung
Das Mehrschichtiger Perceptron ist ein Universelle Funktion Angreifer, wie durch die nachgewiesen Universeller Annäherungssatz. Der Beweis ist jedoch nicht konstruktiv in Bezug auf die Anzahl der erforderlichen Neuronen, die Netzwerktopologie, die Gewichte und die Lernparameter.
Eine spezifische wiederkehrende Architektur mit rational-Wräges (im Gegensatz zu voller Präzision reelle Zahl-Wutung) hat die Kraft von a Universelle Turing -Maschine,[129] Verwenden einer endlichen Anzahl von Neuronen und Standard -linearen Verbindungen. Ferner die Verwendung von irrational Werte für Gewichte führen zu einer Maschine mit Super-Turing Energie.[130]
Kapazität
Die "Kapazitätseigenschaft" eines Modells entspricht seiner Fähigkeit, eine bestimmte Funktion zu modellieren. Es hängt mit der Menge an Informationen zusammen, die im Netzwerk und mit dem Begriff der Komplexität gespeichert werden können. Zwei Begriffe der Kapazität sind der Gemeinschaft bekannt. Die Informationskapazität und die VC -Dimension. Die Informationskapazität eines Wahrnehmung wird in Sir David Mackays Buch intensiv diskutiert[131] was die Arbeit von Thomas Cover zusammenfasst.[132] Die Kapazität eines Netzwerks von Standard -Neuronen (nicht Faltungsverkehr) kann durch vier Regeln abgeleitet werden[133] das stammt aus dem Verständnis eines Neurons als elektrisches Element. Die Informationskapazität erfasst die vom Netzwerk modellierbaren Funktionen, die alle Daten als Eingabe bezeichnet werden. Der zweite Begriff ist der VC -Dimension. VC Dimension verwendet die Prinzipien von Theorie messen und findet die maximale Kapazität unter den bestmöglichen Umständen. Dies ist in einem bestimmten Formular angegeben. Wie in festgestellt,[131] Die VC -Dimension für willkürliche Eingaben ist die Hälfte der Informationskapazität eines Wahrnehmung. Die VC -Dimension für willkürliche Punkte wird manchmal als Speicherkapazität bezeichnet.[134]
Konvergenz
Modelle konvergieren möglicherweise nicht konsistent auf einer einzelnen Lösung, zunächst, da lokale Minima vorhanden sein kann, abhängig von der Kostenfunktion und dem Modell. Zweitens kann die verwendete Optimierungsmethode möglicherweise nicht garantiert, wenn sie weit von einem lokalen Minimum entfernt beginnt. Drittens werden einige Methoden für ausreichend große Daten oder Parameter unpraktisch.
Ein weiteres Problem, das es wert ist, zu erwähnen, ist, dass das Training einige überqueren kann Sattelpunkt Dies kann die Konvergenz in die falsche Richtung führen.
Das Konvergenzverhalten bestimmter Arten von Ann -Architekturen wird mehr verstanden als andere. Wenn sich die Breite der Netzwerk nähert Affine -Modelle.[135][136] Ein weiteres Beispiel ist, wenn die Parameter klein sind, wird beobachtet, dass Anns häufig von Zielfunktionen von niedrigen bis hohen Frequenzen passt. Dieses Verhalten wird als spektraler Verzerrung oder Frequenzprinzip neuronaler Netzwerke bezeichnet.[137][138][139][140] Dieses Phänomen ist das Gegenteil des Verhaltens einiger gut untersuchter iterativer numerischer Schemata, wie sie Jacobi -Methode. Es wurde beobachtet, dass tiefere neuronale Netze mehr gegenüber niedrigen Frequenzfunktionen voreingenommen sind.[141]
Generalisierung und Statistik
Anwendungen, deren Ziel es ist, ein System zu schaffen, das sich gut auf unsichtbare Beispiele verallgemeinert, sind der Möglichkeit einer Übertrainung ausgesetzt. Dies tritt in verwickelten oder überspezifizierten Systemen auf, wenn die Netzwerkkapazität die erforderlichen freien Parameter erheblich überschreitet. Zwei Ansätze befassen sich mit Übertraining. Das erste ist zu verwenden cross-validation und ähnliche Techniken, um das Vorhandensein von Übertraining zu überprüfen und auszuwählen Hyperparameter So minimieren Sie den Verallgemeinerungsfehler.
Die zweite ist die Verwendung einer Form von Regulierung. Dieses Konzept entsteht in einem probabilistischen (Bayes'schen) Rahmen, in dem die Regularisierung durchgeführt werden kann, indem eine größere vorherige Wahrscheinlichkeit über einfachere Modelle ausgewählt wird. aber auch in der statistischen Lerntheorie, wo das Ziel darin besteht, über zwei Mengen zu minimieren: das „empirische Risiko“ und das „strukturelle Risiko“, das ungefähr dem Fehler über den Trainingssatz und dem vorhergesagten Fehler in unsichtbaren Daten aufgrund von Überanpassung entspricht.

Übersichtliche neuronale Netze, die a verwenden mittlere quadratische Fehler (MSE) Kostenfunktion kann formelle statistische Methoden verwenden, um das Vertrauen des geschulten Modells zu bestimmen. Die MSE in einem Validierungssatz kann als Schätzung für die Varianz verwendet werden. Dieser Wert kann dann verwendet werden, um die zu berechnen Konfidenzintervall der Netzwerkausgabe unter der Annahme a Normalverteilung. Eine auf diese Weise durchgeführte Vertrauensanalyse ist statistisch gültig wie die Ausgabe Wahrscheinlichkeitsverteilung bleibt gleich und das Netzwerk wird nicht geändert.
Durch Zuweisen a Softmax -Aktivierungsfunktion, eine Verallgemeinerung der Logistische FunktionAuf der Ausgangsschicht des neuronalen Netzwerks (oder einer Softmax-Komponente in einem komponentenbasierten Netzwerk) für kategoriale Zielvariablen können die Ausgänge als hintere Wahrscheinlichkeiten interpretiert werden. Dies ist nützlich bei der Klassifizierung, da sie eine Gewissheit der Klassifizierungen ergibt.
Die Softmax -Aktivierungsfunktion lautet:
Kritik
Ausbildung
Eine häufige Kritik an neuronalen Netzwerken, insbesondere in der Robotik, ist, dass sie zu viel Schulungen für den realen Betrieb benötigen. Zu den potenziellen Lösungen gehören zufällig mischende Trainingsbeispiele unter Verwendung eines numerischen Optimierungsalgorithmus, der beim Ändern der Netzwerkverbindungen nach einem Beispiel nicht zu große Schritte unternimmt CMAC.[80]
Theorie
Ein grundlegender Einwand ist, dass Anns die neuronale Funktion nicht ausreichend widerspiegeln. Backpropagation ist ein kritischer Schritt, obwohl in biologischen neuronalen Netzwerken kein solcher Mechanismus vorhanden ist.[142] Wie Informationen von realen Neuronen codiert werden, ist nicht bekannt. Sensorneuronen Feuer Aktionspotentiale häufiger mit Sensoraktivierung und Muskelzellen Ziehen Sie stärker ab, wenn sie assoziiert sind motorische Neuronen Erhalten Sie Aktionspotentiale häufiger.[143] Abgesehen von der Übergabe von Informationen von einem Sensor -Neuron an ein Motoneuron ist fast nichts von den Prinzipien, wie Informationen von biologischen neuronalen Netzwerken behandelt werden.
Eine zentrale Behauptung von Anns ist, dass sie neue und leistungsstarke allgemeine Grundsätze für die Verarbeitung von Informationen verkörpern. Diese Prinzipien sind schlecht definiert. Es wird oft behauptet, dass sie es sind Emergent aus dem Netzwerk selbst. Auf diese Weise können einfache statistische Assoziation (die grundlegende Funktion künstlicher neuronaler Netzwerke) als Lern- oder Anerkennung beschrieben werden. In 1997, Alexander Dewdney kommentierte, dass künstliche neuronale Netze infolgedessen eine "etwas für nichts für die Qualität haben, die eine eigenartige Aura der Faulheit und einen deutlichen Mangel an Neugier darüber verleiht, wie gut diese Computersysteme sind. Keine menschliche Hand (oder Geist). Intervenes; Lösungen werden wie durch Magie gefunden, und niemand, wie es scheint, hat etwas gelernt.[144] Eine Reaktion auf Dewdney ist, dass neuronale Netze viele komplexe und vielfältige Aufgaben erledigen, die von autonom fliegenden Flugzeugen reichen[145] zum Erkennen von Kreditkartenbetrug zur Beherrschung des Spiels von gehen.
Der Technologieautor Roger Bridgman kommentierte:
Neuronale Netzwerke zum Beispiel sind nicht nur, weil sie in den hohen Himmel gehandelt wurden (was hat nicht?), Sondern auch, weil Sie ein erfolgreiches Netz schaffen könnten, ohne zu verstehen, wie es funktioniert hat: die Häufigkeit von Zahlen, die seine erfassen Das Verhalten wäre höchstwahrscheinlich "eine undurchsichtige, unlesbare Tabelle ... als wissenschaftliche Ressource wertlos".
Trotz seiner nachdrücklichen Erklärung, dass die Wissenschaft keine Technologie ist, scheint Dewdney hier die nördlichen neuronalen Netze als schlechte Wissenschaft zu sein, wenn die meisten derjenigen, die sie entwickeln, nur versuchen, gute Ingenieure zu sein. Eine unlesbare Tabelle, die eine nützliche Maschine lesen könnte, wäre immer noch wert.[146]
Biologische Gehirne verwenden sowohl flache als auch tiefe Schaltkreise, wie von der Gehirnanatomie berichtet,[147] Zeigen Sie eine Vielzahl von Invarianz. Weng[148] argumentierte, dass die Selbstdrähte des Gehirns weitgehend gemäß den Signalstatistiken und damit eine serielle Kaskade nicht alle wichtigen statistischen Abhängigkeiten fangen können.
Hardware
Große und effektive neuronale Netze erfordern erhebliche Rechenressourcen.[149] Während das Gehirn Hardware hat, die auf die Aufgabe zugeschnitten ist, Signale über a zu verarbeiten Graph von Neuronen, die sogar ein vereinfachtes Neuron simuliert Von Neumann Architektur kann riesige Mengen von konsumieren Erinnerung und Speicherung. Darüber hinaus muss der Designer häufig Signale über viele dieser Verbindungen und seine damit verbundenen Neuronen übertragen, die enorm erfordern Zentralprozessor Kraft und Zeit.
Schmidhuber stellte fest, dass das Wiederaufleben neuronaler Netze im 21. Jahrhundert weitgehend auf Fortschritte in der Hardware zurückzuführen ist Gpgpus (an GPUS), hat um ein Millionfache gestiegen, was den Standard-Backpropagationsalgorithmus für Trainingsnetzwerke machbar macht, die mehrere Schichten tiefer sind als zuvor.[12] Die Verwendung von Beschleunigern wie z. Fpgas Und GPUs können die Trainingszeiten von Monaten bis Tagen verkürzen.[149]
Neuromorphe Engineering oder ein physisches neuronales Netzwerk adressiert die Hardware-Schwierigkeit direkt, indem sie nicht-von-Neumann-Chips konstruieren, um neuronale Netze in Schaltkreisen direkt zu implementieren. Eine andere Art von Chip, die für die Verarbeitung neuronaler Netzwerk optimiert sind Tensor -Verarbeitungseinheit, oder TPU.[150]
Praktische Gegenbeispiele
Die Analyse dessen, was von einer ANN gelernt wurde, ist viel einfacher als zu analysieren, was von einem biologischen neuronalen Netzwerk gelernt wurde. Darüber hinaus entdecken Forscher, die an der Erforschung von Lernalgorithmen für neuronale Netze beteiligt sind, allmählich allgemeine Prinzipien auf, die es einer Lernmaschine ermöglichen, erfolgreich zu sein. Zum Beispiel lokaler vs. nicht lokaler Lernen und flacher vs. tiefe Architektur.[151]
Hybride Ansätze
Befürworter von Hybrid Modelle (kombiniert neuronale Netzwerke und symbolische Ansätze) behaupten, dass eine solche Mischung die Mechanismen des menschlichen Geistes besser erfassen kann.[152]
Galerie
Ein einzelnes künstliches neuronales Netzwerk. Pfeile von sind aus Klarheit weggelassen. Es gibt P -Eingänge für dieses Netzwerk und Q -Ausgänge. In diesem System der Wert der Q -ten Ausgabe, würde berechnet als
Ein zweischichtiges künstliches neuronales Netzwerk.
Ein künstliches neuronales Netzwerk.
Eine Ann -Abhängigkeitsgrafik.
Ein einzelnes künstliches künstliches neuronales Netzwerk mit 4 Eingängen, 6 versteckten und 2 Ausgängen. Gegebener Positionszustand und Richtungsausgänge gibt radbasierte Steuerwerte aus.
Ein zweischichtiges künstliches künstliches neuronales Netzwerk mit 8 Eingängen, 2x8 versteckt und 2 Ausgänge. Der gegebene Positionszustand, die Richtung und andere Umgebungswerte geben durchsetzungsbasierte Kontrollwerte aus.
Parallele Pipeline -Struktur des neuronalen Netzwerks CMAC. Dieser Lernalgorithmus kann in einem Schritt konvergieren.
Siehe auch
- Adaline
- Autocoder
- Biologisch inspiriertes Computer
- Blaues Gehirnprojekt
- Katastrophale Einmischung
- Kognitive Architektur
- Connectionist Expert System
- Connectomics
- Große Breitengrenzen der neuronalen Netze
- Konzepte für maschinelles Lernen
- Nervengas
- Neuronale Netzwerksoftware
- Optisches neuronales Netzwerk
- Parallele verteilte Verarbeitung
- Wiederkehrende neuronale Netze
- Spikes neuronales Netzwerk
- Tensor -Produktnetzwerk
Anmerkungen
- ^ Lenkung für die 1995 "Keine Hände in ganz Amerika"Erforderlich" nur wenige menschliche Vorlagen ".
Verweise
- ^ Hardesty, Larry (14. April 2017). "Erklärt: Neuronale Netze". MIT News Office. Abgerufen 2. Juni 2022.
- ^ Yang, Z. R.; Yang, Z. (2014). Umfassende biomedizinische Physik. Karolinska Institute, Stockholm, Schweden: Elsevier. p. 1. ISBN 978-0-444-53633-4.
- ^ McCulloch, Warren; Walter Pitts (1943). "Ein logischer Berechnung von Ideen immanent in nervöser Aktivität". Bulletin der mathematischen Biophysik. 5 (4): 115–133. doi:10.1007/bf02478259.
- ^ Kleene, S. C. (1956). "Darstellung von Ereignissen in Nervennetzen und endlichen Automaten". Annalen der Mathematikstudien. Nr. 34. Princeton University Press. S. 3–41. Abgerufen 17. Juni 2017.
- ^ Hebb, Donald (1949). Die Organisation des Verhaltens. New York: Wiley. ISBN 978-1-135-63190-1.
- ^ Farley, B.G.; W. A. Clark (1954). "Simulation von selbstorganisierenden Systemen nach digitalem Computer". IRE -Transaktionen zur Informationstheorie. 4 (4): 76–84. doi:10.1109/tit.1954.1057468.
- ^ Haykin (2008) Neuronale Netze und Lernmaschinen, 3. Auflage
- ^ Rosenblatt, F. (1958). "Das Perzeptron: Ein probabilistisches Modell für die Speicherung und Organisation des Gehirns für Informationsspeicherung". Psychologische Überprüfung. 65 (6): 386–408. Citeseerx 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029.
- ^ Werbos, P. J. (1975). Jenseits der Regression: Neue Instrumente für Vorhersage und Analyse in den Verhaltenswissenschaften.
- ^ Rosenblatt, Frank (1957). "Die Wahrnehmung - ein Automaten wahrnehmen und anerkannt". Bericht 85-460-1. Cornell Aeronautical Laboratory.
- ^ Olazaran, Mikel (1996). "Eine soziologische Untersuchung der offiziellen Geschichte der Wahrnehmungskontroverse". Sozialwissenschaften der Wissenschaft. 26 (3): 611–659. doi:10.1177/030631296026003005. JStor 285702. S2CID 16786738.
- ^ a b c Schmidhuber, J. (2015). "Deep Learning in neuronalen Netzwerken: Ein Überblick". Neuronale Netze. 61: 85–117. Arxiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
- ^ Ivakhnenko, A. G. (1973). Kybernetische Vorhersagegeräte. CCM Information Corporation.
- ^ Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentin (1967). Kybernetik und Prognosetechniken. American Elsevier Pub. Co.
- ^ a b c Schmidhuber, Jürgen (2015). "Tiefes Lernen". Gelehrter. 10 (11): 85–117. Bibcode:2015schpj..1032832s. doi:10.4249/Scholarpedia.32832.
- ^ Dreyfus, Stuart E. (1. September 1990). "Künstliche neuronale Netzwerke, Rückenvermehrung und das Kelley-Bryson-Gradientenverfahren". Journal of Guidance, Kontrolle und Dynamik. 13 (5): 926–928. Bibcode:1990JGCD ... 13..926d. doi:10.2514/3.25422. ISSN 0731-5090.
- ^ Mizutani, E.; Dreyfus, S.E.; Nishio, K. (2000). "Zur Ableitung der MLP-Backpropagation aus der Kelley-Bryson-Optimalkontrollgradientenformel und seiner Anwendung". Proceedings der IEEE-INNS-NS International Joint Conference on Neural Networks. IJCNN 2000. Neural Computing: Neue Herausforderungen und Perspektiven für das neue Jahrtausend. IEEE: 167–172 Vol.2. doi:10.1109/ijcnn.2000.857892. ISBN 0-7695-0619-4. S2CID 351146.
- ^ Kelley, Henry J. (1960). "Gradiententheorie optimaler Flugwege". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
- ^ "Eine Gradientenmethode zur Optimierung mehrstufiger Allokationsprozesse". Verfahren der Harvard Univ. Symposium für digitale Computer und deren Anwendungen. April 1961.
- ^ Minsky, Marvin; Papert, Seymour (1969). Wahrnehmung: Eine Einführung in die Computergeometrie. MIT Press. ISBN 978-0-262-63022-1.
- ^ Linnainmaa, Seppo (1970). Die Darstellung des kumulativen Rundungsfehlers eines Algorithmus als Taylor -Expansion der lokalen Rundungsfehler (Masters) (auf Finnisch). Universität von Helsinki. S. 6–7.
- ^ Linnainmaa, Seppo (1976). "Taylor -Expansion des akkumulierten Rundungsfehlers". Bit numerische Mathematik. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
- ^ Dreyfus, Stuart (1973). "Die rechnerische Lösung optimaler Kontrollprobleme mit der Zeitverzögerung". IEEE -Transaktionen zur automatischen Steuerung. 18 (4): 383–385. doi:10.1109/tac.1973.1100330.
- ^ Werbos, Paul (1982). "Anwendungen von Fortschritten in der nichtlinearen Sensitivitätsanalyse" (PDF). Systemmodellierung und Optimierung. Springer. S. 762–770.
- ^ Mead, Carver A.; Ismail, Mohammed (8. Mai 1989). Analoge VLSI -Implementierung von neuronalen Systemen (PDF). Die Kluwer International Series in Engineering und Informatik. Vol. 80. Norwell, MA: KLUWER Academic Publishers. doi:10.1007/978-1-4613-1639-8. ISBN 978-1-4613-1639-8.
- ^ David E. Rumelhart, Geoffrey E. Hinton & Ronald J. Williams, "Lerndarstellungen durch Rückgängerfehler , " Nature ', 323, Seiten 533–536 1986.
- ^ Qian, Ning und Terrence J. Sejnowski. "Vorhersage der sekundären Struktur von kugelförmigen Proteinen mithilfe neuronaler Netzwerkmodelle." Journal of Molecular Biology 202, nein. 4 (1988): 865-884.
- ^ Bohr, Henrik, Jakob Bohr, Søren Brunak, Rodney MJ Cotterill, Benny Lautrup, Leif Nørskov, Ole H. Olsen und Steffen B. Petersen. "Protein-Sekundärstruktur und Homologie durch neuronale Netze die α-Helices in Rhodopsin." FEBS Briefe 241, (1988): 223-228
- ^ Rost, Burkhard und Chris Sander. "Vorhersage der Proteinsekundärstruktur bei besser als 70% Genauigkeit." Journal of Molecular Biology 232, Nr. 2 (1993): 584-599.
- ^ J. Weng, N. Ahuja und T. S. Huang, "Cresceptron: Ein sich selbst organisierendes neuronales Netzwerk, das adaptiv wächst, " Proc. Internationale gemeinsame Konferenz über neuronale Netze, Baltimore, Maryland, Band I, S. 576–581, Juni 1992.
- ^ J. Weng, N. Ahuja und T. S. Huang, "Lernerkennung und Segmentierung von 3-D-Objekten aus 2-D-Bildern, " Proc. 4. International Conf. Computer VisionBerlin, Deutschland, S. 121–128, Mai 1993.
- ^ J. Weng, N. Ahuja und T. S. Huang, "Lernerkennung und Segmentierung mit dem Cresceptron, " Internationales Journal of Computer Vision, vol. 25, nein. 2, S. 105–139, November 1997.
- ^ J. Schmidhuber. "Lernkomplex, erweiterte Sequenzen unter Verwendung des Prinzips der Geschichtekomprimierung, " Neuronale Berechnung4, S. 234–242, 1992.
- ^ Domingos, Pedro (22. September 2015). "Kapitel 4". Der Master -Algorithmus: Wie die Suche nach der ultimativen Lernmaschine unsere Welt neu gestalten wird. Grundbücher. ISBN 978-0465065707.
- ^ Smolensky, P. (1986). "Informationsverarbeitung in dynamischen Systemen: Grundlagen der Harmonie -Theorie.". In D. E. Rumelhart; J. L. McClelland; PDP -Forschungsgruppe (Hrsg.). Parallele verteilte Verarbeitung: Erkundungen in der Mikrostruktur der Kognition. Vol. 1. pp.194–281. ISBN 978-0-262-68053-0.
- ^ Ng, Andrew; Dean, Jeff (2012). "Aufbau hochrangiger Merkmale mit großem Maßstab unbeaufsichtigtem Lernen". Arxiv:1112.6209 [cs.lg].
- ^ Ian Goodfellow und Yoshua Bengio und Aaron Courville (2016). Tiefes Lernen. MIT Press.
- ^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21. September 2010). "Tiefe, große, einfache neuronale Netze für handgeschriebene Ziffernerkennung". Neuronale Berechnung. 22 (12): 3207–3220. Arxiv:1003.0358. doi:10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673.
- ^ Dominik Scherer, Andreas C. Müller und Sven Behnke: "Bewertung von Pooloperationen in Faltungsarchitekturen zur Objekterkennung, " In der 20. Internationalen Konferenz künstliche neuronale Netzwerke (ICANN), S. 92–101, 2010. doi:10.1007/978-3-642-15825-4_10.
- ^ 2012 Kurzweil AI Interview Archiviert 31. August 2018 bei der Wayback -Maschine mit Jürgen Schmidhuber Bei den acht Wettbewerben, die sein Deep Learning Team 2009–2012 gewonnen haben
- ^ "Wie biologisch inspiriertes Deep Learning weiterhin Wettbewerbe gewinnt | Kurzweilai". www.kurzweilai.net. Archiviert von das Original am 31. August 2018. Abgerufen 16. Juni 2017.
- ^ a b Graves, Alex; Schmidhuber, Jürgen (2009). "Offline -Handschrifterkennung mit mehrdimensionalen wiederkehrenden neuronalen Netzwerken" (PDF). In Koller, D.; Schuurmans, Dale; Bengio, Yoshua; Bottou, L. (Hrsg.). Fortschritte in den neuronalen Informationsverarbeitungssystemen 21 (NIPS 2008). NIPS -Stiftung für neuronale Informationsverarbeitungssysteme (NIPS). S. 545–552. ISBN 9781605609492.
- ^ a b Graves, a.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (Mai 2009). "Ein neuartiges verbindungsorientiertes System für nicht eingeschränkte Handschrifterkennung" (PDF). IEEE -Transaktionen zur Musteranalyse und Maschinenintelligenz. 31 (5): 855–868. Citeseerx 10.1.1.139.4502. doi:10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860. S2CID 14635907.
- ^ Ciresan, Dan; Meier, u.; Schmidhuber, J. (Juni 2012). Tiefe neuronale Netzwerke für die Bildklassifizierung mit mehreren Spalten. 2012 IEEE -Konferenz zur Computer Vision und Mustererkennung. S. 3642–3649. Arxiv:1202.2745. Bibcode:2012ArXIV1202.2745c. Citeseerx 10.1.1.300.3283. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. S2CID 2161592.
- ^ a b Zell, Andreas (2003). "Kapitel 5.2". Simulation Neuronaler Netze [Simulation neuronaler Netze] (auf Deutsch) (1. Aufl.). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987.
- ^ Künstliche Intelligenz (3. Aufl.). Addison-Wesley Pub. Co. 1992. ISBN 0-201-53377-4.
- ^ Abbod, Maysam F (2007). "Anwendung künstlicher Intelligenz auf das Management von urologischem Krebs". Das Journal of Urology. 178 (4): 1150–1156. doi:10.1016/j.juro.2007.05.122. PMID 17698099.
- ^ Dawson, Christian W (1998). "Ein Ansatz für künstliches neuronales Netzwerk zur Modellierung von Niederschlagsfaktoren". Hydrological Sciences Journal. 43 (1): 47–66. doi:10.1080/02626669809492102.
- ^ "Das Wörterbuch für maschinelles Lernen". www.cse.unsw.edu.au. Archiviert von das Original am 26. August 2018. Abgerufen 4. November 2009.
- ^ Ciresan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jürgen Schmidhuber (2011). "Flexible, Hochleistungssektor -Neural -Netzwerke für die Bildklassifizierung" (PDF). Verfahren der zweiundzwanzigsten internationalen gemeinsamen Konferenz über künstliche Intelligenz-Volumen-Band zwei. 2: 1237–1242. Archiviert (PDF) vom Original am 5. April 2022. Abgerufen 7. Juli 2022.
- ^ Zell, Andreas (1994). Simulation Neuronaler Netze [Simulation neuronaler Netze] (auf Deutsch) (1. Aufl.). Addison-Wesley. p. 73. ISBN 3-89319-554-8.
- ^ Miljanovic, Milos (Februar -März 2012). "Vergleichende Analyse der rezidivierenden und endlichen Impulsreaktion neuronale Netze in der Zeitreihenvorhersage" (PDF). Indian Journal of Computer and Engineering. 3 (1).
- ^ Lau, Suki (10. Juli 2017). "Eine Vorgehensweise des neuronalen Netzwerks mit Faltung - Hyperparameter -Tuning". Mittel. Abgerufen 23. August 2019.
- ^ Kelleher, John D.; MAC NAMEE, Brian; D'Arcy, Aoife (2020). "7-8". Grundlagen des maschinellen Lernens für Vorhersagedatenanalysen: Algorithmen, Arbeitsbeispiele und Fallstudien (2. Aufl.). Cambridge, MA. ISBN 978-0-262-36110-1. OCLC 1162184998.
- ^ Wei, Jiakai (26. April 2019). "Vergessen Sie die Lernrate, Verfall des Verlusts". Arxiv:1905.00094 [cs.lg].
- ^ Li, Y.; Fu, Y.; Li, H.; Zhang, S. W. (1. Juni 2009). Der verbesserte Trainingsalgorithmus des neuronalen Netzwerks von Back Propagation mit selbstvertretender Lernrate. Internationale Konferenz 2009 für Computer -Intelligenz und natürliches Computing. Vol. 1. S. 73–76. doi:10.1109/cinc.2009.111. ISBN 978-0-7695-3645-3. S2CID 10557754.
- ^ Huang, Guang-Bin; Zhu, Qin-yu; Siew, Chee-Kheong (2006). "Extreme Lernmaschine: Theorie und Anwendungen". Neurokomputierung. 70 (1): 489–501. Citeseerx 10.1.1.217.3692. doi:10.1016/j.neucom.2005.12.126.
- ^ Widrow, Bernard; et al. (2013). "Der No-Prop-Algorithmus: Ein neuer Lernalgorithmus für mehrschichtige neuronale Netzwerke". Neuronale Netze. 37: 182–188. doi:10.1016/j.neunet.2012.09.020. PMID 23140797.
- ^ Ollivier, Yann; Charpiat, Guillaume (2015). "Training wiederkehrende Netzwerke ohne Rückverfolgung". Arxiv:1507.07680 [cs.ne].
- ^ Hinton, G. E. (2010). "Ein praktischer Leitfaden für das Training eingeschränkte Boltzmann -Maschinen". Technik. Rep. UTML TR 2010-003.
- ^ Esann. 2009.[Vollständiges Zitat benötigt]
- ^ Bernard, Etienne (2021). Einführung in maschinelles Lernen. Wolfram Media Inc. p. 9. ISBN 978-1-579550-48-6.
- ^ Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1. April 2017). "Metaheuristisches Design von neuronalen Netzwerken von Feedforward: Eine Überprüfung von zwei Jahrzehnten der Forschung". Technische Anwendungen künstlicher Intelligenz. 60: 97–116. Arxiv:1705.05584. Bibcode:2017ArXIV170505584o. doi:10.1016/j.engappai.2017.01.013. S2CID 27910748.
- ^ Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (Juli 1991). "Genetisches Verstärkungslernen für neuronale Netze". IJCNN-91-Seattle International gemeinsame Konferenz über neuronale Netze. IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, USA: IEEE. S. 71–76. doi:10.1109/ijcnn.1991.155315. ISBN 0-7803-0164-1.
- ^ Hoskins, J.C.; Himmelblau, D.M. (1992). "Prozesskontrolle durch künstliche neuronale Netzwerke und Verstärkungslernen". Computer- und Chemieingenieurwesen. 16 (4): 241–251. doi:10.1016/0098-1354 (92) 80045-B.
- ^ Bertsekas, D.P.; Tsitsiklis, J.N. (1996). Neuro-dynamische Programmierung. Athena Scientific. p. 512. ISBN 978-1-886529-10-6.
- ^ Secomandi, Nicola (2000). "Vergleich von neuro-dynamischen Programmieralgorithmen für das Fahrzeugroutingproblem mit stochastischen Anforderungen". Computer & Operations Research. 27 (11–12): 1201–1225. Citeseerx 10.1.1.392.4034. doi:10.1016/s0305-0548 (99) 00146-X.
- ^ de rigo, d.; Rizzoli, A. E.; Soncini-sessa, R.; Weber, E.; Zenesi, P. (2001). "Neuro-dynamische Programmierung für das effiziente Management von Reservoirnetzwerken". Proceedings of Modsim 2001, Internationaler Kongress für Modellierung und Simulation. Modsim 2001, Internationaler Kongress für Modellierung und Simulation. Canberra, Australien: Modellierung und Simulationsgesellschaft von Australien und Neuseeland. doi:10.5281/Zenodo.7481. ISBN 0-86740-525-2.
- ^ Damas, M.; Salmeron, M.; Diaz, a.; Ortega, J.; Prieto, A.; Olivares, G. (2000). "Genetische Algorithmen und neuro-dynamische Programmierung: Anwendung auf Wasserversorgungsnetzwerke". Verfahren des 2000 Kongresses zur evolutionären Berechnung. 2000 Kongress für evolutionäre Berechnung. Vol. 1. La Jolla, Kalifornien, USA: IEEE. S. 7–14. doi:10.1109/cec.2000.870269. ISBN 0-7803-6375-2.
- ^ Deng, Geng; Ferris, M.C. (2008). Neuro-dynamische Programmierung für die fraktionierte Strahlentherapieplanung. Springeroptimierung und ihre Anwendungen. Vol. 12. S. 47–70. Citeseerx 10.1.1.137.8288. doi:10.1007/978-0-387-73299-2_3. ISBN 978-0-387-73298-5.
- ^ Bozinovski, S. (1982). "Ein selbstlernendes System mit sekundärer Verstärkung". In R. Trappl (Hrsg.) Cybernetics and Systems Research: Proceedings des sechsten Europäischen Treffens zur Kybernetik und Systemforschung. North Holland. S. 397–402. ISBN978-0-444-86488-8.
- ^ Bozinovski, S. (2014) "Modellierungsmechanismen der Kognitionsemotion-Interaktion in künstlichen neuronalen Netzwerken seit 1981. "Procedia Informatik S. 255-263
- ^ Bozinovski, Stevo; Bozinovska, Liljana (2001). "Selbstlernende Agenten: Eine Verbindungstheorie der Emotion, die auf Crossbar Value-Urteilsvermögen basiert". Kybernetik und Systeme. 32 (6): 637–667. doi:10.1080/01969720118145. S2CID 8944741.
- ^ "Künstliche Intelligenz kann sich entwickeln, um Probleme zu lösen". Wissenschaft | AAAs. 10. Januar 2018. Abgerufen 7. Februar 2018.
- ^ Turchetti, Claudio (2004), Stochastische Modelle neuronaler Netze, Frontiers in künstlicher Intelligenz und Anwendungen: Wissensbasiertes intelligentes Engineering Systems, Vol. 102, iOS Press, ISBN 9781586033880
- ^ de rigo, d.; Castelletti, A.; Rizzoli, A. E.; Soncini-sessa, R.; Weber, E. (Januar 2005). "Eine selektive Verbesserungstechnik zum Befestigen von neuro-dynamischer Programmierung in der Wasserressourcen-Netzwerkmanagement". In Pavel Zítek (Hrsg.). Verfahren des 16. IFAC-Weltkongresses-IFAC-Papersonline. 16. IFAC -Weltkongress. Vol. 16. Prag, Tschechische Republik: Ifac. S. 7–12. doi:10.3182/20050703-6-CZ-1902.02172. HDL:11311/255236. ISBN 978-3-902661-75-3. Abgerufen 30. Dezember 2011.
- ^ Ferreira, C. (2006). "Entwerfen neuronaler Netzwerke mit der Genexpressionsprogrammierung". In A. Abraham; B. de Baets; M. Köppen; B. Nickolay (Hrsg.). Angewandte Soft Computing -Technologien: Die Herausforderung der Komplexität (PDF). Springer-Verlag. S. 517–536.
- ^ Tag.; Xiurun, G. (Juli 2005). "Eine verbesserte PSO-basierte Ann mit simulierter Tempelstechnik". In T. Villmann (Hrsg.). Neue Aspekte im Neurocomputing: 11. europäisches Symposium über künstliche neuronale Netze. Vol. 63. Elsevier. S. 527–533. doi:10.1016/j.neucom.2004.07.002. Archiviert von das Original am 25. April 2012. Abgerufen 30. Dezember 2011.
- ^ Wu, J.; Chen, E. (Mai 2009). "Ein neuartiges nichtparametrisches Regressionssemble zur Niederschlagsvorhersage unter Verwendung der Partikelschwarmoptimierungstechnik in Verbindung mit künstlichem neuronalem Netzwerk". In Wang, H.; Shen, Y.; Huang, T.; Zeng, Z. (Hrsg.). 6. Internationales Symposium für neuronale Netze, ISNN 2009. Vorlesungsnotizen in Informatik. Vol. 5553. Springer. S. 49–58. doi:10.1007/978-3-642-01513-7_6. ISBN 978-3-642-01215-0. Archiviert von das Original am 31. Dezember 2014. Abgerufen 1. Januar 2012.
- ^ a b Ting Qin; Zonghai Chen; Haitao Zhang; Sifu li; Wei Xiang; Ming Li (2004). "Ein Lernalgorithmus von CMAC basiert auf RLS" (PDF). Neuronale Verarbeitungsbuchstaben. 19 (1): 49–61. doi:10.1023/b: nepl.0000016847.18175.60. S2CID 6233899.
- ^ Ting Qin; Haitao Zhang; Zonghai Chen; Wei Xiang (2005). "Kontinuierliche CMAC-QRLs und sein systolisches Array" (PDF). Neuronale Verarbeitungsbuchstaben. 22 (1): 1–16. doi:10.1007/s11063-004-2694-0. S2CID 16095286.
- ^ Lecun Y, Boser B, Denker JS, Henderson D, Howard RE, Hubbard W, Jackel LD (1989). "Backpropagation angewendet auf handgeschriebene Postleitzahlerkennung". Neuronale Berechnung. 1 (4): 541–551. doi:10.1162/neco.1989.1.4.541. S2CID 41312633.
- ^ Yann Lecun (2016). Rutscht auf tiefes Lernen Online
- ^ Hochreiter, Sepp; Schmidhuber, Jürgen (1. November 1997). "Langes Kurzzeitgedächtnis". Neuronale Berechnung. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
- ^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). "Langes Kurzzeitgedächtnis rezidivierende neuronale Netzwerkarchitekturen für die akustische Modellierung in großem Maßstab" (PDF). Archiviert von das Original (PDF) am 24. April 2018.
- ^ Li, Xiangang; Wu, Xihong (15. Oktober 2014). "Konstruktion des langfristigen Kurzzeitgedächtnisses basierend tiefer wiederkehrender neuronaler Netze für große Vokabular-Spracherkennung". Arxiv:1410.4281 [cs.cl].
- ^ Fan, y.; Qian, Y.; Xie, F.; Soong, F. K. (2014). "TTS -Synthese mit bidirektionalem LSTM -basierten wiederkehrenden neuronalen Netzwerken". Proceedings der Jahreskonferenz der International Speech Communication Association, Interspeech: 1964–1968. Abgerufen 13. Juni 2017.
- ^ Zen, Heiga; Sak, Hasim (2015). "Unidirectional Long-Term Memory Recurrent Neural Network mit rezidivierender Ausgangsschicht für die Sprachsynthese mit niedriger Latenz" (PDF). Google.com. ICASSP. S. 4470–4474.
- ^ Fan, Bo; Wang, Lijuan; Soong, Frank K.; Xie, Lei (2015). "Foto-real sprechend mit tief bidirektionaler LSTM" (PDF). Proceedings of ICASSP.
- ^ Silber, David; Hubert, Thomas; Schrittweser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5. Dezember 2017). "Mastering Chess und Shogi durch Selbstvertretung mit einem allgemeinen Verstärkungslernalgorithmus". Arxiv:1712.01815 [cs.ai].
- ^ Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative kontroverse Netzwerke (PDF). Proceedings der Internationalen Konferenz über neuronale Informationsverarbeitungssysteme (NIPS 2014). S. 2672–2680.
- ^ Zoph, Barret; Le, Quoc V. (4. November 2016). "Suche nach neuronaler Architektur mit Verstärkungslernen". Arxiv:1611.01578 [cs.lg].
- ^ Haifeng Jin; Qingquan Lied; Xia Hu (2019). "Auto -keras: Ein effizientes Suchsystem für neuronale Architektur". Proceedings der 25. ACM Sigkdd Internationalen Konferenz über Wissens Discovery & Data Mining. ACM. Arxiv:1806.10282. Abgerufen 21. August 2019 - via autokeras.com.
- ^ Claesen, Marc; De Moor, Bart (2015). "Hyperparameter -Suche im maschinellen Lernen". Arxiv:1502.02127 [cs.lg]. Bibcode:2015ArXIV150202127c
- ^ Turek, Fred D. (März 2007). "Einführung in die neuronale Net -Bildungssicht". Sehsystemdesign. 12 (3). Abgerufen 5. März 2013.
- ^ Zissis, Dimitrios (Oktober 2015). "Eine Cloud -basierte Architektur, die in der Lage ist, mehrere Schiffsverhalten zu wahrnehmen und vorherzusagen". Angewandte Soft Computing. 35: 652–661. doi:10.1016/j.asoc.2015.07.002.
- ^ Roman M. Balabin; Ekaterina I. Lomakina (2009). "Neuronales Netzwerkansatz für die Quantenchemie-Daten: Genauige Vorhersage der Dichtefunktionalentheoriesenergien". J. Chem. Phys. 131 (7): 074104. Bibcode:2009Jchph.131G4104B. doi:10.1063/1.3206326. PMID 19708729.
- ^ Silber, David; et al. (2016). "Mastering the Game of Go mit tiefen neuronalen Netzwerken und Baumsuche" (PDF). Natur. 529 (7587): 484–489. Bibcode:2016natur.529..484s. doi:10.1038/nature16961. PMID 26819042. S2CID 515925.
- ^ Sengupta, Nandini; Sahidullah, MD; Saha, Goutam (August 2016). "Lungenklassifizierung unter Verwendung von statistischen Merkmalen auf Cepstal-basierten". Computers in Biology and Medicine. 75 (1): 118–129. doi:10.1016/j.compbiomed.2016.05.013. PMID 27286184.
- ^ Choy, Christopher B., et al. "3D-R2N2: Ein einheitlicher Ansatz für die Rekonstruktion eines Einzel- und Multi-View-3D-Objekts. "Europäische Konferenz über Computer Vision. Springer, Cham, 2016.
- ^ Gessler, Josef (August 2021). "Sensor für Lebensmittelanalyse zur Anwendung von Impedanzspektroskopie und künstlichen neuronalen Netzwerken". Riunet upv (1): 8–12.
- ^ Maitra, D. S.; Bhattacharya, U.; Parui, S. K. (August 2015). "CNN -basierter gemeinsamer Ansatz zur handschriftlichen Charaktererkennung mehrerer Skripte". 2015 13. Internationale Konferenz über Dokumentanalyse und Anerkennung (ICDAR): 1021–1025. doi:10.1109/icdar.2015.7333916. ISBN 978-1-4799-1805-8. S2CID 25739012.
- ^ Französisch, Jordanien (2016). "Die Zeitreisende Capm". Investment Analysten Journal. 46 (2): 81–96. doi:10.1080/10293523.2016.1255469. S2CID 157962452.
- ^ Schechner, Sam (15. Juni 2017). "Facebook steigert A.I., um terroristische Propaganda zu blockieren". Wallstreet Journal. ISSN 0099-9660. Abgerufen 16. Juni 2017.
- ^ Ganesan, N (2010). "Anwendung neuronaler Netze bei der Diagnose von Krebskrankheiten unter Verwendung demografischer Daten". Internationales Journal of Computer Applications. 1 (26): 81–97. Bibcode:2010ijca .... 1z..81g. doi:10.5120/476-783.
- ^ Bottaci, Leonardo (1997). "Künstliche neuronale Netze, die zur Ergebnisvorhersage von Patienten mit Darmkrebs in getrennten Institutionen angewendet werden" (PDF). Lanzette. Die Lanzette. 350 (9076): 469–72. doi:10.1016/s0140-6736 (96) 11196-x. PMID 9274582. S2CID 18182063. Archiviert von das Original (PDF) am 23. November 2018. Abgerufen 2. Mai 2012.
- ^ Alizadeh, Elaheh; Lyons, Samanthe M; Schloss, Jordan M; Prasad, Ashok (2016). "Messen systematischer Veränderungen in der Form der invasiven Krebszellen mithilfe von Zernike -Momenten". Integrative Biology. 8 (11): 1183–1193. doi:10.1039/c6ib00100a. PMID 27735002.
- ^ Lyons, Samanthe (2016). "Veränderungen der Zellform sind mit dem metastasierten Potential im Maus korreliert". Biologie offen. 5 (3): 289–299. doi:10.1242/bio.013409. PMC 4810736. PMID 26873952.
- ^ Nabian, Mohammad Amin; Meidani, Hadi (28. August 2017). "Deep Learning für beschleunigte Zuverlässigkeitsanalyse von Infrastrukturnetzwerken". Computergestützte Zivil- und Infrastrukturtechnik. 33 (6): 443–458. Arxiv:1708.08551. Bibcode:2017ArXIV170808551n. doi:10.1111/Mäuse.12359. S2CID 36661983.
- ^ Nabian, Mohammad Amin; Meidani, Hadi (2018). "Beschleunigung der stochastischen Bewertung der Konnektivität des Transportnetzwerks nach der Erdbeben durch maschinell-lernbasierte Ersatzstoffe". Verkehrsforschungsausschuss 97. Jahrestagung.
- ^ Díaz, E.; Brotons, v.; Tomás, R. (September 2018). "Verwendung künstlicher neuronaler Netzwerke zur Vorhersage der elastischen 3-D-Fundamente auf Böden mit geneigtem Grundgestein". Böden und Fundamente. 58 (6): 1414–1422. doi:10.1016/j.sandf.2018.08.001. HDL:10045/81208. ISSN 0038-0806.
- ^ Govindaraju, Rao S. (1. April 2000). "Künstliche neuronale Netzwerke in Hydrologie. I: vorläufige Konzepte". Journal of Hydrologic Engineering. 5 (2): 115–123. doi:10.1061/(ASCE) 1084-0699 (2000) 5: 2 (115).
- ^ Govindaraju, Rao S. (1. April 2000). "Künstliche neuronale Netze in Hydrologie. II: Hydrologische Anwendungen". Journal of Hydrologic Engineering. 5 (2): 124–137. doi:10.1061/(ASCE) 1084-0699 (2000) 5: 2 (124).
- ^ Peres, D. J.; Iuppa, C.; Cavallaro, L.; Cancelliere, a.; Foti, E. (1. Oktober 2015). "Signifikante Erweiterung der Wellenhöhenaufzeichnung durch neuronale Netze und Reanalyse -Winddaten". Ozeanmodellierung. 94: 128–140. Bibcode:2015ocmod..94..128p. doi:10.1016/j.ocemod.2015.08.002.
- ^ Dwarakish, G. S.; Rakshith, Shetty; Natesan, Usha (2013). "Überprüfung zu Anwendungen des neuronalen Netzwerks in der Küsteningenieurwesen". Künstliche intelligente Systeme und maschinelles Lernen. 5 (7): 324–331.
- ^ Ermini, Leonardo; Catani, Filippo; Casagli, Nicola (1. März 2005). "Künstliche neuronale Netze, die für die Anfälligkeit der Erdrutschanfälligkeit angewendet werden". Geomorphologie. Geomorphologische Gefahr und menschliche Auswirkungen in Bergumgebungen. 66 (1): 327–343. Bibcode:2005Geomo..66..327e. doi:10.1016/j.Geomorph.2004.09.025.
- ^ Nix, R.; Zhang, J. (Mai 2017). "Klassifizierung von Android -Apps und Malware mit tiefen neuronalen Netzwerken". 2017 International Joint Conference on Neural Networks (IJCNN): 1871–1878. doi:10.1109/ijcnn.2017.7966078. ISBN 978-1-5090-6182-2. S2CID 8838479.
- ^ "Erkennen bösartiger URLs". Die System- und Netzwerkgruppen bei UCSD. Archiviert von das Original am 14. Juli 2019. Abgerufen 15. Februar 2019.
- ^ Homayoun, Sajad; Ahmadzadeh, Marzieh; Hashemi, Sattar; Dehghantanha, Ali; Khayami, Raouf (2018), Dehghantanha, Ali; Conti, Mauro; Dargahi, Tooska (Hrsg.), "Botshark: Ein Deep Learning -Ansatz für die Botnetzverkehrserkennung", Cyber -Bedrohungsintelligenz, Fortschritte in der Informationssicherheit, Springer International Publishing, S. 137–153, doi:10.1007/978-3-319-73951-9_7, ISBN 978-3-319-73951-9
- ^ Ghosh und Reilly (Januar 1994). "Kreditkartenbetrugserkennung mit einem neuronalen Netzwerk". 1994 Proceedings der siebenundzwanzigsten Hawaii International Conference on System Sciences. 3: 621–630. doi:10.1109/hICs..1994.323314. ISBN 978-0-8186-5090-1. S2CID 13260377.
- ^ Ananthaswamy, Anil (19. April 2021). "Neueste neuronale Netze lösen die härtesten Gleichungen der Welt schneller als je zuvor". Quantenmagazin. Abgerufen 12. Mai 2021.
- ^ "AI hat ein wichtiges mathematisches Puzzle für das Verständnis unserer Welt geknackt". MIT Technology Review. Abgerufen 19. November 2020.
- ^ "Caltech Open-Sources KI zur Lösung partieller Differentialgleichungen". Infoq. Abgerufen 20. Januar 2021.
- ^ Nagy, Alexandra (28. Juni 2019). "Variationsquantenmonte-Carlo-Methode mit einem Neural-Network-ANSATZ für offene Quantensysteme". Physische Überprüfungsbriefe. 122 (25): 250501. Arxiv:1902.09483. Bibcode:2019phrvl.122y0501n. doi:10.1103/PhysRevlett.122.250501. PMID 31347886. S2CID 119074378.
- ^ Yoshioka, Nobuyuki; Hamazaki, Ryusuke (28. Juni 2019). "Bau neuronaler stationärer Zustände für offene Quanten viele Körpersysteme". Physische Bewertung b. 99 (21): 214306. Arxiv:1902.07006. Bibcode:2019ArXIV190207006y. doi:10.1103/PhysRevB.99.214306. S2CID 119470636.
- ^ Hartmann, Michael J.; Carleo, Giuseppe (28. Juni 2019). "Neural-Network-Ansatz zur dissipativen Quanten-Vielkörperdynamik". Physische Überprüfungsbriefe. 122 (25): 250502. Arxiv:1902.05131. Bibcode:2019ArXIV190205131H. doi:10.1103/PhysRevlett.122.250502. PMID 31347862. S2CID 119357494.
- ^ Vicentini, Filippo; Biella, Alberto; Regnault, Nicolas; Ciuti, Cristiano (28. Juni 2019). "Variationale neuronale Netzwerk ANSATZ für stationäre Zustände in offenen Quantensystemen". Physische Überprüfungsbriefe. 122 (25): 250503. Arxiv:1902.10104. Bibcode:2019ArXIV190210104V. doi:10.1103/PhysRevlett.122.250503. PMID 31347877. S2CID 119504484.
- ^ Forrest MD (April 2015). "Simulation der Alkoholwirkung auf ein detailliertes Purkinje -Neuronmodell und ein einfacheres Ersatzmodell, das> 400 -mal schneller läuft". BMC -Neurowissenschaften. 16 (27): 27. doi:10.1186/s12868-015-0162-6. PMC 4417229. PMID 25928094.
- ^ Siegelmann, H.T.; Sonontag, E.D. (1991). "Berechnungsfähigkeit mit neuronalen Netzen" (PDF). Appl. Mathematik. Lette. 4 (6): 77–80. doi:10.1016/0893-9659 (91) 90080-F.
- ^ Balcázar, José (Juli 1997). "Berechnungskraft neuronaler Netzwerke: Eine Kolmogorov -Komplexitätscharakterisierung". IEEE -Transaktionen zur Informationstheorie. 43 (4): 1175–1183. Citeseerx 10.1.1.411.7782. doi:10.1109/18.605580.
- ^ a b Mackay, David, J.C. (2003). Informationstheorie, Inferenz und Lernalgorithmen (PDF). Cambridge University Press. ISBN 978-0-521-64298-9.
- ^ Deckung, Thomas (1965). "Geometrische und statistische Eigenschaften von Systemen linearer Ungleichheiten mit Anwendungen in der Mustererkennung" (PDF). IEEE -Transaktionen auf elektronischen Computern. IEEE. EC-14 (3): 326–334. doi:10.1109/pgec.1965.264137.
- ^ Gerald, Friedland (2019). "Reproduzierbarkeit und experimentelles Design für maschinelles Lernen auf Audio- und Multimedia -Daten". MM '19: Verfahren der 27. ACM International Conference on Multimedia. ACM: 2709–2710. doi:10.1145/3343031.3350545. ISBN 978-1-4503-6889-6. S2CID 204837170.
- ^ "Hören Sie auf, zu basteln, zu messen! Vorhersehbares experimentelles Design neuronaler Netzwerkversuche". Der Tensorflow -Messgerät.
- ^ Lee, Jaehoon; Xiao, Lechao; Schönholz, Samuel S.; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2020). "Breite neuronale Netze in jeder Tiefe entwickeln sich als lineare Modelle unter Gradientenabstieg". Journal of Statistical Mechanics: Theorie und Experiment. 2020 (12): 124002. Arxiv:1902.06720. Bibcode:2020JSMTE2020L4002L. doi:10.1088/1742-5468/ABC62B. S2CID 62841516.
- ^ Arthur Jacot; Franck Gabriel; Clement Hongler (2018). Kernel des neuronalen Tangenten: Konvergenz und Verallgemeinerung in neuronalen Netzwerken (PDF). 32. Konferenz über neuronale Informationsverarbeitungssysteme (Neurips 2018), Montreal, Kanada.
- ^ Xu ZJ, Zhang Y, Xiao Y (2019). "Trainingsverhalten des tiefen neuronalen Netzwerks im Frequenzbereich". In Gedeon T, Wong K, Lee M (Hrsg.). Neuronale Informationsverarbeitung. Iconip 2019. Vorlesungsnotizen in Informatik. Vol. 11953. Springer, Cham. S. 264–274. Arxiv:1807.01251. doi:10.1007/978-3-030-36708-4_22. ISBN 978-3-030-36707-7. S2CID 49562099.
- ^ Nasim Rahaman; Aristide Baratin; Devansh Arpit; Felix Draxler; Min Lin; Fred Hamprecht; Yoshua Bengio; Aaron Courville (2019). "Über die spektrale Tendenz von neuronalen Netzwerken" (PDF). Verfahren der 36. Internationalen Konferenz über maschinelles Lernen. 97: 5301–5310. Arxiv:1806.08734.
- ^ Zhi-Qin John Xu; Yaoyu zhang; Tao Luo; Yanyang Xiao; Zheng MA (2020). "Frequenzprinzip: Fourier -Analyse wirft Licht auf tiefe neuronale Netzwerke". Kommunikation in der Computerphysik. 28 (5): 1746–1767. Arxiv:1901.06523. Bibcode:2020ccoph..28.1746X. doi:10.4208/CICP.OA-2020-0085. S2CID 58981616.
- ^ Tao Luo; Zheng MA; Zhi-Qin John Xu; Yaoyu Zhang (2019). "Theorie des Häufigkeitsprinzips für allgemeine tiefe neuronale Netze". Arxiv:1906.09235 [cs.lg].
- ^ Xu, Zhiqin John; Zhou, Hanxu (18. Mai 2021). "Tiefes Frequenzprinzip zum Verständnis, warum tieferes Lernen schneller ist". Verfahren der AAAI -Konferenz über künstliche Intelligenz. 35 (12): 10541–10550. Arxiv:2007.14313. ISSN 2374-3468.
- ^ Crick, Francis (1989). "Die jüngste Aufregung über neuronale Netze". Natur. 337 (6203): 129–132. Bibcode:1989natur.337..129c. doi:10.1038/337129a0. PMID 2911347. S2CID 5892527.
- ^ Adrian, Edward D. (1926). "Die Impulse, die durch sensorische Nervenende erzeugt werden", ". Das Journal of Physiology. 61 (1): 49–72. doi:10.1113/jphysiol.1926.sp002273. PMC 1514809. PMID 16993776.
- ^ Dewdney, A. K. (1. April 1997). Ja, wir haben keine Neutronen: Eine auf Augenöffnungen eröffnete Tour durch die Wendungen und Wendungen schlechter Wissenschaft. Wiley. p. 82. ISBN 978-0-471-10806-1.
- ^ NASA - Dryden Flight Research Center - Nachrichtenraum: Nachrichtenveröffentlichungen: NASA Neural Network Project Passes Meilenstein. Nasa.gov. Abgerufen am 20. November 2013.
- ^ "Roger Bridgmans Verteidigung neuronaler Netzwerke". Archiviert von das Original am 19. März 2012. Abgerufen 12. Juli 2010.
- ^ D. J. Felleman und D. C. Van Essen, "Verteilte hierarchische Verarbeitung im Primatenhirnrinde, " Zerebraler Kortex1, S. 1–47, 1991.
- ^ J. Weng, "Natürliche und künstliche Intelligenz: Einführung in die Computerhirn-Mind, "BMI Press, ISBN978-0-9858757-2-5, 2012.
- ^ a b Edwards, Chris (25. Juni 2015). "Wachsende Schmerzen für tiefes Lernen". Kommunikation der ACM. 58 (7): 14–16. doi:10.1145/2771283. S2CID 11026540.
- ^ Cade Metz (18. Mai 2016). "Google hat seine eigenen Chips gebaut, um seine KI -Bots zu versorgen". Verdrahtet.
- ^ "Skalierung von Lernalgorithmen in Richtung KI" (PDF).
- ^ Tahmasebi; Hiszarkhani (2012). "Ein hybrider neuronaler Netzwerke-Fuzzy-logisch-Genetischer Algorithmus für die Abschätzung der Klassen". Computer & Geowissenschaften. 42: 18–27. Bibcode:2012cg ..... 42 ... 18t. doi:10.1016/j.cageo.2012.02.004. PMC 4268588. PMID 25540468.
Literaturverzeichnis
- Bhadeshia H.K.D.H. (1999). "Neuronale Netze in der Materialwissenschaft" (PDF). ISIJ International. 39 (10): 966–979. doi:10.2355/iSIjinternational.39.966.
- Bishop, Christopher M. (1995). Neuronale Netze für die Mustererkennung. Clarendon Press. ISBN 978-0-19-853849-3. OCLC 33101074.
- Borgelt, Christian (2003). Neuro-Fuzzy-System: von Den Grundlagen Künstlicher Neuronaler Netze Zur Kopplung MIT Fuzzy-Systeme. Vieweg. ISBN 978-3-528-25265-6. OCLC 76538146.
- Cybenko, G.V. (2006). "Näherung durch Überlagerungen einer sigmoidalen Funktion". In van schuppen, Jan H. (Hrsg.). Mathematik von Kontrolle, Signalen und Systemen. Springer International. S. 303–314. PDF
- Dewdney, A. K. (1997). Ja, wir haben keine Neutronen: Eine auf Augenöffnungen eröffnete Tour durch die Wendungen und Wendungen schlechter Wissenschaft. New York: Wiley. ISBN 978-0-471-10806-1. OCLC 35558945.
- Duda, Richard O.; Hart, Peter Elliot; Stork, David G. (2001). Musterklassifizierung (2 ed.). Wiley. ISBN 978-0-471-05669-0. OCLC 41347061.
- Egmont-Petersen, M.; de Ridder, D.; Handels, H. (2002). "Bildverarbeitung mit neuronalen Netzwerken - eine Überprüfung". Mustererkennung. 35 (10): 2279–2301. Citeseerx 10.1.1.21.5444. doi:10.1016/s0031-3203 (01) 00178-9.
- Fahlman, S.; Lebiere, C (1991). "Die Lernarchitektur der Kaskadenkorrelation" (PDF).
- hergestellt für Nationale Wissenschaftsstiftung, Vertragsnummer EET-8716324 und Verteidigung Advanced Research Projects Agency (DOD), ARPA-Bestellung Nr. 4976 nach Vertrag F33615-87-C-1499.
- Gurney, Kevin (1997). Eine Einführung in neuronale Netze. UCL -Presse. ISBN 978-1-85728-673-1. OCLC 37875698.
- Haykin, Simon S. (1999). Neuronale Netze: Eine umfassende Stiftung. Prentice Hall. ISBN 978-0-13-273350-2. OCLC 38908586.
- Hertz, J.; Palmer, Richard G.; Krogh, Anders S. (1991). Einführung in die Theorie der neuronalen Berechnung. Addison-Wesley. ISBN 978-0-201-51560-2. OCLC 21522159.
- Informationstheorie, Inferenz und Lernalgorithmen. Cambridge University Press. 25. September 2003. Bibcode:2003itil.book ..... m. ISBN 978-0-521-64298-9. OCLC 52377690.
- Kruse, Rudolf; Borgelt, Christian; Klawonn, F.; Moewes, Christus; Steinbrecher, Matthias; Pascal (2013) gehalten. Computational Intelligence: Eine methodische Einführung. Springer. ISBN 978-1-4471-5012-1. OCLC 837524179.
- Lawrence, Jeanette (1994). Einführung in neuronale Netze: Design, Theorie und Anwendungen. California Scientific Software. ISBN 978-1-883157-00-5. OCLC 32179420.
- Mackay, David, J.C. (2003). Informationstheorie, Inferenz und Lernalgorithmen (PDF). Cambridge University Press. ISBN 978-0-521-64298-9.
- Masters, Timothy (1994). Signal- und Bildverarbeitung mit neuronalen Netzwerken: ein C ++ - Quellbuch. J. Wiley. ISBN 978-0-471-04963-0. OCLC 29877717.
- Maurer, Harald (2021). Kognitive Wissenschaft: Integrative Synchronisationsmechanismen in kognitiven Neuroarchitekturen des modernen Connectionismus. CRC Press. doi:10.1201/9781351043526. ISBN 978-1-351-04352-6. S2CID 242963768.
- Ripley, Brian D. (2007). Mustererkennung und neuronale Netze. Cambridge University Press. ISBN 978-0-521-71770-0.
- Siegelmann, H.T.; Sonontag, Eduardo D. (1994). "Analoge Berechnung über neuronale Netze". Theoretische Informatik. 131 (2): 331–360. doi:10.1016/0304-3975 (94) 90178-3. S2CID 2456483.
- Smith, Murray (1993). Neuronale Netze für die statistische Modellierung. Van Nostrand Reinhold. ISBN 978-0-442-01310-3. OCLC 27145760.
- Wasserman, Philip D. (1993). Erweiterte Methoden im neuronalen Computer. Van Nostrand Reinhold. ISBN 978-0-442-00461-3. OCLC 27429729.
- Wilson, Halsey (2018). Künstliche Intelligenz. Grey House Publishing. ISBN 978-1-68217-867-6.