Multi-Task-Lernen
Multi-Task-Lernen (MTL) ist ein Unterfeld von maschinelles Lernen bei denen mehrere Lernaufgaben gleichzeitig gelöst werden, während sie Gemeinsamkeiten und Unterschiede zwischen den Aufgaben ausnutzen. Dies kann zu einer verbesserten Lerneffizienz und Vorhersagegenauigkeit für die aufgabenspezifischen Modelle im Vergleich zur getrennten Schulung der Modelle führen.[1][2][3] Frühe Versionen von MTL wurden als "Hinweise" bezeichnet.[4][5]
In einem weit verbreiteten Artikel von 1997 gab Rich Caruana die folgende Charakterisierung:
Multitasking -Lernen ist ein Ansatz für induktive Übertragung Das verbessert sich Verallgemeinerung Durch die Verwendung der Domäneninformationen, die in den Trainingssignalen von verwandten Aufgaben enthalten sind Induktive Voreingenommenheit. Dies geschieht, indem er parallel gelernt wird, während sie eine gemeinsame Nutzung verwenden Darstellung; Was für jede Aufgabe gelernt wird, kann anderen Aufgaben helfen, besser zu lernen.[3]
Im Klassifizierungskontext zielt MTL darauf ab, die Leistung mehrerer Klassifizierungsaufgaben zu verbessern, indem sie gemeinsam lernen. Ein Beispiel ist ein Spamfilter, der als unterschiedliche, aber verwandte Klassifizierungsaufgaben für verschiedene Benutzer behandelt werden kann. Um dies konkreter zu gestalten, bedenken Sie, dass verschiedene Personen unterschiedliche Verteilungen von Funktionen haben, die Spam -E -Mails von legitimen Unterscheidungsvertretern unterscheiden, beispielsweise ein englischer Sprecher feststellen, dass alle E -Mails auf Russisch Spam sind, nicht für russische Sprecher. In dieser Klassifizierungsaufgabe gibt es jedoch eine eindeutige Gemeinsamkeiten in den Benutzern, beispielsweise eine gemeinsame Funktion, die sich auf die Geldübertragung bezieht. Durch die gemeinsame Lösung des SPAM -Klassifizierung des Benutzers über MTL können sich die Lösungen gegenseitig informieren und die Leistung verbessern.[6] Weitere Beispiele für Einstellungen für MTL umfassen Multiclass -Klassifizierung und Multi-Label-Klassifizierung.[7]
Multitasking-Lernen funktioniert, weil Regulierung induziert, indem ein Algorithmus erforderlich ist, um eine verwandte Aufgabe gut abzubauen, kann der Regularisierung überlegen sein, die verhindert Überanpassung durch die Bestrafung der gesamten Komplexität einheitlich. Eine Situation, in der MTL besonders hilfreich sein kann, ist, wenn die Aufgaben signifikante Gemeinsamkeiten haben und im Allgemeinen leicht untersucht werden.[8][6] Wie nachstehend erläutert, hat sich jedoch auch erwiesen, dass MTL für das Lernen nicht verwandter Aufgaben von Vorteil ist.[8][9]
Methoden
Aufgabengruppierung und Überlappung
Innerhalb des MTL -Paradigmas können Informationen über einige oder alle Aufgaben weitergegeben werden. Abhängig von der Struktur der Aufgabenbeeinträchtigung möchte man möglicherweise Informationen selektiv über die Aufgaben weitergeben. Beispielsweise können Aufgaben in einer Hierarchie gruppiert oder existieren oder nach einer allgemeinen Metrik verwandt werden. Nehmen wir an, wie nach unten entwickelter, dass die Parametervektormodellierung jeder Aufgabe a ist lineare Kombination von einer zugrunde liegenden Basis. Die Ähnlichkeit in Bezug auf diese Grundlage kann die Verwandtschaft der Aufgaben anzeigen. Zum Beispiel mit Spärlichkeit, Überlappung der Koeffizienten von ungleich Null über Aufgaben hinweg weist auf Gemeinsamkeiten hin. Eine Aufgabengruppierung entspricht dann den Aufgaben, die in einem Unterraum liegen, der durch einige Teilmenge von Basiselementen generiert wird, bei denen Aufgaben in verschiedenen Gruppen in Bezug auf ihre Grundlagen disjunkt oder überlappend sein können.[10] Aufgabenverhältnis kann a priori auferlegt oder aus den Daten gelernt werden.[7][11] Hierarchische Aufgabenverhältnis kann auch implizit genutzt werden, ohne dass a priori Wissen oder Lernbeziehungen explizit annehmen.[8][12] Zum Beispiel kann das explizite Lernen der Stichprobenrelevanz über die Aufgaben hinweg durchgeführt werden, um die Wirksamkeit des gemeinsamen Lernens über mehrere Bereiche hinweg zu gewährleisten.[8]
Man kann versuchen, eine Gruppe von Hauptaufgaben unter Verwendung einer Gruppe von Hilfsaufgaben zu lernen, die nicht mit den Hauptaufgaben zu tun haben. In vielen Anwendungen kann das gemeinsame Lernen von nicht verwandten Aufgaben, die dieselben Eingabedaten verwenden, von Vorteil sein. Der Grund dafür ist, dass Vorkenntnisse über Aufgabenverhältnissen zu sparsameren und informativeren Darstellungen für jede Aufgabengruppierung führen können, indem sie im Wesentlichen Eigenschaften der Datenverteilung untersuchen. Neue Methoden, die auf einer früheren Multitasking-Methodik aufbauen, indem eine gemeinsame niedrigdimensionale Darstellung innerhalb jeder Aufgabengruppierung begünstigt wurde. Der Programmierer kann eine Strafe für Aufgaben aus verschiedenen Gruppen verhängen, die die beiden Darstellungen ermutigen, zu sein senkrecht. Experimente zu synthetischen und realen Daten haben gezeigt, dass die Einbeziehung nicht verwandter Aufgaben zu signifikanten Verbesserungen gegenüber Standard-Multitask-Lernmethoden führen kann.[9]
Wissenstransfer
In Bezug auf das Lernen von Multi-Task-Lernen steht das Konzept des Wissenstransfers. Während das herkömmliche Lernen von Multitasks impliziert, dass eine gemeinsame Darstellung gleichzeitig über Aufgaben hinweg entwickelt wird, impliziert die Übertragung von Wissen eine nacheinander gemeinsame Darstellung. Projekte mit großem Maßstab maschinellem Lernen wie The Deep Faltungsnetzwerk Googlenet,[13] Ein bildbasierter Objektklassifizierer kann robuste Darstellungen entwickeln, die nützlich sein können, um Algorithmen zu lernbezogenen Aufgaben weiterzuentwickeln. Beispielsweise kann das vorgebildete Modell als Merkmalextraktor verwendet werden, um eine Vorverarbeitung für einen anderen Lernalgorithmus durchzuführen. Oder das vorgebildete Modell kann verwendet werden, um ein Modell mit ähnlicher Architektur zu initialisieren, das dann fein abgestimmt wird, um eine andere Klassifizierungsaufgabe zu erlernen.[14]
Gruppen -Online -Anpassungslernen
Traditionell werden das Lernen von Multitaskieren und die Übertragung von Wissen auf stationäre Lerneinstellungen angewendet. Ihre Erweiterung nicht stationärer Umgebungen wird als Gruppen-Online-Adaptive Learning (Ziel) bezeichnet.[15] Das Teilen von Informationen kann besonders nützlich sein, wenn die Lernenden in ständig verändernden Umgebungen arbeiten, da ein Lernender von früheren Erfahrungen eines anderen Lernenden profitieren könnte, um sich schnell an seine neue Umgebung anzupassen. Ein solches gruppenadaptives Lernen hat zahlreiche Anwendungen, von der Vorhersage der finanziellen Zeitreihen über Inhaltsempfehlungssysteme bis hin zu visuellem Verständnis für adaptive autonome Agenten.
Mathematik
Reproduktion von Hilbert Space of Vector -Wertfunktionen (RKHSVV)
Das MTL -Problem kann im Kontext von RKHSVV (a Komplett innerer Produktraum von vektorwerte Funktionen ausgestattet mit a Reproduzieren von Kernel). Insbesondere lag der jüngste Schwerpunkt auf Fällen, in denen die nachstehend beschriebene Aufgabenstruktur über einen trennbaren Kernel identifiziert werden kann. Die Präsentation hier stammt von Ciliberto et al., 2015.[7]
RKHSVV -Konzepte
Angenommen, der Trainingsdatensatz ist , mit , , wo t Indexaufgabe und . Lassen . In dieser Einstellung gibt es einen konsistenten Eingangs- und Ausgangsraum und dasselbe verlustfunktion Für jede Aufgabe :. Dies führt zum regulierten Problem mit maschinellem Lernen:
-
(1)
wo ist ein vektor geschätzter reproduzierender Kernel Hilbert Space mit Funktionen Komponenten haben .
Der reproduzierende Kernel für den Raum von Funktionen ist eine symmetrische Matrix-Wert-Funktion , so dass und die folgende reproduzierende Eigenschaft gilt:
-
(2)
Der reproduzierende Kernel führt zu einem Repräsentantensatz, der zeigt, dass jede Lösung für die Gleichung 1 hat die Form:
-
(3)
Trennbare Kerne
Die Form des Kernels Γ induziert beide die Darstellung der Platz für Platz und strukturiert die Ausgabe über Aufgaben. Eine natürliche Vereinfachung besteht darin, a zu wählen Trennbarer Kernel, Welche Faktoren in getrennte Kerne auf dem Eingaberaum einfließen X und auf die Aufgaben . In diesem Fall bezieht sich der Kernel über Skalarkomponenten und wird gegeben von . Für Vector geschätzte Funktionen wir können schreiben , wo k ist ein skalar reproduzierender Kernel und A ist ein symmetrisches positives Semi-Definite Matrix. Von nun an bezeichnet .
Diese Faktorisierungseigenschaft, die Trennbarkeit, impliziert, dass die Darstellung des Eingabefunktionsraums nicht je nach Aufgabe variiert. Das heißt, es gibt keine Wechselwirkung zwischen dem Eingangskern und dem Task -Kernel. Die Struktur auf Aufgaben wird ausschließlich durch dargestellt A. Methoden für nicht trennbare Kerne Γ ist ein aktuelles Forschungsbereich.
Für den trennbaren Fall wird der Repräsentationssatz auf reduziert auf . Die Modellausgabe für die Trainingsdaten ist dann KCA , wo K ist der Empirische Kernelmatrix mit Einträgen , und C ist der Matrix der Zeilen .
Mit dem trennbaren Kernel, Gleichung 1 kann als umgeschrieben werden wie
-
(P)
wo V ist ein (gewichteter) Durchschnitt von L Angewandte Einstieg in Y und KCA. (Das Gewicht ist Null, wenn ist eine fehlende Beobachtung).
Beachten Sie den zweiten Term in P kann wie folgt abgeleitet werden:
Bekannte Aufgabenstruktur
Aufgabenstruktur Darstellungen
Es gibt drei weitgehend gleichwertige Möglichkeiten, die Aufgabenstruktur darzustellen: durch einen Regularizer; durch eine Ausgangsmetrik und über eine Ausgabemapparatur.
Regularizer-Mit dem trennbaren Kernel kann es (unten) gezeigt werden , wo ist der Pseudoinverse von , und ist der RKHS, der auf dem Skalarkern basiert? , und . Diese Formulierung zeigt das kontrolliert das Gewicht der Strafe, die mit der Strafe verbunden ist . (Beachten Sie, dass ergibt sich aus .))
Ausgangsmetrik-eine alternative Ausgangsmetrik auf kann durch das innere Produkt induziert werden . Mit dem quadratischen Verlust gibt es eine Äquivalenz zwischen den trennbaren Kerneln unter der alternativen Metrik und unter der kanonischen Metrik.
Ausgabezuordnung-Ausgänge können als abgebildet werden als zu einem höherdimensionalen Raum, um komplexe Strukturen wie Bäume, Diagramme und Saiten zu codieren. Für lineare Karten LMit angemessener Wahl des trennbaren Kernels kann gezeigt werden .
Beispiele für Aufgabenstruktur
Über die Regularizer -Formulierung kann man eine Vielzahl von Aufgabenstrukturen leicht darstellen.
- Vermeiden (wo ist der TxT Identitätsmatrix und ist der TxT Matrix der Eins) ist gleichbedeutend mit Vermietung Γ Steuern Sie die Varianz von Aufgaben von ihrem Mittelwert . Zum Beispiel können Blutspiegel einiger Biomarker übernommen werden T Patienten bei Zeitpunkte im Verlauf eines Tages und des Interesses können bei der Regularisierung der Varianz der Vorhersagen zwischen den Patienten liegen.
- Vermeiden , wo ist gleichbedeutend mit Vermietung Steuern Sie die in Bezug auf einen Gruppenmittelwert gemessenen Varianz: . (Hier die Kardinalität der Gruppe R und ist die Indikatorfunktion). Zum Beispiel könnten Menschen in verschiedenen politischen Parteien (Gruppen) zusammen reguliert werden, um die Bewertung eines Politikers vorherzusagen. Beachten Sie, dass sich diese Strafe auf die erste reduziert, wenn sich alle Aufgaben in derselben Gruppe befinden.
- Vermeiden , wo ist der Laplace für die Grafik mit Adjazenzmatrix M paarweise Ähnlichkeiten von Aufgaben geben. Dies entspricht einer größeren Strafe für die Entfernung von Aufgaben t und s Wenn sie ähnlicher sind (je nach Gewicht ,) d.h. reguliert .
- Alle oben genannten Auswahlmöglichkeiten induzieren auch den zusätzlichen Regularisierungsbegriff die Komplexität in F weiter bestraft.
Lernaufgaben zusammen mit ihrer Struktur
Lernproblem P kann verallgemeinert werden, um Lernaufgabenmatrix A wie folgt zuzulassen:
-
(Q)
Wahl von muss so konzipiert werden, dass er Matrizen lernen kann A eines bestimmten Typs. Siehe "Spezialfälle" unten.
Optimierung von Q
Einschränkung auf den Fall von konvex Verluste und Zwang Strafen Ciliberto et al. haben gezeigt, dass obwohl Q ist nicht gemeinsam konvex in C und EIN, Ein damit verbundenes Problem ist gemeinsam konvex.
Speziell auf dem konvexen Satz , das äquivalente Problem
-
(R)
ist konvex mit dem gleichen Mindestwert. Und wenn ist ein Minimierer für R dann ist ein Minimierer für Q.
R kann durch eine Barrieremethode auf einem geschlossenen Satz gelöst werden, indem die folgende Störung eingeführt wird:
-
(S)
Die Störung über die Barriere erzwingt die Zielfunktionen, um gleich zu sein an der Grenze von .
S kann mit einer Blockkoordinaten -Abstiegsmethode gelöst werden, die sich abwechselte C und A. Dies führt zu einer Abfolge von Minimierern in S das konvergiert zur Lösung in R wie und gibt daher die Lösung für Q.
Spezialfälle
Spektralstrafen - Dinnuzo et al[16] vorgeschlagene Einstellung F als die Frobenius -Norm . Sie optimierten Q Direkt mit Blockkoordinatenabstieg, ohne Schwierigkeiten an der Grenze von zu berücksichtigen .
Clustered -Aufgaben lernen - Jacob et al[17] vorgeschlagen zu lernen A in der Einstellung wo T Aufgaben sind in organisiert in R Disjunkte Cluster. In diesem Fall lassen die Matrix sein . Einstellung , und , die Aufgabenmatrix kann als Funktion von parametrialisiert werden : mit Begriffen, die den Durchschnitt, zwischen den Clustern -Varianz bzw. innerhalb der Clustervarianz der Aufgabenvorhersagen bestrafen. M ist nicht konvex, aber es gibt eine konvexe Entspannung . In dieser Formulierung, .
Verallgemeinerungen
Nicht konvexe Strafen - Strafen können so konstruiert werden, dass A als Graph Laplacian eingeschränkt ist oder dass A eine niedrige Faktorisierung mit geringem Rang aufweist. Diese Strafen sind jedoch nicht konvex, und die Analyse der von Ciliberto et al. geht in diesen Fällen nicht durch.
Nicht trennbare Kerne - Trennbare Kerne sind begrenzt, insbesondere sind sie nicht gemeinsam Strukturen im Interaktionsraum zwischen den Eingangs- und Ausgangsdomänen zusammen. Zukünftige Arbeiten sind erforderlich, um Modelle für diese Kerne zu entwickeln.
Anwendungen
Spamfilterung
Verwendung der Prinzipien von MTL, Techniken für die Zusammenarbeit Spamfilterung Das erleichtert die Personalisierung wurden vorgeschlagen. In großen E -Mail -Systemen in großem Maßstab kennzeichnen die meisten Benutzer nicht genügend Nachrichten für einen einzelnen Lokal Klassifikator Um effektiv zu sein, ist die Daten zwar zu laut, um für einen globalen Filter für alle Benutzer verwendet zu werden. Ein hybrid globaler/individueller Klassifizierer kann den Einfluss von Benutzern, die E -Mails sehr fleißig von der Öffentlichkeit kennzeichnen, wirksam sein. Dies kann erreicht werden, während Benutzer Benutzer mit wenigen beschrifteten Instanzen ausreichend Qualität bieten.[18]
Web-Suche
Verwenden von Boosted EntscheidungsbäumeMan kann implizite Datenaustausch und Regularisierung ermöglichen. Diese Lernmethode kann bei Websearch-Ranking-Datensätzen verwendet werden. Ein Beispiel ist die Verwendung von Ranking -Datensätzen aus mehreren Ländern. Hier ist das Lernen von Multitasking besonders hilfreich, da Datensätze aus verschiedenen Ländern aufgrund der Kosten für redaktionelle Urteile weitgehend in Größe variieren. Es wurde gezeigt, dass das gemeinsame Erlernen verschiedener Aufgaben gemeinsam zu erheblichen Leistungsverbesserungen mit überraschender Zuverlässigkeit führen kann.[19]
Softwarepaket
Das Multi-Task-Lernen über strukturelle Regularisierung (MALSAR) MATLAB-Paket[20] Implementiert die folgenden Multi-Task-Lernalgorithmen:
- Mittelwertiges Lernen mit mehreren Aufgaben[21][22]
- Multi-Task-Lernen mit gemeinsamer Feature-Auswahl[23]
- Robustes Multitasking-Feature-Lernen[24]
- Trace-Norm reguliertes Multitasking-Lernen[25]
- Wechselstrukturoptimierung[26][27]
- Inkohärentes niedriges und spärliches Lernen[28]
- Robustes Lernen mit niedrigem Multitaskieren
- Clustered Multi-Task-Lernen[29][30]
- Multi-Task-Lernen mit Grafikstrukturen
Siehe auch
Verweise
- ^ Baxter, J. (2000). Ein Modell des induktiven Voreingenommenenlernens " Journal of Artificial Intelligence Research 12: 149-198, Online-Papier
- ^ Thrun, S. (1996). Ist das Erlernen des n-Things einfacher als das Erlernen des ersten?. In Fortschritten in den neuronalen Informationsverarbeitungssystemen 8, S. 640-646. MIT Press. Papier in Citeseer
- ^ a b Caruana, R. (1997). "Multi-Task-Lernen" (PDF). Maschinelles Lernen. 28: 41–75. doi:10.1023/a: 1007379606734.
- ^ Suddarth, S., Kergosien, Y. (1990). Regelinjektion deutet als Mittel zur Verbesserung der Netzwerkleistung und der Lernzeit hin. Eurasip Workshop. Neuronale Netze S. 120-129. Vorlesungsnotizen in Informatik. Springer.
- ^ Abu-Mostafa, Y. S. (1990). "Lernen aus Hinweisen in neuronalen Netzwerken". Journal of Complexity. 6 (2): 192–198. doi:10.1016/0885-064x (90) 90006-y.
- ^ a b Weinberger, Kilian. "Multi-Task-Lernen".
- ^ a b c Ciliberto, C. (2015). "Konvexes Lernen von mehreren Aufgaben und ihrer Struktur". Arxiv:1504.03101 [cs.lg].
- ^ a b c d Hajiramezanali, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zhou, Z. & Qian, X. Bayesian Multi-Domain-Lernen für Krebs-Subtyp-Entdeckung aus den Daten der nächsten Generation. 32. Konferenz über neuronale Informationsverarbeitungssysteme (NIPS 2018), Montréal, Kanada. Arxiv:1810.09433
- ^ a b B. Romera-Paredes, A. Argyriou, N. Bianchi-Berthouze & M. Pontil, (2012), die nicht verwandte Aufgaben im Multitasking-Lernen ausnutzen. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
- ^ Kumar, A. & Daum III, H., (2012) Lernaufgabengruppierung und -überlappung im Multitasking-Lernen. http://icml.cc/2012/papers/690.pdf
- ^ Jawanpuria, P. & Saketha Nath, J., (2012) Eine konvexe Feature -Lernformulierung für latente Aufgabenstrukturentdeckung. http://icml.cc/2012/papers/90.pdf
- ^ Zweig, A. & Weinshall, D. Hierarchische Regularisierungskaskade für gemeinsames Lernen. Proceedings: der 30. Internationalen Konferenz über maschinelles Lernen (ICML), Atlanta GA, Juni 2013. http://www.cs.huji.ac.il/~daphna/papers/Zweig_ICML2013.pdf
- ^ Szegedy, Christus; Wei Liu, Youssef; Yangqing Jia, Tomaso; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Tiefer mit Wällen gehen". 2015 IEEE -Konferenz zur Computer Vision und Mustererkennung (CVPR). S. 1–9. Arxiv:1409.4842. doi:10.1109/cvpr.2015.7298594. ISBN 978-1-4673-6964-0. S2CID 206592484.
- ^ Roig, Gemma. "Überblick über Deep Learning" (PDF).
- ^ Zweig, A. & Tschechik, G. Gruppe Online Adaptive Learning. Maschinelles Lernen, DOI 10.1007/S10994-017-5661-5, August 2017. http://rdcu.be/ufsv
- ^ Dinuzzo, Francesco (2011). "Lernkörner mit Blockkoordinatenabstieg" (PDF). Proceedings der 28. Internationalen Konferenz über maschinelles Lernen (ICML-11). Archiviert von das Original (PDF) Am 2017-08-08.
- ^ Jacob, Laurent (2009). "Clustered Multi-Task-Lernen: Eine konvexe Formulierung". Fortschritte in den neuronalen Informationsverarbeitungssystemen. Arxiv:0809.2085. Bibcode:2008ArXIV0809.2085J.
- ^ Attenberg, J., Weinberger, K. & Dasgupta, A. Kollaborative E-Mail-Spam-Filterung mit dem Hashing-Trick. http://www.cse.wustl.edu/~kilian/papers/ceas2009-paper-11.pdf
- ^ Chappelle, O., Shivaswamy, P. & Vadrevu, S. Multi-Task-Lernen für die Steigerung der Anwendung auf Web-Such-Ranking. http://www.cse.wustl.edu/~kilian/papers/multiboost2010.pdf
- ^ Zhou, J., Chen, J. und Ye, J. Malsar: Multi-Task-Lernen durch strukturelle Regularisierung. Arizona State University, 2012. http://www.public.asu.edu/~jye02/software/malsar. Online-Handbuch
- ^ Evgeniou, T. & Pontil, M. (2004). Reguliertes Multi -Task -Lernen. Verfahren der zehnten ACM SIGKDD Internationalen Konferenz über Wissensentdeckung und Data Mining (S. 109–117).
- ^ Evgeniou, T.; Micchelli, C.; Pontil, M. (2005). "Erlernen mehrerer Aufgaben mit Kernel -Methoden" (PDF). Journal of Machine Learning Research. 6: 615.
- ^ Argyriou, a.; Evgeniou, T.; Pontil, M. (2008a). "Konvexes Multitasking-Feature-Lernen". Maschinelles Lernen. 73 (3): 243–272. doi:10.1007/s10994-007-5040-8.
- ^ Chen, J., Zhou, J. & Ye, J. (2011). Integration von Strukturen mit niedrigem und Gruppensparenden für ein robustes Lernen mit mehreren Aufgaben[Dead Link]. Verfahren der zehnten ACM SIGKDD Internationalen Konferenz über Wissensentdeckung und Data Mining.
- ^ Ji, S. & Ye, J. (2009). Eine beschleunigte Gradientenmethode zur Mindestminimierung der Spurennorm. Proceedings der 26. jährlichen Internationalen Konferenz über maschinelles Lernen (S. 457–464).
- ^ Ando, R.; Zhang, T. (2005). "Ein Rahmen für das Lernen von Vorhersagestrukturen aus mehreren Aufgaben und unbezeichneten Daten" (PDF). Das Journal of Machine Learning Research. 6: 1817–1853.
- ^ Chen, J., Tang, L., Liu, J. & Ye, J. (2009). Eine konvexe Formulierung für gemeinsame Lernstrukturen aus mehreren Aufgaben. Proceedings der 26. jährlichen Internationalen Konferenz über maschinelles Lernen (S. 137–144).
- ^ Chen, J., Liu, J. & Ye, J. (2010). Lernen inkohärente spärliche und niedrige Muster aus mehreren Aufgaben. Proceedings der 16. ACM Sigkdd Internationalen Konferenz über Wissensentdeckung und Data Mining (S. 1179–1188).
- ^ Jacob, L., Bach, F. & Vert, J. (2008). Clustered Multi-Task-Lernen: Eine konvexe Formulierung. Fortschritte in den neuronalen Informationsverarbeitungssystemen , 2008
- ^ J. Zhou, J. Chen & J. Ye (2011). Clustered Multi-Task-Lernen durch alternierende Strukturoptimierung. Fortschritte in der Verarbeitung von neuronalen Informationsverarbeitungssystemen.
Externe Links
- Die Biosignals Intelligence Group in UIUC
- Washington University in St. Louis Abfahrt. der Informatik
Software
- Das Multi-Task-Lernen über strukturelle Regularisierungspaket
- Online Multi-Task-Lerntoolkit (OMT) Ein allgemeines Online-Mehrfach-Task-Lern-Toolkit basierend auf bedingte Zufallsfeld Modelle und Stochastischer Gradientenabstieg Ausbildung (C#, .NETZ)