Spracherkennung

Spracherkennung ist ein interdisziplinär Unterfeld von Informatik und Computerlinguistik Das entwickelt sich Methoden und Technologien, die die Anerkennung ermöglichen und Übersetzung von gesprochener Sprache in Text von Computern mit dem Hauptvorteil von Suchbarkeit. Es ist auch als bekannt als als Automatische Spracherkennung (ASR), Computerspracherkennung oder Rede zum Text (Stt). Es umfasst Wissen und Forschung in der Informatik, Linguistik und Technische Informatik Felder. Der umgekehrte Prozess ist Sprachsynthese.

Einige Spracherkennungssysteme erfordern "Schulungen" (auch als "Registrierung" bezeichnet), bei denen ein einzelner Sprecher Text oder isoliert liest Wortschatz in das System. Das System analysiert die spezifische Stimme der Person und nutzt sie, um die Anerkennung der Sprache dieser Person zu optimieren, was zu einer erhöhten Genauigkeit führt. Systeme, die kein Training nutzen, werden als "sprecherunabhängig" bezeichnet.[1] Systeme. Systeme, die Schulungen nutzen, werden als "Sprecher abhängig" bezeichnet.

Spracherkennungsanwendungen umfassen Voice -Benutzer -Schnittstellen wie Sprachwählungen (z. B. "Call Home"), rufen Sie das Routing an (z. B. "Ich möchte einen Sammelruf tätigen"). Domotisch Appliance Control, Suchschlüsselwörter (z. B. einen Podcast finden, in dem bestimmte Wörter gesprochen wurden), einfache Dateneingabe (z. B. Eingabe einer Kreditkartennummer), Erstellung strukturierter Dokumente (z. B. einem Radiologiebericht), Bestimmung der Lautsprechermerkmale,[2] Sprach-zu-Text-Verarbeitung (z. B.,, Textverarbeitungen oder E -Mails), und Flugzeug (Normalerweise bezeichnet Direktspracheingabe).

Der Begriff Spracherkennung[3][4][5] oder Sprecheridentifikation[6][7][8] Bezieht sich auf die Identifizierung des Sprechers und nicht auf das, was sie sagen. Den Sprecher erkennen kann die Aufgabe von vereinfachen Übersetzungsrede in Systemen, die auf die Stimme einer bestimmten Person trainiert wurden oder es verwendet werden kann authentifizieren oder überprüfen Sie die Identität eines Sprechers als Teil eines Sicherheitsprozesses.

Aus technologischer Sicht hat die Spracherkennung eine lange Geschichte mit mehreren Wellen großer Innovationen. Zuletzt hat das Feld von Fortschritten in profitiert tiefes Lernen und Große Daten. Die Fortschritte werden nicht nur durch den Anstieg der in diesem Bereich veröffentlichten akademischen Artikel gezeigt, sondern vor allem durch die weltweite Einführung einer Vielzahl von tiefen Lernmethoden beim Entwerfen und Bereitstellen von Spracherkennungssystemen.

Geschichte

Die Schlüsselbereiche des Wachstums waren: Wortschatzgröße, Unabhängigkeit der Lautsprecher und Verarbeitungsgeschwindigkeit.

Vor 1970

Raj Reddy war die erste Person, die als Doktorand kontinuierliche Sprachanerkennung übernahm Universität in Stanford In den späten 1960er Jahren. Vorherige Systeme forderten die Benutzer nach jedem Wort innehalten. Reddys System gab gesprochene Befehle zum Spielen heraus Schach.

Um diese Zeit erfanden die sowjetischen Forscher die Dynamische Zeitverzündung (DTW) Algorithmus und verwendet ihn, um einen Erkenner zu schaffen, der in einem 200-Wörter-Wortschatz operieren kann.[15] DTW verarbeitete Sprache, indem sie sie in kurze Rahmen aufteilt, z. 10 ms Segmente und Verarbeitung jedes Rahmens als einzelne Einheit. Obwohl DTW von späteren Algorithmen ersetzt würde, wurde die Technik fortgesetzt. Das Erreichen der Unabhängigkeit der Sprecher blieb zu diesem Zeitraum ungelöst.

1970–1990

  • 1971DARPA fünf Jahre finanziert für Sprachverständnis Forschung, Spracherkennungsforschung, die eine minimale Vokabulargröße von 1.000 Wörtern sucht. Sie dachten Rede Verständnis wäre der Schlüssel, um Fortschritte in der Sprache zu machen Erkennung, aber dies erwies sich später falsch.[16] BBN, IBM, Carnegie Mellon und Stanford Research Institute Alle nahmen am Programm teil.[17][18] Diese wiederbelebte Researchition Research Post John Pierces Brief.
  • 1972 - Die Gruppe IEEE Acoustics, Speech und Signal Processing veranstaltete eine Konferenz in Newton, Massachusetts.
  • 1976 - Der Erste ICASSP wurde gehalten in Philadelphia, der seitdem ein wichtiger Ort für die Veröffentlichung der Forschung zur Spracherkennung war.[19]

In den späten 1960er Jahren Leonard Baum entwickelte die Mathematik von Markov -Ketten Bei der Institut für Verteidigungsanalyse. Ein Jahrzehnt später an der CMU Raj Reddys Studenten James Baker und Janet M. Baker begann das zu benutzen Verstecktes Markov -Modell (Hmm) zur Spracherkennung.[20] James Baker hatte während seiner Grundschulausbildung von einem Sommerjob am Institut für Verteidigungsanalyse von HMMs erfahren.[21] Die Verwendung von HMMs ermöglichte es Forschern, verschiedene Wissensquellen wie Akustik, Sprache und Syntax in einem einheitlichen probabilistischen Modell zu kombinieren.

  • Bis zum Mitte der 1980er Jahre IBM Fred Jelinek's Das Team erstellte eine Voice-aktivierte Schreibmaschine namens Tangora, die mit einem Vokabular mit 20.000 Wörtern umgehen konnte[22] Der statistische Ansatz von Jelinek legt weniger Wert darauf, die Art und Weise zu emulieren, wie das menschliche Gehirn die Sprache für die Verwendung statistischer Modellierungstechniken wie HMMS versteht. (Jelineks Gruppe entdeckte unabhängig die Anwendung von HMMs auf die Sprache.[21]) Dies war mit Linguisten umstritten, da HMMs zu simpel sind, um viele gemeinsame Merkmale menschlicher Sprachen zu berücksichtigen.[23] Das HMM erwies sich jedoch als sehr nützlich für die Modellierung der Sprache und ersetzte dynamische Zeitverzergung, um in den 1980er Jahren zum dominanten Spracherkennungsalgorithmus zu werden.[24]
  • 1982 - Drachensysteme, gegründet von James und gegründet Janet M. Baker,[25] war einer der wenigen Konkurrenten von IBM.

Praktische Spracherkennung

In den 1980er Jahren wurde auch die Einführung der N-Gramm Sprachmodell.

  • 1987 - Das Back-Off-Modell erlaubte Sprachmodelle, mehr Länge n-Gramm zu verwenden, und Cselt[26] verwendet HMM, um Sprachen zu erkennen (sowohl in Software als auch in hardwarespezialisierten Prozessoren, z. RIPAC).

Ein Großteil des Fortschritts auf dem Feld wird den schnell zunehmenden Fähigkeiten von Computern zu verdanken. Am Ende des DARPA -Programms im Jahr 1976 war der beste Computer, der den Forschern zur Verfügung steht PDP-10 mit 4 MB RAM.[23] Es könnte bis zu 100 Minuten dauern, um nur 30 Sekunden Sprache zu dekodieren.[27]

Zwei praktische Produkte waren:

  • 1984 - wurde veröffentlicht Aprikose tragbar Mit bis zu 4096 Wörtern, von denen nur 64 ingehalten werden konnten RAM zu einer Zeit.[28]
  • 1987 - Ein Erkenntnis von Kurzweil Applied Intelligence
  • 1990 - Dragon Diktate, ein 1990 veröffentlichtes Verbraucherprodukt[29][30] AT&T Bereitstellung des Voice Recognition Call -Verarbeitungsdienstes im Jahr 1992, um Telefonanrufe ohne die Verwendung eines menschlichen Betreibers weiterzuleiten.[31] Die Technologie wurde von entwickelt von Lawrence Rabiner und andere bei Bell Labs.

Zu diesem Zeitpunkt war das Vokabular des typischen kommerziellen Spracherkennungssystems größer als das durchschnittliche menschliche Vokabular.[23] Raj Reddys ehemaliger Student, Xuedong Huang, entwickelte die Sphinx-II System bei CMU. Das Sphinx-II-System war das erste, das sprecherunabhängige, große Vokabeln, kontinuierliche Spracherkennung machte und die beste Leistung in der Bewertung von DARPA von 1992 hatte. Der Umgang mit kontinuierlicher Sprache mit einem großen Vokabular war ein großer Meilenstein in der Geschichte der Spracherkennung. Huang fand das fuhr das Spracherkennungsgruppe bei Microsoft 1993. Raj Reddys Student Kai-Fu Lee trat Apple an, wo er 1992 bei der Entwicklung eines Sprachschnittstellenprototyps für den Apple -Computer als Casper entwickelte.

Lernout & Hauspie, ein in Belgien ansässiger Spracherkennungsunternehmen, das 1997 und Dragon Systems im Jahr 2000 mehrere andere Unternehmen erwarb, darunter Kurzweil Applied Intelligence Windows XP Betriebssystem. L & H war Branchenführer, bis ein Buchhaltungsskandal dem Unternehmen im Jahr 2001 ein Ende brachte. Die Sprachtechnologie von L & H wurde von Scansoft gekauft, der wurde Nuance im Jahr 2005. Apfel Ursprünglich lizenzierte Software von Nuance, um seinem digitalen Assistenten Spracherkennungsfunktionen zu bieten Siri.[32]

2000er Jahre

In den 2000er Jahren hat DARPA zwei Spracherkennungsprogramme gesponsert: Effektive erschwingliche wiederverwendbare Sprach- zu Text (Ohren) im Jahr 2002 und Globale Ausbeutung der autonomen Sprache (STURM). Vier Teams nahmen am Ohrenprogramm teil: IBM, ein Team angeführt von BBN mit Limsi und Univ. von Pittsburgh, Universität von Cambridgeund ein Team, das aus ICSI, Sri und Universität von Washington. Die Ohren finanzierten die Sammlung des Switchboard -Telefons Sprachkorpus enthält 260 Stunden aufgezeichnete Gespräche von über 500 Lautsprechern.[33] Das Gale -Programm konzentrierte sich auf Arabisch und Mandarin Sendung Nachrichtenrede. GoogleDie erste Bemühungen um Sprachanerkennung fanden 2007 statt, nachdem einige Forscher von Nuance eingestellt wurden.[34] Das erste Produkt war Goog-411, ein telefonischer Verzeichnisdienst. Die Aufzeichnungen von Goog-411 erstellten wertvolle Daten, die Google dabei halfen, ihre Erkennungssysteme zu verbessern. Google Voice Search wird jetzt in über 30 Sprachen unterstützt.

In den Vereinigten Staaten die Nationale Sicherheitsbehörde hat eine Art von Spracherkennung für verwendet Schlüsselwort Erspotung seit mindestens 2006.[35] Mit dieser Technologie können Analysten große Mengen von aufgezeichneten Gesprächen durchsuchen und die Erwähnungen von Schlüsselwörtern isolieren. Aufzeichnungen können indiziert werden und Analysten können Abfragen über die Datenbank ausführen, um Konversationen von Interesse zu finden. Einige staatliche Forschungsprogramme konzentrierten sich auf Intelligenzanwendungen der Spracherkennung, z. DARPAs Ohrprogramm und Iarpa's Babel -Programm.

In den frühen 2000er Jahren wurde die Spracherkennung immer noch von traditionellen Ansätzen dominiert, wie z. Versteckte Markov -Modelle kombiniert mit Feedforward künstliche neurale Netzwerke.[36] Heute wurden jedoch viele Aspekte der Spracherkennung von a übernommen tiefes Lernen Methode aufgerufen Langes Kurzzeitgedächtnis (LSTM), a Wiederkehrendes neuronales Netzwerk herausgegeben von Sepp Hochreiter & Jürgen Schmidhuber in 1997.[37] Lstm rnns vermeiden die Verschwandungsgradientenproblem und kann "sehr tiefe Lern" -Tasks lernen[38] Das erfordern Erinnerungen an Ereignisse, die vor Tausenden von diskreten Zeitschritten stattgefunden haben, was für die Sprache wichtig ist. Um 2007 wurde LSTM von Connectionist Temporal Classification (CTC) ausgebildet.[39] begann, die traditionelle Spracherkennung in bestimmten Anwendungen zu übertreffen.[40] Im Jahr 2015 erlebte die Spracherkennung von Google Berichten zufolge einen dramatischen Leistungssprung von 49% über CTC-ausgebildete LSTM, der jetzt durch verfügbar ist über Google Voice an alle Smartphone -Benutzer.[41]

Die Verwendung von tiefen Feedforward (nicht-ordnungsgemäß) Netzwerken für Akustische Modellierung wurde im späteren Teil 2009 von vorgestellt von Geoffrey Hinton und seine Studenten an der Universität von Toronto und von Li Deng[42] und Kollegen von Microsoft Research, zunächst in der kollaborativen Arbeit zwischen Microsoft und der University of Toronto, die anschließend auf IBM und Google erweitert wurden (daher "die gemeinsamen Ansichten von vier Forschungsgruppen" Untertitel in ihrem Überblick über 2012).[43][44][45] Ein Microsoft Research -Manager nannte diese Innovation "die dramatischste Veränderung der Genauigkeit seit 1979".[46] Im Gegensatz zu den stetigen inkrementellen Verbesserungen der letzten Jahrzehnte verringerte die Anwendung des Deep -Lernens die Wortfehlerrate um 30%.[46] Diese Innovation wurde schnell über das Feld übernommen. Die Forscher haben begonnen, auch Deep -Lern -Techniken für die Sprachmodellierung zu verwenden.

In der langen Geschichte der Spracherkennung wurden in den 1980er, 1990er und einigen Jahren bis in die 2000er Jahre seit vielen Jahren sowohl flache und tiefe Form (z. B. wiederkehrende Netze) künstlicher neuronaler Netze untersucht.[47][48][49] Aber diese Methoden haben die ungleichmäßige interne Handwerbung nie gewonnen GAUSSISISCHES MISCHE MILDE MODELL/Verstecktes Markov -Modell (GMM-HMM) -Technologie basierend auf generativen Sprachmodellen, die diskriminativ geschult sind.[50] In den neunziger Jahren wurden eine Reihe von Schlüsselschwierigkeiten methodisch analysiert, einschließlich Gradientenabbau[51] und schwache zeitliche Korrelationsstruktur in den neuronalen Vorhersagemodellen.[52][53] All diese Schwierigkeiten waren zusätzlich zu den mangelnden großen Trainingsdaten und großen Rechenleistung in diesen frühen Tagen. Die meisten Forscher der Spracherkennung, die solche Barrieren verstanden haben, bewegten sich daher anschließend von neuronalen Netzen, um generative Modellierungsansätze zu verfolgen, bis das kürzlich wieder auf Wiederbelebung des tiefen Lernens ab 2009 bis 2010 all diese Schwierigkeiten überwunden hatte. Hinton et al. und Deng et al. Überprüfte einen Teil dieser jüngsten Geschichte darüber, wie ihre Zusammenarbeit miteinander und dann mit Kollegen in vier Gruppen (Universität von Toronto, Microsoft, Google und IBM) eine Renaissance von Anwendungen von tiefen Feedforward -neuronalen Netzwerken zur Spracherkennung entzündeten.[44][45][54][55]

2010er

Bis Anfang 2010 Rede Anerkennung, auch als Spracherkennung bezeichnet[56][57][58] war eindeutig unterschieden von spEaker Die Anerkennung und die Unabhängigkeit der Sprecher wurden als großer Durchbruch angesehen. Bis dahin benötigten Systeme eine "Trainingszeit". Eine Anzeige von 1987 für eine Puppe hatte den Slogan "Schließlich die Puppe, die Sie versteht" getragen. - trotz der Tatsache, dass es als "welche Kinder trainieren konnten, um auf ihre Stimme zu reagieren".[12]

Im Jahr 2017 erreichte Microsoft -Forscher einen historischen Meilenstein für menschliche Parität, um die Rede von Konversation Telefonie über die weit verbreitete Switchboard -Aufgabe zu transkriptieren. Mehrere Deep -Learning -Modelle wurden verwendet, um die Genauigkeit der Spracherkennung zu optimieren. Es wurde berichtet, dass die Spracherkennungswort -Fehlerrate so niedrig ist wie 4 professionelle menschliche Transkers, die an derselben Benchmark zusammenarbeiten, die vom IBM Watson Speech -Team über die gleiche Aufgabe finanziert wurde.[59]

Modelle, Methoden und Algorithmen

Beide Akustische Modellierung und Sprachmodellierung sind wichtige Teile moderner statistisch basierter Spracherkennungsalgorithmen. Hidden Markov -Modelle (HMMs) werden in vielen Systemen häufig verwendet. Sprachmodellierung wird auch in vielen anderen Anwendungen für natürliche Sprachverarbeitung verwendet, wie z. Dokumentklassifizierung oder Statistische maschinelle Übersetzung.

Versteckte Markov -Modelle

Moderne allgemeine Spracherkennungssysteme basieren auf versteckten Markov-Modellen. Dies sind statistische Modelle, die eine Abfolge von Symbolen oder Mengen ausgeben. HMMs werden in der Spracherkennung verwendet, da ein Sprachsignal als stückweise stationäres Signal oder ein kurzzeitiges stationäres Signal angesehen werden kann. In kurzer Zeitskala (z. B. 10 Millisekunden) kann die Sprache als a angenähert werden stationärer Prozess. Sprache kann als als betrachtet werden Markov -Modell für viele stochastische Zwecke.

Ein weiterer Grund, warum HMMs beliebt sind, ist, dass sie automatisch trainiert werden können und einfach und rechnerisch machbar sind. In der Spracherkennung würde das versteckte Markov -Modell eine Sequenz von ausgeben n-Dimensional realbewertete Vektoren (mit n Eine kleine Ganzzahl wie 10), die alle alle 10 Millisekunden ausgibt. Die Vektoren würden bestehen aus cepstral Koeffizienten, die durch Einnahme a erhalten werden Fourier-Transformation eines kurzen Zeitfensters und des Dekorrelierens des Spektrums mit a Cosinus -Transformationund dann die ersten (bedeutendsten) Koeffizienten. Das versteckte Markov -Modell hat in jedem Zustand eine statistische Verteilung, die eine Mischung aus diagonaler Kovarianz -Gaußschen ist, die für jeden beobachteten Vektor eine Wahrscheinlichkeit bietet. Jedes Wort oder (für allgemeinere Spracherkennungssysteme) jedes Wort Phonem, wird eine andere Ausgangsverteilung haben; Ein verstecktes Markov -Modell für eine Abfolge von Wörtern oder Phonemen wird durch die Verkettung der individuellen geschulten versteckten Markov -Modelle für die getrennten Wörter und Phoneme hergestellt.

Oben beschrieben sind die Kernelemente des häufigsten HMM-basierten Ansatzes zur Spracherkennung. Moderne Spracherkennungssysteme verwenden verschiedene Kombinationen einer Reihe von Standardtechniken, um die Ergebnisse gegenüber dem oben beschriebenen grundlegenden Ansatz zu verbessern. Ein typisches großen Vokabularsystem würde eine Kontextabhängigkeit für die Phoneme benötigen (daher haben Phoneme mit unterschiedlichem linker und rechter Kontext unterschiedliche Realisierungen als HMM-Zustände). Es würde die Cepstral -Normalisierung verwenden, um sich für einen anderen Lautsprecher- und Aufzeichnungsbedingungen zu normalisieren. Für die weitere Normalisierung der Lautsprecher kann die Normalisierung der Vokaltraktlänge (VTLN) zur Normalisierung von Männern und zur Normalisierung der männlichen und maximalen Wahrscheinlichkeit für lineare Regression (MLLR) für eine allgemeinere Anpassung der Lautsprecher verwendet werden. Die Funktionen hätten sogenannte Delta- und Delta-Delta-Koeffizienten, um die Sprachdynamik zu erfassen und zusätzlich eine heteroskedastische lineare Diskriminanzanalyse (HLDA) zu verwenden. Oder überspringen Sie die Delta- und Delta-Delta-Koeffizienten und verwenden Spleißen und eine LDA-basierte Projektion, gefolgt von vielleicht gefolgt von heteroskedastisch Lineare Diskriminanzanalyse oder eine globale halbgebundene CO-Varianztransformation (auch als lineare Transformation der maximalen Wahrscheinlichkeit oder MLLT bezeichnet). Viele Systeme verwenden sogenannte diskriminative Trainingstechniken, die auf einen rein statistischen Ansatz zur HMM-Parameterschätzung ausgleichen, und optimieren stattdessen einige klassifizierungsbezogene Maßnahmen für die Trainingsdaten. Beispiele sind maximal gegenseitige Information (MMI), Mindestklassifizierungsfehler (MCE) und minimaler Telefonfehler (MPE).

Decodierung der Rede (der Begriff für das, was passiert, wenn dem System eine neue Äußerung präsentiert wird und den wahrscheinlichsten Quellsatz berechnen muss) würde wahrscheinlich die verwenden Viterbi -Algorithmus Um den besten Weg zu finden, und hier gibt es die Wahl zwischen dynamischem Erstellen eines Kombination versteckten Markov -Modell Finite -Status -Wandleroder fst, Ansatz).

Eine mögliche Verbesserung des Decodierens besteht darin, eine Reihe guter Kandidaten zu behalten, anstatt nur den besten Kandidaten zu behalten und eine bessere Bewertungsfunktion (RE -Wertung) zu verwenden, um diese guten Kandidaten zu bewerten, damit wir nach diesem raffinierten Score das beste auswählen können . Der Kandidatensatz kann entweder als Liste (der n-Best-Listenansatz) oder als Teilmenge der Modelle (a) aufbewahrt werden Gitter). RE -Wertung erfolgt normalerweise, indem versucht wird, die zu minimieren Bayes -Risiko[60] (oder eine Annäherung davon): Anstatt den Quellsatz mit maximaler Wahrscheinlichkeit zu nehmen, versuchen wir, den Satz zu nehmen, der die Erwartung einer bestimmten Verlustfunktion in Bezug auf alle möglichen Transkriptionen minimiert (d. H. Wir nehmen den Satz, der den durchschnittlichen Abstand minimiert an andere mögliche Sätze, die durch ihre geschätzte Wahrscheinlichkeit gewichtet wurden). Die Verlustfunktion ist normalerweise die Levenshtein -Entfernungobwohl es unterschiedliche Entfernungen für bestimmte Aufgaben sein kann; Der Satz möglicher Transkriptionen ist natürlich beschnitten, um die Nachweiterbarkeit aufrechtzuerhalten. Es wurde effiziente Algorithmen entwickelt, um zu bewerten Gitter als gewichtet dargestellt Finite -Status -Wandler mit Entfernungen bearbeiten vertrat sich als Finite -Status -Wandler bestimmte Annahmen überprüfen.[61]

Dynamische Zeitverzerrung (DTW) -basierte Spracherkennung

Dynamisches Zeitverzerrung ist ein Ansatz, der historisch für die Spracherkennung verwendet wurde, aber nun weitgehend durch den erfolgreicheren HMM-basierten Ansatz vertrieben wurde.

Das dynamische Zeitverzerrung ist ein Algorithmus zur Messung der Ähnlichkeit zwischen zwei Sequenzen, die zeitlich oder Geschwindigkeit variieren können. Zum Beispiel würden Ähnlichkeiten bei Gehmustern erkannt, selbst wenn die Person in einem Video langsam ging und wenn sie in einem anderen schneller ging oder wenn es während einer Beobachtung Beschleunigungen und Verzögerungen gab. DTW wurde auf Video, Audio und Grafiken angewendet. In der Tat können alle Daten, die in eine lineare Darstellung verwandelt werden können, mit DTW analysiert werden.

Eine bekannte Anwendung war eine automatische Spracherkennung, um mit unterschiedlichen Sprechgeschwindigkeiten fertig zu werden. Im Allgemeinen ist es eine Methode, mit der ein Computer eine optimale Übereinstimmung zwischen zwei gegebenen Sequenzen (z. B. Zeitreihen) mit bestimmten Einschränkungen finden kann. Das heißt, die Sequenzen sind nicht linear "verzerrt", um sie zu entsprechen. Diese Sequenzausrichtungsmethode wird häufig im Kontext von versteckten Markov -Modellen verwendet.

Neuronale Netze

Neuronale Netze wurden in den späten 1980er Jahren als attraktiver akustischer Modellierungsansatz in ASR. Seitdem wurden neuronale Netze in vielen Aspekten der Spracherkennung verwendet, wie z. B. Phonem -Klassifizierung,[62] Phonemklassifizierung durch multi-objektive evolutionäre Algorithmen,[63] isolierte Worterkennung,[64] Audiovisuelle Spracherkennung, audiovisuelle Anerkennung der Sprecher und Sprecheranpassung.

Neuronale Netze Machen Sie weniger explizite Annahmen über statistische Eigenschaften von Merkmalen als HMMs und haben Sie mehrere Eigenschaften, wodurch sie attraktive Erkennungsmodelle für die Spracherkennung machen. Bei Verwendung der Wahrscheinlichkeiten eines Sprachmerkmals ermöglichen neuronale Netze diskriminierende Schulungen auf natürliche und effiziente Weise. Trotz ihrer Wirksamkeit bei der Klassifizierung von Kurzzeiteinheiten wie einzelnen Phonemen und isolierten Wörtern,[65] Frühe neuronale Netzwerke waren aufgrund ihrer begrenzten Fähigkeit, zeitliche Abhängigkeiten zu modellieren, selten erfolgreich für kontinuierliche Erkennungsaufgaben.

Ein Ansatz für diese Einschränkung bestand darin, neuronale Netzwerke als Vorverarbeitung, Merkmaltransformation oder Dimensionalitätsreduzierung zu verwenden.[66] Schritt vor der HMM -basierten Erkennung. In jüngerer Zeit jedoch, LSTM und verwandte wiederkehrende neuronale Netze (RNNs)[37][41][67][68] und Zeitverzögerung neuronale Netze (TDNNs)[69] haben eine verbesserte Leistung in diesem Bereich gezeigt.

Tiefe Feedforward und wiederkehrende neuronale Netze

Tiefe neuronale Netzwerke und Denoising Autoencoder[70] werden auch untersucht. Ein tiefes Feedforward Neural Network (DNN) ist ein künstliche neuronale Netz mit mehreren versteckten Einheiten zwischen Eingangs- und Ausgangsebenen.[44] Ähnlich wie bei flachen neuronalen Netzwerken können DNNs komplexe nichtlineare Beziehungen modellieren. DNN -Architekturen erzeugen Kompositionsmodelle, bei denen zusätzliche Schichten die Zusammensetzung von Merkmalen aus niedrigeren Schichten ermöglichen, die eine enorme Lernkapazität und damit das Potenzial der Modellierung komplexer Muster von Sprachdaten ermöglichen.[71]

Ein Erfolg von DNNs bei großem Vokabular -Sprachanerkennung erfolgte 2010 von Industrieforschern in Zusammenarbeit mit akademischen Forschern, bei denen große Produktionsschichten des DNN auf basierend auf kontextabhängigen HMM -Zuständen, die von Entscheidungsbäumen konstruiert wurden, angewendet wurden.[72][73] [74] Siehe umfassende Rezensionen dieser Entwicklung und des Stand der Technik im Oktober 2014 im jüngsten Springer Book von Microsoft Research.[75] Siehe auch den verwandten Hintergrund der automatischen Spracherkennung und die Auswirkungen verschiedener Paradigmen für maschinelles Lernen, insbesondere einschließlich der Einführung tiefes Lernenin jüngsten Übersichtsartikeln.[76][77]

Ein Grundprinzip von tiefes Lernen ist mit handgefertigtem Handwerk zu beseitigen Feature Engineering und rohe Funktionen zu verwenden. Dieses Prinzip wurde erstmals erfolgreich in der Architektur des Deep Autocoder im "RAW" -Spektrogramm oder der linearen Filterbankfunktionen erforscht.[78] Zeigen Sie seine Überlegenheit gegenüber den Mel-CEPSTRAL-Merkmalen, die einige Stadien der festen Transformation aus Spektrogrammen enthalten. Die wahren "rohen" Merkmale der Sprache, Wellenformen, wurden in jüngerer Zeit gezeigt, dass sie hervorragende Spracherkennungsergebnisse erzielen.[79]

End-to-End-automatische Spracherkennung

Seit 2014 besteht ein großes Forschungsinteresse an "End-to-End" -Anr. Traditionelle phonetische Basis (d. H. Alle HMM-basierte Modell) Ansätze erforderten separate Komponenten und ein Training für die Aussprache, akustisch und Sprachmodell. End-to-End-Modelle lernen gemeinsam alle Komponenten des Spracherkenners. Dies ist wertvoll, da es den Trainingsprozess und den Bereitstellungsprozess vereinfacht. Zum Beispiel a N-Gram-Sprachmodell ist für alle HMM-basierten Systeme erforderlich, und ein typisches N-Gram-Sprachmodell nimmt häufig mehrere Gigabyte im Speicher ein, was sie für die Bereitstellung auf mobilen Geräten unpraktisch macht.[80] Folglich moderne kommerzielle ASR -Systeme von Google und Apfel (Ab 2017) werden in der Cloud bereitgestellt und benötigen eine Netzwerkverbindung im Gegensatz zum Gerät lokal.

Der erste Versuch bei End-to-End-ASR war mit Connectionist Temporal Classification (CTC) -basierte Systeme, die durch eingeführt wurden durch Alex Graves von Google DeepMind und Navdeep Jaitly der Universität von Toronto im Jahr 2014.[81] Das Modell bestand aus Wiederkehrende neuronale Netze und eine CTC -Schicht. Gemeinsam lernt das RNN-CTC-Modell die Aussprache und das akustische Modell zusammen, es ist jedoch nicht in der Lage, die Sprache zu lernen bedingte Unabhängigkeit Annahmen ähnlich einem HMM. Infolgedessen können CTC -Modelle direkt lernen, Sprachakustik in englische Charaktere zu kartieren, aber die Modelle machen viele gemeinsame Rechtschreibfehler und müssen sich auf ein separates Sprachmodell verlassen, um die Transkripte zu säubern. Später, Baidu erweitert die Arbeit mit extrem großen Datensätzen und zeigte einen gewissen kommerziellen Erfolg in chinesischem Mandarin und Englisch.[82] Im Jahr 2016, Universität von Oxford vorgestellt Lipnet,[83] Das erste LipReading-Modell von End-to-End-Satzebene, das räumlich-zeitliche Wischungen in Verbindung mit einer RNN-CTC-Architektur verwendet, die die Leistung auf menschlicher Ebene in einem eingeschränkten Grammatikdatensatz übertrifft.[84] Eine groß angelegte CNN-RNN-CTC-Architektur wurde 2018 von vorgestellt Google DeepMind 6 -mal bessere Leistung erzielen als menschliche Experten.[85]

Ein alternativer Ansatz für CTC-basierte Modelle sind aufmerksamkeitsbasierte Modelle. Aufmerksamkeitsbasierte ASR-Modelle wurden gleichzeitig von Chan et al. von Carnegie Mellon Universität und Google Brain und Bahdanau et al. des Universität von Montreal 2016.[86][87] Das Modell mit dem Namen "Hören, Betreten und Zauber" (LAS), der buchstäblich auf das akustische Signal "hört", achtet "Aufmerksamkeit" auf verschiedene Teile des Signals und "Zauber" das Transkript -Zeichen nach dem anderen. Im Gegensatz zu CTC-basierten Modellen haben aufmerksamkeitsbasierte Modelle keine Annahmen für bedingte unabhängige Annahmen und können alle Komponenten eines Spracherkenners einschließlich des akustischen und sprachlichen Modells direkt lernen. Dies bedeutet, dass während des Einsatzes kein Sprachmodell mit sich herumtragen muss, was es für Anwendungen mit begrenztem Speicher sehr praktisch macht. Bis Ende 2016 haben die aufmerksamkeitsbasierten Modelle erhebliche Erfolge erzielt, einschließlich der Outperformance der CTC-Modelle (mit oder ohne externes Sprachmodell).[88] Seit dem ursprünglichen LAS -Modell wurden verschiedene Erweiterungen vorgeschlagen. Latente Sequenzabbauungen (LSD) wurden durch vorgeschlagen Carnegie Mellon Universität, MIT und Google Brain direkte Unterworteinheiten, die natürlicher sind als englische Charaktere;[89] Universität von Oxford und Google DeepMind Erweiterte LAs, um "Beobachten, Hören, Besuch und Zauber" (WLAs), um das Lesen der Lippen zu bewältigen, die über die Leistung von Menschenebene hinausgehen.[90]

Anwendungen

In-Car-Systeme

Normalerweise ermöglicht ein manueller Steuereingang, beispielsweise mittels einer Fingersteuerung auf dem Lenkrad, das Spracherkennungssystem, das dem Treiber durch eine Audio-Eingabeaufforderung signalisiert wird. Nach der Audio -Eingabeaufforderung verfügt das System über ein "Hörfenster", in dem es eine Spracheingabe für die Erkennung akzeptiert.

Einfache Sprachbefehle können verwendet werden, um Telefonanrufe zu initiieren, Radiosender auszuwählen oder Musik von einem kompatiblen Smartphone, MP3-Player oder Musik-geladenem Flash-Laufwerk abzuspielen. Die Spracherkennungsfunktionen variieren zwischen dem Auto und dem Modell. Einige der neuesten[wenn?] Automodelle bieten eine natürliche Spracherkennung anstelle eines festen Befehls, sodass der Fahrer vollständige Sätze und gemeinsame Phrasen verwenden kann. Bei solchen Systemen besteht daher keine Notwendigkeit, dass der Benutzer eine Reihe fester Befehlswörter auswendig lernte.

Gesundheitsvorsorge

Medizinische Dokumentation

In dem Gesundheitsvorsorge Sektor, Spracherkennung kann im Front-End oder im Back-End des medizinischen Dokumentationsprozesses implementiert werden. Die Front-End-Spracherkennung diktiert der Anbieter in eine Spracherkennungsmotor, die anerkannten Wörter werden beim Aussprechen angezeigt, und der Diktator ist für die Bearbeitung und Anmelde des Dokuments verantwortlich. Back-End- oder aufgeschobene Spracherkennung ist, wo der Anbieter in a diktiert Digitales Diktat System, die Stimme wird durch eine Spracherkennungsmaschine geleitet, und das anerkannte Entwurfsdokument wird zusammen mit der ursprünglichen Sprachdatei an den Editor weitergeleitet, wo der Entwurf bearbeitet und berichtet wird. Die aufgeschobene Spracherkennung wird derzeit in der Branche weit verbreitet.

Eines der Hauptprobleme im Zusammenhang mit der Verwendung von Spracherkennung im Gesundheitswesen ist, dass die American Recovery and Reinvestment Act von 2009 (Arra) Vorsichtigt für Ärzte, die eine EMR gemäß den Standards "aussagekräftige Nutzung" nutzen, erhebliche finanzielle Vorteile. Diese Standards erfordern, dass eine erhebliche Datenmenge von der EMR aufrechterhalten wird (jetzt häufiger als als als bezeichnet als als Elektronischer Gesundheitsakten oder ehr). Die Verwendung der Spracherkennung ist natürlicher für die Erzeugung von narrativem Text als Teil einer Interpretation von Radiologie/Pathologie, Fortschrittsnotiz oder Entlassungszusammenfassung geeignet: die ergonomischen Gewinne der Verwendung der Spracherkennung zur Eingabe strukturierter diskreter Daten (z. B. numerische Werte oder Codes aus einer Liste oder a kontrolliertes Wortschatz) sind relativ minimal für Menschen, die gesichtet werden und die eine Tastatur und Maus betreiben können.

Ein wichtigeres Problem ist, dass die meisten EHRs nicht ausdrücklich darauf zugeschnitten wurden, die Spracherkennungsfunktionen zu nutzen. Ein großer Teil der Interaktion des Klinikers mit dem EHR beinhaltet die Navigation über die Benutzeroberfläche unter Verwendung von Menüs und Registerkarten-/Schaltflächenklicks und hängt stark von der Tastatur und der Maus ab: Sprachbasierte Navigation bietet nur bescheidene ergonomische Vorteile. Im Gegensatz dazu implementieren viele hoch angepasste Systeme für Radiologie oder Pathologie -Diktat die Sprache "Makros", wobei die Verwendung bestimmter Phrasen - z. variieren mit dem Typ der Untersuchung-z. B. einer Röntgenstrahl von Brust im Vergleich zu einer gastrointestinalen Kontrastreihe für ein Radiologie-System.

Therapeutischer Gebrauch

Längere Verwendung von Spracherkennungssoftware in Verbindung mit Textverarbeitungen hat Vorteile für kurzfristige Memory-Rückschläge in gezeigt Gehirn AVM Patienten, die behandelt wurden mit Resektion. Weitere Untersuchungen müssen durchgeführt werden, um kognitive Vorteile für Personen zu bestimmen, deren AVMs mit radiologischen Techniken behandelt wurden.

Militär

Hochleistungs-Kampfflugzeuge

Im letzten Jahrzehnt wurden erhebliche Anstrengungen zur Prüfung und Bewertung der Spracherkennung in gewidmet Kämpferflugzeuge. Besonders beachten Sie das US -Programm in der Spracherkennung für die Advanced Fighter Technology Integration (Afti)/F 16 Flugzeug (F-16 Vista) das Programm in Frankreich für Fata Morgana Flugzeuge und andere Programme in Großbritannien, die sich mit einer Vielzahl von Flugzeugplattformen befassen. In diesen Programmen wurden Spracherkenner erfolgreich in Kampfflugzeugen betrieben, wobei Anwendungen einschließlich Festlegen von Funkfrequenzen, Befehlshaber eines Autopilotensystems, Einstellung von Steer-Point-Koordinaten und Waffenfreigabeparametern und Steuerung der Fluganzeige.

Arbeiten mit schwedischen Piloten, die in der fliegen JAS-39 Gripen Cockpit, Englund (2004) wurde mit zunehmendem Erkenntnis verschlechtert G-Loads. Der Bericht kam auch zu dem Schluss, dass die Anpassung die Ergebnisse in allen Fällen erheblich verbesserte und dass die Einführung von Modellen für die Atmung gezeigt wurde, dass die Erkennungswerte signifikant verbessert werden. Entgegen dem, was erwartet worden sein könnte, wurden keine Auswirkungen des gebrochenen Englisch der Sprecher gefunden. Es war offensichtlich, dass spontane Sprache Probleme für den Erkenner verursachte, wie es möglicherweise erwartet wurde. Ein eingeschränkter Wortschatz und vor allem eine ordnungsgemäße Syntax könnte daher erwartet werden, dass sie die Erkennungsgenauigkeit erheblich verbessert.[91]

Das Eurofighter Typhoonderzeit im Dienst bei Großbritannien RAF, verwendet ein sprecherabhängiges System, wodurch jeder Pilot eine Vorlage erstellt. Das System wird nicht für sicherheitskritische oder waffenkritische Aufgaben verwendet, wie z. B. Waffenfreigabe oder Senkung des Fahrwerks, wird jedoch für eine Vielzahl anderer Cockpitfunktionen verwendet. Sprachbefehle werden durch visuelles und/oder akustisches Feedback bestätigt. Das System wird als wichtiges Designmerkmal bei der Reduzierung des Piloten angesehen Arbeitsbelastung,[92] und ermöglicht es dem Piloten sogar, seinem Flugzeug Ziele mit zwei einfachen Sprachbefehlen oder jedem seiner Flügelmänner mit nur fünf Befehlen zuzuweisen.[93]

Lautsprecherunabhängige Systeme werden ebenfalls entwickelt und werden für die getestet F35 Lightning II (JSF) und die Alenia Aermacchi M-346 Master Kampfflugentrainer. Diese Systeme haben Wortgenauigkeitswerte von mehr als 98%hervorgebracht.[94]

Hubschrauber

Die Probleme bei der Erlangung einer hohen Erkennungsgenauigkeit unter Stress und Lärm sind besonders relevant in der Hubschrauber Umwelt sowie in der Jet -Kämpfer -Umgebung. Das Problem des akustischen Rauschen Gesichtsmaske, was akustisches Rauschen in der reduzieren würde Mikrofon. In den letzten zehn Jahren wurden wesentliche Test- und Evaluierungsprogramme in den Anwendungen für Spracherkennung in Hubschrauber durchgeführt, insbesondere durch die US-Armee Avionics Research and Development Activity (Avradada) und durch das Royal Aerospace Establishment (Rae) im Vereinigten Königreich. Die Arbeit in Frankreich hat die Spracherkennung in die aufgenommen Puma -Hubschrauber. Es gab auch viel nützliche Arbeit in Kanada. Die Ergebnisse waren ermutigend, und Sprachanwendungen haben: Steuerung von Kommunikationsradios, Einstellung von Navigation Systeme und Steuerung eines automatisierten Zielübergabesystems.

Wie bei Kampfflugzeugen ist das übergeordnete Problem für die Stimme in Hubschraubern die Auswirkungen auf die Effektivität von Piloten. Ermutigende Ergebnisse werden für die Avrata -Tests angegeben, obwohl diese nur eine Machbarkeitsdemonstration in einer Testumgebung darstellen. Es bleibt noch viel zu tun, sowohl bei der Spracherkennung als auch in insgesamt Sprachtechnologie Um konsequent Leistungsverbesserungen in den Betriebseinstellungen zu erzielen.

Flugverkehrskontroller ausbilden

Das Training für Flugverkehrskontroller (ATC) stellt eine hervorragende Anwendung für Spracherkennungssysteme dar. Viele ATC-Trainingssysteme verlangen derzeit, dass eine Person als "Pseudo-Pilot" fungiert und sich mit dem Dialog mit dem Auszubildenden mit dem Trainee-Controller befasst, der den Dialog simuliert, den der Controller mit Piloten in einer echten ATC-Situation durchführen müsste. Spracherkennung und Synthese Techniken bieten das Potenzial, die Notwendigkeit einer Person zu beseitigen, als Pseudo-Piloten zu fungieren und so das Trainings- und Unterstützungspersonal zu verringern. Theoretisch sind Luftcontroller -Aufgaben auch durch stark strukturierte Sprache als primäre Ausgabe des Controllers gekennzeichnet, wodurch die Schwierigkeit der Spracherkennungsaufgabe möglich ist. In der Praxis ist dies selten der Fall. Das FAA -Dokument 7110.65 beschreibt die Phrasen, die von Flugverkehrscontrollern verwendet werden sollten. Während dieses Dokument weniger als 150 Beispiele für solche Phrasen enthält, beträgt die Anzahl der von einem der Spracherkennungssysteme eines der Simulationsanbieter unterstützten Phrasen mehr als 500.000.

Die USAF, USMC, die US -Armee, die US -Marine und die FAA sowie eine Reihe internationaler ATC -Trainingsorganisationen wie die Royal Australian Air Force und Civil Aviation Behörden in Italien, Brasilien und Kanada verwenden derzeit ATC -Simulatoren mit Sprachanerkennung von eine Reihe verschiedener Anbieter.

Telefonie und andere Domains

ASR ist jetzt im Bereich von alltäglicher Stelle von Telefonie und wird auf dem Gebiet von weit verbreiteter Computerspiele und Simulation. In Telefonie -Systemen wird ASR jetzt überwiegend in Contact Centern verwendet, indem es in die Integration mit integriert ist IVR Systeme. Trotz der hohen Integration in die Textverarbeitung im allgemeinen persönlichen Computing im Bereich der Dokumentproduktion hat ASR nicht die erwarteten Nutzungssteigerungen festgestellt.

Die Verbesserung der Geschwindigkeit des mobilen Prozessors hat die Spracherkennung praktisch in praktischer Weise gemacht Smartphones. Sprache wird hauptsächlich als Teil einer Benutzeroberfläche verwendet, um vordefinierte oder benutzerdefinierte Sprachbefehle zu erstellen.

Nutzung in Bildung und täglichem Leben

Zum Sprachen lernen, Spracherkennung kann nützlich sein, um a zu lernen zweite Sprache. Es kann eine ordnungsgemäße Aussprache vermitteln und einer Person helfen, mit ihren Sprechfähigkeiten fließend zu entwickeln.[95]

Studenten, die blind sind (siehe Blindheit und Bildung) oder sehr wenig Sehen können davon profitieren, die Technologie zu verwenden, um Wörter zu vermitteln und dann den Computer zu hören, und einen Computer verwenden, indem sie mit seiner Stimme befiehlt, anstatt sich den Bildschirm und die Tastatur anzusehen.[96]

Studenten, die körperlich behindert sind, haben eine Verletzung durch wiederholte Belastung/Andere Verletzungen an den oberen Extremitäten können von der Handschrift, dem Schreiben oder der Arbeit mit Schreiber bei Schulaufgaben durch Sprachprogramme erleichtert werden. Sie können auch Spracherkennungstechnologie einsetzen, um das Internet zu suchen oder einen Computer zu Hause zu verwenden, ohne eine Maus und Tastatur physisch betreiben zu müssen.[96]

Spracherkennung kann es Schülern mit Lernstörungen ermöglichen, bessere Schriftsteller zu werden. Indem sie die Wörter laut sagen, können sie die Fließfähigkeit ihres Schreibens erhöhen und Bedenken hinsichtlich der Rechtschreibung, der Interpunktion und anderer Schreibmechaniker verringern.[97] Siehe auch Lernschwäche.

Die Verwendung von Spracherkennungssoftware in Verbindung mit einem digitalen Audio-Rekorder und einem PC-Computer, der eine Wortverarbeitungssoftware ausführt, hat sich als positiv für die Wiederherstellung der beschädigten Kurzzeitgedächtniskapazität in Schlaganfall- und Kraniotomie-Personen erwiesen.

Menschen mit Behinderungen

Menschen mit Behinderungen können von Sprachanerkennungsprogrammen profitieren. Für Personen, die taub oder schwerhörig sind, wird Spracherkennungssoftware verwendet, um automatisch eine geschlossene Kapitalisierung von Gesprächen wie Diskussionen in Konferenzräumen, Vorlesungen im Klassenzimmer und/oder religiösen Diensten zu generieren.[98]

Die Spracherkennung ist auch sehr nützlich für Menschen, die Schwierigkeiten haben, ihre Hände zu verwenden, von leichten sich wiederholenden Stressverletzungen bis hin zur Einbeziehung von Behinderungen, die die Verwendung herkömmlicher Computereingangsgeräte ausschließen. Tatsächlich benutzten Menschen, die die Tastatur viel benutzten und sich entwickelt haben RSI wurde zu einem dringenden frühen Markt für Spracherkennung.[99][100] Spracherkennung wird in verwendet taub Telefoniewie Voicemail zum Text, Staffeldienste, und Bildunterschrift. Personen mit Lernschwierigkeiten, die Probleme mit der Kommunikation zum Nachdenken haben (im Wesentlichen denken sie an eine Idee, aber sie wird fälschlicherweise verarbeitet, was dazu führt, dass sie auf dem Papier unterschiedlich endet), können möglicherweise von der Software profitieren, aber die Technologie ist kein Bug-Proof.[101] Auch die ganze Idee, mit Text zu sprechen, kann für intellektuell behinderte Person schwierig sein, da es selten ist, dass jeder versucht, die Technologie zu lernen, um der Person die Behinderung beizubringen.[102]

Diese Art von Technologie kann Menschen mit Legasthenie helfen, andere Behinderungen sind jedoch noch in Frage gestellt. Die Wirksamkeit des Produkts ist das Problem, das es daran hindert, effektiv zu sein. Obwohl ein Kind in der Lage ist, ein Wort zu sagen, je nachdem, wie klar es ist, dass es die Technologie vielleicht der Meinung ist, dass es ein anderes Wort sagt und die falsche Eingabe eingibt. Wenn Sie ihnen mehr Arbeit geben, um sie zu beheben, müssen sie mehr Zeit in Anspruch nehmen, um das falsche Wort zu beheben.[103]

Weitere Anwendungen

Leistung

Die Leistung von Spracherkennungssystemen wird normalerweise anhand von Genauigkeit und Geschwindigkeit bewertet.[108][109] Genauigkeit wird normalerweise mit bewertet mit Wortfehlerrate (WER), während die Geschwindigkeit mit dem Echtzeitfaktor gemessen wird. Andere Genauigkeitsmaße umfassen eine einzelne Wortfehlerrate (SWER) und die Befehls Erfolgsrate (CSR).

Spracherkennung durch Maschine ist jedoch ein sehr komplexes Problem. Die Vokalisationen variieren in Bezug auf Akzent, Aussprache, Artikulation, Rauheit, Nasalität, Tonhöhe, Volumen und Geschwindigkeit. Die Sprache wird durch ein Hintergrundgeräusch und Echos, elektrische Eigenschaften, verzerrt. Die Genauigkeit der Spracherkennung kann mit Folgendem variieren:[110]

  • Vokabulargröße und Verwechslungsfähigkeit
  • Sprecherabhängigkeit versus Unabhängigkeit
  • Isolierte, diskontinuierliche oder kontinuierliche Sprache
  • Aufgaben- und Sprachbeschränkungen
  • Lesen Sie gegen spontane Sprache
  • Unerwünschte Bedingungen

Genauigkeit

Wie bereits in diesem Artikel erwähnt, kann die Genauigkeit der Spracherkennung je nach folgenden Faktoren variieren:

  • Die Fehlerraten steigen mit zunehmendem Wortschatzgröße:
z.B. Die 10 Ziffern "Null" bis "neun" können im Wesentlichen perfekt erkannt werden, aber Vokabulargrößen von 200, 5000 oder 100000 können Fehlerquoten von 3%, 7%bzw. 45%aufweisen.
  • Das Wortschatz ist schwer zu erkennen, ob es verwirrende Worte enthält:
z.B. Die 26 Buchstaben des englischen Alphabets sind schwer zu diskriminieren, weil sie verwirrende Worte sind (am notorischsten, das E-Set: "B, C, D, E, G, P, T, V, Z-wenn" z "ausgesprochen wird "Zee" anstelle von "zed" je nach englischer Region); eine 8% ige Fehlerrate wird für dieses Wortschatz als gut angesehen.
  • Sprecherabhängigkeit vs. Unabhängigkeit:
Ein sprecherabhängiges System ist für einen einzelnen Lautsprecher vorgesehen.
Ein sprecherunabhängiges System ist für einen Lautsprecher vorgesehen (schwieriger).
  • Isolierte, diskontinuierliche oder kontinuierliche Sprache
Bei isolierter Sprache werden einzelne Wörter verwendet, daher wird es einfacher, die Sprache zu erkennen.

Bei diskontinuierlichen Sprache, die durch Stille getrennt sind, werden daher die Rede und die isolierte Sprache leichter erkennen.
Bei kontinuierlicher Sprache werden natürlich gesprochene Sätze verwendet, daher wird es schwieriger, die Sprache zu erkennen, unterscheidet sich sowohl von einer isolierten als auch diskontinuierlichen Sprache.

  • Aufgaben- und Sprachbeschränkungen
    • z.B. Die Abfrageanwendung kann die Hypothese "Der Apfel ist rot" ablehnen.
    • z.B. Einschränkungen können semantisch sein; "Der Apfel ist wütend" abzulehnen.
    • z.B. Syntaktisch; Ablehnung "rot ist Apple the."

Einschränkungen werden oft durch Grammatik dargestellt.

  • Lesen Sie vs. spontane Sprache - Wenn eine Person sie liest, ist sie normalerweise in einem Kontext, der zuvor vorbereitet wurde. Wenn eine Person jedoch spontane Sprache verwendet, ist es schwierig, die Rede aufgrund der Disfluenzen (wie "uh" und "um" zu erkennen. Fehlstarts, unvollständige Sätze, Stottern, Husten und Lachen) und begrenztes Wortschatz.
  • Nebenbedingungen - Umweltgeräusche (z. B. Lärm in einem Auto oder einer Fabrik). Akustische Verzerrungen (z. B. Echos, Raumakustik)

Spracherkennung ist eine mehrstufige Mustererkennungsaufgabe.

  • Akustische Signale werden in eine Hierarchie von Einheiten strukturiert, z. Phoneme, Wörter, Sätze und Sätze;
  • Jede Ebene liefert zusätzliche Einschränkungen;

z.B. Bekannte Wortaussprachen oder gesetzliche Wortsequenzen, die Fehler oder Unsicherheiten auf niedrigerer Ebene ausgleichen können;

  • Diese Hierarchie der Einschränkungen wird ausgenutzt. Durch die Kombination von Entscheidungen auf allen niedrigeren Ebenen und durch deterministischere Entscheidungen nur auf höchster Ebene ist die Spracherkennung durch eine Maschine ein Prozess in mehreren Phasen. Berechnend ist es ein Problem, bei dem ein Schallmuster in eine Kategorie erkannt oder eingeteilt werden muss, die eine Bedeutung für einen Menschen darstellt. Jedes akustische Signal kann in kleinere grundlegende Subsignale unterteilt werden. Da das komplexere Klangsignal in die kleineren Unterseelen unterteilt ist, werden verschiedene Ebenen erzeugt, wobei wir auf der oberen Ebene komplexe Geräusche haben, die aus einfacheren Klängen auf der unteren Ebene bestehen und auf niedrigere Ebenen gehen, noch mehr. Wir erstellen grundlegende und kürzere und einfachere Klänge. Auf der niedrigsten Ebene, bei der die Geräusche am grundlegendsten sind, würde eine Maschine nach einfachen und probabilistischeren Regeln für den Klang suchen. Sobald diese Sounds auf oberen Ebenen in komplexere Klänge zusammengefasst sind, sollte ein neuer Satz deterministischerer Regeln vorhersagen, was der neue komplexe Klang darstellen sollte. Die oberste Ebene einer deterministischen Regel sollte die Bedeutung komplexer Ausdrücke herausfinden. Um unser Wissen über Spracherkennung zu erweitern, müssen wir neuronale Netze berücksichtigen. Es gibt vier Schritte neuronaler Netzwerkansätze:
  • Digitalisieren Sie die Rede, die wir erkennen wollen

Für die Telefonrede beträgt die Stichprobenrate 8000 Proben pro Sekunde;

  • Berechnung von Merkmalen der Spektraldomäne der Sprache (mit Fourier-Transformation);

Alle 10 ms berechnet, mit einem 10 -ms -Abschnitt, der als Rahmen bezeichnet wird;

Die Analyse von vierstufigen Ansätzen für neuronale Netzwerke kann durch weitere Informationen erläutert werden. Der Ton wird durch Luft (oder eine andere mittelgroße) Vibration erzeugt, die wir nach Ohren registrieren, aber Maschinen von Empfängern. Basic Sound erstellt eine Welle mit zwei Beschreibungen: Amplitude (Wie stark ist es) und Frequenz (Wie oft vibriert es pro Sekunde). Genauigkeit kann mit Hilfe der Wortfehlerrate (WER) berechnet werden. Die Wortfehlerrate kann berechnet werden, indem das erkannte Wort und das referenzierte Wort mithilfe der dynamischen String -Ausrichtung ausgerichtet ist. Das Problem kann beim Berechnen der Wortfehlerrate aufgrund der Differenz zwischen den Sequenzlängen des erkannten Wortes und des referenzierten Wortes auftreten. Lassen

 S Die Anzahl der Substitutionen ist die Anzahl der Löschungen, ich bin die Anzahl der Einfügungen, n die Anzahl der Wortreferenzen.

Die Formel zur Berechnung der Wortfehlerrate (WER) ist

      Wer = (s+d+i) ÷ n

Während der Berechnung der Wortkennungsrate (WRR) Wortfehlerrate (WER) wird verwendet und die Formel ist

      Wrr = 1- Wer = (n-S-d-i) ÷ n = (h-i) ÷ n

Hier ist H die Anzahl der korrekt anerkannten Wörter. H = N- (S+D).

Sicherheitsbedenken

Spracherkennung kann ein Mittel des Angriffs, des Diebstahls oder eines zufälligen Betriebs werden. Zum Beispiel können Aktivierungswörter wie "Alexa", die in einem Audio- oder Video -Sendung gesprochen werden, Geräte in Häusern und Büros verursachen, um unangemessen auf Eingaben zu hören oder möglicherweise eine unerwünschte Aktion zu ergreifen.[111] Sprachgesteuerte Geräte sind auch für Besucher des Gebäudes oder sogar für diejenigen außerhalb des Gebäudes zugänglich, wenn sie im Inneren zu hören sind. Angreifer können möglicherweise Zugriff auf persönliche Informationen wie Kalender, Adressbuchinhalte, private Nachrichten und Dokumente erhalten. Möglicherweise können sie auch den Benutzer ausgeben, Nachrichten zu senden oder Online -Einkäufe zu tätigen.

Es wurden zwei Angriffe gezeigt, die künstliche Klänge verwenden. Man überträgt Ultraschall und versucht, Befehle zu senden, ohne dass sich die Menschen in der Nähe bemerken.[112] Der andere verleiht anderen Sprache oder Musik kleine, unhörbare Verzerrungen, die speziell gefertigt sind, um das spezifische Spracherkennungssystem zu verwechseln, um Musik als Sprache zu erkennen, oder um das zu machen, was wie ein Befehl für einen menschlichen Klang wie ein anderer Befehl als ein anderer Befehl für das System klingt.[113]

Weitere Informationen

Konferenzen und Zeitschriften

Zu den beliebten Sprachanerkennungskonferenzen gehören jedes oder zwei Jahre Redektek und Redektek Europe, ICASSP, Interspeech/Eurospeech und die IEEE ASRU. Konferenzen im Bereich von Verarbeitung natürlicher Sprache, wie zum Beispiel ACL, Naacl, EMNLP und HLT, beginnen, Papiere auf zu enthalten Sprachverarbeitung. Wichtige Zeitschriften sind die IEEE Transaktionen zur Sprach- und Audioverarbeitung (später umbenannt IEEE Transaktionen zu Audio-, Sprach- und Sprachverarbeitung und seit September 2014 umbenannt umbenannt IEEE/ACM -Transaktionen zu Audio-, Sprach- und Sprachverarbeitung - Nach dem Zusammenführen einer ACM -Veröffentlichung), der Sprach- und Sprache und der Sprachkommunikation.

Bücher

Bücher wie "Grundlagen der Spracherkennung" von Lawrence Rabiner kann nützlich sein, um Grundkenntnisse zu erwerben, aber möglicherweise nicht vollständig auf dem neuesten Stand ist (1993). Eine andere gute Quelle kann "statistische Methoden zur Spracherkennung" sein Frederick Jelinek und "Rede Language Processing (2001)" von Xuedong Huang usw., "Computerrede", von Manfred R. Schroeder, zweite Ausgabe, veröffentlicht im Jahr 2004, und "Sprachverarbeitung: Ein dynamischer und optimierungsorientierter Ansatz", der 2003 von Li Deng und Doug O'Shaughessey veröffentlicht wurde. Das aktualisierte Lehrbuch Sprach- und Sprachverarbeitung (2008) von Jurafsky und Martin präsentiert die Grundlagen und die Stand der Technik für ASR. Sprechererkennung Verwendet auch die gleichen Merkmale, die meisten der gleichen Front-End-Verarbeitung und Klassifizierungstechniken wie bei der Spracherkennung. Ein umfassendes Lehrbuch, "Grundlagen der Sprechererkennung", ist eine ausführliche Quelle für aktuelle Details zur Theorie und Praxis.[114] Ein guter Einblick in die Techniken, die in den besten modernen Systemen verwendet werden DARPA (Das bis 2007 laufende Projekt der Spracherkennung ist das Gale-Projekt, das sowohl Spracherkennung als auch Übersetzungskomponenten umfasst).

Eine gute und zugängliche Einführung in die Spracherkennungstechnologie und seine Geschichte ergeben das allgemeine Publikumsbuch "The Voice in the Machine. Erstellen von Computern, die Sprache verstehen" nach Roberto Pieraccini (2012).

Das jüngste Buch zur Spracherkennung ist Automatische Spracherkennung: Ein tiefer Lernansatz (Verlag: Springer) Geschrieben von Microsoft -Forschern D. Yu und L. Deng und veröffentlicht bis Ende 2014 mit hochmathematisch orientierten technischen Details darüber, wie Deep -Lernmethoden in modernen Spracherkennungssystemen basierend auf DNNs und verwandten Tiefen abgeleitet und implementiert werden Lernmethoden.[75] Ein verwandtes Buch, das früher 2014 veröffentlicht wurde, bietet "Deep Learning: Method and Applications" von L. Deng und D. Yu einen weniger technischen, aber methodikorientierteren Überblick über die DNN-basierte Spracherkennung in den Jahren 2009 bis 2014, die innerhalb des More platziert ist Allgemeiner Kontext von Deep -Learning -Anwendungen, einschließlich nicht nur Spracherkennung, sondern auch Bilderkennung, Verarbeitung natürlicher Sprache, Informationsabruf, multimodaler Verarbeitung und Multitasking -Lernen.[71]

Software

In Bezug auf frei verfügbare Ressourcen, Carnegie Mellon Universität's Sphinx Toolkit ist ein Ort, um sowohl über Spracherkennung als auch mit dem Experimentieren zu beginnen. Eine andere Ressource (frei, aber urheberrechtlich geschützt) ist die Htk Buch (und das dazugehörige HTK -Toolkit). Für neuere und hochmoderne Techniken, Kaldi Toolkit kann verwendet werden.[115] 2017 Mozilla startete das Open -Source -Projekt mit dem Namen Gemeinsame Stimme[116] Um große Datenbank mit Stimmen zu sammeln, die zum Aufbau von Redefreiheitserkennungsprojekten beitragen würden Deepspeech (kostenlos zur Verfügung GitHub),[117] Verwenden Sie die Open -Source -Plattform von Google Tensorflow.[118] Als Mozilla die Finanzierung von dem Projekt im Jahr 2020 umleitete, wurde es von seinen ursprünglichen Entwicklern als Coqui Stt gegabelt[119] Verwenden derselben Open-Source-Lizenz.[120][121]

Die kommerziellen Cloud -basierten Spracherkennungs -APIs sind im Großen und Ganzen verfügbar.

Weitere Software -Ressourcen finden Sie unter Liste der Spracherkennungssoftware.

Siehe auch

Verweise

  1. ^ "Sprecher Independent Connected Speech Recognition- Computer Corporation der fünften Generation". Fifthgen.com. Archiviert Aus dem Original am 11. November 2013. Abgerufen 15. Juni 2013.
  2. ^ P. Nguyen (2010). "Automatische Klassifizierung der Lautsprechermerkmale". Internationale Konferenz für Kommunikation und Elektronik 2010. S. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID 13482115.
  3. ^ "British English Definition der Spracherkennung". Macmillan Publishers Limited. Archiviert Aus dem Original am 16. September 2011. Abgerufen 21. Februar 2012.
  4. ^ "Spracherkennung, Definition von". WebFinance, Inc. Archiviert Aus dem Original am 3. Dezember 2011. Abgerufen 21. Februar 2012.
  5. ^ "Der Mailbag LG #114". Linuxgazette.net. Archiviert Aus dem Original am 19. Februar 2013. Abgerufen 15. Juni 2013.
  6. ^ Sarangi, Susanta; Sahidullah, MD; Saha, Goutam (September 2020). "Optimierung der datengesteuerten Filterbank zur automatischen Lautsprecherüberprüfung". Digitale Signalverarbeitung. 104: 102795. Arxiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.
  7. ^ Reynolds, Douglas; Rose, Richard (Januar 1995). "Robuste textunabhängige Lautsprecheridentifikation unter Verwendung von Gaußschen Mischlautsprechermodellen" (PDF). IEEE -Transaktionen zur Sprach- und Audioverarbeitung. 3 (1): 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. Archiviert (PDF) Aus dem Original am 8. März 2014. Abgerufen 21. Februar 2014.
  8. ^ "Lautsprecheridentifikation (Whisperid)". Microsoft Research. Microsoft. Archiviert Aus dem Original am 25. Februar 2014. Abgerufen 21. Februar 2014. Wenn Sie mit jemandem sprechen, erkennen sie nicht nur, was Sie sagen: Sie erkennen, wer Sie sind. Mit Whisperid können Computer das auch tun und herausfinden, wer Sie übrigens sind, wie Sie klingen.
  9. ^ "Todesanzeigen: Stephen Balashek". Die Sternenledger. 22. Juli 2012.
  10. ^ "IBM-SHOEBOX-FRONT.JPG". AndroidAuthority.net. Abgerufen 4. April 2019.
  11. ^ Juang, B. H.; Rabiner, Lawrence R. "Automatische Spracherkennung - eine kurze Geschichte der Technologieentwicklung" (PDF): 6. Archiviert (PDF) Aus dem Original am 17. August 2014. Abgerufen 17. Januar 2015. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  12. ^ a b Melanie Pinola (2. November 2011). "Spracherkennung in den Jahrzehnten: Wie wir mit Siri gelandet sind". PC Welt. Abgerufen 22. Oktober 2018.
  13. ^ Gray, Robert M. (2010). "Eine Geschichte der digitalen Real -Real -Sprache in Paketnetzwerken: Teil II der linearen Vorhersagecodierung und des Internet -Protokolls" (PDF). Gefunden. Trendssignalprozess. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
  14. ^ John R. Pierce (1969). "Wohin Spracherkennung?". Zeitschrift der Acoustical Society of America. 46 (48): 1049–1051. Bibcode:1969asaj ... 46.1049p. doi:10.1121/1.1911801.
  15. ^ Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng (2008). Springerhandbuch der Sprachverarbeitung. Springer Science & Business Media. ISBN 978-3540491255.
  16. ^ John Makhoul. "ISCA -Medaillengewinner: Für Führung und umfassende Beiträge zur Sprach- und Sprachverarbeitung". Archiviert Aus dem Original am 24. Januar 2018. Abgerufen 23. Januar 2018.
  17. ^ Blechman, R. O.; Blechman, Nicholas (23. Juni 2008). "Hallo, Hal". Der New Yorker. Archiviert Aus dem Original am 20. Januar 2015. Abgerufen 17. Januar 2015.
  18. ^ Klatt, Dennis H. (1977). "Überprüfung des ARPA -Sprachverständnisprojekts". Das Journal der Acoustical Society of America. 62 (6): 1345–1366. Bibcode:1977asaj ... 62.1345k. doi:10.1121/1.381666.
  19. ^ Rabiner (1984). "Die Gesellschaft der Akustik, Sprache und Signalverarbeitung. Eine historische Perspektive" (PDF). Archiviert (PDF) Aus dem Original am 9. August 2017. Abgerufen 23. Januar 2018. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  20. ^ "Aus erster Hand: Das Hidden Markov-Modell-Engineering und Technologiegeschichte Wiki". Ethw.org. Archiviert Aus dem Original am 3. April 2018. Abgerufen 1. Mai 2018.
  21. ^ a b "James Baker Interview". Archiviert Aus dem Original am 28. August 2017. Abgerufen 9. Februar 2017.
  22. ^ "Pionierredeerkennung". 7. März 2012. Archiviert Aus dem Original am 19. Februar 2015. Abgerufen 18. Januar 2015.
  23. ^ a b c Xuedong Huang; James Baker; Raj Reddy. "Eine historische Perspektive der Spracherkennung". Kommunikation der ACM. Archiviert Aus dem Original am 20. Januar 2015. Abgerufen 20. Januar 2015.
  24. ^ Juang, B. H.; Rabiner, Lawrence R. "Automatische Spracherkennung - eine kurze Geschichte der Technologieentwicklung" (PDF): 10. Archiviert (PDF) Aus dem Original am 17. August 2014. Abgerufen 17. Januar 2015. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  25. ^ "Geschichte der Spracherkennung". Medizinische Transkription Dragon. Archiviert von das Original am 13. August 2015. Abgerufen 17. Januar 2015.
  26. ^ Billi, Roberto; Canavesio, Franco; Ciaramella, Alberto; Nebbia, Luciano (1. November 1995). "Interaktive Sprachtechnologie bei der Arbeit: The Cselt Experience". Sprachkommunikation. 17 (3): 263–271. doi:10.1016/0167-6393 (95) 00030-r.
  27. ^ Kevin McKean (8. April 1980). "Wenn Cole spricht, hören Computer zu". Sarasota Journal. AP. Abgerufen 23. November 2015.
  28. ^ "Act/Aprikose - Aprikosengeschichte". ActaPricot.org. Abgerufen 2. Februar 2016.
  29. ^ Melanie Pinola (2. November 2011). "Spracherkennung in den Jahrzehnten: Wie wir mit Siri gelandet sind". PC Welt. Archiviert Aus dem Original am 13. Januar 2017. Abgerufen 28. Juli 2017.
  30. ^ "Ray Kurzweil Biographie". Kurzweilainetwork. Archiviert Aus dem Original am 5. Februar 2014. Abgerufen 25. September 2014.
  31. ^ Juang, B.H.; Rabiner, Lawrence. "Automatische Spracherkennung - Eine kurze Geschichte der Technologieentwicklung" (PDF). Archiviert (PDF) Aus dem Original am 9. August 2017. Abgerufen 28. Juli 2017. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  32. ^ "Nuance Exec auf iPhone 4s, Siri und die Zukunft der Sprache". Tech.pinions. 10. Oktober 2011. Archiviert Aus dem Original am 19. November 2011. Abgerufen 23. November 2011.
  33. ^ "Switchboard-1 Release 2". Archiviert Aus dem Original am 11. Juli 2017. Abgerufen 26. Juli 2017.
  34. ^ Jason Kincaid. "Die Kraft der Stimme: Ein Gespräch mit dem Leiter der Sprachtechnologie von Google". Tech Crunch. Archiviert Aus dem Original am 21. Juli 2015. Abgerufen 21. Juli 2015.
  35. ^ Froomkin, Dan (5. Mai 2015). "Die Computer hören zu". Der Abfang. Archiviert Aus dem Original am 27. Juni 2015. Abgerufen 20. Juni 2015.
  36. ^ Herve Bourlard und Nelson Morgan, Connectionist Spracherkennung: Ein Hybridansatz, die Kluwer International Series in Engineering und Informatik; v. 247, Boston: Kluwer Academic Publishers, 1994.
  37. ^ a b Sepp Hochreiter; J. Schmidhuber (1997). "Langes Kurzzeitgedächtnis". Neuronale Berechnung. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
  38. ^ Schmidhuber, Jürgen (2015). "Deep Learning in neuronalen Netzwerken: Ein Überblick". Neuronale Netze. 61: 85–117. Arxiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
  39. ^ Alex Graves, Santiago Fernandez, Faustino Gomez und Jürgen Schmidhuber (2006). Connectionist Temporale Klassifizierung: Kennzeichnung nicht segmentierter Sequenzdaten mit wiederkehrenden neuronalen Netzen. Proceedings of ICML'06, S. 369–376.
  40. ^ Santiago Fernandez, Alex Graves und Jürgen Schmidhuber (2007). Eine Anwendung wiederkehrender neuronaler Netzwerke auf diskriminierende Schlüsselwort -Erfassen. Proceedings of Icann (2), S. 220–229.
  41. ^ a b Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays und Johan Schalkwyk (September 2015): "Google Voice Search: schneller und genauer. " Archiviert 9. März 2016 bei der Wayback -Maschine
  42. ^ "Li Deng". Li Deng Site.
  43. ^ NIPS Workshop: Deep Learning for Speechs Recognition und verwandte Anwendungen, Whistler, BC, Kanada, Dezember 2009 (Organisatoren: Li Deng, Geoff Hinton, D. Yu).
  44. ^ a b c Hinton, Geoffrey; Deng, li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Tiefe neuronale Netzwerke für die akustische Modellierung in der Spracherkennung: Die gemeinsamen Ansichten von vier Forschungsgruppen". IEEE Signal Processing Magazine. 29 (6): 82–97. Bibcode:2012ispm ... 29 ... 82H. doi:10.1109/msp.2012.2205597. S2CID 206485943.
  45. ^ a b Deng, L.; Hinton, G.; Kingsbury, B. (2013). "Neue Arten von tiefen neuronalen Netzwerklernen für Spracherkennung und verwandte Anwendungen: Ein Überblick". 2013 IEEE International Conference über Akustik, Sprach- und Signalverarbeitung: Neue Arten des tiefen neuronalen Netzwerks für Spracherkennung und verwandte Anwendungen: Ein Überblick. p. 8599. doi:10.1109/ICASSP.2013.6639344. ISBN 978-1-4799-0356-6. S2CID 13953660.
  46. ^ a b Markoff, John (23. November 2012). "Wissenschaftler sehen Versprechen in tiefgreifenden Programmen". New York Times. Archiviert Aus dem Original am 30. November 2012. Abgerufen 20. Januar 2015.
  47. ^ Morgan, Bourlard, Nenals, Cohen, Franco (1993) "Hybrid neuronales Netzwerk/Hidden Markov Model Systems für die kontinuierliche Spracherkennung. ICASSP/IJPRAI"
  48. ^ T. Robinson (1992). "Ein Echtzeit-Wiederkehrungsfehler-Ausbreitungsnetzwerk-Worterkennungssystem". [Proceedings] ICASSP-92: 1992 IEEE International Conference für Akustik, Sprache und Signalverarbeitung. S. 617–620 Vol.1. doi:10.1109/ICASSP.1992.225833. ISBN 0-7803-0532-9. S2CID 62446313.
  49. ^ Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phonemerkennung unter Verwendung von Zeitverzögerungsnetzwerken. IEEE -Transaktionen zur Akustik, Sprache und Signalverarbeitung. "
  50. ^ Baker, J.; Li deng; Glas, J.; Khudanpur, S.; Chin-Hui Lee; Morgan, N.; O'Shaughnessy, D. (2009). "Entwicklungen und Anweisungen in der Spracherkennung und -verständnis, Teil 1". IEEE Signal Processing Magazine. 26 (3): 75–80. Bibcode:2009ispm ... 26 ... 75b. doi:10.1109/msp.2009.932166. HDL:1721.1/51891. S2CID 357467.
  51. ^ Sepp Hochreiter (1991),, Imtersuchungen ZU Dynamisschen Neuronalen Netzen Archiviert 6. März 2015 bei der Wayback -Maschine, Diplomarbeit. Institut f. Informatik, Technische Univ. München. Berater: J. Schmidhuber.
  52. ^ Bengio, Y. (1991). Künstliche neuronale Netzwerke und ihre Anwendung auf Sprach-/Sequenzerkennung (Ph.D.). McGill Universität.
  53. ^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). "Analyse der Korrelationsstruktur für ein neuronales Vorhersagemodell mit Anwendung auf Spracherkennung". Neuronale Netze. 7 (2): 331–339. doi:10.1016/0893-6080 (94) 90027-2.
  54. ^ Keynote Talk: Jüngste Entwicklungen in tiefen neuronalen Netzwerken. ICASSP, 2013 (von Geoff Hinton).
  55. ^ a b Keynote Talk: "Erfolge und Herausforderungen des tiefen Lernens: Von Sprachanalyse und Anerkennung bis hin zur Sprache und multimodaler Verarbeitung, "Interspeech, September 2014 (von Li Deng).
  56. ^ "Verbesserungen der Spracherkennungssoftware erhöhen". TechRepublic.com. 27. August 2002. Maners sagte, IBM habe an der Förderung der Spracherkennung gearbeitet ... oder auf dem Boden einer lauten Handelsshow.
  57. ^ "Spracherkennung zur Entlastung von Reisebuchungen: Geschäftsreisen News". BusinessTravelNews.com. 3. März 1997. Die frühesten Anwendungen der Spracherkennungssoftware waren Diktierungen ... Vor vier Monaten führte IBM ein „kontinuierliches Diktatprodukt“ ein, das 1994 auf der Handelsmesse der National Business Travel Association debütierte.
  58. ^ Ellis Booker (14. März 1994). "Spracherkennung tritt in den Mainstream ein". Computerwelt. p. 45. Noch vor ein paar Jahren war die Spracherkennung auf ...
  59. ^ "Microsoft -Forscher erreichen einen neuen Meilenstein für Gesprächeredenerkennung". Microsoft. 21. August 2017.
  60. ^ Goel, Vaibhava; Byrne, William J. (2000). "Minimum Bayes-Risiko Automatische Spracherkennung". Computersprache und Sprache. 14 (2): 115–135. doi:10.1006/csla.2000.0138. Archiviert Aus dem Original am 25. Juli 2011. Abgerufen 28. März 2011.
  61. ^ Mohri, M. (2002). "Bearbeitungsdistanz von gewichteten Automaten: Allgemeine Definitionen und Algorithmen" (PDF). Internationales Journal of Foundations of Computer Science. 14 (6): 957–982. doi:10.1142/s0129054103002114. Archiviert (PDF) Aus dem Original am 18. März 2012. Abgerufen 28. März 2011.
  62. ^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (1989). "Phonemerkennung unter Verwendung von Zeitverzögerungsnetzwerken". IEEE -Transaktionen zur Akustik, Sprache und Signalverarbeitung. 37 (3): 328–339. doi:10.1109/29.21701. HDL:10338.DMLCZ/135496.
  63. ^ Bird, Jordan J.; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Optimierung der phonetischen Spracherkennung durch multi-objektive evolutionäre Algorithmen" (PDF). Expertensysteme mit Anwendungen. Elsevier bv. 153: 113402. doi:10.1016/j.eswa.2020.113402. ISSN 0957-4174. S2CID 216472225.
  64. ^ Wu, J.; Chan, C. (1993). "Isolierte Worterkennung durch neuronale Netzwerkmodelle mit Kreuzkorrelationskoeffizienten für die Sprachdynamik". IEEE -Transaktionen zur Musteranalyse und Maschinenintelligenz. 15 (11): 1174–1185. doi:10.1109/34.244678.
  65. ^ S. A. Zahorian, A. M. Zimmer und F. Meng, (2002) "Vokalklassifizierung für computerbasiertes visuelles Feedback für Sprachtraining für die Hörbehinderte, "in ICSLP 2002
  66. ^ Hu, Hongbing; Zahorian, Stephen A. (2010). "Dimensionalitätsreduzierungsmethoden für die phonetische Erkennung von HMM" (PDF). ICASSP 2010. Archiviert (PDF) Aus dem Original am 6. Juli 2012.
  67. ^ Fernandez, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Sequenzmarkierung in strukturierten Domänen mit hierarchischen wiederkehrenden neuronalen Netzwerken" (PDF). Verfahren von IJCAI. Archiviert (PDF) Aus dem Original am 15. August 2017.
  68. ^ Graves, Alex; Mohamed, Abdel-Rahman; Hinton, Geoffrey (2013). "Spracherkennung mit tiefen wiederkehrenden neuronalen Netzwerken". Arxiv:1303.5778 [cs.ne]. ICASSP 2013.
  69. ^ Waibel, Alex (1989). "Modulare Konstruktion von Zeitverzögerungsnetzwerken für die Spracherkennung" (PDF). Neuronale Berechnung. 1 (1): 39–46. doi:10.1162/neco.1989.1.1.39. S2CID 236321. Archiviert (PDF) vom Original am 29. Juni 2016.
  70. ^ Maas, Andrew L.; Le, Quoc V.; O'Neil, Tyler M.; Vinyals, Oriol; Nguyen, Patrick; Ng, Andrew Y. (2012). "Wiederkehrende neuronale Netzwerke zur Rauschreduzierung des robusten ASR". Proceedings of Interspeech 2012.
  71. ^ a b Deng, li; Yu, Dong (2014). "Deep Learning: Methoden und Anwendungen" (PDF). Fundamente und Trends in der Signalverarbeitung. 7 (3–4): 197–387. Citeseerx 10.1.1.691.3679. doi:10.1561/2000000039. Archiviert (PDF) Aus dem Original am 22. Oktober 2014.
  72. ^ Yu, D.; Deng, L.; Dahl, G. (2010). "Rollen der Vorausbildung und Feinabstimmung in kontextabhängigen DBN-HMMs für die Real-World-Spracherkennung" (PDF). NIPS -Workshop über Deep Learning und unbeaufsichtigtes Feature -Lernen.
  73. ^ Dahl, George E.; Yu, Dong; Deng, li; Acero, Alex (2012). "Kontextabhängige vorgeschriebene tiefe neuronale Netzwerke für die Spracherkennung großer Vokabeln". IEEE -Transaktionen zu Audio-, Sprach- und Sprachverarbeitung. 20 (1): 30–42. doi:10.1109/tasl.2011.2134090. S2CID 14862572.
  74. ^ Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Jüngste Fortschritte im Deep -Lernen für Sprachforschung bei Microsoft. ICASSP, 2013.
  75. ^ a b Yu, D.; Deng, L. (2014). "Automatische Spracherkennung: Ein Deep Learning -Ansatz (Verlag: Springer)". {{}}: Journal zitieren erfordert |journal= (Hilfe)
  76. ^ Deng, L.; Li, Xiao (2013). "Paradigmen für maschinelles Lernen zur Spracherkennung: Ein Überblick" (PDF). IEEE -Transaktionen zu Audio-, Sprach- und Sprachverarbeitung. 21 (5): 1060–1089. doi:10.1109/tasl.2013.2244083. S2CID 16585863.
  77. ^ Schmidhuber, Jürgen (2015). "Tiefes Lernen". Gelehrter. 10 (11): 32832. Bibcode:2015schpj..1032832s. doi:10.4249/Scholarpedia.32832.
  78. ^ L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed und G. Hinton (2010) Binärkodierung von Sprachspektrogrammen mit einem tiefen Auto-Coder. Interspeech.
  79. ^ Tüske, Zoltán; Golik, Pavel; Schlüter, Ralf; Ney, Hermann (2014). "Akustische Modellierung mit tiefen neuronalen Netzwerken mit Rohzeitsignal für LVCSR" (PDF). Interspeech 2014. Archiviert (PDF) Aus dem Original am 21. Dezember 2016.
  80. ^ Jurafsky, Daniel (2016). Sprach- und Sprachverarbeitung.
  81. ^ Graves, Alex (2014). "Auf dem Weg zu End-to-End-Spracherkennung mit wiederkehrenden neuronalen Netzwerken" (PDF). ICML.
  82. ^ Amodei, Dario (2016). "Deep Rede 2: End-to-End-Spracherkennung in Englisch und Mandarin". Arxiv:1512.02595 [cs.cl].
  83. ^ "Lipnet: Wie einfach ist Lipreading Ihrer Meinung nach?". Youtube. Archiviert Aus dem Original am 27. April 2017. Abgerufen 5. Mai 2017.
  84. ^ Assael, Yannis; Shillingford, Brendan; Whiteson, Shimon; de Freitas, Nando (5. November 2016). "Lipnet: End-to-End-Satzebene Lipreading". Arxiv:1611.01599 [cs.cv].
  85. ^ Shillingford, Brendan; Assael, Yannis; Hoffman, Matthew W.; Paine, Thomas; Hughes, Cían; Prabhu, Utsav; Liao, Hank; Sak, Hasim; Rao, Kanishka (13. Juli 2018). "Große visuelle Spracherkennung". Arxiv:1807.05162 [cs.cv].
  86. ^ Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). "Hören Sie zu, teil und buchstabieren: Ein neuronales Netzwerk für große Vokabular -Gesprächsredenerkennung" (PDF). ICASSP.
  87. ^ Bahdanau, Dzmitry (2016). "End-to-End-aufmerksamkeitsbasierte große Vokabular-Spracherkennung". Arxiv:1508.04395 [cs.cl].
  88. ^ Chorowski, Jan; Jaitly, Navdeep (8. Dezember 2016). "Auf dem Weg zu besserer Decodierung und Sprachmodellintegration in Sequenzmodellen". Arxiv:1612.02695 [cs.ne].
  89. ^ Chan, William; Zhang, yu; Le, Quoc; Jaitly, Navdeep (10. Oktober 2016). "Latente Sequenzabzersetzung". Arxiv:1610.03035 [stat.ml].
  90. ^ Chung, Joon Sohn; Senior, Andrew; Vinyals, Oriol; Zisserman, Andrew (16. November 2016). "Lippenlesen Sätze in freier Wildbahn". 2017 IEEE -Konferenz zur Computer Vision und Mustererkennung (CVPR). S. 3444–3453. Arxiv:1611.05358. doi:10.1109/cvpr.2017.367. ISBN 978-1-5386-0457-1. S2CID 1662180.
  91. ^ Englund, Christine (2004). Spracherkennung im JAS 39 Gripen-Flugzeug: Anpassung an die Sprache bei verschiedenen G-Ladungen (PDF) (Masters Thesis). Stockholm Royal Institute of Technology. Archiviert (PDF) Aus dem Original am 2. Oktober 2008.
  92. ^ "Das Cockpit". Eurofighter Typhoon. Archiviert Aus dem Original am 1. März 2017.
  93. ^ "Eurofighter Typhoon - Das fortschrittlichste Kampfflugzeug der Welt". www.eurofighter.com. Archiviert vom Original am 11. Mai 2013. Abgerufen 1. Mai 2018.
  94. ^ Schutte, John (15. Oktober 2007). "Forscher Fein-Tun-F-35-Sprachsystem Pilot-Flugzeug-Flugzeug". Luftwaffe der Vereinigten Staaten. Archiviert von das Original am 20. Oktober 2007.
  95. ^ Cerf, Vinton; WRUBEL, ROB; Sherwood, Susan. "Kann Spracherkennungssoftware Bildungssprachbarrieren aufschlüsseln?". Curiosity.com. Entdeckungskommunikation. Archiviert von das Original am 7. April 2014. Abgerufen 26. März 2014.
  96. ^ a b "Spracherkennung für das Lernen". Nationales Zentrum für technologische Innovation. 2010. Archiviert Aus dem Original am 13. April 2014. Abgerufen 26. März 2014.
  97. ^ Follensbee, Bob; McCloskey-Dale, Susan (2000). "Spracherkennung in Schulen: Ein Update aus dem Feld". Technologie und Personen mit Behinderungen Konferenz 2000. Archiviert Aus dem Original am 21. August 2006. Abgerufen 26. März 2014.
  98. ^ "Überwindung von Kommunikationsbarrieren im Klassenzimmer". Massmatch. 18. März 2010. Archiviert Aus dem Original am 25. Juli 2013. Abgerufen 15. Juni 2013.
  99. ^ "Spracherkennung für behinderte Menschen". Archiviert Aus dem Original am 4. April 2008.
  100. ^ Friends International Support Group
  101. ^ Garrett, Jennifer Tumlin; et al. (2011). "Verwenden von Spracherkennungssoftware zur Erhöhung der Schreibflüssigkeit für Personen mit körperlichen Behinderungen". Journal of Special Education Technology. 26 (1): 25–41. doi:10.1177/016264341102600104. S2CID 142730664.
  102. ^ Forgrave, Karen E. "Assistenztechnologie: Ermächtigung von Schülern mit Behinderungen." Clearing House 75.3 (2002): 122–6. Netz.
  103. ^ Tang, K. W.; Kamoua, Ridha; Sutan, Victor (2004). "Spracherkennungstechnologie für Behinderungen Bildung". Journal of Educational Technology Systems. 33 (2): 173–84. Citeseerx 10.1.1.631.3736. doi:10.2190/K6K8-78K2-59Y7-R9R2. S2CID 143159997.
  104. ^ "Projekte: Planetenmikrofone". Die Planetary Society. Archiviert von das Original am 27. Januar 2012.
  105. ^ Caridakis, George; Castellano, Ginevra; Kessous, Loic; Raouzaiou, Amaryllis; Malatesta, Lori; Asteriadis, Stelios; Karpouzis, Kostas (19. September 2007). Multimodale Emotionserkennung aus ausdrucksstarken Gesichtern, Körpergesten und Sprache. IFIP der International Federation for Information Processing. Vol. 247. Springer uns. S. 375–388. doi:10.1007/978-0-387-74161-1_41. ISBN 978-0-387-74160-4.
  106. ^ "Was ist Echtzeit-Bildunterschriften? | Do-it". www.washington.edu. Abgerufen 11. April 2021.
  107. ^ Zheng, Thomas Fang; Li, Lantian (2017). Robustheit im Zusammenhang mit der Anerkennung der Sprecher. Springerbriefs in Elektro- und Computertechnik. Singapur: Springer Singapur. doi:10.1007/978-981-10-3238-7. ISBN 978-981-10-3237-0.
  108. ^ Ciaramella, Alberto. "Ein Prototyp -Leistungsbewertungsbericht." Sundial Workpackage 8000 (1993).
  109. ^ Gerbino, E.; Baggia, P.; Ciaramella, A.; Rullent, C. (1993). "Test und Bewertung eines gesprochenen Dialogsystems". IEEE Internationale Konferenz zur Akustik -Sprach- und Signalverarbeitung. S. 135–138 Vol.2. doi:10.1109/ICASSP.1993.319250. ISBN 0-7803-0946-4. S2CID 57374050.
  110. ^ Nationales Institut für Standards und Technologie. "Die Geschichte der automatischen Spracherkennungsbewertung bei NIST Archiviert 8. Oktober 2013 bei der Wayback -Maschine".
  111. ^ "Hören Sie: Ihr KI -Assistent ist auch verrückt nach NPR". NPR. 6. März 2016. Archiviert Aus dem Original am 23. Juli 2017.
  112. ^ Claburn, Thomas (25. August 2017). "Ist es möglich, Amazon Alexa zu kontrollieren, Google jetzt mit unhörbaren Befehlen?". Das Register. Archiviert Aus dem Original am 2. September 2017.
  113. ^ "Angriff zielt auf automatische Spracherkennungssysteme" Zielen ". vice.com. 31. Januar 2018. Archiviert Aus dem Original am 3. März 2018. Abgerufen 1. Mai 2018.
  114. ^ Beigi, Homayoon (2011). Grundlagen der Anerkennung der Sprecher. New York: Springer. ISBN 978-0-387-77591-3. Archiviert Aus dem Original am 31. Januar 2018.
  115. ^ Povey, D., Ghoshal, A., Boulianne, G., Burgget, L., Glembek, O., Goel, N., ... & Vesely, K. (2011). Das Kaldi -Spracherkennungs -Toolkit. In IEEE 2011 Workshop über automatische Spracherkennung und -verständnis (Nein. Conf). IEEE Signal Processing Society.
  116. ^ "Gemeinsame Stimme von Mozilla". Voice.mozilla.org.
  117. ^ "Eine Tensorflow -Implementierung von Baidus Deepspeech -Architektur: Mozilla/DeepSpeech". 9. November 2019 - über Github.
  118. ^ "Github - TensorFlow/Dokumente: TensorFlow -Dokumentation". 9. November 2019 - über Github.
  119. ^ "Coqui, ein Startup, das für alle offene Sprachtechniken bietet". GitHub. Abgerufen 7. März 2022.
  120. ^ "Māori versuchen, ihre Sprache vor Big Tech zu retten.". Wired UK. ISSN 1357-0978. Abgerufen 16. Oktober 2021.
  121. ^ "Warum sollten Sie von Deepspeech nach Coqui.ai wechseln". Mozilla -Diskurs. 7. Juli 2021. Abgerufen 16. Oktober 2021.

Weitere Lektüre

  • Pieraccini, Roberto (2012). Die Stimme in der Maschine. Computer aufbauen, die Sprache verstehen. Die MIT -Presse. ISBN 978-0262016858.
  • Woelel, Matthias; McDonough, John (26. Mai 2009). Entfernte Spracherkennung. Wiley. ISBN 978-0470517048.
  • Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). "Konversationsschnittstellentechnologien". Im Sears, Andrew; Jacko, Julie A. (Hrsg.). Das Human-Computer-Interaktionshandbuch: Grundlagen, sich entwickelnde Technologien und aufstrebende Anwendungen (menschliche Faktoren und Ergonomie). Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
  • Cole, Ronald; Mariani, Joseph; Uszkoreit, Hans; Variile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Victor, Hrsg. (1997). Übersicht über den Stand der Technik in der menschlichen Sprache Technologie. Cambridge -Studien zur Verarbeitung natürlicher Sprache. Vol. Xii - xiii. Cambridge University Press. ISBN 978-0-521-59277-2.
  • Junqua, J.-C.; Haton, J.-P. (1995). Robustheit in der automatischen Spracherkennung: Grundlagen und Anwendungen. KLUWER Academic Publishers. ISBN 978-0-7923-9646-8.
  • Pirani, Giancarlo, hrsg. (2013). Fortgeschrittene Algorithmen und Architekturen für das Sprachverständnis. Springer Science & Business Media. ISBN 978-3-642-84341-9.

Externe Links