Computer vision

Computer Vision ist ein Interdisziplinärer wissenschaftlicher Bereich Das geht darum, wie Computers kann auf hohem Niveau Verständnis von erlangen Digitale Bilder oder Videos. Aus der Sicht von IngenieurwesenEs versucht, Aufgaben zu verstehen und zu automatisieren, dass die menschliches visuelles System tun können.[1][2]
Computer Vision -Aufgaben umfassen Methoden für Erwerb, wird bearbeitet, Analysieren und digitale Bilder verstehen und Extraktion von Hochdimensional Daten aus der realen Welt, um numerische oder symbolische Informationen zu erstellen, z. in Formen von Entscheidungen.[3][4][5][6] Das Verständnis in diesem Zusammenhang bedeutet die Umwandlung visueller Bilder (die Eingabe der Netzhaut) in Beschreibungen der Welt, die für Denkprozesse sinnvoll sind und angemessene Handlungen hervorrufen können. Dieses Bildverständnis kann als Entwirrung symbolischer Informationen aus Bilddaten unter Verwendung von Modellen angesehen werden, die mit Hilfe von Geometrie, Physik, Statistik und Lerntheorie konstruiert wurden.
Das wissenschaftliche Disziplin von Computer Vision befasst sich mit der Theorie hinter künstlichen Systemen, die Informationen aus Bildern extrahieren. Die Bilddaten können viele Formulare annehmen, z. B. Videosequenzen, Ansichten aus mehreren Kameras, mehrdimensionalen Daten aus einem 3D-Scanner oder einem medizinischen Scan-Gerät. Die technologische Disziplin des Computer Vision versucht, ihre Theorien und Modelle auf die Konstruktion von Computer -Vision -Systemen anzuwenden.
Zu den Unterdomänen des Computer Vision gehören Szenenrekonstruktion, Objekterkennung, Ereigniserkennung, Videoverfolgung, Objekterkennung, 3D -Pose -Schätzung, Lernen, Indexierung, Bewegungsschätzung, visuelles Servo, 3D -Szenenmodellierung und Bildwiederherstellung.
Definition
Computer Vision ist ein interdisziplinäres Feld Das handelt Digitale Bilder oder Videos. Aus der Sicht von IngenieurwesenEs versucht, Aufgaben zu automatisieren, die die menschliches visuelles System tun können.[1][2][7] "Computer Vision befasst sich mit der automatischen Extraktion, Analyse und dem Verständnis nützlicher Informationen aus einem einzelnen Bild oder einer Abfolge von Bildern. Es beinhaltet die Entwicklung einer theoretischen und algorithmischen Basis, um automatisches visuelles Verständnis zu erreichen."[8] Als ein wissenschaftliche Disziplin, Computer Vision befasst sich mit der Theorie hinter künstlichen Systemen, die Informationen aus Bildern extrahieren. Die Bilddaten können viele Formen annehmen, z. B. Videosequenzen, Ansichten aus mehreren Kameras oder mehrdimensionale Daten von a Medizinischer Scanner.[9] Als technologische Disziplin versucht Computer Vision, seine Theorien und Modelle für die Konstruktion von Computer -Vision -Systemen anzuwenden.
Geschichte
In den späten 1960er Jahren begann Computer Vision an Universitäten, die Pionierarbeit hatten künstliche Intelligenz. Es sollte das nachahmen menschliches visuelles System, als Sprungbrett, um Roboter mit intelligentem Verhalten auszugeben.[10] 1966 wurde angenommen, dass dies durch ein Sommerprojekt erreicht werden könnte, indem eine Kamera an einen Computer angehängt und "beschreibt, was sie sah".[11][12]
Welche ausgezeichnete Computersicht vom vorherrschenden Bereich von digitale Bildverarbeitung Zu dieser Zeit war der Wunsch zu extrahieren dreidimensional Struktur aus Bildern mit dem Ziel, das volle Szenenverständnis zu erreichen. Studien in den 1970er Jahren bildeten die frühen Grundlagen für viele Computervisionen Algorithmen das gibt heute, einschließlich Extraktion von Kanten aus Bildern, Kennzeichnung von Linien, Nicht-Polyhedrisch und Polyedrische Modellierung, Darstellung von Objekten als Zusammenhänge kleinerer Strukturen, optischer Fluss, und Bewegungsschätzung.[10]
Im nächsten Jahrzehnt basierten Studien, die auf strengeren mathematischen Analysen und quantitativen Aspekten des Computervisions basierten. Dazu gehören das Konzept von Maßstab, die Schlussfolgerung aus verschiedenen Hinweisen wie z. Schattierung, Textur und Fokus und Konturmodelle, die als Schlangen bekannt sind. Die Forscher erkannten auch, dass viele dieser mathematischen Konzepte im gleichen Optimierungsrahmen wie behandelt werden konnten wie Regulierung und Markov Random Fields.[13] In den 1990er Jahren wurden einige der früheren Forschungsthemen aktiver als die anderen. Forschung in Projektiv 3-D-Rekonstruktionen führte zu besserem Verständnis von Kamera -Kalibrierung. Mit dem Aufkommen von Optimierungsmethoden für die Kamerakalibrierung wurde festgestellt, dass viele Ideen bereits untersucht wurden Bündelanpassung Theorie aus dem Gebiet von Fotogrammetrie. Dies führte zu spärlichen Methoden 3-D-Rekonstruktionen von Szenen aus mehreren Bildern. Fortschritte beim Problem der dichten Stereo-Korrespondenz und weiteren Multi-View-Stereo-Techniken. Zur selben Zeit, Variationen des Grafikschnitts wurden verwendet, um zu lösen Bildsegmentierung. Dieses Jahrzehnt war auch das erste Mal, dass in der Praxis zum ersten Mal statistische Lerntechniken verwendet wurden, um Gesichter in Bildern zu erkennen (siehe Eigenface). Gegen Ende der 90er Jahre kam eine signifikante Veränderung mit der erhöhten Wechselwirkung zwischen den Feldern von zustande Computergrafik und Computer Vision. Dies enthielt Bildbasiertes Rendering, Bildmorphing, Interpolation anzeigen, Panorama -Bildnähte und früh Lichtfeldrendern.[10]
Jüngste Arbeiten haben das Wiederbelebung von vorgenommen Besonderheit-Basierte Methoden, die in Verbindung mit maschinellem Lerntechniken und komplexen Optimierungsrahmen verwendet werden.[14][15] Die Weiterentwicklung von Deep -Lern -Techniken hat das weitere Leben auf den Bereich des Computer Vision gebracht. Die Genauigkeit von Deep -Learning -Algorithmen auf mehreren Benchmark -Computer -Vision -Datensätzen für Aufgaben, die von der Klassifizierung, der Segmentierung und dem optischen Fluss reichen, hat frühere Methoden übertroffen.
Verwandte Felder

Festkörperphysik
Festkörperphysik ist ein weiteres Feld, das eng mit dem Computer Vision verwandt ist. Die meisten Computer -Vision -Systeme verlassen sich auf Bildsensoren, was erkennen elektromagnetische Strahlung, was normalerweise in Form von beiden ist sichtbar oder Infrarotlicht. Die Sensoren werden verwendet Quantenphysik. Der Prozess, durch den Licht mit Oberflächen interagiert, wird mithilfe der Physik erklärt. Physik erklärt das Verhalten von Optik die ein zentraler Bestandteil der meisten Bildgebungssysteme sind. Anspruchsvoll Bildsensoren sogar benötigen Quantenmechanik ein vollständiges Verständnis des Bildbildungsprozesses zu vermitteln.[10] Außerdem können verschiedene Messprobleme in der Physik unter Verwendung von Computer Vision, beispielsweise Bewegung in Flüssigkeiten, behandelt werden.
Neurobiologie
Neurobiologieinsbesondere die Untersuchung des biologischen Sehsystems. Im letzten Jahrhundert gab es eine umfassende Untersuchung der Augen, Neuronen und der Gehirnstrukturen, die sich der Verarbeitung visueller Reize sowohl beim Menschen als auch beim verschiedenen Tieren widmen. Dies hat zu einer groben, aber komplizierten Beschreibung der "realen" Visionssysteme geführt, um bestimmte visionsbezogene Aufgaben zu lösen. Diese Ergebnisse haben zu einem Unterfeld innerhalb des Computervisions geführt, auf dem künstliche Systeme die Verarbeitung und das Verhalten biologischer Systeme auf unterschiedlichen Komplexitätsniveaus nachahmen. Auch einige der im Computer Vision entwickelten lernbasierten Methoden (z.B. neuronales Netz und tiefes Lernen Basierte Bild- und Merkmalsanalyse und Klassifizierung) haben ihren Hintergrund in Biologie.
Einige Stränge der Computer -Vision -Forschung sind eng mit der Studie von verwandt Biologische Sicht - In der Tat sind ebenso viele Stränge der KI -Forschung eng mit der Forschung zum menschlichen Bewusstsein verbunden und die Verwendung gespeicherter Wissen, um visuelle Informationen zu interpretieren, zu integrieren und zu nutzen. Das Gebiet des biologischen Sehvermögens untersucht und modelliert die physiologischen Prozesse hinter der visuellen Wahrnehmung beim Menschen und anderen Tieren. Computer Vision dagegen studiert und beschreibt die Prozesse, die in Software und Hardware hinter künstlichen Visionssystemen implementiert sind. Der interdisziplinäre Austausch zwischen biologischem und Computervision hat sich für beide Bereiche als fruchtbar erwiesen.[16]
Signalverarbeitung
Ein weiteres Feld im Zusammenhang mit Computer Vision ist Signalverarbeitung. Viele Methoden zur Verarbeitung von Ein-Variablen-Signalen, typischerweise zeitliche Signale, können auf natürliche Weise zur Verarbeitung von Signalen mit zwei Variablen oder multivariablen Signalen in Computer Vision erweitert werden. Aufgrund der spezifischen Art von Bildern gibt es jedoch viele Methoden, die im Computer Vision entwickelt wurden, die bei der Verarbeitung von Ein-Variablen-Signalen kein Gegenstück haben. Zusammen mit der Mehrdimensionalität des Signals definiert dies ein Unterfeld in der Signalverarbeitung als Teil des Computer Vision.
Roboternavigation Manchmal handelt es sich um autonome Pfadplanung oder Überlegungen für Robotersysteme zu durch eine Umgebung navigieren.[17] Ein detailliertes Verständnis dieser Umgebungen ist erforderlich, um durch sie zu navigieren. Informationen über die Umgebung können von einem Computer-Vision-System bereitgestellt werden, das als Sehsensor fungiert und hochrangige Informationen über die Umgebung und den Roboter bereitstellt.
Andere Felder
Neben den oben genannten Ansichten zum Computer Vision können viele der verwandten Forschungsthemen auch aus rein mathematischer Sicht untersucht werden. Zum Beispiel basieren viele Methoden im Computer Vision auf Statistiken, Optimierung oder Geometrie. Schließlich widmet sich ein wesentlicher Teil des Feldes dem Implementierungsaspekt des Computer Vision. Wie vorhandene Methoden in verschiedenen Kombinationen von Software und Hardware realisiert werden können oder wie diese Methoden geändert werden können, um die Verarbeitungsgeschwindigkeit zu erreichen, ohne zu viel Leistung zu verlieren. Computer Vision wird auch in Mode -E -Commerce, Inventarmanagement, Patentsuche, Möbeln und der Schönheitsindustrie verwendet.
Unterscheidungen
Die Felder, die am engsten mit Computer Vision verwandt sind Bildverarbeitung, Bildanalyse und Maschinenaufwand. Es gibt eine signifikante Überlappung im Bereich der Techniken und Anwendungen, die diese abdecken. Dies impliziert, dass die in diesen Feldern verwendeten und entwickelten grundlegenden Techniken ähnlich sind, was interpretiert werden kann, da es nur ein Feld mit unterschiedlichen Namen gibt. Andererseits scheint es für Forschungsgruppen, wissenschaftliche Zeitschriften, Konferenzen und Unternehmen notwendig zu sein, sich selbst als Zugehörigkeit zu einem dieser Bereiche zu präsentieren oder zu vermarkten vorgestellt. In der Bildverarbeitung ist die Eingabe ein Bild und die Ausgabe ist ebenfalls ein Bild, während in Computer Vision ein Bild oder ein Video als Eingabe genommen wird und die Ausgabe ein verbessertes Bild sein kann, ein Verständnis des Inhalts eines Bildes oder sogar ein Verhalten eines Computersystems, das auf einem solchen Verständnis basiert.
Computergrafik Erstellt Bilddaten aus 3D -Modellen, Computer Vision erzeugt häufig 3D -Modelle aus Bilddaten.[18] Es gibt auch einen Trend zu einer Kombination der beiden Disziplinen, z.B., wie erkundet in erweiterte Realität.
Die folgenden Charakterisierungen erscheinen relevant, sollten jedoch nicht als allgemein anerkannt werden:
- Bildverarbeitung und Bildanalyse konzentrieren sich auf 2D -Bilder, wie man ein Bild in ein anderes transformiert, z.B.durch pixelweise Operationen wie Kontrastverstärkung, lokale Operationen wie Kantenextraktion oder Rauschentfernung oder geometrische Transformationen wie das Drehen des Bildes. Diese Charakterisierung impliziert, dass die Bildverarbeitung/-analyse weder Annahmen erfordern noch Interpretationen über den Bildinhalt erzeugt.
- Computer Vision umfasst eine 3D -Analyse aus 2D -Bildern. Dies analysiert die 3D -Szene, die auf ein oder mehrere Bilder projiziert wird. z.B., wie man Struktur oder andere Informationen über die 3D -Szene aus einem oder mehreren Bildern rekonstruiert. Computer Vision beruht oft auf mehr oder weniger komplexe Annahmen über die in einem Bild dargestellte Szene.
- Maschinenaufwand ist der Prozess der Anwendung einer Reihe von Technologien und Methoden zur Bereitstellung bildgebender automatischer Inspektion, Prozesskontrolle und Roboteranleitung[19] in industriellen Anwendungen.[16] Machine Vision konzentriert sich in der Regel auf Anwendungen, hauptsächlich in der Herstellung, z.B., sehbasierte Roboter und Systeme zur sehbasierten Inspektion, Messung oder Auswahl (wie z. Mülleimerpickelung[20]). Dies impliziert, dass Bildsensortechnologien und Kontrolltheorie häufig in die Verarbeitung von Bilddaten integriert werden, um einen Roboter zu steuern, und dass die Echtzeitverarbeitung durch effiziente Implementierungen in Hardware und Software hervorgehoben wird. Dies impliziert auch, dass die externen Bedingungen wie Beleuchtung in maschinellem Sicht als im allgemeinen Computervision häufig kontrolliert werden können und werden, was die Verwendung verschiedener Algorithmen ermöglichen kann.
- Es gibt auch ein Feld namens namens Bildgebung Das konzentriert sich hauptsächlich auf den Prozess der Herstellung von Bildern, befasst sich aber manchmal auch mit der Verarbeitung und Analyse von Bildern. Zum Beispiel, medizinische Bildgebung Enthält wesentliche Arbeiten zur Analyse von Bilddaten in medizinischen Anwendungen.
- Endlich, Mustererkennung ist ein Feld, das verschiedene Methoden verwendet, um Informationen aus Signalen im Allgemeinen zu extrahieren, hauptsächlich basierend auf statistischen Ansätzen und künstliche neurale Netzwerke.[21] Ein wesentlicher Teil dieses Feldes widmet sich der Anwendung dieser Methoden auf Bilddaten.
Fotogrammetrie Überschneidet sich auch mit Computer Vision, z. B., Stereophotogrammetrie vs. Computer Stereo Vision.
Anwendungen
Anwendungen reichen von Aufgaben wie Industrie Maschinenaufwand Systeme, die beispielsweise Flaschen in einer Produktionslinie beschleunigen, um künstliche Intelligenz und Computer oder Roboter zu erforschen, die die Welt um sie herum verstehen können. Die Felder von Computer Vision und Machine Vision haben eine erhebliche Überlappung. Computer Vision deckt die Kerntechnologie der automatisierten Bildanalyse ab, die in vielen Bereichen verwendet wird. Machine Vision bezieht sich normalerweise auf einen Prozess der Kombination der automatisierten Bildanalyse mit anderen Methoden und Technologien, um automatisierte Inspektion und Roboteranleitung in industriellen Anwendungen zu bieten. In vielen Computer-Vision-Anwendungen werden die Computer vorprogrammiert, um eine bestimmte Aufgabe zu lösen, aber Methoden, die auf Lernen basieren, werden jetzt immer häufiger. Beispiele für Anwendungen von Computer Vision umfassen Systeme für:

- Automatische Inspektion, z.B.in Fertigungsanwendungen;
- Unterstützung Menschen bei Identifikationsaufgaben, z. B. a Artenidentifikation System;[22]
- Steuerungsprozesse, z.B., ein Industrieboter;
- Ereignisse erkennen, z.B., zum visuelle Überwachung oder Menschen zählenz. B. in der Restaurantbranche;
- Interaktion, z.B., wie die Eingabe in ein Gerät für Computer-Human-Interaktion;
- Modellierung von Objekten oder Umgebungen, z.B., medizinische Bildanalyse oder topografische Modellierung;
- Navigation, z.B., durch eine Autonomes Fahrzeug oder Mobiler Roboter;
- Informationen organisieren,, z.B., zum Indizierung Datenbanken von Bildern und Bildsequenzen.
- Verfolgung von Oberflächen oder Flugzeugen in 3D -Koordinaten zur Ermöglichung erweiterter Realitätserfahrungen.
Medizin
Eines der bekanntesten Anwendungsfelder ist die medizinische Computersicht oder eine medizinische Bildverarbeitung, die durch die Extraktion von Informationen aus Bilddaten an gekennzeichnet ist Diagnose eines Patienten. Ein Beispiel hierfür ist die Erkennung von Tumoren, Arteriosklerose oder andere bösartige Änderungen; Messungen von Organabmessungen, Blutfluss usw. sind ein weiteres Beispiel. Es unterstützt auch die medizinische Forschung durch Bereitstellung neuer Informationen: z.B., über die Struktur des Gehirns oder über die Qualität der medizinischen Behandlungen. Anwendungen von Computer Vision im medizinischen Bereich umfassen auch die Verbesserung von Bildern, die von Menschen interpretiert werden-beispielsweise ultrasonische Bilder oder Röntgenbilder-, um den Einfluss von Rauschen zu verringern.
Maschinenaufwand
Ein zweiter Anwendungsbereich in Computer Vision ist in der Industrie, manchmal genannt Maschinenaufwand, wo Informationen extrahiert werden, um einen Produktionsprozess zu unterstützen. Ein Beispiel ist eine Qualitätskontrolle, bei der Details oder Endprodukte automatisch geprüft werden, um Mängel zu finden. Eines der am häufigsten vorkommenden Felder für eine solche Inspektion ist die Wafer Branche, in der jeder einzelne Wafer gemessen und auf Ungenauigkeiten oder Defekte inspiziert wird, um a zu verhindern Computerchip von unbrauchbarer Weise auf den Markt kommen. Ein weiteres Beispiel ist die Messung der Position und Ausrichtung der Details, die von einem Roboterarm aufgenommen werden sollen. Machine Vision wird auch stark im landwirtschaftlichen Prozess verwendet, um unerwünschte Lebensmittel aus Schüttgut zu entfernen, ein Prozess heißt Optische Sortierung.[23]
Militär
Militärische Anwendungen sind wahrscheinlich einer der größten Bereiche für Computervision. Die offensichtlichen Beispiele sind die Erkennung feindlicher Soldaten oder Fahrzeuge und Raketenanleitung. Fortgeschrittene Systeme für Raketenanleitungen senden die Rakete eher in einen Bereich als an ein bestimmtes Ziel, und die Zielauswahl wird getroffen, wenn die Rakete den Bereich basierend auf lokal erfassten Bilddaten erreicht. Moderne militärische Konzepte wie "Battlefield Awareness" implizieren, dass verschiedene Sensoren, einschließlich Bildsensoren, eine Reihe von Informationen über eine Kampfszene liefern, die zur Unterstützung strategischer Entscheidungen verwendet werden können. In diesem Fall wird die automatische Verarbeitung der Daten verwendet, um die Komplexität zu verringern und Informationen von mehreren Sensoren zu verschmelzen, um die Zuverlässigkeit zu erhöhen.
Autonome Fahrzeuge

Einer der neueren Anwendungsbereiche sind autonome Fahrzeuge, einschließlich Eintauchungen, landgestützte Fahrzeuge (kleine Roboter mit Rädern, Autos oder Lastwagen), Luftfahrzeuge und unbemannte Luftfahrzeuge (unbemannte Luftfahrzeuge (Uav). Das Niveau der Autonomie reicht von vollständig autonomen (unbemannten) Fahrzeugen bis hin zu Fahrzeugen, in denen computer-visionsbasierte Systeme einen Fahrer oder einen Piloten in verschiedenen Situationen unterstützen. Vollautonome Fahrzeuge verwenden in der Regel Computer Vision für die Navigation, z. B. um zu wissen, wo sie sich befinden, oder ihre Umgebung abzubilden (ihre Umgebung (ZUSCHLAGEN), um Hindernisse zu erkennen und/oder automatisch die Navigationssicherheit zu gewährleisten.[24] Es kann auch zum Erkennen bestimmter aufgabenspezifischer Ereignisse verwendet werden. z.B., ein UAV, der nach Waldbränden sucht. Beispiele für unterstützende Systeme sind Hinderniswarnsysteme in Autos und Systemen für die autonome Landung von Flugzeugen. Mehrere Automobilhersteller haben Systeme für Systeme gezeigt Autonomes Fahren von AutosAber diese Technologie hat immer noch kein Niveau erreicht, auf dem sie auf den Markt gebracht werden kann. Es gibt zahlreiche Beispiele für militärische autonome Fahrzeuge, die von fortgeschrittenen Raketen bis hin zu UAVs für Recon -Missionen oder Raketenanleitungen reichen. Die Erkundung von Weltraum wird bereits mit autonomen Fahrzeugen unter Verwendung von Computer Vision hergestellt. z.B., NASA's Neugier und CNSA's Yutu-2 Rover.
Taktiles Feedback


Materialien wie Gummi und Silizium werden verwendet, um Sensoren zu erstellen, die Anwendungen wie das Erkennen von Mikrowellen und die Kalibrierung von Roboterhänden ermöglichen. Gummi kann verwendet werden, um eine Form zu erzeugen, die über einen Finger platziert werden kann. Innerhalb dieser Form wären mehrere Dehnungsmessgeräte. Die Fingerform und die Sensoren konnten dann auf ein kleines Gummiblech mit einer Reihe von Gummispadnadeln gelegt werden. Ein Benutzer kann dann die Fingerform tragen und eine Oberfläche verfolgen. Ein Computer kann dann die Daten aus den Dehnungsmessgeräten lesen und messen, wenn ein oder mehrere der Stifte nach oben gedrückt werden. Wenn ein Stift nach oben gedrückt wird, kann der Computer dies als Unvollkommenheit in der Oberfläche erkennen. Diese Art von Technologie ist nützlich, um genaue Daten der Unvollkommenheiten auf einer sehr großen Oberfläche zu erhalten.[25] Eine weitere Variation dieses Fingerformsensors sind Sensoren, die eine in Silizium aufgehängte Kamera enthalten. Das Silizium bildet eine Kuppel um die Außenseite der Kamera und in den Silizium eingebettet sind Punktmarker, die gleichermaßen beabstandet sind. Diese Kameras können dann auf Geräte wie Roboterhände platziert werden, damit der Computer hoch genaue taktile Daten empfangen kann.[26]
Andere Anwendungsbereiche umfassen:
- Unterstützung von visuelle Effekte Kreation für Kino und Sendung, z.B., Kamera -Tracking (MatchMoving).
- Überwachung.
- Driver drowsiness detection[27][28][29]
- Verfolgung und Zählen von Organismen in den Biowissenschaften[30]
Typische Aufgaben
Jeder der oben beschriebenen Anwendungsbereiche verwendet eine Reihe von Computer -Vision -Aufgaben. Mehr oder weniger gut definierte Messprobleme oder Verarbeitungsprobleme, die mit einer Vielzahl von Methoden gelöst werden können. Einige Beispiele für typische Computer -Vision -Aufgaben sind nachstehend dargestellt.
Computer Vision -Aufgaben umfassen Methoden für Erwerb, wird bearbeitet, Analysieren und digitale Bilder verstehen und Extraktion von Hochdimensional Daten aus der realen Welt, um numerische oder symbolische Informationen zu erstellen, z.B.in Form von Entscheidungen.[3][4][5][6] Das Verständnis in diesem Zusammenhang bedeutet die Umwandlung visueller Bilder (die Eingabe der Retina) in Beschreibungen der Welt, die mit anderen Denkprozessen verkörpern und angemessene Maßnahmen auslösen können. Dieses Bildverständnis kann als Entwirrung symbolischer Informationen aus Bilddaten unter Verwendung von Modellen angesehen werden, die mit Hilfe von Geometrie, Physik, Statistik und Lerntheorie konstruiert wurden.[31]
Erkennung
Das klassische Problem in Computer Vision, Bildverarbeitung und Maschinenaufwand Ist das Bestimmen, ob die Bilddaten ein bestimmtes Objekt, eine bestimmte Funktion oder Aktivität enthalten. In der Literatur werden verschiedene Sorten des Erkennungsproblems beschrieben.[32]
- Objekterkennung (auch genannt Objektklassifizierung)-Ein oder mehrere vorgegebene oder gelernte Objekte oder Objektklassen können gewöhnlich zusammen mit ihren 2D-Positionen im Bild- oder 3D-Posen in der Szene erkannt werden. Blippar, Google Schutzbrille und Liketat bieten eigenständige Programme, die diese Funktionalität veranschaulichen.
- Identifikation- Eine individuelle Instanz eines Objekts wird erkannt. Beispiele sind die Identifizierung des Gesichts oder des Fingerabdrucks einer bestimmten Person. Identifizierung handgeschriebener Ziffern, oder Identifizierung eines bestimmten Fahrzeugs.
- Erkennung- Die Bilddaten werden für eine bestimmte Bedingung gescannt. Beispiele hierfür sind der Nachweis möglicher abnormaler Zellen oder Gewebe in medizinischen Bildern oder der Nachweis eines Fahrzeugs in einem automatischen Straßengebührensystem. Die Erkennung basierend auf relativ einfachen und schnellen Berechnungen wird manchmal verwendet, um kleinere Regionen interessanter Bilddaten zu finden, die durch rechnerisch anspruchsvollere Techniken weiter analysiert werden können, um eine korrekte Interpretation zu erzeugen.
Derzeit basieren die besten Algorithmen für solche Aufgaben auf Faltungsnetzwerke. Eine Illustration ihrer Fähigkeiten wird von der gegeben ImageNet große Herausforderung der visuellen Erkennung visueller Erkennung; Dies ist ein Benchmark bei der Einstufung und Erkennung von Objekten mit Millionen von Bildern und 1000 Objektklassen, die im Wettbewerb verwendet werden.[33] Die Leistung von Faltungsnetzwerken in den ImageNet -Tests liegt nun nahe an dem des Menschen.[33] Die besten Algorithmen kämpfen immer noch mit Objekten, die klein oder dünn sind, wie z. B. einer kleinen Ameise auf einem Stamm einer Blume oder einer Person, die eine Feder in der Hand hält. Sie haben auch Probleme mit Bildern, die mit Filtern verzerrt wurden (ein immer häufigeres Phänomen mit modernen Digitalkameras). Im Gegensatz dazu belästigen diese Arten von Bildern nur selten Menschen. Menschen haben jedoch in der Regel Probleme mit anderen Problemen. Zum Beispiel sind sie nicht gut darin, Objekte in feinkörnige Klassen zu klassifizieren, wie z.
Es gibt mehrere spezialisierte Aufgaben, die auf Anerkennung basieren, wie:
- Inhaltsbasiertes Bildabruf- Finden Sie alle Bilder in einem größeren Satz von Bildern mit einem bestimmten Inhalt. Der Inhalt kann auf unterschiedliche Weise angegeben werden, beispielsweise in Bezug auf Ähnlichkeit relativ ein Zielbild (geben Sie mir alle Bilder ähnlich wie das Bild X), indem Sie dies verwenden Reverse Bildsuche Techniken oder in Bezug auf hochrangige Suchkriterien, die als Texteingabe angegeben sind (geben Sie mir alle Bilder, die viele Häuser enthalten, im Winter aufgenommen und keine Autos enthalten).

- POSE -Schätzung- Schätzung der Position oder Ausrichtung eines bestimmten Objekts relativ zur Kamera. Eine Beispielanwendung für diese Technik wäre die Unterstützung eines Roboterarms beim Abrufen von Objekten aus einem Förderband in einem Fließband Situation oder Teile aus einem Behälter.
- Optische Zeichenerkennung (OCR) - Identifizierung Figuren In Bildern von gedruckter oder handgeschriebener Text, normalerweise mit Ansicht, den Text in einem Format zu codieren, das für die Bearbeitung oder die Bearbeitung zugänglicher ist oder Indizierung (z.B. ASCII).
- 2D -Code -Lesung- Lesen von 2D -Codes wie z. Datenmatrix und Qr Codes.
- Gesichtserkennung
- Formerkennungstechnologie (SRT) in Menschen kontern Systeme, die Menschen (Kopf- und Schultermuster) von Objekten unterscheiden
Bewegungsanalyse
Mehrere Aufgaben beziehen sich auf die Bewegungsschätzung, bei der eine Bildsequenz verarbeitet wird, um eine Schätzung der Geschwindigkeit entweder an jedem Punkt im Bild oder in der 3D -Szene oder sogar der Kamera zu erzeugen, die die Bilder erzeugt. Beispiele für solche Aufgaben sind:
- Egomotion- Bestimmung der 3D -starren Bewegung (Rotation und Übersetzung) der Kamera aus einer von der Kamera erzeugten Bildsequenz.
- Verfolgung- Befolgen Sie die Bewegungen eines (normalerweise) kleineren Satzes von Interesse oder Objekten (z.B., Fahrzeuge, Gegenstände, Menschen oder andere Organismen[30]) in der Bildsequenz. Dies enthält enorme Branchenanwendungen, da die meisten hochrundenden Maschinen auf diese Weise überwacht werden können.
- Optischer Fluss- Um für jeden Punkt im Bild zu bestimmen, wie sich dieser Punkt relativ zur Bildebene bewegt, d.h., seine scheinbare Bewegung. Diese Bewegung ist ein Ergebnis, wie sich der entsprechende 3D -Punkt in der Szene bewegt und wie sich die Kamera relativ zur Szene bewegt.
Szenenrekonstruktion
Angesichts eines oder (normalerweise) mehr Bilder einer Szene oder eines Videos, zielt die Szenenrekonstruktion ab an Berechnung eines 3D -Modells der Szene. Im einfachsten Fall kann das Modell ein Satz von 3D -Punkten sein. Weiterentwickelte Methoden erzeugen ein vollständiges 3D -Oberflächenmodell. Das Aufkommen der 3D -Bildgebung, die nicht Bewegung oder Scannen und verwandte Verarbeitungsalgorithmen erfordert, ermöglicht schnelle Fortschritte in diesem Bereich. 3D-Basis-basierte 3D-Sensing kann verwendet werden, um 3D-Bilder aus mehreren Winkeln zu erwerben. Algorithmen sind jetzt verfügbar, um mehrere 3D -Bilder in Punktwolken und 3D -Modellen zusammenzusetzen.[18]
Bildwiederherstellung
Das Ziel der Bildwiederherstellung ist das Entfernen von Rauschen (Sensorrauschen, Bewegungsunschärfe usw.) aus den Bildern. Der einfachste Ansatz für die Rauschentfernung sind verschiedene Arten von Filtern wie Tiefpassfilter oder Medianfilter. Weiterentwickelte Methoden nehmen ein Modell an, wie die lokalen Bildstrukturen aussehen, um sie von Rauschen zu unterscheiden. Durch die zunächst analysierende Bilddaten in Bezug auf die lokalen Bildstrukturen wie Linien oder Kanten und dann die Filterung basierend auf lokalen Informationen aus dem Analyseschritt wird normalerweise ein besseres Niveau der Rauschentfernung im Vergleich zu den einfacheren Ansätzen erhalten.
Ein Beispiel in diesem Bereich ist Inpainting.
Systemmethoden
Die Organisation eines Computer-Vision-Systems ist sehr anwendungsabhängig. Einige Systeme sind eigenständige Anwendungen, die ein spezifisches Mess- oder Erkennungsproblem lösen, während andere ein Teilsystem eines größeren Designs darstellen, das beispielsweise auch Subsysteme zur Kontrolle mechanischer Aktuatoren, Planung, Informationsdatenbanken, Man- enthält. Maschinenschnittstellen usw. Die spezifische Implementierung eines Computer-Vision-Systems hängt auch davon ab, ob seine Funktionalität vorgegeben wird oder ob ein Teil davon während des Betriebs gelernt oder geändert werden kann. Viele Funktionen sind einzigartig für die Anwendung. Es gibt jedoch typische Funktionen, die in vielen Computer -Vision -Systemen zu finden sind.
- Bildaufnahme - Ein digitales Bild wird von einem oder mehreren erzeugt Bildsensoren, die neben verschiedenen Arten von lichtempfindlichen Kameras umfassen, umfassen Bereichssensoren, Tomographiegeräte, Radar, ultra-lonische Kameras usw. Abhängig vom Sensortyp sind die resultierenden Bilddaten ein gewöhnliches 2D-Bild, ein 3D-Volumen oder eine Bildsequenz. Die Pixelwerte entsprechen typischerweise der Lichtintensität in einem oder mehreren Spektralbändern (graue Bilder oder Farbbilder), können aber auch mit verschiedenen physikalischen Maßnahmen zusammenhängen, z. B. Tiefe, Absorption oder Reflexion von Schall- oder elektromagnetischen Wellen oder Kernspinresonanz.[23]
- Vorverarbeitung - Bevor eine Computer -Vision -Methode auf Bilddaten angewendet werden kann, um einige spezifische Informationen zu extrahieren, müssen die Daten normalerweise verarbeitet werden, um sicherzustellen, dass bestimmte Annahmen erfüllt werden, die durch die Methode impliziert werden. Beispiele sind:
- Neuprobe, um sicherzustellen, dass das Bildkoordinatensystem korrekt ist.
- Rauschreduzierung, um sicherzustellen, dass Sensorrauschen keine falschen Informationen einführt.
- Kontrastverbesserung, um sicherzustellen, dass relevante Informationen erkannt werden können.
- Raum skalieren Darstellung zur Verbesserung der Bildstrukturen in lokal geeigneten Maßstäben.
- Feature -Extraktion - Bildmerkmale auf verschiedenen Komplexitätsebenen werden aus den Bilddaten extrahiert.[23] Typische Beispiele für solche Merkmale sind:
- Linien, Kanten und Grate.
- Lokalisiert Zinspunkte wie zum Beispiel Ecken, Blobs oder Punkte.
- Komplexere Merkmale können mit Textur, Form oder Bewegung zusammenhängen.
- Erkennung/Segmentierung - Zu einem bestimmten Zeitpunkt in der Verarbeitung wird eine Entscheidung getroffen, welche Bildpunkte oder Regionen des Bildes für die weitere Verarbeitung relevant sind.[23] Beispiele sind:
- Auswahl eines bestimmten Satzes von Interesse.
- Segmentierung eines oder mehrere Bildbereiche, die ein spezifisches Interesse enthalten.
- Segmentierung des Bildes in eine verschachtelte Szenenarchitektur aus Vordergrund, Objektgruppen, einzelne Objekte oder hervorstechend Objekt[34] Teile (auch als räumliche Taxon-Szenenhierarchie bezeichnet),[35] während visuelle Bedeutung wird oft als implementiert als räumlich und zeitliche Aufmerksamkeit.
- Segmentierung oder Co-Segmentierung von einem oder mehreren Videos in eine Reihe von Vordergrundmasken pro Frame, wobei die zeitliche semantische Kontinuität beibehalten wird.[36][37]
- Hochrangige Verarbeitung - Bei diesem Schritt ist die Eingabe in der Regel ein kleiner Datensatz, beispielsweise eine Reihe von Punkten oder eine Bildregion, von der angenommen wird, dass sie ein bestimmtes Objekt enthält.[23] Die verbleibende Verarbeitung befasst sich beispielsweise mit:
- Überprüfung, ob die Daten modellbasierte und anwendungsspezifische Annahmen erfüllen.
- Schätzung von anwendungsspezifischen Parametern wie Objektpose oder Objektgröße.
- Bilderkennung - Klassifizieren eines erkannten Objekts in verschiedene Kategorien.
- Bildregistrierung - Vergleich und Kombination von zwei verschiedenen Ansichten desselben Objekts.
- Entscheidung fällen Die endgültige Entscheidung treffen, die für den Antrag erforderlich ist,[23] zum Beispiel:
- Pass/Fail bei automatischen Inspektionsanwendungen.
- Übereinstimmung/No-Match in Erkennungsanwendungen.
- Flagge für weitere menschliche Überprüfung in medizinischen, militärischen, Sicherheit und Anerkennungsanträgen.
Image-Verständnissysteme
Image-Verständnissysteme (IUS) enthalten drei Ebenen der Abstraktion wie folgt: Niedrige Ebene umfasst Bildprimitive wie Kanten, Texturelemente oder Regionen; Zwischenebene umfasst Grenzen, Oberflächen und Volumina; und hohe Ebene umfasst Objekte, Szenen oder Ereignisse. Viele dieser Anforderungen sind völlig Themen für die weitere Forschung.
Die Repräsentationsanforderungen bei der Gestaltung von IUS für diese Ebenen sind: Darstellung prototypischer Konzepte, Konzeptorganisation, räumliches Wissen, zeitliches Wissen, Skalierung und Beschreibung durch Vergleich und Differenzierung.
Während Inferenz sich auf den Prozess der Ableitung neuer, nicht explizit dargestelltes Fakten aus derzeit bekannten Fakten bezieht, bezieht sich die Kontrolle auf den Prozess, der ausgewählt wird, welche der vielen Inferenz-, Suche und Übereinstimmungstechniken in einer bestimmten Verarbeitungsphase angewendet werden sollen. Inferenz- und Kontrollanforderungen für IUS sind: Aktivierung, Übereinstimmung und Hypothese von Such- und Hypothese -Testen, Erzeugung und Verwendung von Erwartungen, Veränderungen und Fokussierung von Aufmerksamkeit, Sicherheit und Stärke des Glaubens, Inferenz und Zielzufriedenheit.[38]
Hardware

Es gibt viele Arten von Computer -Vision -Systemen; Alle von ihnen enthalten jedoch diese grundlegenden Elemente: eine Stromquelle, mindestens ein Bildfassungsgerät (Kamera, CCD usw.), ein Prozessor sowie Steuer- und Kommunikationskabel oder eine Art drahtloser Zusammenschaltungsmechanismus. Darüber hinaus enthält ein praktisches Visionssystem Software sowie eine Anzeige, um das System zu überwachen. Sichtsysteme für innere Räume, wie die meisten industriellen, enthalten ein Beleuchtungssystem und können in eine kontrollierte Umgebung platziert werden. Darüber hinaus umfasst ein abgeschlossenes System viele Zubehör wie Kamera -Unterstützung, Kabel und Anschlüsse.
Die meisten Computer-Vision-Systeme verwenden Kameras mit sichtbarem Licht, die passiv eine Szene zu Bildraten von höchstens 60 Bildern pro Sekunde betrachten (normalerweise weitaus langsamer).
Einige Computer-Vision-Systeme verwenden Hardware zur Bildakquisition mit aktiver Beleuchtung oder etwas anderes als sichtbares Licht oder beides, wie z. 3D-Scanner für strukturierte Licht, Thermografische Kameras, Hyperspektralbilder, Radarbildgebung, LIDAR Scanner, Magnetresonanzbilder, Seiten-Scan-Sonar, Synthetic Aperture Sonarusw. Eine solche Hardware erfasst "Bilder", die dann häufig mit denselben Computer-Vision-Algorithmen verarbeitet werden, die zur Verarbeitung von Bildern sichtbarer Licht verwendet werden.
Während traditionelle Broadcast- und Verbrauchervideosysteme mit einer Rate von 30 Bildern pro Sekunde arbeiten, sind Fortschritte in digitale Signalverarbeitung und Consumer Graphics Hardware hat eine Hochgeschwindigkeitsbild-Erfassung, -verarbeitung und -anlage für Echtzeitsysteme in der Größenordnung von Hunderten bis Tausenden von Frames pro Sekunde ermöglicht. Für Anwendungen in Robotik sind schnelle, in Echtzeit-Videosysteme von entscheidender Bedeutung und können häufig die für bestimmte Algorithmen benötigte Verarbeitung vereinfachen. In Kombination mit einem Hochgeschwindigkeitsprojektor kann die schnelle Bildaufnahme 3D-Mess- und Feature-Tracking realisiert werden.[39]
Egozentrische Sicht Systeme bestehen aus einer tragbaren Kamera, die automatisch Bilder aus der Sicht der ersten Person aufnimmt.
Ab 2016, Sehverarbeitungseinheiten entwickeln sich zu einer neuen Klasse von Prozessor, um CPUs zu ergänzen und Grafikverarbeitungseinheiten (GPUs) in dieser Rolle.[40]
Siehe auch
Listen
Verweise
- ^ a b Dana H. Ballard; Christopher M. Brown (1982). Computer Vision. Prentice Hall. ISBN 978-0-13-165316-0.
- ^ a b Huang, T. (1996-11-19). Vandoni, Carlo, E (Hrsg.). Computer Vision: Evolution und Versprechen (PDF). 19. CERN School of Computing. Genf: Cern. S. 21–25. doi:10.5170/CERN-1996-008.21. ISBN 978-9290830955.
- ^ a b Reinhard Klette (2014). Präzise Computer Vision. Springer. ISBN 978-1-4471-6320-6.
- ^ a b Linda G. Shapiro; George C. Stockman (2001). Computer Vision. Prentice Hall. ISBN 978-0-13-030796-5.
- ^ a b Tim Morris (2004). Computer Vision und Bildverarbeitung. Palgrave Macmillan. ISBN 978-0-333-99451-1.
- ^ a b Bernd Jähne; Horst Haußecker (2000). Computer Vision und Anwendungen, ein Leitfaden für Schüler und Praktiker. Akademische Presse. ISBN 978-0-13-085198-7.
- ^ Mailand Sonka; Vaclav Hlavac; Roger Boyle (2008). Bildverarbeitung, Analyse und Maschinenaufwand. Thomson. ISBN 978-0-495-08252-1.
- ^ http://www.bmva.org/visionoverview Archiviert 2017-02-16 bei der Wayback -Maschine Die British Machine Vision Association und Society for Mustererkennung abgerufen am 20. Februar 2017
- ^ Murphy, Mike. "Star Treks" Tricorder "medizinischer Scanner kam gerade näher der Realität näher.".
- ^ a b c d Richard Szeliski (30. September 2010). Computer Vision: Algorithmen und Anwendungen. Springer Science & Business Media. S. 10–16. ISBN 978-1-84882-935-0.
- ^ Papert, Seymour (1966-07-01). "The Summer Vision Project". MIT AI Memos (1959 - 2004). HDL:1721.1/6125.
- ^ Margaret Ann Boden (2006). Geist als Maschine: Eine Geschichte der kognitiven Wissenschaft. Clarendon Press. p. 781. ISBN 978-0-19-954316-8.
- ^ Tako Kanade (6. Dezember 2012). Dreidimensionales Maschinenaufwand. Springer Science & Business Media. ISBN 978-1-4613-1981-8.
- ^ Nicu Sebe; Ira Cohen; Ashutosh Garg; Thomas S. Huang (3. Juni 2005). Maschinelles Lernen in Computer Vision. Springer Science & Business Media. ISBN 978-1-4020-3274-5.
- ^ William Freeman; Pietro Perona; Bernhard Scholkopf (2008). "Gast Editorial: Maschinelles Lernen für Computer Vision". Internationales Journal of Computer Vision. 77 (1): 1. doi:10.1007/s11263-008-0127-7. ISSN 1573-1405.
- ^ a b Steger, Carsten; Markus Ulrich; Christian Wiedemann (2018). Maschinenvisionalgorithmen und Anwendungen (2. Aufl.). Weinheim: Wiley-vch. p. 1. ISBN 978-3-527-41365-2. Abgerufen 2018-01-30.
- ^ Murray, Don und Cullen Jennings. "Stereo -Vision -basierte Mapping und Navigation für mobile Roboter. "Proceedings der Internationalen Konferenz über Robotik und Automatisierung. Vol. 2. IEEE, 1997.
- ^ a b c Soltani, A. A.; Huang, H.; Wu, J.; Kulkarni, T. D.; Tenenbaum, J. B. (2017). "Synthese von 3D-Formen über die Modellierung von Multi-View-Tiefenkarten und Silhouetten mit tiefen generativen Netzwerken". Verfahren der IEEE -Konferenz zur Computer Vision und Mustererkennung: 1511–1519. doi:10.1109/cvpr.2017.269. HDL:1721.1/126644. ISBN 978-1-5386-0457-1. S2CID 31373273.
- ^ Turek, Fred (Juni 2011). "Grundlagen für die Machine Vision, wie man Roboter sieht". NASA Tech Briefmagazin. 35 (6). Seiten 60–62
- ^ "Die Zukunft der automatisierten Zufallsbehälter -Picking".
- ^ Chervyakov, N. I.; Lyakhov, P. A.; Deryabin, M. A.; Nagornov, N. N.; Valueva, M. V.; Valuev, G. V. (2020). "Die systembasierte Lösung der Rückstandszahl zur Reduzierung der Hardwarekosten eines neuronalen Netzwerks". Neurokomputierung. 407: 439–453. doi:10.1016/j.neucom.2020.04.018. S2CID 219470398.
Faltungs-
- ^ Wällen, Jana; Mäder, Patrick (2017-01-07). "Identifizierung von Pflanzenarten unter Verwendung von Computer Vision -Techniken: Eine systematische Literaturübersicht". Archive für Computermethoden im Engineering. 25 (2): 507–543. doi:10.1007/S11831-016-9206-Z. ISSN 1134-3060. PMC 6003396. PMID 29962832.
- ^ a b c d e f E. Roy Davies (2005). Machine Vision: Theorie, Algorithmen, praktische Aspekte. Morgan Kaufmann. ISBN 978-0-12-206093-9.
- ^ Kakaletsis, Efstratios; Symeonidis, Charalampos; Tzelepi, Maria; Mademlis, Ioannis; Tefas, Anastasios; Nikolaidis, Nikos; Pitas, Ioannis (2021). "Computer Vision für autonome UAV-Flugsicherheit: Ein Überblick und ein sehbasiertes Beispiel für sichere Landungspipeline". ACM Computing -Umfragen. New York, NY: ACM. 54 (9): 1–37. doi:10.1145/3472288.
- ^ Ando, Mitsuhito; Takei, toshinobu; Mochiyama, Hiromi (2020-03-03). "Gummi-künstliche Hautschicht mit flexibler Struktur zur Formschätzung von Mikro-Abgas-Oberflächen". Robomech Journal. 7 (1): 11. doi:10.1186/s40648-020-00159-0. ISSN 2197-4225.
- ^ Choi, Seung-hyun; Tahara, Kenji (2020-03-12). "Manipulation von geschickter Objekte durch eine mit mehreren fingerhafte Roboterhand mit visuellen Fingerspitzensensoren". Robomech Journal. 7 (1): 14. doi:10.1186/s40648-020-00162-5. ISSN 2197-4225.
- ^ Garg, Hitendra (2020-02-29). "Schläfrigkeitserkennung eines Treibers mit herkömmlicher Computer Vision Application". 2020 Internationale Konferenz über Power Electronics & IoT -Anwendungen für erneuerbare Energien und seine Kontrolle (PARC): 50–53. doi:10.1109/parc49193.2020.236556.
- ^ Hasan, Fudail; Kashevnik, Alexey (2021-05-14). "Stand der Technik Analyse moderner Algorithmen zur Erkennung von Schläfrigkeit auf der Grundlage von Computer Vision". 2021 29. Konferenz der Open Innovations Association (FRUCT): 141–149. doi:10.23919/fruct52173.2021.9435480.
- ^ Balasundaram, a; Ashokkumar, S; Kotandaraman, D; Kora, SeaNanaik; Sudarshan, e; Harshaverdhan, A (2020-12-01). "Computer Vision -basierte Ermüdungserkennung unter Verwendung von Gesichtsparametern". IOP -Konferenzreihe: Materialwissenschaft und Ingenieurwesen. 981 (2). doi:10.1088/1757-899x/981/2/022005. ISSN 1757-899x.
- ^ a b Bruijning, Marjolein; Visser, Marco D.; Hallmann, Caspar A.; Jongejans, Eelke; Golding, Nick (2018). "TrackDem: Automatische Partikelverfolgung, um Bevölkerungszählungen und Größenverteilungen aus Videos in R" zu erhalten. ". Methoden in Ökologie und Evolution. 9 (4): 965–973. doi:10.1111/2041-210x.12975. ISSN 2041-210X.
- ^ David A. Forsyth; Jean Ponce (2003). Computer Vision, ein moderner Ansatz. Prentice Hall. ISBN 978-0-13-085198-7.
- ^ Forsyth, David; Ponce, Jean (2012). Computer Vision: ein moderner Ansatz. Pearson.
- ^ a b Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; MA, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; Berg, Alexander C. (Dezember 2015). "ImageNet Large -Skala Visual Recognition Challenge". Internationales Journal of Computer Vision. 115 (3): 211–252. doi:10.1007/s11263-015-0816-y. HDL:1721.1/104944. ISSN 0920-5691. S2CID 2930547.
- ^ A. Maity (2015). "Improvisierte herausragende Objekterkennung und -manipulation". Arxiv:1511.02999 [cs.cv].
- ^ Schnäppchen, Lauren. "Visueller taxometrischer Ansatz zur Bildsegmentierung unter Verwendung von Fuzzy-räumlichen Taxon-Kürzungen ergibt kontextbezogene Regionen. "Informationsverarbeitung und Management von Unsicherheiten in wissensbasierten Systemen. Springer International Publishing, 2014.
- ^ Liu, Ziyi; Wang, Le; Hua, Bande; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Entdeckung und Segmentierung von Videoobjekten durch gekoppelte dynamische Markov -Netzwerke" (PDF). IEEE -Transaktionen zur Bildverarbeitung. 27 (12): 5840–5853. Bibcode:2018itip ... 27.5840L. doi:10.1109/Tipp.2018.2859622. ISSN 1057-7149. PMID 30059300. S2CID 51867241. Archiviert von das Original (PDF) Am 2018-09-07. Abgerufen 2018-09-14.
- ^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Bande; Zheng, Nanning (2018-05-22). "Segmentrohr: Räumlich-zeitliche Aktionslokalisierung in nicht geschnittenen Videos mit pro-Frame-Segmentierung" (PDF). Sensoren. 18 (5): 1657. Bibcode:2018Senso..18.1657W. doi:10.3390/s18051657. ISSN 1424-8220. PMC 5982167. PMID 29789447.
- ^ Shapiro, Stuart C. (1992). Enzyklopädie der künstlichen Intelligenz, Band 1. New York: John Wiley & Sons, Inc. S. 643–646. ISBN 978-0-471-50306-4.
- ^ Kagami, Shingo (2010). "Hochgeschwindigkeits-Vision-Systeme und -projektoren für die Echtzeitwahrnehmung der Welt". 2010 IEEE Computer Society Conference über Computer Vision und Mustererkennung - Workshops. IEEE Computer Society Conference über Computer Vision und Mustererkennung - Workshops. Vol. 2010. S. 100–107. doi:10.1109/cvprw.2010.5543776. ISBN 978-1-4244-7029-7. S2CID 14111100.
- ^ Seth Colaner (3. Januar 2016). "Eine dritte Art von Prozessor für VR/AR: Movidius 'myriad 2 vpu". www.tomshardware.com.
Weitere Lektüre
- David Marr (1982). Vision. W. H. Freeman und Company. ISBN 978-0-7167-1284-8.
- Azriel Rosenfeld; Avinash Kak (1982). Digitale Bildverarbeitung. Akademische Presse. ISBN 978-0-12-597301-4.
- Schnäppchen, Lauren; Lawrence W. Lee (2003). Wahrnehmungsinformationsverarbeitungssystem. US -Patentanmeldung 10/618.543. ISBN 978-0-262-08159-7.
- Berthold K.P. Horn (1986). Roboter Vision. MIT Press. ISBN 978-0-262-08159-7.
- Michael C. Fairhurst (1988). Computer Vision für Robotersysteme. Prentice Hall. ISBN 978-0-13-166919-2.
- Olivier Faugeras (1993). Dreidimensionaler Computer Vision, ein geometrischer Standpunkt. MIT Press. ISBN 978-0-262-06158-2.
- Tony Lindeberg (1994). Skalenraumtheorie im Computer Vision. Springer. ISBN 978-0-7923-9418-1.
- James L. Crowley und Henrik I. Christensen (Hrsg.) (1995). Vision als Prozess. Springer-Verlag. ISBN 978-3-540-58143-7.
- Grusta H. Granlund; Hans Knutsson (1995). Signalverarbeitung für Computer Vision. Kluwer akademischer Verlag. ISBN 978-0-7923-9530-0.
- Reinhard Klette; Karsten Schluens; Andreas Koschan (1998). Computer Vision-dreidimensionale Daten aus Bildern. Springer, Singapur. ISBN 978-981-3083-71-4.
- Emanuele Trucco; Alessandro Verri (1998). Einführungstechniken für 3-D-Computer Vision. Prentice Hall. ISBN 978-0-13-261108-4.
- Bernd Jähne (2002). Digitale Bildverarbeitung. Springer. ISBN 978-3-540-67754-3.
- Richard Hartley und Andrew Zisserman (2003). Multiple View -Geometrie im Computer Vision. Cambridge University Press. ISBN 978-0-521-54051-3.
- Gérard Medioni; Sing Bing Kang (2004). Aufstrebende Themen in Computer Vision. Prentice Hall. ISBN 978-0-13-101366-7.
- R. Fisher; K Dawson-Howe; A. Fitzgibbon; C. Robertson; E. Trucco (2005). Wörterbuch für Computer Vision und Bildverarbeitung. John Wiley. ISBN 978-0-470-01526-1.
- Nikos Paragios und Yunmei Chen und Olivier Faugeras (2005). Handbuch der mathematischen Modelle in Computer Vision. Springer. ISBN 978-0-387-26371-7.
- Wilhelm Burger; Mark J. Burge (2007). Digitale Bildverarbeitung: Ein algorithmischer Ansatz mit Java. Springer. ISBN 978-1-84628-379-6.
- Pedram Azad; Tilo Gockel; RÜDIGER DILLMANN (2008). Computer Vision - Prinzipien und Praxis. Elektor International Media BV. ISBN 978-0-905705-71-2.
- Richard Szeliski (2010). Computer Vision: Algorithmen und Anwendungen. Springer-Verlag. ISBN 978-1848829343.
- J. R. Parker (2011). Algorithmen zur Bildverarbeitung und Computer Vision (2. Aufl.). Wiley. ISBN 978-0470643853.
- Richard J. Radke (2013). Computer Vision für visuelle Effekte. Cambridge University Press. ISBN 978-0-521-76687-6.
- Nixon, Mark; Aguado, Alberto (2019). Feature -Extraktion und Bildverarbeitung für Computer Vision (4. Aufl.). Akademische Presse. ISBN 978-0128149768.
Externe Links
- USC Iris Computer Vision Conference List
- Computer Vision Papers im Web Eine vollständige Liste der relevantesten Computer -Vision -Konferenzen.
- Computer Vision online Nachrichten, Quellcode, Datensätze und Stellenangebote im Zusammenhang mit Computer Vision.
- Keith Prices kommentierte Computer Vision Bibliographie
- CVonline Bob Fisher's Compendium of Computer Vision.
- British Machine Vision Association Unterstützung der Computervisionsforschung in Großbritannien über die BMVC und Miua Konferenzen, Annalen der BMVA (Open-Source Journal), BMVA Sommerschule und eintägige Treffen
- Computer Vision Container, Joe Hoeller Github: Weit verbreiteter Open-Source-Container für GPU-beschleunigte Computer Vision-Anwendungen. Wird von Forschern, Universitäten, privaten Unternehmen sowie der US -Regierung verwendet.