MPEG-1

Moving Picture Experts Group Phase 1 (MPEG-1)
Dateiname Erweiterung
.dat, .mpg, .mpeg, .mp1, .mp2, .mp3, .m1v, m1a, .m2a, .mpa, .mpvvv
Internet -Medientyp
Audio/MPEG, Video/MPEG
Entwickelt von MPEG (Teil von ISO/IEC JTC 1)
Erstveröffentlichung 6. Dezember 1991; vor 30 Jahren[1]
Neueste Erscheinung
ISO/IEC TR 11172-5: 1998
Oktober 1998; Vor 23 Jahren
Art des Formats Audio, Video, Container
Erweitert von JPEG, H.261
Erweitert um MPEG-2
Standard ISO/IEC 11172
Offenes Format? Ja
Freies Format? Ja

MPEG-1 ist ein Standard zum Verlust Kompression von Video und Audio-. Es ist so konzipiert, dass es komprimiert wird VHS-qualität rohe digitale Video- und CD -Audio auf etwa 1,5 Mbit/s (26: 1 bzw. 6: 1 Komprimierungsverhältnisse)[2] ohne übermäßigen Qualitätsverlust, machen Video -CDs, Digital Kabel/Satellit Fernseher und Digital Audio Broadcasting (Dab) praktisch.[3][4]

Heute ist MPEG-1 das am weitesten verbreitete verlustige Audio-/Video-Format der Welt geworden und wird in einer großen Anzahl von Produkten und Technologien verwendet. Vielleicht ist der bekannteste Teil des MPEG-1-Standards die erste Version der MP3 Audio -Format, das es eingeführt hat.

Der MPEG-1-Standard wird als veröffentlicht als ISO/IEC 11172 - Informationstechnologie - Angabe von Bewegungsbildern und zugehörigen Audio für digitale Speichermedien von bis zu etwa 1,5 Mbit/s.

Der Standard besteht aus den folgenden fünf Teile:[5][6][7][8][9]

  1. Systeme (Speicher und Synchronisation von Video, Audio und anderen Daten zusammen)
  2. Video (komprimierter Videoinhalt)
  3. Audio (komprimierter Audioinhalt)
  4. Konformitätstests (Testen der Richtigkeit der Implementierungen des Standards)
  5. Referenzsoftware (Beispielsoftware, die zeigt, wie Sie nach dem Standard codieren und dekodieren)

Geschichte

Der Vorgänger von MPEG-1 für die Videocodierung war die H.261 Standard, der von der erzeugt wird Ccitt (jetzt bekannt als die Itu-t). Die in H.261 eingerichtete grundlegende Architektur war die Bewegung kompensiert DCT Hybrid -Video -Codierungsstruktur.[10][11] Es verwendet Makroblocks von Größe 16 × 16 mit blockbasiertem Basis Bewegungsschätzung im Encoder und Bewegungskompensation Verwenden von Encoder-ausgewählt Bewegungsvektoren im Decoder, mit Restunterschied codieren mit a Diskrete Cosinus -Transformation (DCT) der Größe 8 × 8, Skalar Quantisierungund Codes mit variabler Länge (wie Huffman Codes) zum Entropie -Codierung.[12] H.261 war der erste praktische Video-Codierungsstandard, und alle beschriebenen Designelemente wurden auch in MPEG-1 verwendet.[13]

Modelliert auf den erfolgreichen kollaborativen Ansatz und die von der entwickelten Komprimierungstechnologien Gemeinsame fotografische Expertengruppe und CcittDie Expertengruppe auf Telefonie (Schöpfer der JPEG Bildkomprimierungsstandard und H.261 Standard für Videokonferenzen jeweils die Experten für bewegte Bildexperten (MPEG) Die Arbeitsgruppe wurde im Januar 1988 durch die Initiative von gegründet Hiroshi Yasuda (Nippon Telegraph und Telefon) und Leonardo Chiariglione (Cselt).[14] MPEG wurde gegründet, um die Notwendigkeit zu beheben Standard Video- und Audioformate und um auf H.261 aufzubauen, um durch die Verwendung von etwas komplexeren Codierungsmethoden eine bessere Qualität zu erzielen (z. B. die höhere Präzision für Bewegungsvektoren).[3][15][16]

Die Entwicklung des MPEG-1-Standards begann im Mai 1988. Vierzehn Video- und vierzehn Audio-Codec-Vorschläge wurden von einzelnen Unternehmen und Institutionen zur Bewertung eingereicht. Die Codecs wurden ausführlich auf getestet Rechenkomplexität und subjektiv (Menschen wahrgenommen) Qualität bei Datenraten von 1,5 Mbit/s. Diese spezifische Bitrate wurde für die Übertragung gewählt T-1/E-1 Linien und als ungefähre Datenrate von Audio -CDs.[17] Die Codecs, die sich in diesen Tests hervorgetan haben, wurden als Grundlage für den Standard verwendet und weiter verfeinert, wobei zusätzliche Merkmale und andere Verbesserungen in den Prozess aufgenommen wurden.[18]

Nach 20 Treffen der gesamten Gruppe in verschiedenen Städten auf der ganzen Welt und 4½ Jahren Entwicklung und Test wurde der endgültige Standard (für Teile 1–3) Anfang November 1992 genehmigt und einige Monate später veröffentlicht.[19] Das gemeldete Abschlussdatum des MPEG-1-Standards variiert stark: Im September 1990 wurde ein weitgehend vollständiger Entwurfsstandard erstellt, und ab diesem Zeitpunkt wurden nur geringfügige Änderungen eingeführt.[3] Der Entwurfsstandard war öffentlich zum Kauf erhältlich.[20] Der Standard wurde mit dem Treffen vom 6. November 1992 beendet.[21] Die Berkeley Plateau Multimedia Research Group entwickelte im November 1992 einen MPEG-1-Decoder.[22] Im Juli 1990, bevor der erste Entwurf des MPEG-1-Standards sogar geschrieben worden war, begann die Arbeiten nach einem zweiten Standard. MPEG-2,[23] die MPEG-1-Technologie erweitern, um ein Video mit vollem Broadcast-Qualität bereitzustellen (laut Per) CCIR 601) bei hohen Bitraten (3–15 Mbit/s) und Unterstützung für verschachtelt Video.[24] Zum Teil auf die Ähnlichkeit zwischen den beiden Codecs enthält der MPEG-2-Standard die vollständige Kompatibilität mit MPEG-1-Videos, sodass jeder MPEG-2-Decoder MPEG-1-Videos abspielen kann.[25]

Bemerkenswerterweise definiert der MPEG-1-Standard sehr streng streng Bitstreamund Decodiererfunktion, definiert jedoch nicht, wie MPEG-1-Codierung durchgeführt werden soll, obwohl eine Referenzimplementierung in ISO/IEC-11172-5 bereitgestellt wird.[2] Dies bedeutet, dass MPEG-1 Codierungseffizienz Kann je nach verwendeten Encoder drastisch variieren und bedeutet im Allgemeinen, dass neuere Encoder signifikant besser abschneiden als ihre Vorgänger.[26] Die ersten drei Teile (Systeme, Video und Audio) von ISO/IEC 11172 wurden im August 1993 veröffentlicht.[27]

MPEG-1-Teile[9][28]
Teil Nummer Erste Öffentlichkeit
Veröffentlichungsdatum
(erste Ausgabe)
neueste
Korrektur
Titel Beschreibung
Teil 1 ISO/IEC 11172-1 1993 1999[29] Systeme
Teil 2 ISO/IEC 11172-2 1993 2006[30] Video
Teil 3 ISO/IEC 11172-3 1993 1996[31] Audio
Teil 4 ISO/IEC 11172-4 1995 2007[32] Anforderungsprüfung
Teil 5 ISO/IEC TR 11172-5 1998 2007[33] Softwaresimulation

Patente

Aufgrund seines Alters wird MPEG-1 nicht mehr von wesentlichen Patenten abgedeckt und kann daher verwendet werden, ohne eine Lizenz zu erhalten oder Gebühren zu zahlen.[34][35][36][37][38] Die ISO -Patentdatenbank listet ein Patent für ISO 11172, US 472.747 in den USA auf, die 2003 abgelaufen sind.[39] Der nahezu vollständige Entwurf des MPEG-1-Standards war öffentlich als ISO-CD 11172 erhältlich[20] bis 6. Dezember 1991.[1] Kein Artikel im Juli 2008 Kuro5Hin Artikel "Patentstatus von MPEG-1, H.261 und MPEG-2",[40] Noch ein Thread im August 2008 auf dem Gstreamer-Devel[41] Die Mailingliste war in der Lage, ein einzelnes nicht abgelaufenes MPEG-1-Video- und MPEG-1-Audioschicht-I/II-Patent aufzulisten. In einer Diskussion im Mai 2009 über die Whatwg-Mailingliste wurde US 5.214.678 Patent als möglicherweise MPEG-1-Audioschicht II abdeckt.[42] Dieses Patent wurde 1990 eingereicht und 1993 veröffentlicht und ist nun abgelaufen.[43]

Ein vollständiger MPEG-1-Decoder und Encoder mit "Layer III-Audio" konnte nicht lizenzfrei umgesetzt werden MP3 Artikel. Alle Patente der Welt, die mit MP3 verbunden sind, sind am 30. Dezember 2017 abgelaufen, was dieses Format für die Verwendung völlig kostenlos macht. Am 23. April 2017, Fraunhofer iis Beendigung des MP3 -Lizenzierungsprogramms von Technicolor für bestimmte MP3 -bezogene Patente und Software gestoppt.[44]

Ehemalige Patentinhaber

In den folgenden Unternehmen wurde mit ISO Erklärungen eingereicht, in denen sie über Patente für das MPEG-1-Video (ISO/IEC-1172-2) abgehalten wurden, obwohl alle dieser Patente seitdem abgelaufen sind.[45]

Anwendungen

  • Am beliebtesten Software Für die Video-Wiedergabe beinhaltet MPEG-1-Decoding zusätzlich zu anderen unterstützten Formaten.
  • Die Popularität von MP3 Audio hat eine massive festgelegt installierte Grundlage von Hardware, die MPEG-1-Audio zurückspielen kann (alle drei Ebenen).
  • "Praktisch allen Digitale Audiogeräte"Kann MPEG-1-Audio zurückspielen.[46] Viele Millionen wurden zu heute verkauft.
  • Vor MPEG-2 In weitem verbreiteten digitalen Satelliten-/Kabel-TV-Diensten wurden ausschließlich MPEG-1 verwendet.[16][26]
  • Die weit verbreitete Popularität von MPEG-2 mit Sendern bedeutet, dass MPEG-1 für die meisten digitalen Kabel und Satelliten spielbar ist Set-Top-Boxenund digitale Disc- und Band -Spieler aufgrund rückwärtser Kompatibilität.
  • MPEG-1 wurde für Vollbildvideo auf verwendet Grünes Buch CD-Iund weiter Video -CD (VCD).
  • Das Super Video -CD Standard, basierend auf VCD, verwendet exklusiv MPEG-1-Audio sowie MPEG-2-Video.
  • Das DVD-Video Das Format verwendet MPEG-2-Video hauptsächlich, aber MPEG-1-Unterstützung wird im Standard explizit definiert.
  • Der DVD-Video-Standard benötigte ursprünglich MPEG-1-Audioschicht II für PAL-Länder, wurde jedoch geändert, um AC-3/ zuzulassenDolby Digital-Nur Discs. MPEG-1 Audio Layer II ist bei DVDs immer noch zulässig, obwohl neuere Erweiterungen des Formats wie MPEG Multichannel, werden selten unterstützt.
  • Die meisten DVD -Player unterstützen auch Video -CD und MP3 -CD Wiedergabe, die MPEG-1 verwenden.
  • Der internationale Digitale Video Übertragung (DVB) Standard verwendet in erster Linie MPEG-1-Audioschicht II und MPEG-2-Video.
  • Der internationale Digital Audio Broadcasting (DAB) Standard verwendet MPEG-1 Audio Layer II ausschließlich aufgrund seiner besonders hohen Qualität, der bescheidenen Decoder-Leistungsanforderungen und der Toleranz von Fehlern.
  • Das Digitale kompakte Kassette Verwendet PASC (Precision Adaptive Subband-Codierung), um seine Audio zu codieren. PASC ist eine frühe Version der MPEG-1-Audioschicht I mit einer festen Bitrate von 384 Kilobit pro Sekunde.

Teil 1: Systeme

Teil 1 der MPEG-1-Standardabdeckungen Systemeund ist in ISO/IEC-11172-1 definiert.

MPEG-1-Systeme geben das logische Layout und die Methoden an, mit denen die codierten Audio, Video und andere Daten in einem Standard-Bitstream gespeichert und die Synchronisation zwischen den verschiedenen Inhalten aufrechterhalten werden können. Dies Datei Format ist speziell für die Speicherung für Medien und Übertragung über die Übertragung entwickelt Kommunikationskanäle, die als relativ zuverlässig angesehen werden. Nur ein begrenzter Fehlerschutz wird durch den Standard definiert, und kleine Fehler im Bitstream können merkliche Defekte verursachen.

Diese Struktur wurde später als als bezeichnet MPEG -Programmstream: "Das Design von MPEG-1-Systemen ist im Wesentlichen identisch mit der MPEG-2-Programmstromstruktur."[47] Diese Terminologie ist präziser (unterscheidet sie von einem MPEG -Transportstrom) und wird hier verwendet.

Elementarströme, Pakete und Taktreferenzen

  • Elementare Streams (ES) sind die Rohbitstreams von MPEG-1-Audio- und Video-codierten Daten (Ausgabe eines Encoders). Diese Dateien können selbst verteilt werden, wie es bei MP3 -Dateien der Fall ist.
  • Paketisierte Elementarströme (PES) sind elementare Streams paketisiert in Pakete von variablen Längen, d. H. Es wurden ES in unabhängige Stücke unterteilt, wo zyklische Redundanzprüfung (CRC) Überprüfung wurde jedem Paket zur Fehlererkennung hinzugefügt.
  • System Clock Reference (SCR) ist ein Zeitwert, der in einem 33-Bit-Header jedes PES gespeichert ist, bei einer Frequenz/Genauigkeit von 90 kHz mit einer zusätzlichen 9-Bit-Erweiterung, die zusätzliche Zeitdaten mit einer Genauigkeit von 27 MHz speichert.[48][49] Diese werden vom Encoder eingefügt, der aus der System Time Clock (STC) abgeleitet ist. Gleichzeitig codierte Audio- und Video -Streams haben jedoch keine identischen SCR -Werte aufgrund von Pufferung, Codierung, Jitter und anderer Verzögerung.

Programmströme

Programmströme (PS) sind mit der Kombination mehrerer paketisierter Elementarströme (normalerweise nur eines Audio- und Video -PES) in einen einzelnen Stream, um die gleichzeitige Bereitstellung zu gewährleisten und die Synchronisation aufrechtzuerhalten. Die PS -Struktur ist als a bekannt Multiplex, oder ein Containerformat.

Präsentationszeitstempel (PTS) existieren in PS, um die unvermeidliche Unterschiede zwischen Audio- und Video-SCR-Werten (Zeitbasiskorrektur) zu korrigieren. 90 kHz -PTS -Werte im PS -Header geben dem Decoder an, welche Video -SCR -Werte mit den Audio -SCR -Werten übereinstimmen.[48] PTS bestimmt, wann ein Teil eines MPEG -Programms angezeigt werden soll, und wird auch vom Decoder verwendet, um zu bestimmen, wann Daten aus dem verworfen werden können Puffer.[50] Entweder Video oder Audio wird vom Decoder verzögert, bis das entsprechende Segment des anderen ankommt und dekodiert werden kann.

Das PTS -Handling kann problematisch sein. Decoder müssen mehrere akzeptieren Programmströme das wurden verkettet (nacheinander verbunden). Dies führt dazu, dass PTS -Werte in der Mitte des Videos auf Null zurückgesetzt werden, was dann wieder inkrementiert wird. Solche PTS -Wickelunterschiede können zu Timing -Problemen führen, die vom Decoder speziell behandelt werden müssen.

Decodierungszeitstempel (DTS) sind aufgrund von B-Frames zusätzlich erforderlich. Mit B-Frames im Videostream müssen benachbarte Frames codiert und dekodiert werden (neu bestellte Rahmen). DTS ist PTS ziemlich ähnlich, aber anstatt nur sequenzielle Rahmen zu behandeln, enthält es die richtigen Zeitstempel, um den Decoder zu mitteilen, wann er den nächsten B-Rahmen (P-Rahmen angezeigt werden soll) vor seinem Anker (P. - oder i-) Rahmen. Ohne B-Frames im Video sind PTS- und DTS-Werte identisch.[51]

Multiplexing

Um das PS zu erzeugen, verschärft der Multiplexer die (zwei oder mehr) paketisierten Elementarströme. Dies geschieht, sodass die Pakete der gleichzeitigen Ströme darüber übertragen werden können Kanal und werden garantiert genau zur gleichen Zeit zum Decoder ankommen. Dies ist ein Fall von Zeitabteilung Multiplexing.

Die Bestimmung, wie viele Daten aus jedem Strom in jedem verschachtelten Segment (die Größe des Interleave) sein sollten, ist kompliziert, aber eine wichtige Anforderung. Eine unsachgemäße Verschachtelung führt zu Pufferunterläufen oder Überläufen, da der Empfänger mehr Stream erhält, als er speichern kann (z. B. Audio), bevor er genügend Daten erhält, um den anderen gleichzeitigen Stream (z. B. Video) zu dekodieren. Der MPEG Video -Pufferungsprüfer (VBV) hilft bei der Bestimmung, ob ein Multiplex -PS von einem Gerät mit einer bestimmten Datendurchsatzrate und Puffergröße dekodiert werden kann.[52] Dies bietet Feedback zum Multiplexer und dem Encoder, damit sie die Multiplexgröße ändern oder Bitrate nach Bedarf für die Einhaltung von Einhaltung anpassen können.

Teil 2: Video

Teil 2 des MPEG-1-Standards deckt Video ab und ist in ISO/IEC-11172-2 definiert. Das Design wurde stark von beeinflusst von H.261.

MPEG-1-Video nutzt Wahrnehmungskomprimierungsmethoden aus, um die von einem Videostream erforderliche Datenrate erheblich zu reduzieren. Es reduziert oder verwaltet Informationen in bestimmten Frequenzen und Bereichen des Bildes, die das menschliche Auge begrenzt hat, um vollständig wahrzunehmen. Es nutzt auch zeitliche (im Laufe der Zeit) und räumlichen (über ein Bild) redundanz, die im Video gemeinsam sind, um eine bessere Datenkomprimierung zu erzielen, als es sonst möglich wäre. (Sehen: Video-Kompression))

Farbraum

Beispiel von 4: 2: 0 Subsampling. Die beiden überlappenden Mittelkreise repräsentieren Chroma -Blau- und Chroma -rote (Farbe) Pixel, während die 4 Außenkreise die Luma (Helligkeit) darstellen.

Vor dem Codieren von Videos an MPEG-1 wird der Farbraum in transformiert Y'CBCR (Y '= luma, cb = chroma blau, cr = chroma rot). Luma (Helligkeit, Auflösung) wird getrennt von gelagert Chroma (Farbe, Farbton, Phase) und noch weiter in rote und blaue Komponenten getrennt.

Der Chroma ist auch untergetastet 4: 2: 0Dies bedeutet, dass es horizontal auf die halbe Auflösung vertikal und halb Auflösung reduziert wird, d. H. Auf nur ein Viertel der Anzahl der für die Luma -Komponente des Videos verwendeten Proben.[2] Diese Verwendung einer höheren Auflösung für einige Farbkomponenten ist im Konzept ähnlich wie Bayer -Musterfilter Dies wird üblicherweise für den Bildförderungssensor in digitalen Farbkameras verwendet. Weil das menschliche Auge viel empfindlicher gegenüber kleinen Veränderungen der Helligkeit (der Y -Komponente) ist als in der Farbe (CR- und CB -Komponenten), Chroma -Subsampling ist ein sehr effektiver Weg, um die Anzahl der Videodaten zu verringern, die komprimiert werden müssen. Auf Videos mit feinem Detail (hoch räumliche Komplexität) Dies kann sich als Chroma manifestieren Aliasing Artefakte. Im Vergleich zu anderen Digital KompressionsartefakteDieses Problem scheint sehr selten eine Quelle des Ärgers zu sein. Aufgrund der Teilabtastung wird Y'CBCR 4: 2: 0 -Video normalerweise unter Verwendung gleicher Abmessungen gespeichert (teilbar durch 2 horizontal und vertikal).

Y'CBCR -Farbe wird oft informell genannt Yuv Um die Notation zu vereinfachen, gilt dieser Begriff, obwohl es besser für ein etwas anderes Farbformat gilt. Ebenso die Begriffe Luminanz und Chrominanz werden oft anstelle der (genaueren) Begriffe Luma und Chroma verwendet.

Auflösung/Bitrate

MPEG-1 unterstützt Auflösungen bis zu 4095 × 4095 (12 Bit) und bis zu 100 Mbit/s.[16]

MPEG-1-Videos werden am häufigsten verwendet Quelleingangsformat (SIF) Auflösung: 352 × 240, 352 × 288 oder 320 × 240. Diese relativ niedrigen Auflösungen, kombiniert mit einem Bitrate von weniger als 1,5 Mbit/s, bilden einen sogenannten als eingeschränkten Parameter Bitstream (CPB), später in MPEG-2 in "niedriges Level" (LL) in MPEG-2 umbenannt. Dies sind die minimalen Videospezifikationen für alle Decoder Sollte in der Lage sein, als MPEG-1-konform zu gehen. Dies wurde ausgewählt, um ein gutes Gleichgewicht zwischen Qualität und Leistung zu bieten und die Verwendung von einigermaßen kostengünstiger Hardware der Zeit zu ermöglichen.[3][16]

Frame/Bild-/Blocktypen

MPEG-1 verfügt über mehrere Rahmen-/Bildtypen, die unterschiedliche Zwecke dienen. Das wichtigste und aber einfachste ist, ist I-Frame.

I-rames

"I-Frame" ist eine Abkürzung für "Intra-Frame", sogenannte, weil sie unabhängig von anderen Rahmen dekodiert werden können. Sie können auch als I-Bilder oder Keyframes bekannt sein, da sie eine ähnliche Funktion wie die haben Schlüsselrahmen verwendet in der Animation. I-Frames können als effektiv mit dem Grundlinie identisch angesehen werden JPEG Bilder.[16]

Hochgeschwindigkeits-Suche durch ein MPEG-1-Video ist nur zum nächsten I-Frame möglich. Beim Schneiden eines Videos ist es nicht möglich, die Wiedergabe eines Videos vor dem ersten I-Frame im Segment (zumindest nicht ohne rechnerisch intensive Neukodierung) zu beginnen. Aus diesem Grund werden MPEG-Videos nur I-Framee zur Bearbeitung von Anwendungen verwendet.

I-Frame Nur die Komprimierung ist sehr schnell, erzeugt jedoch sehr große Dateigrößen: ein Faktor von 3 × (oder mehr) größer als normalerweise codiertes MPEG-1-Video, je nachdem, wie zeitlich komplex ein bestimmtes Video ist.[3] I-Frame Nur MPEG-1-Video ist sehr ähnlich zu MJPEG Video. So sehr, dass sehr hochgeschwindige und theoretisch verlustfreie (in Wirklichkeit Rundungsfehler) von einem Format zum anderen durchgeführt werden kann, vorausgesetzt, ein paar Einschränkungen (Farbraum und Quantisierungsmatrix) werden bei der Erstellung der befolgt werden Bitstream.[53]

Die Länge zwischen i-Frames ist als die bekannt Gruppe von Bildern (GOP) Größe. MPEG-1 verwendet am häufigsten eine GOP-Größe von 15–18. d.h. 1 i-Frame für jeweils 14-17 Nicht-I-Rahmen (eine Kombination aus P- und B-Frames). Bei intelligenteren Encodern wird die GOP-Größe dynamisch ausgewählt, bis zu einer vorgewählten maximalen Grenze.[16]

Die Grenzwerte werden auf die maximale Anzahl von Frames zwischen I-Frames aufgrund von Dekodierkomplexierung, Decoderpuffergröße, Wiederherstellungszeit nach Datenfehlern, Suchfähigkeit und Akkumulation von IDCT-Fehlern bei Implementierungen mit niedriger Präzision in Hardware-Decoder (siehe: IEEE-1180).

P-Frames

"P-Frame" ist eine Abkürzung für "vorhergesagte Frame". Sie können auch vorbereitete Frames oder Interrames bezeichnet werden (B-Frames sind auch Interrames).

P-Frames existieren, um die Komprimierung zu verbessern, indem die zeitliche (im Laufe der Zeit) in einem Video ausnutzt. P-Frames speichern nur die Unterschied Im Bild aus dem Rahmen (entweder ein I-Frame oder P-Frame) unmittelbar vor ihm (dieser Referenzrahmen wird auch als die genannt Ankerrahmen).

Der Unterschied zwischen einem P-Frame und seinem Ankerrahmen wird mit Verwendung berechnet Bewegungsvektoren auf jeder Makroblock des Rahmens (siehe unten). Solche Bewegungsvektordaten werden für die Verwendung durch den Decoder in den P-Rahmen eingebettet.

Ein P-Frame kann zusätzlich zu allen vorgeladenen Blöcken eine beliebige Anzahl von intra-codierten Blöcken enthalten.[54]

Wenn sich ein Video drastisch von einem Frame zum nächsten ändert (wie z. schneiden), Es ist effizienter, es als I-Rahmen zu codieren.

B-Frames

"B-Frame" steht für "bidirektionaler Frame" oder "bipredictive Rahmen". Sie können auch als nach hinten vorhergesagte Frames oder B-Bilder bezeichnet werden. B-Frames sind P-Frames ziemlich ähnlich, außer dass sie sowohl die vorherigen als auch die zukünftigen Frames (d. H. Zwei Ankerrahmen) Vorhersagen treffen können.

Es ist daher erforderlich, dass der Player den nächsten I- oder P-Anker-Frame nach dem B-Frame zuerst entschlüsselt, bevor der B-Rahmen dekodiert und angezeigt werden kann. Dies bedeutet, dass das Dekodieren von B-Frames größer ist Datenpuffer und verursacht eine erhöhte Verzögerung sowohl bei der Dekodierung als auch bei der Codierung. Dies erfordert auch die Funktion für Decodierungszeitstempel (DTS) im Container-/Systemstrom (siehe oben). Daher sind B-Frames seit langem viel Kontroversen unterzogen, sie werden oft in Videos vermieden und werden manchmal nicht vollständig von Hardware-Decodern unterstützt.

Aus einem B-Fram werden keine anderen Rahmen vorhergesagt. Aus diesem Grund kann ein sehr niedriger Bitrate-B-Frame bei Bedarf eingefügt werden, um die Bitrate zu kontrollieren. Wenn dies mit einem P-Frame geschehen würde, würden zukünftige P-Frames daraus vorhergesagt und die Qualität der gesamten Sequenz senken. In ähnlicher Weise muss der zukünftige P-Frame jedoch immer noch alle Änderungen zwischen ihm und dem vorherigen I- oder P-Ankerrahmen codieren. B-Frames können auch in Videos von Vorteil sein, in denen der Hintergrund hinter einem Objekt über mehrere Frames oder bei verblassenden Übergängen wie Szenenänderungen enthüllt wird.[3][16]

Ein B-Fram kann eine beliebige Anzahl von intra-codierten Blöcken und vorwärtsgeschriebenen Blöcken enthalten, zusätzlich zu den rückwärts vorhergesagten oder bidirektional vorhergesagten Blöcken.[16][54]

D-Frames

MPEG-1 hat einen einzigartigen Frame-Typ, der in späteren Videostandards nicht zu finden ist. "D-Frames" oder DC-Bilder sind unabhängig codierte Bilder (Intra-Frames), die nur unter Verwendung von DC-Transformationskoeffizienten codiert wurden (Wechselstromkoeffizienten werden bei Codierung von D-Frames entfernt-siehe DCT unten) und daher sehr niedrige Qualität. D-Frames werden nie von I-, P- oder B- Frames verwiesen. D-Frames werden nur für schnelle VIDEO-Vorschau verwendet, beispielsweise bei der Suche nach einem Video mit hoher Geschwindigkeit.[3]

Bei mäßig höherer Performance-Dekodierungsgeräten kann eine schnelle Vorschau durch Dekodieren von I-Frames anstelle von D-Rahmen erreicht werden. Dies bietet Voransichten von höherer Qualität, da I-Frames Wechselstromkoeffizienten sowie Gleichstromkoeffizienten enthalten. Wenn der Encoder davon ausgehen kann, dass eine schnelle I-Frame-Dekodierungsfunktion in Decodern verfügbar ist, kann er Bits speichern, indem D-Frames nicht gesendet werden (somit die Komprimierung des Videoinhalts verbessert). Aus diesem Grund werden D-Frames selten in MPEG-1-Videocodierung verwendet, und die D-Rame-Funktion wurde in späteren Videocodierungsstandards nicht enthalten.

Makroblocks

MPEG-1 arbeitet auf Video in einer Reihe von 8 × 8-Blöcken zur Quantisierung. Um die für Bewegungsvektoren erforderliche Bitrate zu verringern, und da Chroma (Farbe) durch den Faktor 4 untermauert wird, entspricht jedes Paar von (roten und blauen) Chroma -Blöcken 4 verschiedenen LUMA -Blöcken. Dieser Satz von 6 Blöcken mit einer Auflösung von 16 × 16 wird zusammen verarbeitet und a genannt Makroblock.

Ein Makroblock ist die kleinste unabhängige Einheit von (Farb-) Video. Bewegungsvektoren (siehe unten) arbeiten ausschließlich auf der Makroblockebene.

Wenn die Höhe oder Breite des Videos nicht exakt Multiples von 16 sind, müssen vollständige Zeilen und vollständige Spalten von Makroblocks noch codiert und dekodiert werden, um das Bild auszufüllen (obwohl die zusätzlichen entschlüsselten Pixel nicht angezeigt werden).

Bewegungsvektoren

Um die Menge an zeitlicher Redundanz in einem Video zu verringern, werden nur Blöcke aktualisiert (bis zur maximalen GOP -Größe). Dies wird als bedingte Nachschub bezeichnet. Dies ist jedoch nicht sehr effektiv. Die Bewegung der Objekte und/oder der Kamera kann zu großen Teilen des Rahmens führen, die aktualisiert werden müssen, obwohl sich nur die Position der zuvor codierten Objekte geändert hat. Durch Bewegungsschätzung kann der Encoder diese Bewegung kompensieren und eine große Menge an redundanten Informationen entfernen.

Der Encoder vergleicht den aktuellen Rahmen mit benachbarten Teilen des Videos aus dem Ankerrahmen (vorheriger I- oder P-Frame) in einem Diamantmuster bis zu einem vordefinierten (codiererspezifischen) Muster Radius Grenze aus der Fläche des aktuellen Makroblocks. Wenn eine Übereinstimmung gefunden wird, nur die Richtung und Entfernung (d. H. Die Vektor des Bewegung) vom vorherigen Videobereich zum aktuellen Makroblock müssen in den Interrahmen (P- oder B-Frame) codiert werden. Die Rückseite dieses Prozesses, der vom Decoder durchgeführt wird, um das Bild zu rekonstruieren, heißt Bewegungskompensation.

Ein vorhergesagtes Makroblock entspricht jedoch selten perfekt zum aktuellen Bild. Die Unterschiede zwischen dem geschätzten Matching -Bereich und dem realen Rahmen/Makroblock werden als Vorhersagefehler bezeichnet. Je größer die Menge an Vorhersagefehler ist, desto mehr Daten müssen zusätzlich im Rahmen codiert werden. Für eine effiziente Videokomprimierung ist es sehr wichtig, dass der Encoder in der Lage ist, die Bewegungsschätzung effektiv und präzise durchzuführen.

Bewegungsvektoren zeichnen die auf Distanz Zwischen zwei Bereichen auf dem Bildschirm basierend auf der Anzahl der Pixel (auch Pels genannt). MPEG-1-Video verwendet einen Bewegungsvektor (MV) -Gegenaug aus einer Hälfte eines Pixels oder eines halben Pels. Je feiner die Präzision der MVs ist, desto genauer ist das Match wahrscheinlich und desto effizienter ist die Komprimierung. Es gibt jedoch Kompromisse bei höherer Präzision. Finigere MV -Genauigkeit führt dazu, dass eine größere Datenmenge zur Darstellung des MV verwendet wird, da größere Zahlen für jedes einzelne MV im Rahmen gespeichert werden müssen, was sowohl für den Encoder als auch für Decoder, die Codierungskomplexität als zunehmende Interpolation des Makroblocks erforderlich ist, erhöhte Komplexität, die die Codierungskomplexität erhöht, und Decododer, und Decoder,, und abnehmende Renditen (minimale Gewinne) mit höheren Präzisions -MVs. Die Halbpel-Präzision wurde als idealer Kompromiss für diesen Zeitpunkt ausgewählt. (Sehen: Qpel))

Da benachbarte Makroblocks wahrscheinlich sehr ähnliche Bewegungsvektoren haben, können diese redundanten Informationen durch gespeicherte Speicherung recht effektiv komprimiert werden DPCM-codiert. Nur die (kleinere) Differenz zwischen den MVs für jeden Makroblock muss im endgültigen Bitstream gespeichert werden.

P-Frames haben einen Bewegungsvektor pro Makroblock im Verhältnis zum vorherigen Ankerrahmen. B-Frames können jedoch zwei Bewegungsvektoren verwenden; Einer aus dem vorherigen Ankerrahmen und einer aus dem zukünftigen Ankerrahmen.[54]

Teilweise Makroblocks und schwarze Grenzen/Balken, die in das Video codiert sind und nicht genau auf eine Makroblockgrenze fallen, verursachen Chaos mit Bewegungsvorhersage. Die Blockpolster-/Randinformationen verhindert, dass das Makroblock eng mit einem anderen Bereich des Videos abgeht. Daher müssen für jedes der mehreren Dutzend partiellen Makroblocken entlang der Bildschirmgrenze signifikant größere Vorhersagefehlerinformationen für jedes der mehreren Dutzend partiellen Makroblocken codiert werden. Die DCT -Codierung und -quantisierung (siehe unten) ist ebenfalls bei weitem nicht so effektiv, wenn in einem Block ein großer/scharfer Bildkontrast vorhanden ist.

Ein noch schwerwiegenderes Problem besteht bei Makroblocks, die signifikante, zufällige, Kantenrauschen, wo das Bild zu (typisch) schwarz übergeht. Alle oben genannten Probleme gelten auch für Kantenrauschen. Darüber hinaus ist die zusätzliche Zufälligkeit signifikant einfach nicht zu komprimieren. Alle diese Effekte senken die Qualität (oder erhöhen die Bitrate) des Videos erheblich.

DCT

Jeder 8 × 8 -Block wird kodiert, indem zuerst a angewendet wird nach vorne Diskrete Cosinus -Transformation (FDCT) und dann ein Quantisierungsprozess. Der FDCT -Prozess (für sich selbst) ist theoretisch verlustlos und kann durch Anwenden einer umgekehrt werden Umgekehrt DCT (Idct) Um die ursprünglichen Werte zu reproduzieren (ohne Quantisierungs- und Rundungsfehler). In Wirklichkeit gibt es einige (manchmal große) Rundungsfehler, die sowohl durch Quantisierung im Encoder (wie im nächsten Abschnitt beschrieben) als auch durch IDCT -Approximationsfehler im Decoder beschrieben werden. Die minimal zulässige Genauigkeit einer Decoder-IDCT-Näherung wird durch ISO/IEC 23002-1 definiert. (Vor 2006 wurde es von IEEE 1180-1990 angegeben.)

Der FDCT -Prozess wandelt den 8 × 8 -Block unkomprimierter Pixelwerte (Helligkeits- oder Farbdifferenzwerte) in ein 8 × 8 -indiziertes Array von um Frequenzkoeffizient Werte. Eine davon ist der (statistisch hohe Varianz) "Gleichstromkoeffizient", der den Durchschnittswert des gesamten 8 × 8 -Blocks darstellt. Die anderen 63 Koeffizienten sind die statistisch kleineren "Wechselstromkoeffizienten", die positive oder negative Werte aufweisen, die sinusförmige Abweichungen vom flachen Blockwert darstellen, der durch den Gleichstromkoeffizienten dargestellt wird.

Ein Beispiel für einen codierten 8 × 8 -FDCT -Block:

Da der DC -Koeffizientenwert statistisch von einem Block zum nächsten korreliert ist, wird er mit Verwendung komprimiert DPCM Codierung. Nur die (kleinere) Differenzmenge zwischen jedem DC -Wert und der Wert des Gleichstromkoeffizienten im Block links muss im endgültigen Bitstream dargestellt werden.

Zusätzlich liefert die durch Anwenden des DCT durchgeführte Frequenzumwandlung eine statistische Dekorrelationsfunktion, um das Signal vor der Anwendung der Quantisierung effizient in weniger Hochamplitudenwerte zu konzentrieren (siehe unten).

Quantisierung

Quantisierung ist im Wesentlichen der Prozess der Reduzierung der Genauigkeit eines Signals, indem es durch eine größere Stufengröße und die Rundung auf einen Ganzzahlwert (d. H. Finden des nächsten Mehrfaches und das Abwerfen des Restes) dividiert wird.

Der Quantizer auf Frame-Ebene ist eine Zahl von 0 bis 31 (obwohl Encoder normalerweise einige der Extremwerte weglassen/deaktivieren), die feststellt, wie viele Informationen von einem bestimmten Rahmen entfernt werden. Der Quantisierer auf Frame-Ebene wird normalerweise entweder vom Encoder dynamisch ausgewählt, um ein bestimmtes benutzerdefiniertes Bitrate zu verwalten, oder (viel weniger häufig) direkt vom Benutzer angegeben.

Eine "Quantisierungsmatrix" ist eine Zeichenfolge von 64 Zahlen (zwischen 0 und 255), die dem Encoder zeigt, wie relativ wichtig oder unwichtig jedes visuelle Informationen ist. Jede Zahl in der Matrix entspricht einer bestimmten Frequenzkomponente des Videobilds.

Eine Beispielquantisierungsmatrix:

Die Quantisierung erfolgt durch Einnahme jeder der 64 Frequenz Werte des DCT-Blocks, dividieren sie durch den Quantisierer auf Rahmenebene und teilen sie dann durch ihre entsprechenden Werte in der Quantisierungsmatrix. Schließlich ist das Ergebnis abgerundet. Dies reduziert die Informationen in einigen Frequenzkomponenten des Bildes erheblich oder beseitigt sie vollständig. In der Regel sind Hochfrequenzinformationen weniger visuell wichtig, und daher sind hohe Frequenzen viel mehr stark quantisiert (drastisch reduziert). MPEG-1 verwendet tatsächlich zwei separate Quantisierungsmatrizen, eine für Intra-Blocks (I-Blocks) und eine für Interblock .[3]

Dieser Quantisierungsprozess reduziert normalerweise eine signifikante Anzahl der Wechselstromkoeffizienten zu Null (als spärliche Daten bezeichnet), die dann im nächsten Schritt durch Entropiecodierung (verlustfreie Kompression) effizienter komprimiert werden können.

Ein Beispiel quantisierter DCT -Block:

Quantisierung beseitigt eine große Datenmenge und ist der wichtigste Verlustverarbeitungsschritt bei der MPEG-1-Videocodierung. Dies ist auch die Hauptquelle für die meisten MPEG-1-Video Kompressionsartefakte, wie Blockität, Farbbande, Lärm, KlingelnVerfärbung et al. Dies geschieht, wenn das Video mit einem unzureichenden Bitrate codiert ist und der Encoder daher gezwungen ist, Quantizer auf hoher Rahmenebene zu verwenden (Quantizer auf hoher Rahmen (starke Quantisierung) durch einen Großteil des Videos.

Entropie -Codierung

Mehrere Schritte bei der Codierung von MPEG-1-Video sind verlustlos, was bedeutet, dass sie beim Dekodieren umgekehrt werden, um genau die gleichen (ursprünglichen) Werte zu erzeugen. Da diese verlustfreien Datenkomprimierungsschritte nicht Rauschen in den Inhalt hinzufügen oder auf andere Weise den Inhalt ändern (im Gegensatz zur Quantisierung), wird sie manchmal als als bezeichnet geräuschlose Codierung.[46] Da die verlustfreie Komprimierung darauf abzielt, so viel Redundanz wie möglich zu entfernen, ist sie als bekannt als Entropie -Codierung auf dem Gebiet der Informationstheorie.

Die Koeffizienten quantisierter DCT-Blöcke neigen zu Null in Richtung des unteren Rechts. Die maximale Komprimierung kann durch ein Zick-Zack-Scannen des DCT-Blocks erreicht werden, der von oben links und unter Verwendung von Codierungstechniken der Lauflänge beginnt.

Die DC -Koeffizienten und -bewegungsvektoren sind DPCM-codiert.

Kodierung der Lauflänge (RLE) ist eine einfache Methode zur Komprimierung der Wiederholung. Eine sequentielle Zeichenfolge, egal wie lange, durch ein paar Bytes ersetzt werden kann, wobei der Wert, der sich wiederholt, und wie oft festgestellt werden. Wenn jemand beispielsweise "fünf Neunen" sagen würde, würden Sie wissen, dass sie die Zahl bedeuten: 99999.

RLE ist nach der Quantisierung besonders effektiv, da eine signifikante Anzahl der Wechselstromkoeffizienten nun Null ist (als spärliche Daten bezeichnet) und mit nur ein paar Bytes dargestellt werden kann. Dies wird in einem besonderen 2- gespeichertdimensional Huffman-Tabelle, die die Lauflänge und den Run-End-Charakter codiert.

Huffman -Codierung ist eine sehr beliebte und relativ einfache Methode zur Entropie-Codierung und wird in MPEG-1-Video verwendet, um die Datengröße zu verringern. Die Daten werden analysiert, um Zeichenfolgen zu finden, die häufig wiederholen. Diese Saiten werden dann in eine spezielle Tabelle gesteckt, wobei die am häufigsten wiederholten Daten den kürzesten Code zugewiesen haben. Dies hält die Daten mit dieser Form der Komprimierung so klein wie möglich.[46] Sobald die Tabelle erstellt wurde, werden diese Zeichenfolgen in den Daten durch ihre (viel kleineren) Codes ersetzt, die auf den entsprechenden Eintrag in der Tabelle verweisen. Der Decoder kehrt diesen Prozess einfach um, um die Originaldaten zu erstellen.

Dies ist der letzte Schritt im Video -Codierungsprozess, also das Ergebnis von Huffman -Codierung ist als MPEG-1-Video "Bitstream" bekannt.

GOP -Konfigurationen für bestimmte Anwendungen

I-Frames Store Complete Frame-Informationen im Rahmen und eignen sich daher für den Zufallszugriff. P-Frames liefern eine Komprimierung unter Verwendung von Bewegungsvektoren relativ zum vorherigen Rahmen (i oder p). B-Frames liefern maximale Komprimierung, erfordern jedoch den vorherigen sowie den nächsten Rahmen für die Berechnung. Die Verarbeitung von B-Frames erfordert daher mehr Puffer auf der dekodierten Seite. Eine Konfiguration der Gruppe von Bildern (GOP) sollte basierend auf diesen Faktoren ausgewählt werden. I-Frame Nur Sequenzen bieten die geringste Komprimierung, sind jedoch nützlich für den Zufallszugriff, FF/FR und Bearbeitbarkeit. I- und P-Frame-Sequenzen ergeben eine mäßige Komprimierung, fügen jedoch einen gewissen Grad des Zufallszugriffs, der FF/FR-Funktionalität, hinzu. I-, P- und B-Frame-Sequenzen ergeben eine sehr hohe Komprimierung, erhöhen aber auch die Codierungs-/Decodierungsverzögerung signifikant. Solche Konfigurationen eignen sich daher nicht für Video-Telephonie- oder Videokonferenzanwendungen.

Die typische Datenrate eines I-Frame beträgt 1 Bit pro Pixel, während die eines P-Frame 0,1 Bit pro Pixel und für einen B-Frame 0,015-Bit pro Pixel beträgt.[55]

Teil 3: Audio

Teil 3 des MPEG-1-Standards deckt Audio ab und ist in ISO/IEC-11172-3 definiert.

MPEG-1-Audio verwendet Psychoakustik Um die Datenrate erheblich zu reduzieren, die ein Audiostrom erforderlich ist. Es reduziert oder verengt bestimmte Teile des Audio hörenentweder weil sie in Frequenzen sind, wo das Ohr nur eine begrenzte Empfindlichkeit hat oder sind maskiert von anderen (typisch lauter) Sounds.[56]

Kanalcodierung:

  • Mono
  • Joint Stereo - Intensität codiert
  • Joint Stereo - M/s codiert Nur für Schicht III
  • Stereo
  • Dual (zwei unkorrelierte Monokanäle)
  • Stichprobenraten: 32000, 44100 und 48000 Hz
  • Bitraten Für Schicht I: 32, 64, 96, 128, 160, 192, 224, 256, 288, 320, 352, 384, 416 und 448 kbit/s[57]
  • Bitraten Für Schicht II: 32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 und 384 kbit/s
  • Bitraten Für Schicht III: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 und 320 kbit/s

MPEG-1-Audio ist in 3 Schichten unterteilt. Jede höhere Schicht ist rechnerisch komplexer und bei niedrigeren Bitraten im Allgemeinen effizienter als die vorherige.[16] Die Schichten sind halb rückwärts kompatibel, wenn höhere Schichten die von den unteren Schichten implementierten Technologien wiederverwenden. Ein "vollständiger" Layer -II -Decoder kann auch Schicht I Audio abspielen, aber nicht Layer III Audio, obwohl nicht alle höheren Spieler "voll" sind.[56]

Schicht i

MPEG-1 Audio Layer I ist eine vereinfachte Version von MPEG-1 Audio Layer II.[18] Layer I verwendet eine kleinere Rahmengröße von 384 Stichproben für sehr geringe Verzögerungen und eine feinere Auflösung.[26] Dies ist vorteilhaft für Anwendungen wie Telekonferenzen, Studiokeditieren usw. Es hat eine geringere Komplexität als Schicht II, um zu erleichtern Echtzeit Codierung der verfügbaren Hardware c.1990.[46]

Schicht, die ich in seiner Zeit eingeschränkte Akzeptanz gesehen habe, und vor allem wurde verwendet Philips'Start Digitale kompakte Kassette bei einer Bitrate von 384 kbit/s.[2] Mit den erheblichen Leistungsverbesserungen in der digitalen Verarbeitung seit ihrer Einführung wurde ich schnell unnötig und veraltet.

Layer I -Audiodateien verwenden normalerweise die Erweiterung ".mp1" oder manchmal ".m1a".

Schicht II

MPEG-1 Audio Layer II (die erste Version von MP2, oft informell MusicAM genannt)[56] ist ein Verlust Audioformat für eine hohe Qualität bei etwa 192 kbit/s für Stereo -Sound. Decodieren von MP2 -Audio ist rechnerisch einfach relativ zu mp3, AAC, etc.

Geschichte/Musik

MPEG-1 Audio Layer II wurde aus dem Musicam abgeleitet (Maskierungsmuster adaptierte universelle Subband -Integrierte Codierung und Multiplexing) Audio -Codec, entwickelt von Center Commun D'études de Télévision et Télécommunications (CCETT), Philips, und Institut für RundfunkTechnik (IRT/CNET)[16][18][58] Im Rahmen des Eureka 147 Pan-Europäische Initiative für Forschungs- und Entwicklungsinitiative für die Entwicklung des digitalen Audio-Rundfunks.

Die meisten wichtigsten Merkmale von MPEG-1-Audio wurden direkt von MusicAM geerbt, einschließlich der Filterbank, der Zeitdomänenverarbeitung, der Audio-Rahmengrößen usw. Es wurden jedoch Verbesserungen vorgenommen, und der tatsächliche MusicAM-Algorithmus wurde im endgültigen MPEG-1 nicht verwendet Audioschicht II Standard. Die weit verbreitete Verwendung des Begriffs Musicam, der sich auf Layer II bezieht, ist sowohl aus technischen als auch aus rechtlichen Gründen völlig falsch und entmutigt.[56]

Technische Details

MP2 ist ein Zeit-Domänen-Encoder. Es verwendet einen Unterband mit niedrigem Delay 32 polyphasiert Filterbank Für Zeitfrequenzzuordnung; Überlappende Bereiche (d. H. Polyphased), um Aliasing zu verhindern.[59] Das psychoakustische Modell basiert auf den Prinzipien von Hörmaskierung, gleichzeitige Maskierung Effekte und die Absolute Hörschwelle (Ath). Die Größe eines Schicht-II-Rahmens ist auf 1152-Samples (Koeffizienten) fixiert.

Zeitdomäne Bezieht sich darauf, wie Analyse und Quantisierung an kurzen, diskreten Proben/Stücken der Audiowellenform durchgeführt wird. Dies bietet eine geringe Verzögerung, da nur eine kleine Anzahl von Proben vor der Codierung analysiert werden, im Gegensatz zu Frequenzbereich Codierung (wie MP3), das mehrmals weitere Beispiele analysieren muss, bevor es entscheiden kann, wie Sie codierte Audio transformieren und ausgeben können. Dies bietet auch eine höhere Leistung für komplexe, zufällige und vorübergehend Impulse (wie perkussive Instrumente und Applaus), die Artefakte wie Pre-Echo vermeiden.

Die 32 Subband Filter Bank gibt 32 zurück Amplitude Koeffizienten, eine für jedes Frequenzband/-segment gleicher Größe des Audios, das etwa 700 Hz breit ist (abhängig von der Abtastfrequenz des Audio). Der Encoder verwendet dann das psychoakustische Modell, um zu bestimmen, welche Unterbänder Audioinformationen enthalten, die weniger wichtig sind, und so, wo die Quantisierung unhörbar oder zumindest viel weniger spürbar ist.[46]

Beispiel FFT -Analyse auf einer Audiowellenprobe.

Das psychoakustische Modell wird unter Verwendung eines 1024 Punktes angewendet Schnelle Fourier-Transformation (FFT). Von den 1152 Proben pro Rahmen werden für diese Analyse 64 Proben am oberen und unteren Boden des Frequenzbereichs ignoriert. Sie sind vermutlich nicht signifikant genug, um das Ergebnis zu ändern. Das psychoakustische Modell verwendet ein empirisch bestimmtes Maskierungsmodell, um zu bestimmen, welche Unterbänder mehr dazu beitragen Maskierungsschwelleund wie viel Quantisierungsrauschen jeder enthalten kann, ohne wahrgenommen zu werden. Alle Geräusche unterhalb der Absolute Hörschwelle (ATH) sind vollständig verworfen. Die verfügbaren Bits werden dann jedem Unterband entsprechend zugeordnet.[56][59]

Typischerweise sind Unterbande weniger wichtig, wenn sie leisere Geräusche (kleinerer Koeffizienten) enthalten als eine benachbarte (d. H. ähnliche Frequenz) Unterband mit lauteren Klängen (größerer Koeffizienten). "Rausch" -Komponenten haben typischerweise einen signifikanteren Maskierungseffekt als "tonale" Komponenten.[58]

Weniger signifikante Unterbänder sind die Genauigkeit durch Quantisierung verringert. Dies beinhaltet im Grunde die Komprimierung des Frequenzbereichs (Amplitude des Koeffizienten), d. H. Das Anheben des Geräuschbodens. Berechnen Sie dann einen Amplifikationsfaktor, damit der Decoder jeden Unterband wieder auf den richtigen Frequenzbereich expandiert.[60][61]

Layer II kann auch optional verwenden Intensitätsstereo Codierung, eine Form von gemeinsamer Stereoanlage. Dies bedeutet, dass die Frequenzen über 6 kHz beider Kanäle in einem einzelnen (Mono-) Kanal kombiniert/abvermischt werden, aber die Informationen "Side Channel" zur relativen Intensität (Volumen, Amplitude) jedes Kanals werden erhalten und in die codiert Bitstream getrennt. Bei der Wiedergabe wird der Einzelkanal durch linke und rechte Lautsprecher gespielt.[46][58] Dieser Wahrnehmungstrick wird als "Stereo -Irrelevanz" bezeichnet. Dies kann eine weitere Reduzierung des Audio -Bitrats ohne viel wahrnehmbaren Treueverlust ermöglichen, wird jedoch im Allgemeinen nicht mit höheren Bitraten verwendet, da es keine sehr hohe (transparente) Audio bietet.[46][59][62][63]

Qualität

Subjektive Audiotests durch Experten unter den kritischsten Bedingungen, die jemals implementiert wurden, haben MP2 angeboten transparent Audiokomprimierung bei 256 kbit/s für 16-Bit 44,1 kHz CD -Audio Mit der frühesten Referenzimplementierung (neuere Encoder sollten vermutlich noch besser abschneiden).[2][58][59][64] Das (ungefähr) 1: 6 -Komprimierungsverhältnis für CD -Audio ist besonders beeindruckend, da es der geschätzten Obergrenze der Wahrnehmungsgrenze liegt Entropie, bei etwas mehr als 1: 8.[65][66] Eine viel höhere Komprimierung ist einfach nicht möglich, ohne einige wahrnehmbare Informationen zu verwerfen.

MP2 bleibt aufgrund seiner besonders hohen Audio -Codierungsleistungen für wichtige Audiomaterialien wie Castanet, symphonisches Orchester, männliche und weibliche Stimmen sowie insbesondere komplexe und hohe Energien (Impulse) wie perkussiv Beifall.[26] Neuere Tests haben gezeigt MPEG Multichannel (Basierend auf MP2), obwohl er durch einen minderwertigen Modus gefährdet wurde (um die Rückwärtskompatibilität willen)[2][59] Raten nur geringfügig niedriger als viel neuere Audio -Codecs, wie z. Dolby Digital (AC-3) und Erweiterte Audiocodierung (AAC) (hauptsächlich innerhalb der Fehlerquote - und in einigen Fällen im Wesentlichen überlegen, wie z. B. Applaus des Publikums).[67][68] Dies ist ein Grund, warum MP2 -Audio weiterhin ausgiebig verwendet wird. Die MPEG-2 AAC-Stereo-Verifizierungstests erreichten jedoch eine ganz andere Schlussfolgerung und zeigten jedoch, dass AAC bei der Hälfte des Bitrats eine überlegene Leistung für MP2 liefert.[69] Der Grund für diese Ungleichheit bei früheren und späteren Tests ist nicht klar, aber seltsamerweise fehlt eine Stichprobe von Applaus in letzterem Test.

Layer II -Audiodateien verwenden normalerweise die Erweiterung ".mp2" oder manchmal ".m2a".

Schicht III

MPEG-1 Audio Layer III (die erste Version von MP3) ist ein Verlust Audioformat für eine akzeptable Qualität von etwa 64 kbit/s für ein monaurales Audio über einkanaler (Bri) ISDN Links und 128 kbit/s für Stereo -Sound.

Geschichte/Aspec

ASPEC 91 in der Deutsches Museum Bonn, mit Encoder (unten) und Decoder

MPEG-1 Audio Layer III wurde aus dem abgeleitet Anpassungsfähige spektrale Wahrnehmungsentropie -Codierung (ASPEC) Codec, entwickelt von Fraunhofer als Teil der Eureka 147 Pan-Europäische Initiative für Forschungs- und Entwicklungsinitiative für die Entwicklung des digitalen Audio-Rundfunks. ASPEC wurde so angepasst, dass sie in das Modell der Schicht -II (Rahmengröße, Filterbank, FFT usw.) passen, um Schicht III zu werden.[18]

ASPEC basierte selbst auf Mehrere adaptive spektrale Audiocodierung (MSC) von E. F. Schroeder, Optimale Codierung in der Frequenzdomäne (OCF) die Doktorarbeit durch Karlheinz Brandenburg Bei der Universität von Erlangen-Nuremberg, Wahrnehmungstransformationskodierung (Pxfm) von J. D. Johnston bei AT&T Bell Labs, und Transformation der Codierung von Audiosignalen von Y. Mahieux und J. Petit bei Institut für RundfunkTechnik (IRT/CNET).[70]

Technische Details

MP3 ist ein Frequenz-Domänen-Audio Transformation Encoder. Obwohl es einige der Funktionen der unteren Schicht verwendet, unterscheidet sich MP3 von MP2 sehr.

MP3 funktioniert an 1152 Proben wie MP2, muss jedoch mehrere Frames für die Analyse vor der Verarbeitung der Frequenz-Domänen (MDCT) einnehmen und die Quantisierung kann wirksam sein. Es gibt eine variable Anzahl von Proben aus, wobei ein Bitpuffer verwendet wird, um diese variable Bitrate (VBR) -Codierung zu aktivieren, während die Ausgangsrahmen von 1152 Probengrößen beibehalten werden. Dies führt zu einer deutlich längeren Verzögerung vor dem Ausgang, was dazu geführt hat, dass MP3 für Studioanwendungen als ungeeignet ist, bei denen Bearbeiten oder andere Verarbeitung stattfinden muss.[59]

MP3 profitiert nicht von der 32 polyphased unterbetranischen Filterbank, sondern verwendet stattdessen eine 18-Punkte-MDCT-Transformation für jede Ausgabe, um die Daten in 576 Frequenzkomponenten aufzuteilen und sie in der Frequenzdomäne zu verarbeiten.[58] Diese zusätzliche Granularität ermöglicht es MP3, ein viel feineres psychoakustisches Modell zu haben und auf jedes Band sorgfältiger angemessene Quantisierung anzuwenden, was eine viel bessere Leistung mit niedrigem Bitrat bietet.

Die Frequenz-Domänen-Verarbeitung führt auch einige Einschränkungen auf, was zu einem Faktor von 12 oder 36 × schlechtere zeitliche Auflösung als Schicht II führt. Dies führt zu Quantisierungsartefakten, da vorübergehende Geräusche wie perkussive Ereignisse und andere Hochfrequenzereignisse über ein größeres Fenster ausbreiten. Dies führt zu hörbarem Schmieren und Pre-Echo.[59] MP3 verwendet Routinen für die Erkennung vor dem Echo und die VBR-Codierung, die es ihm ermöglicht, das Bitrate bei schwierigen Passagen vorübergehend zu erhöhen, um diesen Effekt zu verringern. Es ist auch in der Lage, zwischen dem normalen 36 -Proben -Quantisierungsfenster zu wechseln und stattdessen 3 × kurze 12 Probenfenster zu verwenden, um die zeitliche (Zeit-) Länge der Quantisierungsartefakte zu verringern.[59] Und doch bei der Auswahl einer ziemlich kleinen Fenstergröße, um die zeitliche Reaktion von MP3 ausreichend genug zu machen, um die schwerwiegendsten Artefakte zu vermeiden, wird MP3 in der Komprimierung der stationären, tonalen Komponenten der Frequenzdomäne viel weniger effizient.

Gezwungen werden, a zu verwenden Hybrid Zeitdomäne (Filterbank) /Frequenzdomäne (MDCT) -Modell (MDCT), die mit Layer II die Verarbeitungszeit einfügen und die Qualität beeinträchtigt, indem Aliasing -Artefakte eingeführt werden. MP3 verfügt über eine Aliasing -Stornierungsphase, die speziell dieses Problem maskiert, aber stattdessen Frequenzdomänenenergie erzeugt, die im Audio codiert werden muss. Dies wird an die Spitze des Frequenzbereichs gedrängt, wo die meisten Menschen nur begrenzt Anhörungen haben, in der Hoffnung, dass die Ursache für die Verzerrung weniger hörbar ist.

Der 1024-Punkt-FFT von Layer II umfasst nicht alle Proben vollständig und lässt mehrere gesamte MP3-Unterbande weg, wobei Quantisierungsfaktoren bestimmt werden müssen. MP3 verwendet stattdessen zwei Pässe der FFT -Analyse zur Spektralschätzung, um die globalen und individuellen Maskierungsschwellen zu berechnen. Dadurch kann es alle 1152 Proben abdecken. Von den beiden nutzt es den globalen Maskierungsschwellenwert aus dem kritischeren Pass mit dem schwierigsten Audio.

Zusätzlich zur Intensität der Intensität von Layer II kann MP3 -Stereo -Stereo -Stereo -Stereo -Stereo mit der MP3 -Stereo mit mittlerer/Seite (Mitte/Seite, M/S, MS, Matrixed) verwendet werden. Mit mittlerer/Seitenstereo werden bestimmte Frequenzbereiche beider Kanäle in einen einzelnen (mittleren, mittleren, l+R) Monokanal verschmolzen, während der Schallunterschied zwischen den linken und rechten Kanälen als separater (Seiten, L-R) Kanal gespeichert wird . Im Gegensatz zur Intensitäts -Stereo verworfen dieser Prozess keine Audioinformationen. In Kombination mit der Quantisierung kann es jedoch Artefakte übertreiben.

Wenn der Unterschied zwischen den linken und rechten Kanälen gering ist, ist der Seitenkanal gering, der bis zu 50% Bitrate -Einsparungen und der damit verbundenen Qualitätsverbesserung bietet. Wenn die Differenz zwischen links und rechts groß ist, kann Standard (diskrete, links/rechts) Stereocodierung bevorzugt werden, da die Stereoanlage mit mittlerer/Seitenverbindung keine Vorteile bietet. Ein MP3-Encoder kann zwischen M/S Stereo und vollem Stereo auf Frame-by-Frame-Basis wechseln.[58][63][71]

Im Gegensatz zu Schichten I und II verwendet MP3 variable Länge Huffman -Codierung (nach Wahrnehmung), um die Bitrate weiter zu reduzieren, ohne weiteren Qualitätsverlust.[56][59]

Qualität

Die feinkörnigere und selektive Quantisierung von MP3 erweist sich bei niedrigeren Bitraten gegenüber MP2. Es ist in der Lage, Schicht II nahezu äquivalentes Audioqualität mit einem niedrigeren Bitrate von 15% (ungefähr) zu liefern.[68][69] 128 kbit/s gilt als "Sweet Spot" für MP3; Dies bedeutet, dass es für die meisten Musik allgemein akzeptable Qualitätsklangstereo -Sound bietet, und es gibt es abnehmend Qualitätsverbesserungen durch Erhöhen des Bitrate weiter. MP3 wird auch als Artefakte angesehen, die weniger ärgerlich sind als Schicht II, wenn beide bei Bitraten verwendet werden, die zu niedrig sind, um möglicherweise eine treue Reproduktion zu bieten.

Layer III Audio -Dateien verwenden die Erweiterung ".mp3".

MPEG-2 Audio-Erweiterungen

Das MPEG-2 Standard umfasst mehrere Erweiterungen zu MPEG-1-Audio.[59] Diese sind als MPEG-2 BC bekannt-rückwärts kompatibel mit MPEG-1-Audio.[72][73][74][75] MPEG-2-Audio ist in ISO/IEC 13818-3 definiert.

Diese Stichprobenraten sind genau die Hälfte der der ursprünglich für MPEG-1-Audio definierten. Sie wurden eingeführt, um bei der Codio von Audio bei niedrigeren Bitraten höhere Qualitätsklang aufrechtzuerhalten.[25] Die ausgeführten Bitrate wurden eingeführt, da Tests zeigten, dass MPEG-1-Audio eine höhere Qualität als alle vorhandenen bieten könnte (vorhanden (vorhanden) (vorhanden ist (vorhanden) (c.1994) sehr niedriges Bitrate (d. H. Rede) Audio -Codecs.[76]

Teil 4: Konformitätstests

Teil 4 des MPEG-1-Standardabdeckungskonformitätstests und ist in ISO/IEC-11172-4 definiert.

Konformität: Verfahren zur Prüfung der Konformität.

Bietet zwei Sätze von Richtlinien und Referenzbitstreams zum Testen der Konformität von MPEG-1-Audio- und Video-Decodern sowie der von einem Encoder erzeugten Bitstreams.[16][23]

Teil 5: Referenzsoftware

Teil 5 des MPEG-1-Standards umfasst Referenzsoftware und ist in ISO/IEC TR 11172–5 definiert.

Simulation: Referenzsoftware.

C Referenzcode für die Codierung und Dekodierung von Audio und Video sowie Multiplexing und Demultiplexing.[16][23]

Dies beinhaltet die ISO dist10 Audio -Encoder -Code, der LAHM und TooLAME wurden ursprünglich auf.

Dateierweiterung

.MPG ist eine von einer Reihe von Dateierweiterungen für MPEG-1 oder MPEG-2 Audio- und Videokomprimierung. MPEG-1 Teil 2 Video ist heutzutage selten, und diese Erweiterung bezieht sich typischerweise auf eine MPEG -Programmstream (definiert in MPEG-1 und MPEG-2) oder MPEG -Transportstrom (definiert in MPEG-2). Es gibt auch andere Suffixe wie .M2Ts, die den genauen Container in diesem Fall MPEG-2 TS angeben. Dies hat jedoch wenig Relevanz für MPEG-1-Medien.

.mp3 ist die häufigste Erweiterung für Dateien, die enthalten MP3 Audio (normalerweise MPEG-1-Audio, manchmal MPEG-2-Audio). Eine MP3 -Datei ist in der Regel ein unangenehmer Stream von RAW -Audio. Die herkömmliche Methode, MP3 -Dateien zu markieren, besteht darin, Daten in "Müll" -Segmente jedes Rahmens zu schreiben, die die Medieninformationen bewahren, aber vom Spieler verworfen werden. Dies ist in vielerlei Hinsicht ähnlich, wie rohe .AAC -Dateien markiert sind (dies wird heutzutage weniger unterstützt, z. iTunes).

Beachten AAC oder AAC in MPEG-2 Teil 7 Behälter. Die .AAC -Erweiterung bezeichnet diese Audiodateien normalerweise.

Siehe auch

  • MPEG Die Gruppe Experten für bewegliche Bild, Entwickler des MPEG-1-Standards
  • MP3 Weitere weniger technische Details zu MPEG-1 Audio Layer III
  • MPEG Multichannel Rückwärtskompatible 5.1 Kanal Surround Sound Erweiterung an MPEG-1 Audio Layer II II
  • MPEG-2 Der Direkt Nachfolger des MPEG-1-Standards.
  • ISO/IEC JTC 1/SC 29
Implementierungen
  • Libavcodec Enthält MPEG-1/2 Video/Audio-Encoder und Decoder
  • Mjpegtools MPEG-1/2 Video/Audio-Encoder
  • TooLAME Ein hochwertiger MPEG-1-Audioschicht-II-Encoder.
  • LAHM Ein hochwertiger MP3 -Audio -Encoder.
  • Musicack Ein Format, das ursprünglich auf MPEG-1-Audioschicht II basiert, aber jetzt inkompatibel.

Verweise

  1. ^ a b Patel K, Smith BC, Rowe LA (1993-09-01). "Leistung eines Software -MPEG -Video -Decoders". Verfahren der ersten ACM International Conference on Multimedia. ACM Multimedia. New York City: Vereinigung für Computermaschinen: 75–82. doi:10.1145/166266.166274. ISBN 978-0-89791-596-0. S2CID 3773268. Referenz 3 im Papier ist der Ausschussentwurf des Standards von Standard ISO/IEC 11172, 6. Dezember 1991.
  2. ^ a b c d e f Adler, Mark; Popp, Harald; Hjerde, Morten (9. November 1996), MPEG-FAQ: Multimedia-Komprimierung [1/9], faqs.org, archiviert Aus dem Original am 4. Januar 2017, abgerufen 2016-11-11
  3. ^ a b c d e f g h Le Gall, Didier (April 1991), MPEG: Ein Videokomprimierungsstandard für Multimedia -Anwendungen (PDF), Kommunikation der ACM, archiviert (PDF) vom Original am 2017-01-27, abgerufen 2016-11-11
  4. ^ Chiariglione, Leonardo (21. Oktober 1989), Kurihama 89 Pressemitteilung, ISO/IEC, archiviert von das Original am 5. August 2010, abgerufen 2008-04-09
  5. ^ ISO/IEC JTC 1/SC 29 (2009-10-30). "Arbeitsprogramm-Zugewiesen für SC 29/WG 11, MPEG-1 (Codierung von bewegten Bildern und zugehörigen Audio für digitale Speichermedien mit bis zu 1,5 Mbit/s)". Archiviert von das Original Am 2013-12-31. Abgerufen 2009-11-10.
  6. ^ ISO. "ISO/IEC 11172-1: 1993-Informationstechnologie-Codierung von Bewegungsbildern und zugehörigen Audio für digitale Speichermedien mit bis zu etwa 1,5 Mbit/s-Teil 1: Systeme". Archiviert vom Original am 2016-11-12. Abgerufen 2016-11-11.
  7. ^ MPEG. "Über MPEG - Erfolge". Chiariglione.org. Archiviert von das Original am 2008-07-08. Abgerufen 2009-10-31.
  8. ^ MPEG. "Begriffe der Referenz". Chiariglione.org. Archiviert von das Original Am 2010-02-21. Abgerufen 2009-10-31.
  9. ^ a b MPEG. "MPEG -Standards - Vollständige Liste der entwickelten oder in der Entwicklung entwickelten Standards". Chiariglione.org. Archiviert von das Original Am 2010-04-20. Abgerufen 2009-10-31.
  10. ^ Lea, William (1994). Video on Demand: Forschungspapier 94/68. House of Commons Library. Archiviert von das Original am 20. September 2019. Abgerufen 20. September 2019.
  11. ^ "Geschichte der Videokomprimierung". Itu-t. Joint Video Team (JVT) von ISO/IEC MPEG & ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 und ITU-T SG16 Q.6). Juli 2002. S. 11, 24–9, 33, 40–1, 53–6. Abgerufen 3. November 2019.
  12. ^ Ghanbari, Mohammed (2003). Standard -Codecs: Bildkomprimierung zur erweiterten Videocodierung. Institution für Ingenieurwesen und Technologie. S. 1–2. ISBN 9780852967102.
  13. ^ "Die Geschichte der Videodateiformate Infografik". RealNetworks. 22. April 2012. Abgerufen 5. August 2019.
  14. ^ Hans Geog Musmann, Entstehung des MP3 -Audio -Codierungsstandards (PDF), archiviert von das Original (PDF) Am 2012-01-17, abgerufen 2011-07-26
  15. ^ a b c d e f g h i j k l Fogg, Chad (2. April 1996), MPEG-2 FAQ (archivierte Website), Universität von Kalifornien, Berkeley, archiviert von das Original am 2008-06-16, abgerufen 2016-11-11
  16. ^ Chiariglione, Leonardo (März 2001), Open Source in MPEG, Linux Journal, archiviert von das Original Am 2011-07-25, abgerufen 2008-04-09
  17. ^ a b c d Chiariglione, Leonardo; Le Gall, Didier; Musmann, Hans-Georg; Simon, Allen (September 1990), Pressemitteilung - Statusbericht von ISO MPEG, ISO/IEC, archiviert von das Original Am 2010-02-14, abgerufen 2008-04-09
  18. ^ Treffen, ISO/IEC, archiviert von das Original Am 2010-02-10, abgerufen 2008-04-09
  19. ^ a b "Der MPEG-FAQ, Version 3.1". Archiviert von das Original am 2009-07-23. Abgerufen 2008-10-12. Frage: Wie bekomme ich dann die Dokumente, wie der MPEG I. A. MPEG ist ein Entwurfs -ISO -Standard. Es ist [sic] Der genaue Name ist ISO CD 11172. [...] Sie können ihn bei Ihrer nationalen Standardkörper (z. B. ANSI in den USA) bestellen oder ihn von Unternehmen wie Omnicom [...] kaufen.
  20. ^ "MPEG Pressemitteilung" (Pressemitteilung). ISO/IEC JTC1/SC29/WG11. 6. November 1992. archiviert von das Original am 12. August 2010. Abgerufen 7. Mai 2018.
  21. ^ "Archivierte Kopie". Archiviert von das Original am 2008-10-06. Abgerufen 2008-07-13.{{}}: CS1 Wartung: Archiviertes Kopie als Titel (Link) "Archivierte Kopie". Archiviert von das Original am 2008-06-12. Abgerufen 2008-07-13.{{}}: CS1 Wartung: Archiviertes Kopie als Titel (Link) Ein kontinuierlicher Medienspieler, Lawrence A. Rowe und Brian C. Smith, Proc. 3. int. Workshop in Netzwerk- und Betriebssystemunterstützung für digitale Audio und Video, San Diego CA (November 1992)[Dead Link]
  22. ^ a b c Erfolge, ISO/IEC, archiviert von das Original am 2008-07-08, abgerufen 2008-04-03
  23. ^ Chiariglione, Leonardo (6. November 1992), MPEG -Pressemitteilung, London, 6. November 1992, ISO/IEC, archiviert von das Original am 12. August 2010, abgerufen 2008-04-09
  24. ^ a b c Wallace, Greg (2. April 1993), Pressemitteilung, ISO/IEC, archiviert von das Original am 6. August 2010, abgerufen 2008-04-09
  25. ^ a b c d Popp, Harald; Hjerde, Morten (9. November 1996), MPEG-FAQ: Multimedia-Komprimierung [2/9], faqs.org, archiviert Aus dem Original am 4. Januar 2017, abgerufen 2016-11-11
  26. ^ "Internationale Organisation für Standardisierungsorganisation Internationale de Normalisierung ISO". 26. Juli 2010. archiviert von das Original am 26. Juli 2010. Abgerufen 7. Mai 2018.
  27. ^ ISO/IEC JTC 1/SC 29 (2010-07-17). "MPEG-1 (Codierung von bewegten Bildern und zugehörigen Audio für digitale Speichermedien mit bis zu 1,5 Mbit/s)". Archiviert von das Original Am 2013-12-31. Abgerufen 2010-07-18.
  28. ^ ISO. "ISO/IEC 11172-1: 1993-Informationstechnologie-Codierung von Bewegungsbildern und zugehörigen Audio für digitale Speichermedien mit bis zu etwa 1,5 Mbit/s-Teil 1: Systeme". Archiviert vom Original am 2017-08-30. Abgerufen 2016-11-11.
  29. ^ ISO. "ISO/IEC 11172-2: 1993-Informationstechnologie-Codierung von bewegten Bildern und zugehörigen Audio für digitale Speichermedien mit bis zu etwa 1,5 Mbit/s-Teil 2: Video". Archiviert vom Original am 2017-08-30. Abgerufen 2016-11-11.
  30. ^ ISO. "ISO/IEC 11172-3: 1993-Informationstechnologie-Codierung von bewegten Bildern und zugehörigen Audio für digitale Speichermedien mit bis zu etwa 1,5 Mbit/s-Teil 3: Audio". Archiviert vom Original am 2017-05-15. Abgerufen 2016-11-11.
  31. ^ ISO. "ISO/IEC 11172-4: 1995-Informationstechnologie-Codierung von bewegten Bildern und zugehörigen Audio für digitale Speichermedien mit bis zu etwa 1,5 Mbit/S-Teil 4: Compliance-Tests". Archiviert vom Original am 2017-08-30. Abgerufen 2016-11-11.
  32. ^ ISO. "ISO/IEC TR 11172-5: 1998-Informationstechnologie-Codierung von bewegten Bildern und zugehörigen Audio für digitale Speichermedien mit bis zu etwa 1,5 Mbit/S-Teil 5: Software-Simulation". Archiviert vom Original am 2017-08-30. Abgerufen 2016-11-11.
  33. ^ Ozer, Januar (12. Oktober 2001), Auswahl der optimalen Videoauflösung: den MPEG-2-Spielermarkt, extremetech.com, archiviert Aus dem Original am 7. Juni 2011, abgerufen 2016-11-11
  34. ^ Vergleich zwischen MPEG 1 & 2, archiviert vom Original am 2012-02-10, abgerufen 2016-11-11
  35. ^ MPEG 1 und 2 verglichen, Pure Motion Ltd., 2003, archiviert aus das Original Am 2005-12-14, abgerufen 2008-04-09
  36. ^ Dave Singer (2007-11-09). "Hausaufgaben] Zusammenfassung der Video- (und Audio-) Codec -Diskussion". Archiviert Aus dem Original am 21. Dezember 2016. Abgerufen 11. November, 2016.
  37. ^ "MPEG-1-Videocodierung (H.261)". Kongressbibliothek, Digitale Erhaltung. 21. Oktober 2014. Archiviert Aus dem Original am 11. Januar 2017. Abgerufen 2016-11-11.
  38. ^ "ISO -Standards und Patente". Archiviert vom Original am 2016-11-15. Abgerufen 2016-11-11. Suche nach 11172
  39. ^ Patentstatus von MPEG-1, H.261 und MPEG-2
  40. ^ "[gst-devel] Kann ein MPEG-1 mit Audioschichten 1 & 2 Plugin in Plugins-Gut (patentios) sein?". SourceForge.net. 2008-08-23. Archiviert vom Original am 2014-02-02. Abgerufen 2016-11-11.
  41. ^ "Archivierte Kopie". lists.whatwg.org. Archiviert von das Original am 19. Juli 2011. Abgerufen 11. Januar 2022.{{}}: CS1 Wartung: Archiviertes Kopie als Titel (Link)
  42. ^ http://patft1.uspto.gov/netacgi/nph-parser?patentnumber=5214678 Archiviert 2012-07-13 at Archive.Today "Digitales Übertragungssystem unter Verwendung der Subband -Codierung eines digitalen Signals" eingereicht: 31. Mai 1990, gewährt am 25. Mai 1993, läuft am 31. Mai 2010 aus?
  43. ^ "MP3". Fraunhofer Institute für integrierte Schaltungen IIS. Archiviert Aus dem Original am 22. März 2018. Abgerufen 7. Mai 2018.
  44. ^ "ISO -Standards und Patente". ISO. Abgerufen 10. Juli 2019.
  45. ^ a b c d e f g Grill, b.; Quackenbush, S. (Oktober 2005), MPEG-1-Audio, ISO/IEC, archiviert von das Original Am 2010-04-30
  46. ^ Chiariglione, Leonardo, MPEG-1-Systeme, ISO/IEC, archiviert vom Original am 2016-11-12, abgerufen 2016-11-11
  47. ^ a b Packheader, archiviert vom Original am 2016-10-27, abgerufen 2016-11-11
  48. ^ Fimoff, Mark; Bretl, Wayne E. (1. Dezember 1999), MPEG2 -Tutorial, archiviert vom Original am 12. November 2016, abgerufen 2016-11-11
  49. ^ Fimoff, Mark; Bretl, Wayne E. (1. Dezember 1999), MPEG2 -Tutorial, archiviert Aus dem Original am 5. November 2016, abgerufen 2016-11-11
  50. ^ Fimoff, Mark; Bretl, Wayne E. (1. Dezember 1999), MPEG2 -Tutorial, archiviert Aus dem Original am 5. November 2016, abgerufen 2016-11-11
  51. ^ Fimoff, Mark; Bretl, Wayne E. (1. Dezember 1999), MPEG2 -Tutorial, archiviert vom Original am 12. November 2016, abgerufen 2016-11-11
  52. ^ Acharya, Soam; Smith, Brian (1998), Druckdomänentranscodierung von MPEG, Cornell Universität, IEEE Computer Society, IEEE Internationale Konferenz über Multimedia Computing and Systems, S. 3, archiviert vom Original am 2011-02-23, abgerufen 2016-11-11 - (erfordert cleveres Lesen: Die Quantisierungsmatrizen unterscheiden sich, aber das sind nur Standardeinstellungen und wählbar)(Registrierung benötigt)
  53. ^ a b c Wee, Susie J.; Vasudev, Bhaskaran; Liu, Sam (13. März 1997), Transcodierende MPEG -Video -Streams in der komprimierten Domäne, Hewlett Packard, Citeseerx 10.1.1.24.633, archiviert von das Original Am 2007-08-17, abgerufen 2016-11-11
  54. ^ "Archivierte Kopie". Archiviert von das Original am 2009-05-03. Abgerufen 2009-05-03.{{}}: CS1 Wartung: Archiviertes Kopie als Titel (Link)
  55. ^ a b c d e f Thom, D.; Purnhagen, H. (Oktober 1998), MPEG Audio FAQ Version 9, ISO/IEC, archiviert von das Original Am 2010-02-18, abgerufen 2016-11-11
  56. ^ MPEG Audio Frame Header, archiviert von das Original Am 2015-02-08, abgerufen 2016-11-11
  57. ^ a b c d e f Kirche, Steve, Wahrnehmungscodierung und MPEG -Komprimierung, NAB Engineering Handbuch, Telos -Systeme, archiviert von das Original Am 2001-05-08, abgerufen 2008-04-09
  58. ^ a b c d e f g h i j Pan, Davis (Sommer 1995), Ein Tutorial zur MPEG/Audio -Komprimierung (PDF), IEEE Multimedia Journal, p. 8, archiviert aus das Original (PDF) Am 2004-09-19, abgerufen 2008-04-09
  59. ^ Smith, Brian (1996), Eine Übersicht über komprimierte Domänenverarbeitungstechniken, Cornell Universität, p. 7, archiviert vom Original am 2011-02-23, abgerufen 2008-04-09(Registrierung benötigt)
  60. ^ Cheng, Mike, Psychoakustische Modelle in Twolame, twolame.org, archiviert vom Original am 2016-10-22, abgerufen 2016-11-11
  61. ^ Grill, b.; Quackenbush, S. (Oktober 2005), MPEG-1-Audio, archiviert von das Original am 2008-04-27, abgerufen 2016-11-11
  62. ^ a b Herre, Jürgen (5. Oktober 2004), Von gemeinsamer Stereo bis zur räumlichen Audiocodierung (PDF), Internationale Konferenz über digitale Audioeffekte, p. 2, archiviert aus das Original (PDF) am 5. April 2006, abgerufen 2008-04-17
  63. ^ C. Grewin und T.Ryden, Subjektive Bewertungen an Audio-Codecs mit niedriger Bitrate, Proceedings der 10. Internationalen AES -Konferenz, S. 91 - 102, London 1991
  64. ^ J. Johnston, Schätzung der Wahrnehmungsentropie unter Verwendung von Rauschmaskierungskriterien, In Proc. ICASSP-88, S. 2524-2527, Mai 1988.
  65. ^ J. Johnston, Transformation der Codierung von Audiosignalen mithilfe von Wahrnehmungsgeräuschkriterien, IEEE Journal über ausgewählte Bereiche in Communications, Vol. 6, nein. 2, S. 314-323, Februar 1988.
  66. ^ Wustenhagen et al.,, Subjektiver Hörtest von Multi-Channel-Audio-Codecs, AES 105th Convention Paper 4813, San Francisco 1998
  67. ^ a b B/MAE -Projektgruppe (September 2007), EBU -Bewertungen von Mehrkanal -Audio -Codecs (PDF), Europäische Rundfunk Union, archiviert von das Original (PDF) am 2008-10-30, abgerufen 2008-04-09
  68. ^ a b Meares, David; Watanabe, Kaoru; Scheirer, Eric (Februar 1998), Bericht über die MPEG-2 AAC-Stereo-Überprüfungstests (PDF), ISO/IEC, p. 18, archiviert aus das Original (PDF) am 14. April 2008, abgerufen 2016-11-11
  69. ^ Maler Ted; Spanias, Andreas (April 2000), Wahrnehmungscodierung von digitalem Audio (Proceedings of the IEEE, Bd. 88, Nr. 4) (PDF), Proceedings of the IEEE, archiviert von das Original (PDF) am 16. September 2006, abgerufen 2016-11-11
  70. ^ Amorim, Roberto (19. September 2006), GPsycho - Mid/Side Stereo, LAHM, archiviert Aus dem Original am 16. Dezember 2016, abgerufen 2016-11-11
  71. ^ ISO (Oktober 1998). "MPEG Audio FAQ Version 9-MPEG-1 und MPEG-2 BC". ISO. Archiviert von das Original Am 2010-02-18. Abgerufen 2016-11-11.
  72. ^ D. Thom, H. Purnhagen und die MPEG -Audio -Untergruppe (Oktober 1998). "MPEG Audio FAQ Version 9 - MPEG Audio". Archiviert vom Original am 2011-08-07. Abgerufen 2016-11-11.{{}}: Cs1 montiert: Mehrfachnamen: Autorenliste (Link)
  73. ^ Mpeg.org. "AAC". Archiviert von das Original am 2007-08-31. Abgerufen 2009-10-28.
  74. ^ ISO (2006-01-15), ISO/IEC 13818-7, vierte Ausgabe, Teil 7-Advanced Audio Coding (AAC) (PDF), archiviert (PDF) vom Original am 2009-03-06, abgerufen 2016-11-11
  75. ^ Chiariglione, Leonardo (11. November 1994), Pressemitteilung, ISO/IEC, archiviert von das Original am 8. August 2010, abgerufen 2008-04-09

Externe Links