Wie funktioniert die Videokomprimierung? - fotoMAGAZIN

Videoauflösungen — Die gebräuchliche Videoauflösung hat sich in den letzten Jahren stark erhöht. Die Schritte von Full-HD auf 4K und von 4K auf 8K bedeuten jeweils eine Vervierfachung der Pixelzahl.
Foto: © Getty Images, grinvalds

Video ist im Wesentlichen die schnelle Abfolge einzelner Bilder, in der Regel kombiniert mit einer Tonspur. Üblich sind Bildfrequenzen von 24 bis 60 Bildern pro Sekunde, im Videojargon beispielsweise als 50p oder 50 fps beschrieben. Die früher üblichen Halbbildverfahren mit Zeilensprung (i für interlacing) sind inzwischen weitgehend ausgestorben. Dabei wurde ein Bild in zwei Halbbilder aufgeteilt, um bei niedrigen Frequenzen eine flüssigere Darstellung mit möglichst geringer Datenrate zu erreichen (zum Beispiel 50i). Die relativ niedrigere Frequenz von 24p wurde übrigens 1929 für die ersten Kino-Tonfilme festgelegt – bis heute gilt 24p als typisches Merkmal von Filmen mit Kino-Look.

Group of Pictures — Die Canon EOS R3 war die erste Fotokamera, die 8K-Video aufnehmen konnte – sogar im Raw-Format und mit der Cinema-Auflösung von 8192 x 4320 Pixeln.
Bild: Canon, Screenshot: Andreas Jordan

Mit dem TV-Zeitalter wurden die Bildraten an die Frequenzen der Stromnetze angepasst, die wiederum weltweit nicht einheitlich sind. In den USA wird das Netz beispielsweise mit 60 Hertz betrieben, was eine TV-Frequenz von 60i, bzw. 30p zur Folge hatte. Um Problemen mit Interferenzen bei der Tonspur aus dem Weg zu gehen, beträgt die präzise Frequenz im Rahmen des NTSC- Standards in den USA 29,97 fps. In Europa hat das Stromnetz dagegen eine Frequenz von 50 Hertz, was wiederum im PAL-Standard die Bildwiederholraten 50i bzw. 25p zur Folge hatte. Inzwischen sind auch die jeweils doppelten PAL- bzw. NTSC- Frequenzen verbreitet, also 50p und 60p (präzise 59,94p), die beispielsweise ruckelfreiere Schwenks und weniger Bewegungsunschärfe ermöglichen. Sie wirken realistischer, dafür geht aber der eher distanzierte, erzählerische Cinema-Look verloren.

Noch höhere Bildraten werden für Zeitlupen verwendet (beispielsweise 100p bei der Aufnahme und 25p bei der Wie-dergabe = 4fache Zeitlupe). Auch bei großen Kinofilmen wird seit 2012 – erstmals bei „Der Hobbit“ – mit höheren Frequenzen von 48p experimentiert. Abseits von Animations- und 3D-Filmen konnte sich 48p allerdings nicht durchsetzen. Videos im Internet sind weitgehend frei bei der Frequenzwahl, wobei höhere Bildwiederholraten bei gleicher Auflösung selbstverständlich größere Datenmengen erzeugen. Ausgleichen lässt sich dies durch eine effektivere Komprimierung.

Auflösung und Komprimierung

Neben der Bildfrequenz ist natürlich die Auflösung des Videos ein entscheidender Faktor für die Dateigröße. Für viele Zwecke reicht Full-HD (1920 x 1080 = 2,1 Megapixel), im Kommen ist 4K, meist im TV-tauglichen 16:9-Format, auch als Utra- HD bekannt (3840 x 2160 = 8,3 Megapixel). Einige Kameras nehmen bereits 8K auf (in der Regel 7680 x 4320 = 33,2 Megapixel). Dazu eine kleine Rechnung: Ein nicht komprimiertes 4K-Standbild mit 24 Bit Farbtiefe hat eine Dateigröße von 24,9 MByte, bei 25p ergeben sich 622,5 MByte pro Sekunde. 8K/25p vervierfacht diese Dateigröße (2,5 GByte/s), 8K/50p verachtfacht sie (ca. 5 GByte/s).

Diese Datenmengen kann kaum ein Speichermedium in Echtzeit schreiben und auch große Festplatten wären schnell gefüllt. Aktuelle Kameras zeichnen 4K/25p daher meist stark komprimiert mit um die 100 Mbit/s auf. Achtung: Hier wird die Datenrate in Bit und nicht in Byte angeben – umgerechnet in Byte ergeben sich 12,5 MByte/s; gegenüber den 622,5 MByte der unkomprimierten 4K/25p-Datei ist dies eine Datenreduktion ungefähr um den Faktor 50.

Farbunterabtastung — Eine Group of Pictures (GoP) besteht aus Schlüsselbildern (Intraframes, hier rot) und zwei Arten von Interframes (Bidirectional und Predictive), die Differenzinformationen enthalten.
Illustration: Wikipedia

Wie ist eine solche Komprimierung mit hoher Qualität möglich? Antwort: Mit immer effektiveren Kompressionsverfahren. In den Anfangstagen des Digitalvideos wurde noch mit dem Motion-JPEG-Verfahren komprimiert. Dabei werden wie beim JPEG in der Fotografie – vereinfacht ausgedrückt – ähnliche Inhalte in einzelnen Bildern zusammengefasst. Deutlich effektiver war das schon 1993 von der Motion Picture Experts Group (MPEG) unter anderem für die Video-CD (einer Vorläuferin der DVD mit sehr geringer Auflösung von 352 x 288 Pixeln) standar-disierte Verfahren MPEG-1. Es folgten 1994/95 MPEG-2 (für DVD-Video und DVB mit 720 x 576 Pixeln) und um den Jahrhundertwechsel MPEG-4, das deutlich flexibler und für unterschiedliche Anwendungsbereiche und Auflösungen gedacht ist. Der Trick bei allen MPEG-Verfahren ist, dass nicht nur Einzelbilder, sondern Bildgruppen zur Komprimierung herangezogen werden. Eine sogenannte Group of Pictures (GoP) besteht aus einem vollständigen Referenzbild (Intraframe oder I-Frame), das um B- und P-Frames ergänzt wird (auch Interframes genannt). Die sel-tener vorkommenden Predictive Frames (P-Frames) speichern nur Veränderungen aus dem vorherigen I- oder P-Frame. Die am häufigsten vorkommende Bidirectional Frames (B-Frames) enthalten Differenzinformationen aus dem vorhergehenden und/oder nachfolgenden I- oder P-Frame.

GoPs können unterschiedlich lang sein, typisch sind zwölf Bilder. Der MPEG-Standard erlaubt aber auch die reine Einzelbildkomprimierung, als All-I bezeichnet. Wie beim alten Motion-JPEG-Verfahren werden also nur vollständige Schlüsselbilder ohne Referenzen zu anderen Bildern komprimiert, allerdings mit einem effektiveren Verfahren als früher. Meist kommt aktuell bei der Komprimierung der H.264-Codec zum Einsatz, vor allem bei 8K inzwischen aber auch der etwa doppelt so effektive H.265-Codec, alias High Efficiency Video Coding (HEVC). All-I erzeugt größere Datenmengen (typischerweise rund drei bis vier Mal so viel wie GoP), vereinfacht aber den Videoschnitt, weil die Schnitt-Software keine GoPs dekodieren und nach dem Schnitt wieder neu zusammensetzen muss.

Die Panasonic Lumix GH5 II nimmt Video intern mit 10 Bit und einer Farbunterabtastung von 4:2:2 auf. — Sowohl bei JPEGs als auch bei MPEG-Videos kann die Datenmenge durch Farbunterabtastung reduziert werden: Bei 4:4:4 werden die vollen Farbinformationen erfasst, 4:2:2 fasst die Farbinformationen von zwei Pixeln zusammen, 4:2:0 die Farbinformationen von vier Pixeln.
Illustration: Wikipedia, bearbeitet

Farbtiefe und Farbunterabtastung

Natürlich spielt neben der Auflösung und der Bildfrequenz auch die Farbtiefe eine Rolle bei der Dateigröße. Fotografen kennen die Angabe in Bit. Sie liegt bei JPEG-Dateien bei 8 Bit pro RGB-Farbkanal. Das sind 2⁸, also 256 Abstufungen pro Kanal bzw. 24 Bit für die RGB-Datei (2²⁴ = 16,8 Millionen Farben). Raw-Dateien werden auch mit höherer Farbtiefe von 12 oder 14 Bit pro Kanal gespeichert. Bei der Videoaufnahme können einige hochwertige Kameras intern, also auf Speicherkarte, mit 10 Bit pro RGB-Kanal aufnehmen. Die Gesamtfarbtiefe einer RGB-Datei erhöht sich damit gegenüber 8 Bit pro Kanal von 24 auf 30 Bit. Beeindruckend ist die Steigerung bei der Anzahl der darstellbaren Farben, die von 16,8 Millionen auf 1,1 Mil-liarden anwächst (2³⁰).

Die Panasonic Lumix GH5 II nimmt Video intern mit 10 Bit und einer Farbunterabtastung von 4:2:2 auf.
Bild: Panasonic

Bei den Videospezifikationen taucht im Zusammenhang mit der Farbtiefe ein weiterer Begriff auf, der Fotografen weniger geläufig sein dürfte: die Farbunterabtastung, auch chroma subsampling oder color subsampling genannt. Dabei kommt das YCbCr-Farbmodell zum Einsatz, das auf der Trennung von Helligkeits- (Luminanz) und Farbinformationen (Chrominanz) beruht. Die Farbunterabtastung macht sich die Tatsache zunutze, dass das menschliche Auge für Farbinformationen weniger empfindlich ist als für Helligkeitsinformationen. Die Chrominanz kann also geringer abgetastet werden als die Luminanz. Bei einer Farbabtastung von 4:4:4 werden die vollen Helligkeits- und Farbinformationen erfasst, bei 4:2:2 fehlt die Hälfte der Farbinformationen, bei 4:2:0 steht nur noch ein Viertel zur Verfügung. Wer Video unbearbeitet weiterverbreitet, kann ohne Bedenken 8 Bit und 4:2:0 aufnehmen, die höhere Farbtiefe wird erst relevant, wenn nachträglich bearbeitet wird. Für das Colorgrading in der Postproduktion sollte das Video neben 10 Bit und 4:2:2 ein flaches Profil haben (idealerweise eine logarithmische Gammakurve), also geringe Kontraste, einen großen Dynamikumfang und eine geringe Farbsättigung. Doch auch für das zunehmend populäre Chroma Keying, beispielsweise einen Greenscreen-Effekt, der beim Freistellen hilft, sind 10 Bit, 4:2:2 empfehlenswert.

Die Farbunterabtastung ist übrigens kein reines Videothema. In einigen Bildbearbeitungsprogrammen kann man auch beim Speichern von JPEGs die Farbabtastung wählen, in der Windows-Freeware paint.net beispielsweise zwischen 4:4:4 (keine Farbunterabtastung), 4:2:2 und 4:2:0. Mit dem neuen HEIF-Bildformat (siehe fM 10/21) zieht die Farbunterabtastung langsam auch in die Kameras ein: Die neuen Sony-Modelle Alpha 1 und Alpha 7S III bieten beim Speichern von Bildern in diesem Format bereits die Wahl zwischen einer Farbunterabtastung von 4:2:2 oder 4:2:0.