Infos Home | Impressum | Original Artikel & Autoren Liste


Datenkompression

Als Datenkompression bezeichnet man Verfahren zur Reduktion des Speicherbedarfs von Daten durch Umkodieren. Zu einem solchen Verfahren gehört eine Methode zur Reduktion der benötigten Speicherkapazität (Kompression) und der Wiederherstellung der Daten in ursprünglicher Form (Dekompression).

Inhalt
1 Informatik
2 Siehe auch
3
4 Biologie

Informatik

Redundanz- und Irrelevanzreduktion

Die Datenkompression wird teils durch günstigere Repräsentation, d.h. Vermeiden von
Redundanz, teils durch Weglassen von Information erreicht. Wenn die Daten mit einem Dekompressionsverfahren wieder originalgetreu hergestellt werden können, arbeitet es verlustfrei. Man spricht dann von Redundanzreduktion. Andernfalls ist es verlustbehaftet. In diesem Fall spricht man von Irrelevanzreduktion.

Bei der verlustfreien Kompression wird die originäre Information I in eine komprimierte Information I' überführt. Diese Abbildung von I nach I' ist eineindeutig.

Die verlustbehaftete Komprimierung reduziert die Information. Es wird ein Modell zu Grunde gelegt, das entscheidet, welcher Anteil der Information für den Empfänger entbehrlich ist.

Verfahren

Die theoretische Grundlage bildet die von Informationswissenschaftlern (Claude Shannon; Andrej Nikolajewitsch Kolmogoroff) erarbeitete Theorie der Information und Kommunikation (Informationstheorie). Diese beschreibt den Zusammenhang zwischen Informationsgehalt einer Zeichenkette auf der Basis von Zeichen durch den Begriff der Entropie der Zeichenkette, die im Allgemeinen auf eine bestimmte, minimale Länge gebracht werden kann. In neuerer Zeit gibt es umgekehrt auch Ansätze, den Informationsgehalt auf die 'Nichtmehrverkürzbarkeit' zurückzuführen (Chaitin).

Einsatzgebiete

Speicherung von Text

Texte, sofern sie aus Buchstaben bestehen und nicht aus eingescannten Bildern, belegen wenig Speicherplatz. Eine Textdatei ohne Bilder ist selten größer als 10 MByte, die eine verlustfreie Kompression auf 1/5 bis 1/10 der Ursprungsgröße reduziert.

Beispiele:

Ausgangstext: AUCH EIN KLEINER BEITRAG IST EIN BEITRAG
Kodiertext: AUCH EIN KLEINER BEITRAG IST -4 -3

Hier wurde erkannt, dass die Worte EIN und BEITRAG zweimal auftauchen, und dadurch angegeben, dass diese mit den gerade zurückliegenden übereinstimmen. Bei genauerer Betrachtung könnte dann auch das EIN in KLEINER entsprechend kodiert werden.

Verwandt ist die tokenbasierte Kompression. Häufig wiederkehrende Schlüsselwörter werden durch Abkürzungen, den Tokens, ersetzt.

Ausgangstext: Print "Hallo"; Print "Hier"
Kodiertext: 3F "Hallo"; 3F "Hier"

Weitere Verfahren, die auf der sog. Entropiekodierung basieren: Heutzutage stehen viele Datenkompressionsprogramme für den Rechnereinsatz zur Verfügung.

Speicherung von Bildern und Ton

Ton, Bild und Film sind Einsatzgebiete verlustbehafteter Kompression. Anders wären die oftmals enormen Datenmengen nicht zu handhaben. Bereits die Aufnahmegeräte begrenzen das Datenvolumen. Die Reduktion der gespeicherten Daten orientiert sich an den physiologischen Wahrnehmungseigenschaften des Menschen. Die Kompression durch Algorithmen bedient sich dabei typischerweise der Wandlung von Signalverläufen von Abtastsignalen in eine Frequenzdarstellung.

In der akustischen Wahrnehmung des Menschen werden Frequenzen oberhalb 20-25 kHz meist nicht mehr wahrgenommen und können bereits im Aufnahmesystem beschnitten werden, ebenso werden leise Nebentöne nur schwer wahrgenommen, so dass sie vom Kompressions-System entfernt werden können. Die Verfahren Ogg Vorbis oder MP3 reduzieren das Datenvolumen um Faktoren bis zu 50. Bei einem Faktor von 10 sind durch den Menschen kaum noch Qualitätsunterschiede zum Ausgangsformat wie z.B. WAV festzustellen. Eine CD von einer Stunde Laufzeit enthält etwa 600 MByte Daten für HiFi-Stereo Ton. In einem datenreduzierten Format benötigen diese Daten aber nur wenig mehr als 60 MByte. Mit anderen Worten, eine im MP3-Format bespielte CD kann bis zu 10 Stunden hochqualitative Musik speichern und das bei einer Datenrate von nur etwa 1 MByte/min was etwas mehr als 128 kbit/s entspricht. Verzichtet man auf Stereo und nimmt weitere Qualitätsreduzierung in Kauf, ist z.B. bei 24 kbit/s schon Musikgenuss per Webradio oder Internet-Telefonie realisierbar.

In der optischen Wahrnehmung des Menschen werden Farben weniger stark aufgelöst als Helligkeitsänderungen, daraus leitet sich die schon beim analogen Farbfernsehen bekannte YUV-422 Reduzierung ab. Kanten sind dagegen bedeutsamer und es existiert eine biologische Kontrastanhebung (Machsche Streifen). Mit moderater Tiefpassfilterung zur Farbreduktion, zum Beispiel durch den auf DCT-Transformation basierenden JPEG-Algorithmus oder den neueren auf Wavelet-Transformation basierenden JPEG2000-Algorithmus, verringert sich das Datenvolumen schnell um mehr als 90%. Besteht man auf verlustfreier Kompression, so lassen sich fotografisch (oder vergleichbar) erstellte Bilder wegen ihres typischen Rauschanteils nur ungenügend komprimieren. Daher kommen verlustfreie digitale Kompressionsformate, wie etwas das TIFF-Format, fast nur in der professionellen Fotografie und Bild-Gestaltung zur Anwendung. Das GIF-Format arbeitet auch verlustfrei, begrenzt aber den Farbraum auf 256 Farben, so dass es eher für Zeichnungen oder für die Endergebnisse eines Verarbeitungsprozesses geeignet ist. Wegen seiner großen Reduktion findet es auf vielen Webseiten Verwendung, weil es hier oft auf schnelle Ladezeiten ankommt und das GIF-Format auch Animationen erlaubt.

Filme werden mit ca. 25 Bildern pro Sekunde aufgenommen. Da sich die Bilder nur bei Szenenwechsel deutlich ändern, beschränkt sich die Speicherung vornehmlich auf die Speicherung der Änderungen zwischen den Bildern. Es werden Formate wie MJPG, MPEG sowie diverse andere Formate verwendet. Im Computersektor haben sich die Containerformate AVI (Microsoft) und MOV (Apple) etabliert, wobei der verwendete Codec nahezu frei wählbar ist, zum Beispiel von Intel die Indeo-Codierung, der Cinepack-Codec oder der Soerensen-Codec.

Kompressionsartefakte

Als Kompressionsartefakte bezeichnet man Qualitätseinbußen, die insbesondere durch die digitale, verlustbehaftete Datenreduktion verursacht werden.

Beispiele:

Zeittafel der arithmetischen Kompressions-Algorithmen

1949 Informationstheorie, Claude Shannon
1949 Shannon-Fano-Entropiekodierung
1952 Huffman, static
1964 Kolmogorov complexity concept
1975 Integer coding scheme, Elias
1976 Arithmetic coding (Implementierung)
1977 Lempel-Ziv-Verfahren LZ77
1978 Lempel-Ziv-Verfahren LZ78
1984 Lempel-Ziv-Welch-Verfahren LZW
1985 Apostolico, Fraenkel, Fibonacci coding
1985 ARC-Programm (=LZW)
1986 PKARC-Programm (=LZW)
1986 Move-To-Front, (Bentley et.al., Ryabko)
1989 PKZIP-Programm (=LZ77+Huffman)

Siehe auch

Biologie

Auch in der
Biologie gibt es Kompressionsalgorithmen. So wird bei Eukaryonten die Information für Proteine nicht immer in einer zusammenhängenden DNA-Sequenz codiert. Durch ein System von Introns und Exons und die Verarbeitung der mRNA durch alternatives Splicing kann eine DNA-Sequenz die Information für mehrere unterschiedliche Eiweißee tragen. Der jeweilige Kompressionsalgorithmus wird dabei durch den Spleißvorgang und seine Regulation definiert.


Der Ursprungsartikel stammt von der deutschsprachigen Wiki pedia (siehe oben: "Original Artikel & Autoren Liste").
Der Text steht unter der GNU Freie Dokumentation Lizenz.



Webtipps: Branchenbuch Deutschland