Infos Home | Impressum | Original Artikel & Autoren Liste


UTF-8

UTF-8 (Abk. für 8-bit Unicode Transformation Format) ist eine Kodierung für Unicode-Zeichen; dabei wird jedem Unicode-Zeichen eine speziell kodierte Byte-Kette von variabler Länge zugeordnet.

UTF-8 ist gegenwärtig als RFC www.ietf.org/rfc/rfc3629.txt 3629 standardisiert (UTF-8, a transformation format of ISO 10646). Dieser Standard löst das ältere RFC www.faqs.org/rfcs/rfc2279.html 2279 ab.

Unicode-Zeichen mit den Werten zwischen 0 und 127 (0 .. 7F hexadezimal) werden in der UTF-8-Kodierung als ein Byte mit dem gleichen Wert wiedergegeben. Insofern sind alle Daten, die ausschließlich echte ASCII-Zeichen verwenden, in beiden Darstellungen identisch.

Unicode-Zeichen größer als 127 werden in der UTF-8-Kodierung zu Byteketten der Länge zwei bis vier.

Unicode-Bereich UTF-8 Kodierung Bemerkungen
U0000 - U007F 0xxxxxxx In diesem Bereich (128 Zeichen) entspricht UTF-8 genau dem ASCII-Code: Das erste Bit ist 0, die darauf folgende 7-Bitkombination ist das ASCII-Zeichen.
U0080 - U07FF 110xxxxx 10xxxxxx Das erste Byte beginnt mit binär 11, die folgenden Bytes beginnen mit binär 10; die x stehen für die fortlaufende Bitkombination des Unicodezeichens. Die Anzahl der Einsen bis zur ersten 0 im ersten Byte ist die Anzahl der Bytes für das Zeichen.
U0800 - UFFFF 1110xxxx 10xxxxxx 10xxxxxx

U10000 - U10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Theoretisch ließe sich das Schema fortsetzen, die aktuelle RFC beschränkt die Zeichen jedoch auf die durch UTF-16 erreichbaren, also bis U10FFFF.

Betrachtet man die Bitfolgen etwas genauer, erkennt man die große Sinnfälligkeit von UTF-8:

Zu beachten: Siehe auch: UTF-7, UTF-16, UTF-32, Unicode


Der Ursprungsartikel stammt von der deutschsprachigen Wiki pedia (siehe oben: "Original Artikel & Autoren Liste").
Der Text steht unter der GNU Freie Dokumentation Lizenz.