Definiert einen Zeichensatz der möglichst alle Zeichen existierender (aktiver) Sprachen enthält
Zeichensatz → Zeichen + ihr Code
Definiert nicht die graphische Darstellung der Zeichen
nur das das Zeichen existiert, seinen Namen und seinen Code
die Darstellung muss durch entsprechende Fonts definiert werden
Jedes Zeichen hat einen Code-Point (eine (in der Regel) Hex-Zahl die für dieses Zeichen steht
Zeichenkodierung
die Darstellung von Unicode-Codepoints als 1 und 0
üblich ist UTF und am weitesten verbreitet sind UTF-8 und UTF-16, spezifiziert ist noch UTF-32
UTF (Unicode Transformation Format)
alle UTF-Kodierungen können alle Unicode-Codepoints kodieren/abbilden
die Zahl hinter UTF (z.B. UTF-8) gibt an wie viele Bits per Default für die Darstellung eines Zeichens verwendet wird
UTF-8 → 8 Bit aka. 1 Byte
UTF-16 → 16 Bit aka. 2 Byte
UTF-32 → 32 Bit aka. 4 Byte
UTF-8 ist in Europa gebräuchlich
die meisten Buchstaben/Zeichen in Europa sind über 1 Byte abbildbar (eigentlich über 7-Bit, das 8te hat eine besondere Bedeutung)
UTF-16 ist in Asien gebräuchlich
da mehr Zeichen notwendig sind (China)
UTF-32 ist nicht gebräuchlich
fixe Abbildung von Code-Points
Sinn von UTF-8 und UTF-16 ist nicht mehr Bits zu belegen als notwendig ist
wenn ein Unicode-Codepoint sich nicht über 8 bzw. 16 Bit passt wird ein weiteres Byte hinzugefügt
und ggf. noch eins, im Zweifel bis zu insgesamt 4 Byte belegt
d.h. UTF-8 nutzt dann z.B. 16 statt 8-Bit oder 24 oder 32
bei UTF-32 entspricht der Unicode-Codepoint exakt dem wie es auch kodiert wird
Copyright-Zeichen hat Code-Point 00A9 und wird als A9 (mit führenden 0en) kodiert
bei UTF-8 und UTF-16 müssen weitere Informationen (z.B. das ein weiteres Byte folgt) kodiert werden, weshalb die Unicode-Zeichenkodes nicht 1:1 kodiert werden
Copyright-Zeichen hat Unicode-Code-Point 00A9 und wird zu c2A9 in UTF-8