Benutzer-Werkzeuge

Webseiten-Werkzeuge


unicode
  • Definiert einen Zeichensatz der möglichst alle Zeichen existierender (aktiver) Sprachen enthält
    • Zeichensatz → Zeichen + ihr Code
  • Definiert nicht die graphische Darstellung der Zeichen
    • nur das das Zeichen existiert, seinen Namen und seinen Code
    • die Darstellung muss durch entsprechende Fonts definiert werden
  • Jedes Zeichen hat einen Code-Point (eine (in der Regel) Hex-Zahl die für dieses Zeichen steht

Zeichenkodierung

  • die Darstellung von Unicode-Codepoints als 1 und 0
  • üblich ist UTF und am weitesten verbreitet sind UTF-8 und UTF-16, spezifiziert ist noch UTF-32
  • UTF (Unicode Transformation Format)
  • alle UTF-Kodierungen können alle Unicode-Codepoints kodieren/abbilden
  • die Zahl hinter UTF (z.B. UTF-8) gibt an wie viele Bits per Default für die Darstellung eines Zeichens verwendet wird
    • UTF-8 → 8 Bit aka. 1 Byte
    • UTF-16 → 16 Bit aka. 2 Byte
    • UTF-32 → 32 Bit aka. 4 Byte
  • UTF-8 ist in Europa gebräuchlich
    • die meisten Buchstaben/Zeichen in Europa sind über 1 Byte abbildbar (eigentlich über 7-Bit, das 8te hat eine besondere Bedeutung)
  • UTF-16 ist in Asien gebräuchlich
    • da mehr Zeichen notwendig sind (China)
  • UTF-32 ist nicht gebräuchlich
    • fixe Abbildung von Code-Points
  • Sinn von UTF-8 und UTF-16 ist nicht mehr Bits zu belegen als notwendig ist
  • wenn ein Unicode-Codepoint sich nicht über 8 bzw. 16 Bit passt wird ein weiteres Byte hinzugefügt
    • und ggf. noch eins, im Zweifel bis zu insgesamt 4 Byte belegt
    • d.h. UTF-8 nutzt dann z.B. 16 statt 8-Bit oder 24 oder 32
  • bei UTF-32 entspricht der Unicode-Codepoint exakt dem wie es auch kodiert wird
    • Copyright-Zeichen hat Code-Point 00A9 und wird als A9 (mit führenden 0en) kodiert
  • bei UTF-8 und UTF-16 müssen weitere Informationen (z.B. das ein weiteres Byte folgt) kodiert werden, weshalb die Unicode-Zeichenkodes nicht 1:1 kodiert werden
    • Copyright-Zeichen hat Unicode-Code-Point 00A9 und wird zu c2A9 in UTF-8
unicode.txt · Zuletzt geändert: 2022/07/15 09:50 von root