|
http://www.archmatic.com/glossar/z_unicode.htm
Jeder, der ausgiebig im Internet unterwegs ist, kennt das: Suchmaschinen spucken Ergebnisse manchmal als Buchstabensuppe aus, Seiten aus Skandinavien sehen aus, als hätte man mit der Schrotflinte auf den Text geschossen, und auf russischen oder asiatischen Seiten herrscht typographischer Notzustand: !&%ü?. Ursache dafür sind unterschiedliche Zeichensätze in den jeweiligen Ländern: 1965 hatte das amerikanische Institut für Normung, ANSI, den amerikanischen Standard-Code für Informationsaustausch festgelegt, der erst einmal mit 7 Bit und 128 Zeichen auskam und auf Umlaute und andere Sonderzeichen verzichtete - siehe ASCII. Anfang der 70er Jahre nutzten deutsche Informatiker die Codeplätze der eckigen Klammern, um Umlaute darzustellen. Auch in anderen Ländern entstanden eigene Zeichensätze. Mit der Einführung des PC verwendete IBM das 8. Bit eines kompletten Bytes für Sonderzeichen wie Umlaute. Der IBM-Zeichensatz enthielt zwar die 128 ASCII-Zeichen an den ursprünglichen Stellen, doch genauso viele Zeichen unterschieden sich. Die internationale Organisation für Normen, ISO, begegnete in den 80er Jahren dem Wildwuchs bei den 8-Bit-Codierungen recht erfolgreich mit der Serie von ISO-8859- Standards. Weitverbreitet ist ISO 8859-1, oft auch ISO Latin-1 genannt. In ihm sind die Zeichen der meisten europäischen Sprachen zusammengefaßt. Im Chinesischen, Japanischen und Koreanischen bilden aber nicht Buchstaben die kleinsten Texteinheiten, sondern Schriftzeichen, von denen es Zehntausende gibt. Das sprengt das Fassungsvermögen einer 8-Bit-Codierung; man verwendet deshalb in Fernost eine 16-Bit-Codierung und spezielle Umschaltverfahren, die mit reservierten Steuerzeichen arbeiten. Ein Über-Alphabet - Unicode - soll den Wirrwarr beenden Ende der 80er Jahre wurde der Ruf nach einem neuen internationalen Standard für die Zeichendarstellung laut. Er sollte ganz ohne Sonderfälle auskommen und möglichst alle Zeichen aller Sprachen des Planeten in einem Zahlenraum vereinigen. Unicode war geboren. In Unicode hat jedes Zeichen einen 16-Bit-Code. Die ersten 256 Plätze entsprechen ISO Latin-1. Die Rückwärtskompatibilität ist jedoch nicht so einfach. Wenn nicht besondere Codierungen (UTF-8) verwendet werden, wird der Buchstabe A in Unicode zu 0041, der ASCII-Code wäre dagegen 41 (jeweils hexadezimal). Innerhalb des 65 536 Werte umfassenden Zahlenraums ("code space") sind zusammengehörige Zeichen in sogenannten Skripten zusammengefaßt:
Unicode genügen vier Steuerzeichen:
Das Steuerzeichen für die Schreibrichtung von rechts nach links kommt zum Beispiel im Arabischen vor, das Steuerzeichen von links nach rechts hingegen nur am Ende einer gegenläufigen Passage als Markierung für den Richtungswechsel. Der Standard faßt allmählich Fuß: Sowohl Java als auch Windows NT arbeiten intern mit Unicode. NT enthält mit Lucida Sans Serif einen 1300 Zeichen umfassenden Font. Und auch das neue MacOS 8.1 von Apple gestattet Dateinamen in Unicode. Außerdem hat das World-Wide Web Consortium (WWWC bzw. W3C) Unicode in den zukünftigen Standard von HTML4.0 aufgenommen. Jetzt liegt es vor allem an den Anwendungsentwicklern, ob Internet oder Textverarbeitungen wirklich zu universellen Werkzeugen werden. |
|||
| Copyright: Alfons Oebbeke, Neustadt 1997 bis 1999 | |
| Navigation ohne Frames: |
| # A B C D E F G H I J K L M N O P Q R S T U V W X Y Z |