Dr. Christian A. Caroli – د. كْرِسْتْيَان أ. كَارُلِي

Zeichensätze

Systeme der Zeichenkodierung

Traditionelle Zeichensätze

Bei der traditionellen Zeichenkodierung beinhaltet jedes Byte genau ein Zeichen. Somit stehen für einen Zeichensatz bis zu 256 Zeichen zur Verfügung, zu denen aber auch Steuerzeichen wie z.B. das Leerzeichen oder der Zeilenumbruch gehören.

Daher war es bei den früheren Zeichensätzen z.B. für das Alt-Griechische üblich, daß die Kodes für die lateinischen Buchstaben mit den Graphiken für griechische Buchstaben verknüpft wurden. So wurde in aller Regel der Kode für das lateinische a mit einer graphischen Darstellung des griechischen α verbunden.

Der Nachteil dieser Variante bestand darin, daß beim Datenaustausch der Empfänger denselben Zeichensatz besitzen mußte, da die verschiedenen Zeichensätze v.a. im Bereich der Akzente in ihrer Zuordnung voneinander abweichen konnten. Diese Probleme ergaben sich auch bei Änderungen des Zeichensatzes z.B. aus Designgründen.

Werden Texte, die mit Hilfe eines solchen Zeichensatzes erstellt wurden, in einem Nur-Text-Editor betrachtet, so erscheinen nur die Zeichen und Sonderzeichen der Standardtastatur.

 

Der Unicode-Standard

Beim Unicode-Standard besteht hingegen die Möglichkeit, ein Zeichen über mehrere Bytes hinweg zu kodieren. Hierbei stehen für einen Zeichensatz in der einfachen Variante bis zu 65.536 Zeichen zur Verfügung, die nach momentanem Stand mittels sogenannten Planes bis auf theoretisch bis zu 1.114.112 Zeichen erweitert werden können.

Der Vorteil dieses Systems besteht darin, daß die Zeichen nicht-lateinischer Alphabete jeweils ihren eigenen Kode erhalten. Dadurch ergibt sich die Möglichkeit, daß zum einen mit Hilfe ein und desselben Zeichensatzes die Zeichen verschiedener Alphabete dargestellt werden können und zum anderen die Texte auch in einen anderen Zeichensatz übertragen werden können.

Werden Texte, die mittels Unicode kodiert sind, in einem Nur-Text-Editor betrachtet, der Unicode unterstützt, so erscheinen die Zeichen der jeweiligen Alphabete. So verwendet z.B. diese Internetpräsenz diesen Standard, so daß bei Bedarf Zeichen aus verschiedenen Alphabeten nebeneinandergestellt werden können (z.B.: abc – αβγ – אבג – ابج).

Innerhalb des Unicode-Standards gibt es wiederum verschiedene Unicode Transformation Formats (UTF). Sie dienen zur Kodierung der Unicode-Zeichen über die Bytes eines Zeichens hinweg. Ihr Sinn besteht darin, bei der Verwendung gängiger Zeichen – v.a. bei denen des lateinischen Alphabets – den Speicherbedarf zu reduzieren. Werden bei UTF-32 für jedes Zeichen vier Bytes benötigt, so werden bei UTF-16 für die gängigeren Zeichen nur zwei Bytes verwendet und erst bei Bedarf zwei weitere hinzugefügt, während bei UTF-8 die Anzahl der benötigten Bytes von eins bis vier variieren kann. Die Unicode Transformation Standards sind allesamt geeignet zur Darstellung aller Unicode-Zeichen und untereinander verlustfrei konvertierbar.

Allerdings gibt es keinen einzigen Zeichensatz, der auch nur annähernd den gesamten Zeichenbereich des Unicode-Standards beinhaltet, sondern alle beschränken sich auf bestimmte Bereiche.

Weitergehende Informationen und Neuigkeiten zum Unicode-Standard können unter der offiziellen Internetpräsenz von The Unicode Consortium gefunden werden.

 

Gängige Unicode-Zeichensätze

Im folgenden werden einige gängige Zeichensätze aufgelistet, die auf dem Unicode-Standard basieren. Diese Liste ist bei weitem nicht vollständig. Außerdem sei angemerkt, daß nicht jeder Zeichensatz unter jedem Betriebssystem für jedes Alphabet geeignet ist.

 

ALPHABETUM Unicode Font

Stil

mit Serifen

Zeichenbereiche (u.a.)

Latein (erweitert), Umschrift, (Alt-)Griechisch, Hebräisch, diverse andere Sprachen der Antike

Quelle

http://guindo.pntic.mec.es/~jmag0042/alphabet.html (kostenpflichtiges Produkt)

Anmerkungen

Privat programmierter Zeichensatz mit Schwerpunkt auf den Altertumswissenschaften. Enthält viele Zeichen, die in den gängigen Zeichensätzen nicht vorkommen, aber z.B. bei der Darstellung griechischer Inschriften relevant sein können (z.B. Epsilon mit Zirkumflex). Weist im Schriftbild gewisse Unregelmäßigkeiten auf. Varianten für kursive und fette Schrift erst im Anfangsstadium.

 

Arial

Stil

ohne Serifen

Zeichenbereiche (u.a.)

Latein (erweitert), Umschrift, (Alt-)Griechisch, Hebräisch, Arabisch

Quelle

Wird mit Microsoft Windows ausgeliefert

Anmerkungen

Unter den bei Windows mitgelieferten Zeichensätzen der mit dem größten Zeichenbereich, schon unter Windows XP sehr tauglich. Vor Windows 7 nicht zur Darstellung arabischer interlinearer Zeichen geeignet (Nutzung einer Funktion des Betriebssystems).

 

Cardo

Stil

mit Serifen (eckig)

Zeichenbereiche (u.a.)

Latein (erweitert), (Alt-)Griechisch, Hebräisch

Quelle

http://scholarsfonts.net/cardofnt.html (kostenloses Produkt)

Anmerkungen

Privat programmierter Zeichensatz mit Schwerpunkt auf den Altertumswissenschaften.

 

Code2000

Stil

mit Serifen

Zeichenbereiche (u.a.)

Latein (erweitert), Umschrift, (Alt-)Griechisch, Hebräisch, Arabisch

Quelle

http://www.code2000.net
(Shareware, momentan nur über Wayback Machine: https://web.archive.org/web/20110108105420/http://code2000.net/)

Anmerkungen

Privat programmierter Zeichensatz, der möglichst viele Zeichen des Plane 0 beinhaltet. Weist im Schriftbild gewisse Unregelmäßigkeiten auf. Nicht geeignet für arabische Texte mit interlinearen Zeichen. Varianten für kursive und fette Schrift stehen nicht zur Verfügung.

 

New Athena Unicode Font

Stil

mit Serifen, Griechisch im klassischen Stil

Zeichenbereiche (u.a.)

Latein (erweitert), Umschrift, (Alt-)Griechisch

Quelle

http://apagreekkeys.org/NAUdownload.html (kostenloses Produkt)

Anmerkungen

Zur Verfügung gestellt von der American Philological Association. Varianten für kursive und fette Schrift fehlen.

 

Simplified Arabic

Stil

mit Serifen

Zeichenbereiche (u.a.)

Latein, Arabisch

Quelle

Wird mit Microsoft Windows ausgeliefert

Anmerkungen

Arabischer Zeichensatz ohne Ligaturen (abgesehen von لا). Eignet sich insbesondere bei Windows XP und Windows Vista für Texte mit interlinearen Zusatzzeichen. Bei Windows 7 wird allerdings das ه falsch dargestellt. Lateinischer Zeichenbereich wird nur notdürftig wiedergegeben.

 

Times New Roman

Stil

mit Serifen

Zeichenbereiche (u.a.)

Latein (erweitert), Umschrift, (Alt-)Griechisch, Hebräisch, Arabisch

Quelle

Wird mit Microsoft Windows ausgeliefert

Anmerkungen

Unter Windows XP u.a. noch griechische Akzente und Umschrift fehlend, daher erst ab Windows Vista zu empfehlen. Vor Windows 7 nicht zur Darstellung arabischer interlinearer Zeichen geeignet (Nutzung einer Funktion des Betriebssystems).

 

Traditional Arabic

Stil

mit Serifen

Zeichenbereiche (u.a.)

Latein, Arabisch

Quelle

Wird mit Microsoft Windows ausgeliefert

Anmerkungen

Arabischer Zeichensatz mit Ligaturen. Recht schmal. Eignet sich insbesondere bei Windows XP und Windows Vista für Texte mit interlinearen Zusatzzeichen. Bei Windows 7 wird allerdings das ه falsch dargestellt. Lateinischer Zeichenbereich wird nur notdürftig wiedergegeben.