Zeichenkodierung

Ein Zeichensatz oder Zeichensatzes, der besteht aus einem Code, der einen Satz von Zeichen, die einem Satz anderer Objekte, wie Zahlen oder elektrischen Pulsen assoziiert mit dem Ziel, die Lagerung eines Textes in einem Computer oder dessen Übertragung durch ein Telekommunikationsnetz. Gängige Beispiele sind das Morse-Code und ASCII-Kodierung.

Geschichte

Offiziell, der erste war der Morsecode, im Jahre 1840 geboren, gefolgt von der Sprache der in der Marine eingesetzt Fahnen.

Die Einführung von Teletype bringt der Baudot-Code 1930 5 Bits.

Im Jahr 1963 er die Standard-ASCII-7-Bit, das für die Geburt des Internet und die damit verbundenen Protokolle verwendet wird, war geboren. Im Jahre 1965 es zugelassen als US-ASCII, die im Jahr 1972 wurde zum Standard ISO 646.

Im Jahr 1981 sind Erweiterungen des ASCII-Code für Zeichen 128-255 von Codepages PC-DOS identifiziert und dann für die Abwärtskompatibilität in MS-DOS übergeben. Im Jahr 1985 wird die ISO-anerkannten Standards Codepages als ISO 8859-n, wobei n eine Zahl ist, die besonderen Codepages identifiziert.

Die Entstehung von Windows, auch in Asien, die zu Erweiterungen der orientalischen Sprachen im Jahr 1990 der Windows-Codepages.

Der verständliche babel aus dem Austausch von E-Mails und Dokumente zwischen den Ländern in verschiedenen Codepages resultierenden war das Objekt der Aufmerksamkeit, bevor mit dem Standard ISO 1986 ISO 2022, in Kraft, aber wenig benutzt, und dann mit dem Vorschlag aus dem Jahr 1991 Unicode 1.0, die , dass Version 1.1 von 1993 wurde die Norm ISO 10646, dem Universal Character Set oder UCS.

Der UCS-2, die zwei Bytes pro Zeichen verwendet, wurde von Microsoft in Windows NT seit 1995 verwendet und dann zu allen anderen Versionen erweitert.

Die Definitionen von Formaten UTF-8 und UTF-16 aus dem Jahr 1996 mit der Version 2.0 von Unicode. UTF wurde der POSIX-Standard de facto, und von RFC 3629 ratifiziert hat, wird sie auch vom W3C erkannt. Es gibt auch die UTF-7 und der UCS 4. Die UTF-16 ist eine Erweiterung von UCS 2.

Die nächste Version von Unicode 3.0 im Jahr 1999 eingeführt, eine bidirektionale und der Zusammensetzung von Tischen, während die 4.0 2001 gehören auch die alten Sprachen. Die 4.1 ist 2005, aber die Aktivitäten des Unicode Consortium ständig verändert.

Repertoires von Zeichen

In einigen Zusammenhängen, insbesondere bei der Speicherung und Kommunikation sinnvoll, zwischen Zeichenvorrat und die Kodierung der Zeichen zu unterscheiden, ist es, dass das System festgelegt, für die Zeichendarstellung eines bestimmten Satzes mit numerische Codes verwendet werden.

Nach der ersten Repertoire von Zeichen es erlebt einen Prozess der Standardisierung. Bald wurde deutlich, die Grenzen dieser Modelle der Repräsentation und wurde versucht, spezifische Methoden, um sie zu überwinden. Insbesondere ergibt sich die Notwendigkeit, eine zunehmende Anzahl von Zeichen ermöglicht einen klaren Bedarf für eine systematische Herangehensweise an das Problem. Ein Versuch, dies zu tun ist die Unicode-Codierung, dessen Repertoire umfasst mehr als hundert tausend Zeichen.

Hauptzeichenkodierungen

  • ISO 646
    • ASCII
  • EBCDIC
  • ISO 8859:
    • ISO 8859-1 Westeuropa
    • ISO 8859-2 Mittel- und Westeuropa
    • ISO 8859-3 Mittel- und Südeuropa
    • ISO 8859-4 Westeuropa und den baltischen Ländern
    • ISO 8859-5 Kyrillische
    • ISO 8859-6 arabische Alphabet
    • ISO 8859-7 griechischen Alphabets
    • ISO 8859-8 Alphabet jew
    • ISO 8859-9 westlichen und türkischen Zeichen
    • ISO 8859-10 Westeuropa und den nordischen Zeichen
    • ISO 8859-11 Alphabet Thai
    • ISO 8859-13 polnischen und baltischen Sprachen
    • ISO 8859-14 keltischen Sprachen
    • ISO 8859-15 ISO 8859-1 mit zusätzlichen Zeichen
    • ISO 8859-16 Central Europe
  • DOS-Zeichensätze:
    • CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869
  • Windows-Zeichensätze:
    • Windows-1250 Mitteleuropa
    • Windows-1251 Kyrillisch
    • Windows-1252 Westeuropa
    • Windows-1253 griechische Alphabet
    • Windows-1254 Alphabet Türkisch
    • Windows-1255 Alphabet jew
    • Windows 1256 arabische Alphabet
    • Windows-1257 Alphabet Baltic
    • Windows-1258 Alphabet Vietnamesisch
  • KOI8-R, KOI8-U, Koi7
  • ISCII
  • VISCII
  • Big5
    • HKSCS
  • Guobiao
    • GB2312
    • GB18030
  • ISO 2022, Shift-JIS, EUC
  • Unicode und Untergruppen. Siehe UTF-8
  0   0
Vorherige Artikel 2011 Grand Prix von Japan
Nächster Artikel UFC 3

In Verbindung Stehende Artikel

Kommentare - 0

Keine Kommentare

Fügen Sie einen Kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Zeichen übrig: 3000
captcha