文字コードの基本(文字集合・符号化方式)について

charactor-codeIT

文字コードの基本(文字集合・符号化方式)について、学んでいきます。

文字コードとは

我々が普段目にしている「あいうえお」といった文字は、そのままではコンピュータ側で理解することができません。コンピュータは「0」と「1」の2進数の世界で情報を認識しているためです。

我々が使用している文字をコンピュータが理解できる形に「符号化」(エンコード)するために文字コードという概念が存在します。

「符号化」(エンコード)の仕組み

コンピュータが理解できる形に「符号化」するためには2段階の手順があります。

「符号化文字集合」による割り当て

「符号化文字集合」(CCS: CodedCaracterSet)とは、各文字に一意(重複しない)番号が振られた、文字と番号の対応表です。この番号のことを「コードポイント」と呼びます。文字コードと言われると、なんとなくこういった対応表があるんだな・・・というのはイメージがつきますよね。ただ、この「符号化文字集合」ではコンピュータはまだ理解できないのです。

符号化文字集合は単に「文字集合」(キャラクターセット)とも呼ばれます。

「文字符号化方式」による割り当て

「文字符号化方式」(CES: CharacterEncodingScheme)を使って、「符号化文字集合」によって割り当てられた番号とを元に、コンピュータが認識できる数字に「符号化」(エンコード)します。
※「符号化方式」ごとに、対応する「文字集合」は異なります。

文字符号化方式は単に「符号化方式」とも呼ばれます。

符号化文字集合の例

Unicode

世界中の文字が収録された文字コードの規格です。

符号化形式としてUTF-8、UTF-16、UTF-32の3種類が定められています。

JISX0201

本語を扱える初の文字集合。その後、JIS X 02XXといった具合に進化していきます。

文字符号化方式の例

Shift-JIS

Windows標準の日本語文字コードとして採用されているため、よく知られていると思います。文字集合としてはJISX0201とJISX0208に対応しています。

UTF-8

世界で最も普及している符号化方式です。文字集合としてはUnicodeに対応しています。

まとめ

文字コードの基本としては「文字集合」と「符号化方式」の違いを理解する必要があります。

文字コードは難解ですが、少しずつ理解を深めていきたいです。

では良いブログライフを^^

あったかくして寝ろよ~