文字コードの基本（文字集合・符号化方式）について - あみかんの行動力を養うためのブログ

文字コードの基本（文字集合・符号化方式）について、学んでいきます。

文字コードとは
「符号化」（エンコード）の仕組み
1. 「符号化文字集合」による割り当て
2. 「文字符号化方式」による割り当て
符号化文字集合の例
1. Unicode
2. JISX0201
文字符号化方式の例
1. Shift-JIS
2. UTF-8
まとめ

文字コードとは

我々が普段目にしている「あいうえお」といった文字は、そのままではコンピュータ側で理解することができません。コンピュータは「0」と「1」の2進数の世界で情報を認識しているためです。

我々が使用している文字をコンピュータが理解できる形に「符号化」（エンコード）するために文字コードという概念が存在します。

「符号化」（エンコード）の仕組み

コンピュータが理解できる形に「符号化」するためには２段階の手順があります。

「符号化文字集合」による割り当て

「符号化文字集合」（CCS: CodedCaracterSet）とは、各文字に一意（重複しない）番号が振られた、文字と番号の対応表です。この番号のことを「コードポイント」と呼びます。文字コードと言われると、なんとなくこういった対応表があるんだな･･･というのはイメージがつきますよね。ただ、この「符号化文字集合」ではコンピュータはまだ理解できないのです。

符号化文字集合は単に「文字集合」（キャラクターセット）とも呼ばれます。

「文字符号化方式」による割り当て

「文字符号化方式」（CES: CharacterEncodingScheme）を使って、「符号化文字集合」によって割り当てられた番号とを元に、コンピュータが認識できる数字に「符号化」（エンコード）します。
※「符号化方式」ごとに、対応する「文字集合」は異なります。

文字符号化方式は単に「符号化方式」とも呼ばれます。

符号化文字集合の例

Unicode

世界中の文字が収録された文字コードの規格です。

符号化形式としてUTF-8、UTF-16、UTF-32の3種類が定められています。

JISX0201

本語を扱える初の文字集合。その後、JIS X 02XXといった具合に進化していきます。

文字符号化方式の例

Shift-JIS

Windows標準の日本語文字コードとして採用されているため、よく知られていると思います。文字集合としてはJISX0201とJISX0208に対応しています。

UTF-8

世界で最も普及している符号化方式です。文字集合としてはUnicodeに対応しています。

まとめ

文字コードの基本としては「文字集合」と「符号化方式」の違いを理解する必要があります。

文字コードは難解ですが、少しずつ理解を深めていきたいです。

では良いブログライフを^^

あったかくして寝ろよ～