文字コードの基本(文字集合・符号化方式)について、学んでいきます。
文字コードとは
我々が普段目にしている「あいうえお」といった文字は、そのままではコンピュータ側で理解することができません。コンピュータは「0」と「1」の2進数の世界で情報を認識しているためです。
我々が使用している文字をコンピュータが理解できる形に「符号化」(エンコード)するために文字コードという概念が存在します。
「符号化」(エンコード)の仕組み
コンピュータが理解できる形に「符号化」するためには2段階の手順があります。
「符号化文字集合」による割り当て
「符号化文字集合」(CCS: CodedCaracterSet)とは、各文字に一意(重複しない)番号が振られた、文字と番号の対応表です。この番号のことを「コードポイント」と呼びます。文字コードと言われると、なんとなくこういった対応表があるんだな・・・というのはイメージがつきますよね。ただ、この「符号化文字集合」ではコンピュータはまだ理解できないのです。
符号化文字集合は単に「文字集合」(キャラクターセット)とも呼ばれます。
「文字符号化方式」による割り当て
「文字符号化方式」(CES: CharacterEncodingScheme)を使って、「符号化文字集合」によって割り当てられた番号とを元に、コンピュータが認識できる数字に「符号化」(エンコード)します。
※「符号化方式」ごとに、対応する「文字集合」は異なります。
文字符号化方式は単に「符号化方式」とも呼ばれます。
符号化文字集合の例
Unicode
世界中の文字が収録された文字コードの規格です。
符号化形式としてUTF-8、UTF-16、UTF-32の3種類が定められています。
JISX0201
本語を扱える初の文字集合。その後、JIS X 02XXといった具合に進化していきます。
文字符号化方式の例
Shift-JIS
Windows標準の日本語文字コードとして採用されているため、よく知られていると思います。文字集合としてはJISX0201とJISX0208に対応しています。
UTF-8
世界で最も普及している符号化方式です。文字集合としてはUnicodeに対応しています。
まとめ
文字コードの基本としては「文字集合」と「符号化方式」の違いを理解する必要があります。
文字コードは難解ですが、少しずつ理解を深めていきたいです。
では良いブログライフを^^
あったかくして寝ろよ~