自身のアウトプットも兼ねてつれづれと書き続けるブログ。
HTML解体新書ー仕様から紐解く本格入門 [ 太田 良典 ]
前回からの続きです。
文字のデジタル表現[05]
【ASCII(American Standard Code for Information Interchange)】
制御文字、アルファベット、数字、記号などが定義されており今ではASCII文字と呼ばれている。
【文字コード(character code)】
ASCIIは128種類の文字に対して、7びっとのビット列を割り当てています。下記のようにイメージです
- (スペース)→0100000(32, 0*20)
- 0→0110000(48, 0*30)
- A→1000001(65, 0*41)
- a→1100001(97, 0*67)
カッコ内はビット列を10進数、16進数で書いたものです。
これらのように文字に振り分けられた番号を文字コード(character code)と呼びます。
【符号化文字集合体】
ASCIIは128種類の文字にしか対応していなく英語圏以外での使用は問題があります。そこでASCIIを拡張する形で、さまざまな文字コードの規格が作られました。
例えばISON/IEC8859-1という規格です。ISON/IEC8859-1では通貨記号(€、$)、フランス語などに使われるアクセント付き文字(à,è,ù )、ドイツ語などで使われるウムラウト文字(ä,ü,ö)など追加されています。
このように番号を付けた文字の集まりのことを符号化文字集合(coded character set)と呼び、特定の符号化文字集合における文字の番号をコードポイント(csde point)もしくは符号位置と呼びます。
広く一般的に使用されているのがUnicodeと呼ばれる規格です。各国の言葉にも対応し絵文字もカバーしています。
【文字エンコーディング】
文字を実際のビット列に変換することを符号化(encode, encoding)といい、この符号化を行う際の変換ルールを文字エンコーディング(character encoding)といいます。
次未定