基礎理論 - 1.基礎理論 - 3.情報に関する理論 - 3.文字の表現

Last Update : April 04 2021 22:14:04

     

a. 代表的な文字コード

コンピュータで使用される文字は、2進数の文字コードで表現で対応付けている。

ASCII コード
ANSIが規定した7ビットのコード。パソコンなどで使用。
American Standard Code for Information Interchangeの略。 1963年 ANSI(米国規格協会)により制定され、コンピュータ用の英数字のコード体系としてもっとも普及しています。
ASCIIコードでは、7bitで128文字が割り当てられています。 英語圏であれば、アルファベットの大文字小文字、数字、その他記号を合わせても、128文字あれば十分に文章を表現できますが、 当然ながら日本語では、漢字、ひらがな、カタカナと文字種が多く、ASCIIコードの7bitでは、ほとんど表現できません。
1byteで表現する場合は、1bitのパリティを付加する。


上位ビット
00 10 20 30 40 50 60 70 80 90 A0 B0 C0 D0 E0 F0
下位ビット 00 NL DE SP          
01 SH D1        
02 SX D2        
03 EX D3        
04 ET D4        
05 EQ NK        
06 AK SN        
07 BL EB        
08 BS CN        
09 HT EM        
0A LF SB        
0B HM EC        
0C CL        
0D CR        
0E SO        
0F SI _ DL        


EUC ( Extended UNIX Code :拡張 UNIX コード)
Unix上で2バイトと1バイトを混在して使用。AT&T社が規定した文字コード
Extended Unix Code(拡張UNIXコード)の略。 UNIXで使用されていた文字コードを、世界各国で使用可能なように拡張したコード体系です。 EUCはUNIXでは一般的に利用されている文字コードで、WWWサーバで公開されているHTML文章も、EUC文字コードで作成されているものが数多くあります。

JIS コード
JIS が規定。漢字も含む。漢字・ひらがなは2パイトで1文字。英数字・記号などは1バイトで1文字を表す。

シフト JIS コード
JIS漢字コードをシフトさせることでASCIIとの混在が可能。パソコンで利用。
Microsoft社によって策定された日本語文字コード体系です。 JIS の2バイトコードとASCIIの1バイトコードを混在させた2バイトコード体系です。
文字の1バイト目を見るだけで漢字か1バイト文字(いわゆる半角英数字)か分かるので日本語処理が容易であり、同社のMS-DOSやWindowsなど、日本語を扱うパソコンの標準文字コードとして広く普及しています。 (※ WindowsNT4.0以降は、内部文字コードはUnicodeで動作しています)

Unicode
世界各国の文字を統一コードで表現するための規格。すべての文字を2バイトで表現。ISO(国際標準化機構)とIEC(国際電気標準会議)が制定した国際規格。
Apple社、IBM社、Microsoft社などが提唱する、各国語対応のために制定された2バイトの文字コード体系です。 これまでの文字コードは、欧文の1バイトの文字コードに2バイト文字コードを加えることで各国語に対応してきましたが、1バイト文字と2バイト文字が混在するデータでは、正しい文章を表示するために特殊な処理などが必要となってしまいます。 そこで、Unicodeでは、こうした特殊な処理が不要となるよう、はじめから各国の文字コードセットを2バイト文字として含めるようにしています。 ただし、2バイトでは、最大65,536文字しか表現できないため、部分的に3バイト以上を使用する体系に変化しています。

Unicodeでは、すべての文字はU+0000~U+10FFFFの範囲に割り当てられています。そしてこのUnicode値 (Unicode value) はコードポイント (Code point) とよばれます。
・UTF-8 : コードポイントがU+7Fまでなら変換せず8bitで、それ以降は値に応じて16~48bit
・UTF-16 : コードポイントがU+FFFFまでなら変換せず16bitで、それ以降は32bit
・UTF-32 : コードポイントを変換せず、つねに32bit
の3つのエンコーディング方式 (符号化方式) により符号化されます。

UCS 】(Universal Coded Character Set) (ISO/IEC 10646)
IISO(国際標準化機構)とIEC(国際電気標準会議)の合同委員会(JTC1)が策定した文字コードの国際標準で、内容的にUnicodeと実質的に同じもの。
・UCS-2 : 16ビット
・UCS-4 : 31ビット

UTF 】(UCS Transformation Format)
UTFとは、UCS-2やUCS-4で記述された文字列を、バイト列に変換する方式です。これには次の4種類があります。
・UTF-7 : 7ビットで表現 (メールで使用)
・UTF-8 : 1文字を1~6バイトの可変長のバイト列に変換
・UTF-16 : UCS-2の中に、UCS-4の一部の文字を埋め込む
・UTF-32 : すべてのUCS-4文字を、4バイトで表現

EBCDIC
IBMが規定した汎用コンピュータ用のコードで、8ビットで1文字を表現します。
Extended Binary Coded Decimal Interchange Codeの略


  [ 例題 ] 
  1. 平成19年度春期 問69  Unicode
  2. 平成18年度春期 問08  JISコード
  3. 平成18年度春期 問69  文字符号
  4. 平成16年度春期 問73  Unicode
  5. 平成15年度秋期 問09  ビット
  6. 平成13年度春期 問72  EUC 文字コード
  7. 平成13年度秋期 問73  文字コード
  8. 平成12年度秋期 問72  シフトJISコード
  9. 平成10年度秋期 問68  EUC


     

www.it-shikaku.jp