Perl/日本語処理/文字コード操作の前提知識 - yanor.net/wiki

全文検索

Perl/日本語処理

文字コード操作の前提知識

文字列には2種類の状態がある

内部文字列（UTF8フラグ付き）
バイト列（UTF8フラグなし）

注意するのは

UTF8フラグと文字コードは無関係な事。例えば「UTF8フラグ付きなSJISの文字列」「UTFフラグなしなUTF8の文字列」というのはあり得る。「バイト列」「内部文字列」という用語を使った方が分かりやすい。

内部文字列とバイト列の違い

内部文字列

 $str = 'あいうえお';    # $str が内部文字列の状態であると仮定すると、
 say length($str);       # length()は$strを5文字と解釈する。

バイト列

 $bytes = 'あいうえお';  # $bytes がバイト列の状態であると仮定すると、
 say length($bytes);     # length()は$strを10文字と解釈する。

内部文字列とバイト列の使い分け

通常、Perlスクリプト内では、文字列は内部文字列の状態で扱う。
しかし、文字列をファイルや標準出力に書き込む場合は、バイト列の状態でなければならない。
また、文字列をファイルや標準入力から読み込む場合、バイト列の状態でやってくる。
この為、必要に合わせて、内部文字列とバイト列の状態を変換する。

内部文字列とバイト列の状態を変換する方法

バイト列から内部文字列へ

 my $str = Encode::decode('utf8', $bytes);

内部文字列からバイト列へ

 my $bytes = Encode::encode('utf8', $str);

内部文字列・バイト列の変換をする際に文字コードの変換も一緒に出来る

例えば、

 my $str = decode('sjis',$bytes);

でUTF8フラグなしなSJISの文字コードの文字列をUTF8フラグ付きなUTF8の文字列する。

最新の30件

2023-11-03

Windows/エクスプローラー/レジストリでアプリケーションの関連付けをする

2023-10-30

2023-10-26

2023-10-23

Windows-アプリケーション/Mery

2023-10-10

2023-10-03

2023-09-09

2023-08-27

2023-07-30

2023-07-22

2023-06-13

2023-06-11

Node.js/環境構築/Volta/yarnのバージョンを指定してインストールする

更新履歴一覧

Last-modified: 2011-01-07 (金) 05:57:30