Commit | Line | Data |
---|---|---|
5a310f9b | 1 | =encoding utf8 |
a5921eb1 | 2 | |
d8416318 JH |
3 | =head1 NAME |
4 | ||
5a310f9b | 5 | perljp - 日本語 Perl ガイド |
d8416318 | 6 | |
5a310f9b | 7 | =head1 説明 |
d8416318 | 8 | |
5a310f9b | 9 | Perl の世界へようこそ! |
d8416318 | 10 | |
5a310f9b | 11 | Perl 5.8.0 より、Unicodeサポートが大幅に強化され、その結果ラテン文字以外の文字コードのサポートが CJK (中国語、日本語、ハングル)を含めて加わりました。Unicodeは世界中の文字を一つの文字コードで扱うことを目指した標準規格であり、東から西、はたまたその間の文字(ギリシャ文字、キリール文字、アラビア文字、ヘブライ文字、ディーヴァナガーリ文字、などなど)や、これまではOSベンダーが独自に定めていた文字(PCおよびMacintosh)がすでに含まれています。 |
d8416318 | 12 | |
5a310f9b | 13 | Perl 自身は Unicode で動作します。Perl スクリプト内の文字列リテラルや正規表現は Unicode を前提としています。そして入出力のためには、これまで使われてきたさまざまな文字コードに対応するモジュール、「 Encode 」が標準装備されており、Unicode とこれらの文字コードの相互変換も簡単に行えるようになっています。 |
d8416318 | 14 | |
5a310f9b | 15 | 現時点で Encode がサポートする文字コードは以下のとおりです。 |
d8416318 JH |
16 | |
17 | 7bit-jis AdobeStandardEncoding AdobeSymbol AdobeZdingbat | |
18 | ascii big5 big5-hkscs cp1006 | |
19 | cp1026 cp1047 cp1250 cp1251 | |
20 | cp1252 cp1253 cp1254 cp1255 | |
21 | cp1256 cp1257 cp1258 cp37 | |
22 | cp424 cp437 cp500 cp737 | |
23 | cp775 cp850 cp852 cp855 | |
24 | cp856 cp857 cp860 cp861 | |
25 | cp862 cp863 cp864 cp865 | |
26 | cp866 cp869 cp874 cp875 | |
27 | cp932 cp936 cp949 cp950 | |
28 | dingbats euc-cn euc-jp euc-kr | |
29 | gb12345-raw gb2312-raw gsm0338 hp-roman8 | |
30 | hz iso-2022-jp iso-2022-jp-1 iso-8859-1 | |
31 | iso-8859-10 iso-8859-11 iso-8859-13 iso-8859-14 | |
32 | iso-8859-15 iso-8859-16 iso-8859-2 iso-8859-3 | |
33 | iso-8859-4 iso-8859-5 iso-8859-6 iso-8859-7 | |
34 | iso-8859-8 iso-8859-9 iso-ir-165 jis0201-raw | |
35 | jis0208-raw jis0212-raw johab koi8-f | |
36 | koi8-r koi8-u ksc5601-raw MacArabic | |
37 | MacCentralEurRoman MacChineseSimp MacChineseTrad MacCroatian | |
38 | MacCyrillic MacDingbats MacFarsi MacGreek | |
39 | MacHebrew MacIcelandic MacJapanese MacKorean | |
40 | MacRoman MacRomanian MacRumanian MacSami | |
41 | MacSymbol MacThai MacTurkish MacUkrainian | |
42 | nextstep posix-bc shiftjis symbol | |
43 | UCS-2BE UCS-2LE UTF-16 UTF-16BE | |
44 | UTF-16LE UTF-32 UTF-32BE UTF-32LE | |
45 | utf8 viscii | |
46 | ||
5a310f9b | 47 | (全114種類) |
d8416318 | 48 | |
5a310f9b | 49 | 例えば、文字コードFOOのファイルをUTF-8に変換するには、以下のようにします。 |
d8416318 JH |
50 | |
51 | perl -Mencoding=FOO,STDOUT,utf8 -pe1 < file.FOO > file.utf8 | |
52 | ||
5a310f9b | 53 | また、Perlには、全部がPerlで書かれた文字コード変換ユーティリティ、piconvも付属しているので、以下のようにすることもできます。 |
d8416318 JH |
54 | |
55 | piconv -f FOO -t utf8 < file.FOO > file.utf8 | |
56 | piconv -f utf8 -t FOO < file.utf8 > file.FOO | |
57 | ||
58 | =head2 About (jcode.pl|Jcode.pm|JPerl) | |
59 | ||
4b05bc8e | 60 | 5.8以前の、スクリプトがEUC-JPであればリテラルだけは扱うことができました。また、入出力を扱うモジュールとしてはJcode.pmが( L<http://openlab.ring.gr.jp/Jcode/> )、perl4用のユーティリティとしてはjcode.plがそれぞれ存在し、日本語の扱えるCGIでよく利用されていることを御存じの方も少なくないかと思われます。ただし、日本語による正規表現をうまく扱うことは不可能でした。 |
d8416318 | 61 | |
4b05bc8e | 62 | 5.005以前のPerlには、日本語に特化したローカライズ版、Jperlが存在しました( L<http://homepage2.nifty.com/kipp/perl/jperl/index.html> )。また、Mac OS 9.x/Classic用のPerl、MacPerlの日本語版もMacJPerlとして存在してました。( L<http://habilis.net/macjperl/> ).これらでは文字コードとしてEUC-JPに加えShift_JISもそのまま扱うことができ、また日本語による正規表現を扱うことも可能でした。 |
d8416318 | 63 | |
5a310f9b | 64 | Perl5.8では、これらの機能がすべてPerl本体だけで実現できる上に、日本語のみならず上記114の文字コードをすべて、しかも同時に扱うことができます。さらに、CPANなどから新しい文字コード用のモジュールを入手することも簡単にできるようになっています。 |
d8416318 JH |
65 | |
66 | =over 4 | |
67 | ||
fe30b7f4 JH |
68 | =item * |
69 | ||
5a310f9b | 70 | 入出力 |
d8416318 | 71 | |
5a310f9b | 72 | 以下の例はいづれもShift_JISの入力をEUC-JPに変換して出力します。 |
d8416318 JH |
73 | |
74 | # jcode.pl | |
75 | require "jcode.pl"; | |
76 | while(<>){ | |
1d587bbd | 77 | jcode::convert(*_, 'euc', 'sjis'); |
d8416318 JH |
78 | print; |
79 | } | |
80 | # Jcode.pm | |
81 | use Jcode; | |
82 | while(<>){ | |
83 | print Jcode->new($_, 'sjis')->euc; | |
84 | } | |
85 | # Perl 5.8 | |
86 | use Encode; | |
87 | while(<>){ | |
88 | from_to($_, 'shiftjis', 'euc-jp'); | |
89 | print; | |
90 | } | |
5a310f9b | 91 | # Perl 5.8 - encoding を利用して |
1d587bbd | 92 | use encoding 'euc-jp', STDIN => 'shiftjis'; |
d8416318 JH |
93 | while(<>){ |
94 | print; | |
95 | } | |
96 | ||
fe30b7f4 JH |
97 | =item * |
98 | ||
5a310f9b | 99 | Jperl 互換スクリプト |
d8416318 | 100 | |
5a310f9b | 101 | いわゆる"shebang"を変更するだけで、Jperl用のscriptのほとんどは変更なしに利用可能だと思われます。 |
818c4caa | 102 | |
d8416318 | 103 | #!/path/to/jperl |
5a310f9b | 104 | ↓ |
d8416318 | 105 | #!/path/to/perl -Mencoding=euc-jp |
818c4caa | 106 | |
5a310f9b | 107 | 詳しくは perldoc encoding を参照してください。 |
d8416318 JH |
108 | |
109 | =back | |
110 | ||
5a310f9b | 111 | =head2 さらに詳しく |
d8416318 | 112 | |
5a310f9b | 113 | Perlには膨大な資料が付属しており、Perlの新機能やUnicodeサポート、そしてEncodeモジュールの使用法などが細かく網羅されています(残念ながら、ほとんど英語ではありますが)。以下のコマンドでそれらの一部を閲覧することが可能です。 |
d8416318 | 114 | |
5a310f9b LT |
115 | perldoc perlunicode # PerlのUnicodeサポート全般 |
116 | perldoc Encode # Encodeモジュールに関して | |
117 | perldoc Encode::JP # うち日本語文字コードに関して | |
d8416318 | 118 | |
5a310f9b | 119 | =head2 Perl全般に関する URL |
d8416318 JH |
120 | |
121 | =over 4 | |
122 | ||
123 | =item L<http://www.perl.com/> | |
124 | ||
5a310f9b | 125 | Perl ホームページ (O'Reilly and Associates) |
d8416318 JH |
126 | |
127 | =item L<http://www.cpan.org/> | |
128 | ||
129 | CPAN (Comprehensive Perl Archive Network) | |
130 | ||
131 | =item L<http://lists.perl.org/> | |
132 | ||
5a310f9b | 133 | Perl メーリングリスト集 |
d8416318 JH |
134 | |
135 | =back | |
136 | ||
5a310f9b | 137 | =head2 Perlの修得に役立つ URL |
d8416318 JH |
138 | |
139 | =over 4 | |
140 | ||
e59066d8 | 141 | =item L<http://www.oreilly.com.tw/> |
d8416318 | 142 | |
5a310f9b | 143 | O'Reilly 社のPerl関連書籍(繁体字中国語) |
d8416318 | 144 | |
e59066d8 | 145 | =item L<http://www.oreilly.com.cn/> |
d8416318 | 146 | |
5a310f9b | 147 | O'Reilly 社のPerl関連書籍(簡体字中国語) |
d8416318 | 148 | |
e59066d8 | 149 | =item L<http://www.oreilly.co.jp/catalog/> |
d8416318 | 150 | |
5a310f9b | 151 | オライリー社のPerl関連書籍(日本語) |
d8416318 JH |
152 | |
153 | =back | |
154 | ||
5a310f9b | 155 | =head2 Perl ユーザーグループ |
d8416318 JH |
156 | |
157 | =over 4 | |
158 | ||
0a31a4b2 | 159 | =item L<http://www.pm.org/groups/asia.html> |
d8416318 | 160 | |
d8416318 JH |
161 | =back |
162 | ||
5a310f9b | 163 | =head2 Unicode関連のURL |
d8416318 JH |
164 | |
165 | =over 4 | |
166 | ||
167 | =item L<http://www.unicode.org/> | |
168 | ||
5a310f9b | 169 | Unicode コンソーシアム (Unicode規格の選定団体) |
d8416318 JH |
170 | |
171 | =item L<http://www.cl.cam.ac.uk/%7Emgk25/unicode.html> | |
172 | ||
173 | UTF-8 and Unicode FAQ for Unix/Linux | |
174 | ||
99746d7b | 175 | =item L<http://wiki.kldp.org/Translations/html/UTF8-Unicode-KLDP/UTF8-Unicode-KLDP.html> |
d8416318 | 176 | |
5a310f9b | 177 | UTF-8 and Unicode FAQ for Unix/Linux (ハングル訳) |
d8416318 JH |
178 | |
179 | =back | |
180 | ||
181 | =head1 AUTHORS | |
182 | ||
183 | Jarkko Hietaniemi E<lt>jhi@iki.fiE<gt> | |
5a310f9b | 184 | Dan Kogai (小飼 弾) E<lt>dankogai@dan.co.jpE<gt> |
d8416318 JH |
185 | |
186 | =cut |