This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
Update Encode from version 3.06 to 3.07
[perl5.git] / cpan / Encode / t / gsm0338.t
1 BEGIN {
2     if ($ENV{'PERL_CORE'}){
3         chdir 't';
4         unshift @INC, '../lib';
5     }
6     require Config; import Config;
7     if ($Config{'extensions'} !~ /\bEncode\b/) {
8       print "1..0 # Skip: Encode was not built\n";
9       exit 0;
10     }
11     $| = 1;
12 }
13
14 use strict;
15 use utf8;
16 use Test::More tests => 776;
17 use Encode;
18 use Encode::GSM0338;
19
20 my $chk = Encode::LEAVE_SRC();
21
22 # escapes
23 # see https://www.3gpp.org/dynareport/23038.htm
24 # see https://www.etsi.org/deliver/etsi_ts/123000_123099/123038/15.00.00_60/ts_123038v150000p.pdf (page 22)
25 my %esc_seq = (
26                "\x{20ac}" => "\x1b\x65",
27                "\x0c"     => "\x1b\x0A",
28                "["        => "\x1b\x3C",
29                "\\"       => "\x1b\x2F",
30                "]"        => "\x1b\x3E",
31                "^"        => "\x1b\x14",
32                "{"        => "\x1b\x28",
33                "|"        => "\x1b\x40",
34                "}"        => "\x1b\x29",
35                "~"        => "\x1b\x3D",
36 );
37
38 my %unesc_seq = reverse %esc_seq;
39
40
41 sub eu{
42     $_[0] =~ /[\x00-\x1f]/ ? 
43         sprintf("\\x{%04X}", ord($_[0])) : encode_utf8($_[0]);
44  
45 }
46
47 for my $c ( map { chr } 0 .. 127 ) {
48     next if $c eq "\x1B"; # escape character, start of multibyte sequence
49     my $u = $Encode::GSM0338::GSM2UNI{$c};
50
51     # default character set
52     is decode( "gsm0338", $c, $chk ), $u,
53       sprintf( "decode \\x%02X", ord($c) );
54     eval { decode( "gsm0338", $c . "\xff", $chk | Encode::FB_CROAK ) };
55     ok( $@, $@ );
56     is encode( "gsm0338", $u, $chk ), $c, sprintf( "encode %s", eu($u) );
57     eval { encode( "gsm0338", $u . "\x{3000}", $chk | Encode::FB_CROAK ) };
58     ok( $@, $@ );
59
60         is decode( "gsm0338", "\x00" . $c ), '@' . decode( "gsm0338", $c ),
61           sprintf( '@: decode \x00+\x%02X', ord($c) );
62
63     # escape seq.
64     my $ecs = "\x1b" . $c;
65     if ( $unesc_seq{$ecs} ) {
66         is decode( "gsm0338", $ecs, $chk ), $unesc_seq{$ecs},
67           sprintf( "ESC: decode ESC+\\x%02X", ord($c) );
68         is encode( "gsm0338", $unesc_seq{$ecs}, $chk ), $ecs,
69           sprintf( "ESC: encode %s ", eu( $unesc_seq{$ecs} ) );
70     }
71     else {
72         is decode( "gsm0338", $ecs, $chk ),
73           "\x{FFFD}",
74           sprintf( "decode ESC+\\x%02X", ord($c) );
75     }
76 }
77
78 # https://rt.cpan.org/Ticket/Display.html?id=75670
79 is decode("gsm0338", "\x09") => chr(0xC7), 'RT75670: decode';
80 is encode("gsm0338", chr(0xC7)) => "\x09", 'RT75670: encode';
81
82 # https://rt.cpan.org/Public/Bug/Display.html?id=124571
83 is decode("gsm0338", encode('gsm0338', '..@@..')), '..@@..';
84 is decode("gsm0338", encode('gsm0338', '..@€..')), '..@€..';
85
86 __END__
87 for my $c (map { chr } 0..127){
88     my $b = "\x1b$c";
89     my $u =  $Encode::GSM0338::GSM2UNI{$b};
90     next unless $u;
91     $u ||= "\xA0" . $Encode::GSM0338::GSM2UNI{$c};
92     is decode("gsm0338", $b), $u, sprintf("decode ESC+\\x%02X", ord($c) );
93 }
94
95 __END__
96 # old test follows
97 ub t { is(decode("gsm0338", my $t = $_[0]), $_[1]) }
98
99 # t("\x00",     "\x00"); # ???
100
101 # "Round-trip".
102 t("\x41",     "\x41");
103
104 t("\x01",     "\xA3");
105 t("\x02",     "\x24");
106 t("\x03",     "\xA5");
107 t("\x09",     "\xE7");
108
109 t("\x00\x00", "\x00\x00"); # Maybe?
110 t("\x00\x1B", "\x40\xA0"); # Maybe?
111 t("\x00\x41", "\x40\x41");
112
113 # t("\x1B",     "\x1B"); # ???
114
115 # Escape with no special second byte is just a NBSP.
116 t("\x1B\x41", "\xA0\x41");
117
118 t("\x1B\x00", "\xA0\x40"); # Maybe?
119
120 # Special escape characters.
121 t("\x1B\x0A", "\x0C");
122 t("\x1B\x14", "\x5E");
123 t("\x1B\x28", "\x7B");
124 t("\x1B\x29", "\x7D");
125 t("\x1B\x2F", "\x5C");
126 t("\x1B\x3C", "\x5B");
127 t("\x1B\x3D", "\x7E");
128 t("\x1B\x3E", "\x5D");
129 t("\x1B\x40", "\x7C");
130 t("\x1B\x40", "\x7C");
131 t("\x1B\x65", "\x{20AC}");