Forbid out of range Unicode code points.
[perl.git] / t / op / bop.t
1 #!./perl
2
3 #
4 # test the bit operators '&', '|', '^', '~', '<<', and '>>'
5 #
6
7 use warnings;
8 no warnings 'deprecated';
9
10 BEGIN {
11     chdir 't' if -d 't';
12     require "./test.pl";
13     set_up_inc('../lib');
14     require "./charset_tools.pl";
15     require Config;
16 }
17
18 # Tests don't have names yet.
19 # If you find tests are failing, please try adding names to tests to track
20 # down where the failure is, and supply your new names as a patch.
21 # (Just-in-time test naming)
22 plan tests => 187 + (10*13*2) + 5 + 31;
23
24 # numerics
25 ok ((0xdead & 0xbeef) == 0x9ead);
26 ok ((0xdead | 0xbeef) == 0xfeef);
27 ok ((0xdead ^ 0xbeef) == 0x6042);
28 ok ((~0xdead & 0xbeef) == 0x2042);
29
30 # shifts
31 ok ((257 << 7) == 32896);
32 ok ((33023 >> 7) == 257);
33
34 # signed vs. unsigned
35 ok ((~0 > 0 && do { use integer; ~0 } == -1));
36
37 my $bits = 0;
38 for (my $i = ~0; $i; $i >>= 1) { ++$bits; }
39 my $cusp = 1 << ($bits - 1);
40
41
42 ok (($cusp & -1) > 0 && do { use integer; $cusp & -1 } < 0);
43 ok (($cusp | 1) > 0 && do { use integer; $cusp | 1 } < 0);
44 ok (($cusp ^ 1) > 0 && do { use integer; $cusp ^ 1 } < 0);
45 ok ((1 << ($bits - 1)) == $cusp &&
46     do { use integer; 1 << ($bits - 1) } == -$cusp);
47 ok (($cusp >> 1) == ($cusp / 2) &&
48     do { use integer; abs($cusp >> 1) } == ($cusp / 2));
49
50 $Aaz = chr(ord("A") & ord("z"));
51 $Aoz = chr(ord("A") | ord("z"));
52 $Axz = chr(ord("A") ^ ord("z"));
53
54 # short strings
55 is (("AAAAA" & "zzzzz"), ($Aaz x 5));
56 is (("AAAAA" | "zzzzz"), ($Aoz x 5));
57 is (("AAAAA" ^ "zzzzz"), ($Axz x 5));
58
59 # long strings
60 $foo = "A" x 150;
61 $bar = "z" x 75;
62 $zap = "A" x 75;
63 # & truncates
64 is (($foo & $bar), ($Aaz x 75 ));
65 # | does not truncate
66 is (($foo | $bar), ($Aoz x 75 . $zap));
67 # ^ does not truncate
68 is (($foo ^ $bar), ($Axz x 75 . $zap));
69
70 # string constants.  These tests expect the bit patterns of these strings in
71 # ASCII, so convert to that.
72 sub _and($) { $_[0] & native_to_uni("+0") }
73 sub _oar($) { $_[0] | native_to_uni("+0") }
74 sub _xor($) { $_[0] ^ native_to_uni("+0") }
75 is _and native_to_uni("waf"), native_to_uni('# '),  'str var & const str'; # [perl #20661]
76 is _and native_to_uni("waf"), native_to_uni('# '),  'str var & const str again'; # [perl #20661]
77 is _oar native_to_uni("yit"), native_to_uni('{yt'), 'str var | const str';
78 is _oar native_to_uni("yit"), native_to_uni('{yt'), 'str var | const str again';
79 is _xor native_to_uni("yit"), native_to_uni('RYt'), 'str var ^ const str';
80 is _xor native_to_uni("yit"), native_to_uni('RYt'), 'str var ^ const str again';
81
82 SKIP: {
83     skip "Converting a numeric doesn't work with EBCDIC unlike the above tests",
84          3 if $::IS_EBCDIC;
85     is _and  0, '0',   'num var & const str';     # [perl #20661]
86     is _oar  0, '0',   'num var | const str';
87     is _xor  0, '0',   'num var ^ const str';
88 }
89
90 # But don’t mistake a COW for a constant when assigning to it
91 %h=(150=>1);
92 $i=(keys %h)[0];
93 $i |= 105;
94 is $i, 255, '[perl #108480] $cow |= number';
95 $i=(keys %h)[0];
96 $i &= 105;
97 is $i, 0, '[perl #108480] $cow &= number';
98 $i=(keys %h)[0];
99 $i ^= 105;
100 is $i, 255, '[perl #108480] $cow ^= number';
101
102 #
103 is ("ok \xFF\xFF\n" & "ok 19\n", "ok 19\n");
104 is ("ok 20\n" | "ok \0\0\n", "ok 20\n");
105 is ("o\000 \0001\000" ^ "\000k\0002\000\n", "ok 21\n");
106
107 #
108 is ("ok \x{FF}\x{FF}\n" & "ok 22\n", "ok 22\n");
109 is ("ok 23\n" | "ok \x{0}\x{0}\n", "ok 23\n");
110 is ("o\x{0} \x{0}4\x{0}" ^ "\x{0}k\x{0}2\x{0}\n", "ok 24\n");
111
112 #
113 is (sprintf("%vd", v4095 & v801), 801);
114 is (sprintf("%vd", v4095 | v801), 4095);
115 is (sprintf("%vd", v4095 ^ v801), 3294);
116
117 #
118 is (sprintf("%vd", v4095.801.4095 & v801.4095), '801.801');
119 is (sprintf("%vd", v4095.801.4095 | v801.4095), '4095.4095.4095');
120 is (sprintf("%vd", v801.4095 ^ v4095.801.4095), '3294.3294.4095');
121 #
122 is (sprintf("%vd", v120.300 & v200.400), '72.256');
123 is (sprintf("%vd", v120.300 | v200.400), '248.444');
124 is (sprintf("%vd", v120.300 ^ v200.400), '176.188');
125 #
126 {
127     my $a = v120.300;
128     my $b = v200.400;
129     $a ^= $b;
130     is (sprintf("%vd", $a), '176.188');
131 }
132 {
133     my $a = v120.300;
134     my $b = v200.400;
135     $a |= $b;
136     is (sprintf("%vd", $a), '248.444');
137 }
138
139
140 # More variations on 19 and 22.
141 is ("ok \xFF\x{FF}\n" & "ok 41\n", "ok 41\n");
142 is ("ok \x{FF}\xFF\n" & "ok 42\n", "ok 42\n");
143
144 # Tests to see if you really can do casts negative floats to unsigned properly
145 $neg1 = -1.0;
146 ok (~ $neg1 == 0);
147 $neg7 = -7.0;
148 ok (~ $neg7 == 6);
149
150
151 # double magic tests
152
153 sub TIESCALAR { bless { value => $_[1], orig => $_[1] } }
154 sub STORE { $_[0]{store}++; $_[0]{value} = $_[1] }
155 sub FETCH { $_[0]{fetch}++; $_[0]{value} }
156 sub stores { tied($_[0])->{value} = tied($_[0])->{orig};
157              delete(tied($_[0])->{store}) || 0 }
158 sub fetches { delete(tied($_[0])->{fetch}) || 0 }
159
160 # numeric double magic tests
161
162 tie $x, "main", 1;
163 tie $y, "main", 3;
164
165 is(($x | $y), 3);
166 is(fetches($x), 1);
167 is(fetches($y), 1);
168 is(stores($x), 0);
169 is(stores($y), 0);
170
171 is(($x & $y), 1);
172 is(fetches($x), 1);
173 is(fetches($y), 1);
174 is(stores($x), 0);
175 is(stores($y), 0);
176
177 is(($x ^ $y), 2);
178 is(fetches($x), 1);
179 is(fetches($y), 1);
180 is(stores($x), 0);
181 is(stores($y), 0);
182
183 is(($x |= $y), 3);
184 is(fetches($x), 2);
185 is(fetches($y), 1);
186 is(stores($x), 1);
187 is(stores($y), 0);
188
189 is(($x &= $y), 1);
190 is(fetches($x), 2);
191 is(fetches($y), 1);
192 is(stores($x), 1);
193 is(stores($y), 0);
194
195 is(($x ^= $y), 2);
196 is(fetches($x), 2);
197 is(fetches($y), 1);
198 is(stores($x), 1);
199 is(stores($y), 0);
200
201 is(~~$y, 3);
202 is(fetches($y), 1);
203 is(stores($y), 0);
204
205 { use integer;
206
207 is(($x | $y), 3);
208 is(fetches($x), 1);
209 is(fetches($y), 1);
210 is(stores($x), 0);
211 is(stores($y), 0);
212
213 is(($x & $y), 1);
214 is(fetches($x), 1);
215 is(fetches($y), 1);
216 is(stores($x), 0);
217 is(stores($y), 0);
218
219 is(($x ^ $y), 2);
220 is(fetches($x), 1);
221 is(fetches($y), 1);
222 is(stores($x), 0);
223 is(stores($y), 0);
224
225 is(($x |= $y), 3);
226 is(fetches($x), 2);
227 is(fetches($y), 1);
228 is(stores($x), 1);
229 is(stores($y), 0);
230
231 is(($x &= $y), 1);
232 is(fetches($x), 2);
233 is(fetches($y), 1);
234 is(stores($x), 1);
235 is(stores($y), 0);
236
237 is(($x ^= $y), 2);
238 is(fetches($x), 2);
239 is(fetches($y), 1);
240 is(stores($x), 1);
241 is(stores($y), 0);
242
243 is(~$y, -4);
244 is(fetches($y), 1);
245 is(stores($y), 0);
246
247 } # end of use integer;
248
249 # stringwise double magic tests
250
251 tie $x, "main", "a";
252 tie $y, "main", "c";
253
254 is(($x | $y), ("a" | "c"));
255 is(fetches($x), 1);
256 is(fetches($y), 1);
257 is(stores($x), 0);
258 is(stores($y), 0);
259
260 is(($x & $y), ("a" & "c"));
261 is(fetches($x), 1);
262 is(fetches($y), 1);
263 is(stores($x), 0);
264 is(stores($y), 0);
265
266 is(($x ^ $y), ("a" ^ "c"));
267 is(fetches($x), 1);
268 is(fetches($y), 1);
269 is(stores($x), 0);
270 is(stores($y), 0);
271
272 is(($x |= $y), ("a" | "c"));
273 is(fetches($x), 2);
274 is(fetches($y), 1);
275 is(stores($x), 1);
276 is(stores($y), 0);
277
278 is(($x &= $y), ("a" & "c"));
279 is(fetches($x), 2);
280 is(fetches($y), 1);
281 is(stores($x), 1);
282 is(stores($y), 0);
283
284 is(($x ^= $y), ("a" ^ "c"));
285 is(fetches($x), 2);
286 is(fetches($y), 1);
287 is(stores($x), 1);
288 is(stores($y), 0);
289
290 is(~~$y, "c");
291 is(fetches($y), 1);
292 is(stores($y), 0);
293
294 $a = "\0\x{100}"; chop($a);
295 ok(utf8::is_utf8($a)); # make sure UTF8 flag is still there
296 $a = ~$a;
297 is($a, "\xFF", "~ works with utf-8");
298
299 # [rt.perl.org 33003]
300 # This would cause a segfault without malloc wrap
301 SKIP: {
302   skip "No malloc wrap checks" unless $Config::Config{usemallocwrap};
303   like( runperl(prog => 'eval q($#a>>=1); print 1'), qr/^1\n?/ );
304 }
305
306 # [perl #37616] Bug in &= (string) and/or m//
307 {
308     $a = "aa";
309     $a &= "a";
310     ok($a =~ /a+$/, 'ASCII "a" is NUL-terminated');
311
312     $b = "bb\x{100}";
313     $b &= "b";
314     ok($b =~ /b+$/, 'Unicode "b" is NUL-terminated');
315 }
316
317 {
318     $a = chr(0x101) x 0x101;
319     $b = chr(0x0FF) x 0x0FF;
320
321     $c = $a | $b;
322     is($c, chr(0x1FF) x 0xFF . chr(0x101) x 2);
323
324     $c = $b | $a;
325     is($c, chr(0x1FF) x 0xFF . chr(0x101) x 2);
326
327     $c = $a & $b;
328     is($c, chr(0x001) x 0x0FF);
329
330     $c = $b & $a;
331     is($c, chr(0x001) x 0x0FF);
332
333     $c = $a ^ $b;
334     is($c, chr(0x1FE) x 0x0FF . chr(0x101) x 2);
335
336     $c = $b ^ $a;
337     is($c, chr(0x1FE) x 0x0FF . chr(0x101) x 2);
338 }
339
340 {
341     $a = chr(0x101) x 0x101;
342     $b = chr(0x0FF) x 0x0FF;
343
344     $a |= $b;
345     is($a, chr(0x1FF) x 0xFF . chr(0x101) x 2);
346 }
347
348 {
349     $a = chr(0x101) x 0x101;
350     $b = chr(0x0FF) x 0x0FF;
351
352     $b |= $a;
353     is($b, chr(0x1FF) x 0xFF . chr(0x101) x 2);
354 }
355
356 {
357     $a = chr(0x101) x 0x101;
358     $b = chr(0x0FF) x 0x0FF;
359
360     $a &= $b;
361     is($a, chr(0x001) x 0x0FF);
362 }
363
364 {
365     $a = chr(0x101) x 0x101;
366     $b = chr(0x0FF) x 0x0FF;
367
368     $b &= $a;
369     is($b, chr(0x001) x 0x0FF);
370 }
371
372 {
373     $a = chr(0x101) x 0x101;
374     $b = chr(0x0FF) x 0x0FF;
375
376     $a ^= $b;
377     is($a, chr(0x1FE) x 0x0FF . chr(0x101) x 2);
378 }
379
380 {
381     $a = chr(0x101) x 0x101;
382     $b = chr(0x0FF) x 0x0FF;
383
384     $b ^= $a;
385     is($b, chr(0x1FE) x 0x0FF . chr(0x101) x 2);
386 }
387
388
389 # New string- and number-specific bitwise ops
390 {
391   use feature "bitwise";
392   no warnings "experimental::bitwise";
393   is "22" & "66", 2,    'numeric & with strings';
394   is "22" | "66", 86,   'numeric | with strings';
395   is "22" ^ "66", 84,   'numeric ^ with strings';
396   is ~"22" & 0xff, 233, 'numeric ~ with string';
397   is 22 &. 66, 22,     '&. with numbers';
398   is 22 |. 66, 66,     '|. with numbers';
399   is 22 ^. 66, "\4\4", '^. with numbers';
400   if ($::IS_EBCDIC) {
401     # ord('2') is 0xF2 on EBCDIC
402     is ~.22, "\x0d\x0d", '~. with number';
403   }
404   else {
405     # ord('2') is 0x32 on ASCII
406     is ~.22, "\xcd\xcd", '~. with number';
407   }
408   $_ = "22";
409   is $_ &= "66", 2,  'numeric &= with strings';
410   $_ = "22";
411   is $_ |= "66", 86, 'numeric |= with strings';
412   $_ = "22";
413   is $_ ^= "66", 84, 'numeric ^= with strings';
414   $_ = 22;
415   is $_ &.= 66, 22,     '&.= with numbers';
416   $_ = 22;
417   is $_ |.= 66, 66,     '|.= with numbers';
418   $_ = 22;
419   is $_ ^.= 66, "\4\4", '^.= with numbers';
420
421  # signed vs. unsigned
422  ok ((~0 > 0 && do { use integer; ~0 } == -1));
423
424  my $bits = 0;
425  for (my $i = ~0; $i; $i >>= 1) { ++$bits; }
426  my $cusp = 1 << ($bits - 1);
427
428  ok (($cusp & -1) > 0 && do { use integer; $cusp & -1 } < 0);
429  ok (($cusp | 1) > 0 && do { use integer; $cusp | 1 } < 0);
430  ok (($cusp ^ 1) > 0 && do { use integer; $cusp ^ 1 } < 0);
431  ok ((1 << ($bits - 1)) == $cusp &&
432      do { use integer; 1 << ($bits - 1) } == -$cusp);
433  ok (($cusp >> 1) == ($cusp / 2) &&
434     do { use integer; abs($cusp >> 1) } == ($cusp / 2));
435 }
436
437 # ref tests
438
439 my %res;
440
441 for my $str ("x", "\x{100}") {
442     for my $chr (qw/S A H G X ( * F/) {
443         for my $op (qw/| & ^/) {
444             my $co = ord $chr;
445             my $so = ord $str;
446             $res{"$chr$op$str"} = eval qq/chr($co $op $so)/;
447         }
448     }
449     $res{"undef|$str"} = $str;
450     $res{"undef&$str"} = "";
451     $res{"undef^$str"} = $str;
452 }
453
454 sub PVBM () { "X" }
455 1 if index "foo", PVBM;
456
457 my $warn = 0;
458 local $^W = 1;
459 local $SIG{__WARN__} = sub { $warn++ };
460
461 sub is_first {
462     my ($got, $orig, $op, $str, $name) = @_;
463     is(substr($got, 0, 1), $res{"$orig$op$str"}, $name);
464 }
465
466 for (
467     # [object to test, first char of stringification, name]
468     [undef,             "undef",    "undef"         ],
469     [\1,                "S",        "scalar ref"    ],
470     [[],                "A",        "array ref"     ],
471     [{},                "H",        "hash ref"      ],
472     [qr/x/,             "(",        "qr//"          ],
473     [*foo,              "*",        "glob"          ],
474     [\*foo,             "G",        "glob ref"      ],
475     [PVBM,              "X",        "PVBM"          ],
476     [\PVBM,             "S",        "PVBM ref"      ],
477     [bless([], "Foo"),  "F",        "object"        ],
478 ) {
479     my ($val, $orig, $type) = @$_;
480
481     for (["x", "string"], ["\x{100}", "utf8"]) {
482         my ($str, $desc) = @$_;
483
484         $warn = 0;
485
486         is_first($val | $str, $orig, "|", $str, "$type | $desc");
487         is_first($val & $str, $orig, "&", $str, "$type & $desc");
488         is_first($val ^ $str, $orig, "^", $str, "$type ^ $desc");
489
490         is_first($str | $val, $orig, "|", $str, "$desc | $type");
491         is_first($str & $val, $orig, "&", $str, "$desc & $type");
492         is_first($str ^ $val, $orig, "^", $str, "$desc ^ $type");
493
494         my $new;
495         ($new = $val) |= $str;
496         is_first($new, $orig, "|", $str, "$type |= $desc");
497         ($new = $val) &= $str;
498         is_first($new, $orig, "&", $str, "$type &= $desc");
499         ($new = $val) ^= $str;
500         is_first($new, $orig, "^", $str, "$type ^= $desc");
501
502         ($new = $str) |= $val;
503         is_first($new, $orig, "|", $str, "$desc |= $type");
504         ($new = $str) &= $val;
505         is_first($new, $orig, "&", $str, "$desc &= $type");
506         ($new = $str) ^= $val;
507         is_first($new, $orig, "^", $str, "$desc ^= $type");
508
509         if ($orig eq "undef") {
510             # undef |= and undef ^= don't warn
511             is($warn, 10, "no duplicate warnings");
512         }
513         else {
514             is($warn, 0, "no warnings");
515         }
516     }
517 }
518
519 delete $SIG{__WARN__};
520
521 my $strval;
522
523 {
524     package Bar;
525     use overload q/""/ => sub { $strval };
526
527     package Baz;
528     use overload q/|/ => sub { "y" };
529 }
530
531 ok(!eval { 1 if bless([], "Bar") | "x"; 1 },"string overload can't use |");
532 like($@, qr/no method found/,               "correct error");
533 is(eval { bless([], "Baz") | "x" }, "y",    "| overload works");
534
535 my $obj = bless [], "Bar";
536 $strval = "x";
537 eval { $obj |= "Q" };
538 $strval = "z";
539 is("$obj", "z", "|= doesn't break string overload");
540
541 # [perl #29070]
542 $^A .= new version ~$_ for eval sprintf('"\\x%02x"', 0xff - ord("1")),
543                            $::IS_EBCDIC ? v13 : v205, # 255 - ord('2')
544                            eval sprintf('"\\x%02x"', 0xff - ord("3"));
545 is $^A, "123", '~v0 clears vstring magic on retval';
546
547 {
548     my $w = $Config::Config{ivsize} * 8;
549
550     fail("unexpected w $w") unless $w == 32 || $w == 64;
551
552     is(1 << 1, 2, "UV 1 left shift 1");
553     is(1 >> 1, 0, "UV 1 right shift 1");
554
555     is(0x7b << -4, 0x007, "UV left negative shift == right shift");
556     is(0x7b >> -4, 0x7b0, "UV right negative shift == left shift");
557
558     is(0x7b <<  0, 0x07b, "UV left  zero shift == identity");
559     is(0x7b >>  0, 0x07b, "UV right zero shift == identity");
560
561     is(0x0 << -1, 0x0, "zero left  negative shift == zero");
562     is(0x0 >> -1, 0x0, "zero right negative shift == zero");
563
564     cmp_ok(1 << $w - 1, '==', 2 ** ($w - 1), # not is() because NV stringify.
565        "UV left $w - 1 shift == 2 ** ($w - 1)");
566     is(1 << $w,     0, "UV left shift $w     == zero");
567     is(1 << $w + 1, 0, "UV left shift $w + 1 == zero");
568
569     is(1 >> $w - 1, 0, "UV right shift $w - 1 == zero");
570     is(1 >> $w,     0, "UV right shift $w     == zero");
571     is(1 >> $w + 1, 0, "UV right shift $w + 1 == zero");
572
573     # Negative shiftees get promoted to UVs before shifting.  This is
574     # not necessarily the ideal behavior, but that is what is happening.
575     if ($w == 64) {
576         no warnings "portable";
577         no warnings "overflow"; # prevent compile-time warning for ivsize=4
578         is(-1 << 1, 0xFFFF_FFFF_FFFF_FFFE,
579            "neg UV (sic) left shift  = 0xFF..E");
580         is(-1 >> 1, 0x7FFF_FFFF_FFFF_FFFF,
581            "neg UV (sic) right right = 0x7F..F");
582     } elsif ($w == 32) {
583         no warnings "portable";
584         is(-1 << 1, 0xFFFF_FFFE, "neg left shift  == 0xFF..E");
585         is(-1 >> 1, 0x7FFF_FFFF, "neg right right == 0x7F..F");
586     }
587
588     {
589         # 'use integer' means use IVs instead of UVs.
590         use integer;
591
592         # No surprises here.
593         is(1 << 1, 2, "IV 1 left shift 1  == 2");
594         is(1 >> 1, 0, "IV 1 right shift 1 == 0");
595
596         # The left overshift should behave like without 'use integer',
597         # that is, return zero.
598         is(1 << $w,     0, "IV 1 left shift $w     == 0");
599         is(1 << $w + 1, 0, "IV 1 left shift $w + 1 == 0");
600         is(-1 << $w,     0, "IV -1 left shift $w     == 0");
601         is(-1 << $w + 1, 0, "IV -1 left shift $w + 1 == 0");
602
603         # Even for negative IVs, left shift is multiplication.
604         # But right shift should display the stuckiness to -1.
605         is(-1 <<      1, -2, "IV -1 left shift       1 == -2");
606         is(-1 >>      1, -1, "IV -1 right shift      1 == -1");
607
608         # As for UVs, negative shifting means the reverse shift.
609         is(-1 <<     -1, -1, "IV -1 left shift      -1 == -1");
610         is(-1 >>     -1, -2, "IV -1 right shift     -1 == -2");
611
612         # Test also at and around wordsize, expect stuckiness to -1.
613         is(-1 >> $w - 1, -1, "IV -1 right shift $w - 1 == -1");
614         is(-1 >> $w,     -1, "IV -1 right shift $w     == -1");
615         is(-1 >> $w + 1, -1, "IV -1 right shift $w + 1 == -1");
616     }
617 }
618
619 # [perl #129287] UTF8 & was not providing a trailing null byte.
620 # This test is a bit convoluted, as we want to make sure that the string
621 # allocated for &’s target contains memory initialised to something other
622 # than a null byte.  Uninitialised memory does not make for a reliable
623 # test.  So we do &. on a longer non-utf8 string first.
624 for (["aaa","aaa"],[substr ("a\x{100}",0,1), "a"]) {
625     use feature "bitwise";
626     no warnings "experimental::bitwise", "pack";
627     $byte = substr unpack("P2", pack "P", $$_[0] &. $$_[1]), -1;
628 }
629 is $byte, "\0", "utf8 &. appends null byte";
630
631 # only visible under sanitize
632 fresh_perl_is('$x = "UUUUUUUV"; $y = "xxxxxxx"; $x |= $y; print $x',
633               ( $::IS_EBCDIC) ? 'XXXXXXXV' : '}}}}}}}V',
634               {}, "[perl #129995] access to freed memory");