This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
Update AUTHORS (for changes #23200 and #23621)
[perl5.git] / doop.c
1 /*    doop.c
2  *
3  *    Copyright (C) 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999,
4  *    2000, 2001, 2002, 2004, by Larry Wall and others
5  *
6  *    You may distribute under the terms of either the GNU General Public
7  *    License or the Artistic License, as specified in the README file.
8  *
9  */
10
11 /*
12  * "'So that was the job I felt I had to do when I started,' thought Sam."
13  */
14
15 /* This file contains some common functions needed to carry out certain
16  * ops. For example both pp_schomp() and pp_chomp() - scalar and array
17  * chomp operations - call the function do_chomp() found in this file.
18  */
19
20 #include "EXTERN.h"
21 #define PERL_IN_DOOP_C
22 #include "perl.h"
23
24 #ifndef PERL_MICRO
25 #include <signal.h>
26 #endif
27
28 STATIC I32
29 S_do_trans_simple(pTHX_ SV *sv)
30 {
31     U8 *s;
32     U8 *d;
33     U8 *send;
34     U8 *dstart;
35     I32 matches = 0;
36     I32 grows = PL_op->op_private & OPpTRANS_GROWS;
37     STRLEN len;
38     short *tbl;
39     I32 ch;
40
41     tbl = (short*)cPVOP->op_pv;
42     if (!tbl)
43         Perl_croak(aTHX_ "panic: do_trans_simple line %d",__LINE__);
44
45     s = (U8*)SvPV(sv, len);
46     send = s + len;
47
48     /* First, take care of non-UTF-8 input strings, because they're easy */
49     if (!SvUTF8(sv)) {
50         while (s < send) {
51             if ((ch = tbl[*s]) >= 0) {
52                 matches++;
53                 *s++ = (U8)ch;
54             }
55             else
56                 s++;
57         }
58         SvSETMAGIC(sv);
59         return matches;
60     }
61
62     /* Allow for expansion: $_="a".chr(400); tr/a/\xFE/, FE needs encoding */
63     if (grows)
64         New(0, d, len*2+1, U8);
65     else
66         d = s;
67     dstart = d;
68     while (s < send) {
69         STRLEN ulen;
70         UV c;
71
72         /* Need to check this, otherwise 128..255 won't match */
73         c = utf8n_to_uvchr(s, send - s, &ulen, 0);
74         if (c < 0x100 && (ch = tbl[c]) >= 0) {
75             matches++;
76             d = uvchr_to_utf8(d, ch);
77             s += ulen;
78         }
79         else { /* No match -> copy */
80             Move(s, d, ulen, U8);
81             d += ulen;
82             s += ulen;
83         }
84     }
85     if (grows) {
86         sv_setpvn(sv, (char*)dstart, d - dstart);
87         Safefree(dstart);
88     }
89     else {
90         *d = '\0';
91         SvCUR_set(sv, d - dstart);
92     }
93     SvUTF8_on(sv);
94     SvSETMAGIC(sv);
95     return matches;
96 }
97
98 STATIC I32
99 S_do_trans_count(pTHX_ SV *sv)
100 {
101     U8 *s;
102     U8 *send;
103     I32 matches = 0;
104     STRLEN len;
105     short *tbl;
106     I32 complement = PL_op->op_private & OPpTRANS_COMPLEMENT;
107
108     tbl = (short*)cPVOP->op_pv;
109     if (!tbl)
110         Perl_croak(aTHX_ "panic: do_trans_count line %d",__LINE__);
111
112     s = (U8*)SvPV(sv, len);
113     send = s + len;
114
115     if (!SvUTF8(sv))
116         while (s < send) {
117             if (tbl[*s++] >= 0)
118                 matches++;
119         }
120     else
121         while (s < send) {
122             UV c;
123             STRLEN ulen;
124             c = utf8n_to_uvchr(s, send - s, &ulen, 0);
125             if (c < 0x100) {
126                 if (tbl[c] >= 0)
127                     matches++;
128             } else if (complement)
129                 matches++;
130             s += ulen;
131         }
132
133     return matches;
134 }
135
136 STATIC I32
137 S_do_trans_complex(pTHX_ SV *sv)
138 {
139     U8 *s;
140     U8 *send;
141     U8 *d;
142     U8 *dstart;
143     I32 isutf8;
144     I32 matches = 0;
145     I32 grows = PL_op->op_private & OPpTRANS_GROWS;
146     I32 complement = PL_op->op_private & OPpTRANS_COMPLEMENT;
147     I32 del = PL_op->op_private & OPpTRANS_DELETE;
148     STRLEN len, rlen = 0;
149     short *tbl;
150     I32 ch;
151
152     tbl = (short*)cPVOP->op_pv;
153     if (!tbl)
154         Perl_croak(aTHX_ "panic: do_trans_complex line %d",__LINE__);
155
156     s = (U8*)SvPV(sv, len);
157     isutf8 = SvUTF8(sv);
158     send = s + len;
159
160     if (!isutf8) {
161         dstart = d = s;
162         if (PL_op->op_private & OPpTRANS_SQUASH) {
163             U8* p = send;
164             while (s < send) {
165                 if ((ch = tbl[*s]) >= 0) {
166                     *d = (U8)ch;
167                     matches++;
168                     if (p != d - 1 || *p != *d)
169                         p = d++;
170                 }
171                 else if (ch == -1)      /* -1 is unmapped character */
172                     *d++ = *s;  
173                 else if (ch == -2)      /* -2 is delete character */
174                     matches++;
175                 s++;
176             }
177         }
178         else {
179             while (s < send) {
180                 if ((ch = tbl[*s]) >= 0) {
181                     matches++;
182                     *d++ = (U8)ch;
183                 }
184                 else if (ch == -1)      /* -1 is unmapped character */
185                     *d++ = *s;
186                 else if (ch == -2)      /* -2 is delete character */
187                     matches++;
188                 s++;
189             }
190         }
191         *d = '\0';
192         SvCUR_set(sv, d - dstart);
193     }
194     else { /* isutf8 */
195         if (grows)
196             New(0, d, len*2+1, U8);
197         else
198             d = s;
199         dstart = d;
200         if (complement && !del)
201             rlen = tbl[0x100];
202
203 #ifdef MACOS_TRADITIONAL
204 #define comp CoMP   /* "comp" is a keyword in some compilers ... */
205 #endif
206
207         if (PL_op->op_private & OPpTRANS_SQUASH) {
208             UV pch = 0xfeedface;
209             while (s < send) {
210                 STRLEN len;
211                 UV comp = utf8_to_uvchr(s, &len);
212
213                 if (comp > 0xff) {
214                     if (!complement) {
215                         Copy(s, d, len, U8);
216                         d += len;
217                     }
218                     else {
219                         matches++;
220                         if (!del) {
221                             ch = (rlen == 0) ? comp :
222                                 (comp - 0x100 < rlen) ?
223                                 tbl[comp+1] : tbl[0x100+rlen];
224                             if ((UV)ch != pch) {
225                                 d = uvchr_to_utf8(d, ch);
226                                 pch = (UV)ch;
227                             }
228                             s += len;
229                             continue;
230                         }
231                     }
232                 }
233                 else if ((ch = tbl[comp]) >= 0) {
234                     matches++;
235                     if ((UV)ch != pch) {
236                         d = uvchr_to_utf8(d, ch);
237                         pch = (UV)ch;
238                     }
239                     s += len;
240                     continue;
241                 }
242                 else if (ch == -1) {    /* -1 is unmapped character */
243                     Copy(s, d, len, U8);
244                     d += len;
245                 }
246                 else if (ch == -2)      /* -2 is delete character */
247                     matches++;
248                 s += len;
249                 pch = 0xfeedface;
250             }
251         }
252         else {
253             while (s < send) {
254                 STRLEN len;
255                 UV comp = utf8_to_uvchr(s, &len);
256                 if (comp > 0xff) {
257                     if (!complement) {
258                         Move(s, d, len, U8);
259                         d += len;
260                     }
261                     else {
262                         matches++;
263                         if (!del) {
264                             if (comp - 0x100 < rlen)
265                                 d = uvchr_to_utf8(d, tbl[comp+1]);
266                             else
267                                 d = uvchr_to_utf8(d, tbl[0x100+rlen]);
268                         }
269                     }
270                 }
271                 else if ((ch = tbl[comp]) >= 0) {
272                     d = uvchr_to_utf8(d, ch);
273                     matches++;
274                 }
275                 else if (ch == -1) {    /* -1 is unmapped character */
276                     Copy(s, d, len, U8);
277                     d += len;
278                 }
279                 else if (ch == -2)      /* -2 is delete character */
280                     matches++;
281                 s += len;
282             }
283         }
284         if (grows) {
285             sv_setpvn(sv, (char*)dstart, d - dstart);
286             Safefree(dstart);
287         }
288         else {
289             *d = '\0';
290             SvCUR_set(sv, d - dstart);
291         }
292         SvUTF8_on(sv);
293     }
294     SvSETMAGIC(sv);
295     return matches;
296 }
297
298 STATIC I32
299 S_do_trans_simple_utf8(pTHX_ SV *sv)
300 {
301     U8 *s;
302     U8 *send;
303     U8 *d;
304     U8 *start;
305     U8 *dstart, *dend;
306     I32 matches = 0;
307     I32 grows = PL_op->op_private & OPpTRANS_GROWS;
308     STRLEN len;
309
310     SV* rv = (SV*)cSVOP->op_sv;
311     HV* hv = (HV*)SvRV(rv);
312     SV** svp = hv_fetch(hv, "NONE", 4, FALSE);
313     UV none = svp ? SvUV(*svp) : 0x7fffffff;
314     UV extra = none + 1;
315     UV final = 0;
316     UV uv;
317     I32 isutf8;
318     U8 hibit = 0;
319
320     s = (U8*)SvPV(sv, len);
321     isutf8 = SvUTF8(sv);
322     if (!isutf8) {
323         U8 *t = s, *e = s + len;
324         while (t < e) {
325             U8 ch = *t++;
326             if ((hibit = !NATIVE_IS_INVARIANT(ch)))
327                 break;
328         }
329         if (hibit)
330             s = bytes_to_utf8(s, &len);
331     }
332     send = s + len;
333     start = s;
334
335     svp = hv_fetch(hv, "FINAL", 5, FALSE);
336     if (svp)
337         final = SvUV(*svp);
338
339     if (grows) {
340         /* d needs to be bigger than s, in case e.g. upgrading is required */
341         New(0, d, len*3+UTF8_MAXLEN, U8);
342         dend = d + len * 3;
343         dstart = d;
344     }
345     else {
346         dstart = d = s;
347         dend = d + len;
348     }
349
350     while (s < send) {
351         if ((uv = swash_fetch(rv, s, TRUE)) < none) {
352             s += UTF8SKIP(s);
353             matches++;
354             d = uvuni_to_utf8(d, uv);
355         }
356         else if (uv == none) {
357             int i = UTF8SKIP(s);
358             Move(s, d, i, U8);
359             d += i;
360             s += i;
361         }
362         else if (uv == extra) {
363             int i = UTF8SKIP(s);
364             s += i;
365             matches++;
366             d = uvuni_to_utf8(d, final);
367         }
368         else
369             s += UTF8SKIP(s);
370
371         if (d > dend) {
372             STRLEN clen = d - dstart;
373             STRLEN nlen = dend - dstart + len + UTF8_MAXLEN;
374             if (!grows)
375                 Perl_croak(aTHX_ "panic: do_trans_simple_utf8 line %d",__LINE__);
376             Renew(dstart, nlen+UTF8_MAXLEN, U8);
377             d = dstart + clen;
378             dend = dstart + nlen;
379         }
380     }
381     if (grows || hibit) {
382         sv_setpvn(sv, (char*)dstart, d - dstart);
383         Safefree(dstart);
384         if (grows && hibit)
385             Safefree(start);
386     }
387     else {
388         *d = '\0';
389         SvCUR_set(sv, d - dstart);
390     }
391     SvSETMAGIC(sv);
392     SvUTF8_on(sv);
393
394     return matches;
395 }
396
397 STATIC I32
398 S_do_trans_count_utf8(pTHX_ SV *sv)
399 {
400     U8 *s;
401     U8 *start = 0, *send;
402     I32 matches = 0;
403     STRLEN len;
404
405     SV* rv = (SV*)cSVOP->op_sv;
406     HV* hv = (HV*)SvRV(rv);
407     SV** svp = hv_fetch(hv, "NONE", 4, FALSE);
408     UV none = svp ? SvUV(*svp) : 0x7fffffff;
409     UV extra = none + 1;
410     UV uv;
411     U8 hibit = 0;
412
413     s = (U8*)SvPV(sv, len);
414     if (!SvUTF8(sv)) {
415         U8 *t = s, *e = s + len;
416         while (t < e) {
417             U8 ch = *t++;
418             if ((hibit = !NATIVE_IS_INVARIANT(ch)))
419                 break;
420         }
421         if (hibit)
422             start = s = bytes_to_utf8(s, &len);
423     }
424     send = s + len;
425
426     while (s < send) {
427         if ((uv = swash_fetch(rv, s, TRUE)) < none || uv == extra)
428             matches++;
429         s += UTF8SKIP(s);
430     }
431     if (hibit)
432         Safefree(start);
433
434     return matches;
435 }
436
437 STATIC I32
438 S_do_trans_complex_utf8(pTHX_ SV *sv)
439 {
440     U8 *s;
441     U8 *start, *send;
442     U8 *d;
443     I32 matches = 0;
444     I32 squash   = PL_op->op_private & OPpTRANS_SQUASH;
445     I32 del      = PL_op->op_private & OPpTRANS_DELETE;
446     I32 grows    = PL_op->op_private & OPpTRANS_GROWS;
447     SV* rv = (SV*)cSVOP->op_sv;
448     HV* hv = (HV*)SvRV(rv);
449     SV** svp = hv_fetch(hv, "NONE", 4, FALSE);
450     UV none = svp ? SvUV(*svp) : 0x7fffffff;
451     UV extra = none + 1;
452     UV final = 0;
453     bool havefinal = FALSE;
454     UV uv;
455     STRLEN len;
456     U8 *dstart, *dend;
457     I32 isutf8;
458     U8 hibit = 0;
459
460     s = (U8*)SvPV(sv, len);
461     isutf8 = SvUTF8(sv);
462     if (!isutf8) {
463         U8 *t = s, *e = s + len;
464         while (t < e) {
465             U8 ch = *t++;
466             if ((hibit = !NATIVE_IS_INVARIANT(ch)))
467                 break;
468         }
469         if (hibit)
470             s = bytes_to_utf8(s, &len);
471     }
472     send = s + len;
473     start = s;
474
475     svp = hv_fetch(hv, "FINAL", 5, FALSE);
476     if (svp) {
477         final = SvUV(*svp);
478         havefinal = TRUE;
479     }
480
481     if (grows) {
482         /* d needs to be bigger than s, in case e.g. upgrading is required */
483         New(0, d, len*3+UTF8_MAXLEN, U8);
484         dend = d + len * 3;
485         dstart = d;
486     }
487     else {
488         dstart = d = s;
489         dend = d + len;
490     }
491
492     if (squash) {
493         UV puv = 0xfeedface;
494         while (s < send) {
495             uv = swash_fetch(rv, s, TRUE);
496         
497             if (d > dend) {
498                 STRLEN clen = d - dstart;
499                 STRLEN nlen = dend - dstart + len + UTF8_MAXLEN;
500                 if (!grows)
501                     Perl_croak(aTHX_ "panic: do_trans_complex_utf8 line %d",__LINE__);
502                 Renew(dstart, nlen+UTF8_MAXLEN, U8);
503                 d = dstart + clen;
504                 dend = dstart + nlen;
505             }
506             if (uv < none) {
507                 matches++;
508                 s += UTF8SKIP(s);
509                 if (uv != puv) {
510                     d = uvuni_to_utf8(d, uv);
511                     puv = uv;
512                 }
513                 continue;
514             }
515             else if (uv == none) {      /* "none" is unmapped character */
516                 int i = UTF8SKIP(s);
517                 Move(s, d, i, U8);
518                 d += i;
519                 s += i;
520                 puv = 0xfeedface;
521                 continue;
522             }
523             else if (uv == extra && !del) {
524                 matches++;
525                 if (havefinal) {
526                     s += UTF8SKIP(s);
527                     if (puv != final) {
528                         d = uvuni_to_utf8(d, final);
529                         puv = final;
530                     }
531                 }
532                 else {
533                     STRLEN len;
534                     uv = utf8_to_uvuni(s, &len);
535                     if (uv != puv) {
536                         Move(s, d, len, U8);
537                         d += len;
538                         puv = uv;
539                     }
540                     s += len;
541                 }
542                 continue;
543             }
544             matches++;                  /* "none+1" is delete character */
545             s += UTF8SKIP(s);
546         }
547     }
548     else {
549         while (s < send) {
550             uv = swash_fetch(rv, s, TRUE);
551             if (d > dend) {
552                 STRLEN clen = d - dstart;
553                 STRLEN nlen = dend - dstart + len + UTF8_MAXLEN;
554                 if (!grows)
555                     Perl_croak(aTHX_ "panic: do_trans_complex_utf8 line %d",__LINE__);
556                 Renew(dstart, nlen+UTF8_MAXLEN, U8);
557                 d = dstart + clen;
558                 dend = dstart + nlen;
559             }
560             if (uv < none) {
561                 matches++;
562                 s += UTF8SKIP(s);
563                 d = uvuni_to_utf8(d, uv);
564                 continue;
565             }
566             else if (uv == none) {      /* "none" is unmapped character */
567                 int i = UTF8SKIP(s);
568                 Move(s, d, i, U8);
569                 d += i;
570                 s += i;
571                 continue;
572             }
573             else if (uv == extra && !del) {
574                 matches++;
575                 s += UTF8SKIP(s);
576                 d = uvuni_to_utf8(d, final);
577                 continue;
578             }
579             matches++;                  /* "none+1" is delete character */
580             s += UTF8SKIP(s);
581         }
582     }
583     if (grows || hibit) {
584         sv_setpvn(sv, (char*)dstart, d - dstart);
585         Safefree(dstart);
586         if (grows && hibit)
587             Safefree(start);
588     }
589     else {
590         *d = '\0';
591         SvCUR_set(sv, d - dstart);
592     }
593     SvUTF8_on(sv);
594     SvSETMAGIC(sv);
595
596     return matches;
597 }
598
599 I32
600 Perl_do_trans(pTHX_ SV *sv)
601 {
602     STRLEN len;
603     I32 hasutf = (PL_op->op_private &
604                     (OPpTRANS_FROM_UTF|OPpTRANS_TO_UTF));
605
606     if (SvREADONLY(sv)) {
607         if (SvIsCOW(sv))
608             sv_force_normal_flags(sv, 0);
609         if (SvREADONLY(sv) && !(PL_op->op_private & OPpTRANS_IDENTICAL))
610             Perl_croak(aTHX_ PL_no_modify);
611     }
612     (void)SvPV(sv, len);
613     if (!len)
614         return 0;
615     if (!(PL_op->op_private & OPpTRANS_IDENTICAL)) {
616         if (!SvPOKp(sv))
617             (void)SvPV_force(sv, len);
618         (void)SvPOK_only_UTF8(sv);
619     }
620
621     DEBUG_t( Perl_deb(aTHX_ "2.TBL\n"));
622
623     switch (PL_op->op_private & ~hasutf & (
624                 OPpTRANS_FROM_UTF|OPpTRANS_TO_UTF|OPpTRANS_IDENTICAL|
625                 OPpTRANS_SQUASH|OPpTRANS_DELETE|OPpTRANS_COMPLEMENT)) {
626     case 0:
627         if (hasutf)
628             return do_trans_simple_utf8(sv);
629         else
630             return do_trans_simple(sv);
631
632     case OPpTRANS_IDENTICAL:
633     case OPpTRANS_IDENTICAL|OPpTRANS_COMPLEMENT:
634         if (hasutf)
635             return do_trans_count_utf8(sv);
636         else
637             return do_trans_count(sv);
638
639     default:
640         if (hasutf)
641             return do_trans_complex_utf8(sv);
642         else
643             return do_trans_complex(sv);
644     }
645 }
646
647 void
648 Perl_do_join(pTHX_ register SV *sv, SV *del, register SV **mark, register SV **sp)
649 {
650     SV **oldmark = mark;
651     register I32 items = sp - mark;
652     register STRLEN len;
653     STRLEN delimlen;
654     STRLEN tmplen;
655
656     (void) SvPV(del, delimlen); /* stringify and get the delimlen */
657     /* SvCUR assumes it's SvPOK() and woe betide you if it's not. */
658
659     mark++;
660     len = (items > 0 ? (delimlen * (items - 1) ) : 0);
661     (void)SvUPGRADE(sv, SVt_PV);
662     if (SvLEN(sv) < len + items) {      /* current length is way too short */
663         while (items-- > 0) {
664             if (*mark && !SvGAMAGIC(*mark) && SvOK(*mark)) {
665                 SvPV(*mark, tmplen);
666                 len += tmplen;
667             }
668             mark++;
669         }
670         SvGROW(sv, len + 1);            /* so try to pre-extend */
671
672         mark = oldmark;
673         items = sp - mark;
674         ++mark;
675     }
676
677     sv_setpvn(sv, "", 0);
678     /* sv_setpv retains old UTF8ness [perl #24846] */
679     if (SvUTF8(sv))
680         SvUTF8_off(sv);
681
682     if (PL_tainting && SvMAGICAL(sv))
683         SvTAINTED_off(sv);
684
685     if (items-- > 0) {
686         if (*mark)
687             sv_catsv(sv, *mark);
688         mark++;
689     }
690
691     if (delimlen) {
692         for (; items > 0; items--,mark++) {
693             sv_catsv(sv,del);
694             sv_catsv(sv,*mark);
695         }
696     }
697     else {
698         for (; items > 0; items--,mark++)
699             sv_catsv(sv,*mark);
700     }
701     SvSETMAGIC(sv);
702 }
703
704 void
705 Perl_do_sprintf(pTHX_ SV *sv, I32 len, SV **sarg)
706 {
707     STRLEN patlen;
708     char *pat = SvPV(*sarg, patlen);
709     bool do_taint = FALSE;
710
711     SvUTF8_off(sv);
712     if (DO_UTF8(*sarg))
713         SvUTF8_on(sv);
714     sv_vsetpvfn(sv, pat, patlen, Null(va_list*), sarg + 1, len - 1, &do_taint);
715     SvSETMAGIC(sv);
716     if (do_taint)
717         SvTAINTED_on(sv);
718 }
719
720 /* currently converts input to bytes if possible, but doesn't sweat failure */
721 UV
722 Perl_do_vecget(pTHX_ SV *sv, I32 offset, I32 size)
723 {
724     STRLEN srclen, len;
725     unsigned char *s = (unsigned char *) SvPV(sv, srclen);
726     UV retnum = 0;
727
728     if (offset < 0)
729         return retnum;
730     if (size < 1 || (size & (size-1))) /* size < 1 or not a power of two */
731         Perl_croak(aTHX_ "Illegal number of bits in vec");
732
733     if (SvUTF8(sv))
734         (void) Perl_sv_utf8_downgrade(aTHX_ sv, TRUE);
735
736     offset *= size;     /* turn into bit offset */
737     len = (offset + size + 7) / 8;      /* required number of bytes */
738     if (len > srclen) {
739         if (size <= 8)
740             retnum = 0;
741         else {
742             offset >>= 3;       /* turn into byte offset */
743             if (size == 16) {
744                 if ((STRLEN)offset >= srclen)
745                     retnum = 0;
746                 else
747                     retnum = (UV) s[offset] <<  8;
748             }
749             else if (size == 32) {
750                 if ((STRLEN)offset >= srclen)
751                     retnum = 0;
752                 else if ((STRLEN)(offset + 1) >= srclen)
753                     retnum =
754                         ((UV) s[offset    ] << 24);
755                 else if ((STRLEN)(offset + 2) >= srclen)
756                     retnum =
757                         ((UV) s[offset    ] << 24) +
758                         ((UV) s[offset + 1] << 16);
759                 else
760                     retnum =
761                         ((UV) s[offset    ] << 24) +
762                         ((UV) s[offset + 1] << 16) +
763                         (     s[offset + 2] <<  8);
764             }
765 #ifdef UV_IS_QUAD
766             else if (size == 64) {
767                 if (ckWARN(WARN_PORTABLE))
768                     Perl_warner(aTHX_ packWARN(WARN_PORTABLE),
769                                 "Bit vector size > 32 non-portable");
770                 if (offset >= srclen)
771                     retnum = 0;
772                 else if (offset + 1 >= srclen)
773                     retnum =
774                         (UV) s[offset     ] << 56;
775                 else if (offset + 2 >= srclen)
776                     retnum =
777                         ((UV) s[offset    ] << 56) +
778                         ((UV) s[offset + 1] << 48);
779                 else if (offset + 3 >= srclen)
780                     retnum =
781                         ((UV) s[offset    ] << 56) +
782                         ((UV) s[offset + 1] << 48) +
783                         ((UV) s[offset + 2] << 40);
784                 else if (offset + 4 >= srclen)
785                     retnum =
786                         ((UV) s[offset    ] << 56) +
787                         ((UV) s[offset + 1] << 48) +
788                         ((UV) s[offset + 2] << 40) +
789                         ((UV) s[offset + 3] << 32);
790                 else if (offset + 5 >= srclen)
791                     retnum =
792                         ((UV) s[offset    ] << 56) +
793                         ((UV) s[offset + 1] << 48) +
794                         ((UV) s[offset + 2] << 40) +
795                         ((UV) s[offset + 3] << 32) +
796                         (     s[offset + 4] << 24);
797                 else if (offset + 6 >= srclen)
798                     retnum =
799                         ((UV) s[offset    ] << 56) +
800                         ((UV) s[offset + 1] << 48) +
801                         ((UV) s[offset + 2] << 40) +
802                         ((UV) s[offset + 3] << 32) +
803                         ((UV) s[offset + 4] << 24) +
804                         ((UV) s[offset + 5] << 16);
805                 else
806                     retnum =
807                         ((UV) s[offset    ] << 56) +
808                         ((UV) s[offset + 1] << 48) +
809                         ((UV) s[offset + 2] << 40) +
810                         ((UV) s[offset + 3] << 32) +
811                         ((UV) s[offset + 4] << 24) +
812                         ((UV) s[offset + 5] << 16) +
813                         (     s[offset + 6] <<  8);
814             }
815 #endif
816         }
817     }
818     else if (size < 8)
819         retnum = (s[offset >> 3] >> (offset & 7)) & ((1 << size) - 1);
820     else {
821         offset >>= 3;   /* turn into byte offset */
822         if (size == 8)
823             retnum = s[offset];
824         else if (size == 16)
825             retnum =
826                 ((UV) s[offset] <<      8) +
827                       s[offset + 1];
828         else if (size == 32)
829             retnum =
830                 ((UV) s[offset    ] << 24) +
831                 ((UV) s[offset + 1] << 16) +
832                 (     s[offset + 2] <<  8) +
833                       s[offset + 3];
834 #ifdef UV_IS_QUAD
835         else if (size == 64) {
836             if (ckWARN(WARN_PORTABLE))
837                 Perl_warner(aTHX_ packWARN(WARN_PORTABLE),
838                             "Bit vector size > 32 non-portable");
839             retnum =
840                 ((UV) s[offset    ] << 56) +
841                 ((UV) s[offset + 1] << 48) +
842                 ((UV) s[offset + 2] << 40) +
843                 ((UV) s[offset + 3] << 32) +
844                 ((UV) s[offset + 4] << 24) +
845                 ((UV) s[offset + 5] << 16) +
846                 (     s[offset + 6] <<  8) +
847                       s[offset + 7];
848         }
849 #endif
850     }
851
852     return retnum;
853 }
854
855 /* currently converts input to bytes if possible but doesn't sweat failures,
856  * although it does ensure that the string it clobbers is not marked as
857  * utf8-valid any more
858  */
859 void
860 Perl_do_vecset(pTHX_ SV *sv)
861 {
862     SV *targ = LvTARG(sv);
863     register I32 offset;
864     register I32 size;
865     register unsigned char *s;
866     register UV lval;
867     I32 mask;
868     STRLEN targlen;
869     STRLEN len;
870
871     if (!targ)
872         return;
873     s = (unsigned char*)SvPV_force(targ, targlen);
874     if (SvUTF8(targ)) {
875         /* This is handled by the SvPOK_only below...
876         if (!Perl_sv_utf8_downgrade(aTHX_ targ, TRUE))
877             SvUTF8_off(targ);
878          */
879         (void) Perl_sv_utf8_downgrade(aTHX_ targ, TRUE);
880     }
881
882     (void)SvPOK_only(targ);
883     lval = SvUV(sv);
884     offset = LvTARGOFF(sv);
885     if (offset < 0)
886         Perl_croak(aTHX_ "Negative offset to vec in lvalue context");
887     size = LvTARGLEN(sv);
888     if (size < 1 || (size & (size-1))) /* size < 1 or not a power of two */
889         Perl_croak(aTHX_ "Illegal number of bits in vec");
890
891     offset *= size;                     /* turn into bit offset */
892     len = (offset + size + 7) / 8;      /* required number of bytes */
893     if (len > targlen) {
894         s = (unsigned char*)SvGROW(targ, len + 1);
895         (void)memzero((char *)(s + targlen), len - targlen + 1);
896         SvCUR_set(targ, len);
897     }
898
899     if (size < 8) {
900         mask = (1 << size) - 1;
901         size = offset & 7;
902         lval &= mask;
903         offset >>= 3;                   /* turn into byte offset */
904         s[offset] &= ~(mask << size);
905         s[offset] |= lval << size;
906     }
907     else {
908         offset >>= 3;                   /* turn into byte offset */
909         if (size == 8)
910             s[offset  ] = (U8)( lval        & 0xff);
911         else if (size == 16) {
912             s[offset  ] = (U8)((lval >>  8) & 0xff);
913             s[offset+1] = (U8)( lval        & 0xff);
914         }
915         else if (size == 32) {
916             s[offset  ] = (U8)((lval >> 24) & 0xff);
917             s[offset+1] = (U8)((lval >> 16) & 0xff);
918             s[offset+2] = (U8)((lval >>  8) & 0xff);
919             s[offset+3] = (U8)( lval        & 0xff);
920         }
921 #ifdef UV_IS_QUAD
922         else if (size == 64) {
923             if (ckWARN(WARN_PORTABLE))
924                 Perl_warner(aTHX_ packWARN(WARN_PORTABLE),
925                             "Bit vector size > 32 non-portable");
926             s[offset  ] = (U8)((lval >> 56) & 0xff);
927             s[offset+1] = (U8)((lval >> 48) & 0xff);
928             s[offset+2] = (U8)((lval >> 40) & 0xff);
929             s[offset+3] = (U8)((lval >> 32) & 0xff);
930             s[offset+4] = (U8)((lval >> 24) & 0xff);
931             s[offset+5] = (U8)((lval >> 16) & 0xff);
932             s[offset+6] = (U8)((lval >>  8) & 0xff);
933             s[offset+7] = (U8)( lval        & 0xff);
934         }
935 #endif
936     }
937     SvSETMAGIC(targ);
938 }
939
940 void
941 Perl_do_chop(pTHX_ register SV *astr, register SV *sv)
942 {
943     STRLEN len;
944     char *s;
945
946     if (SvTYPE(sv) == SVt_PVAV) {
947         register I32 i;
948         I32 max;
949         AV* av = (AV*)sv;
950         max = AvFILL(av);
951         for (i = 0; i <= max; i++) {
952             sv = (SV*)av_fetch(av, i, FALSE);
953             if (sv && ((sv = *(SV**)sv), sv != &PL_sv_undef))
954                 do_chop(astr, sv);
955         }
956         return;
957     }
958     else if (SvTYPE(sv) == SVt_PVHV) {
959         HV* hv = (HV*)sv;
960         HE* entry;
961         (void)hv_iterinit(hv);
962         /*SUPPRESS 560*/
963         while ((entry = hv_iternext(hv)))
964             do_chop(astr,hv_iterval(hv,entry));
965         return;
966     }
967     else if (SvREADONLY(sv)) {
968         if (SvFAKE(sv)) {
969             /* SV is copy-on-write */
970             sv_force_normal_flags(sv, 0);
971         }
972         if (SvREADONLY(sv))
973             Perl_croak(aTHX_ PL_no_modify);
974     }
975     s = SvPV(sv, len);
976     if (len && !SvPOK(sv))
977         s = SvPV_force(sv, len);
978     if (DO_UTF8(sv)) {
979         if (s && len) {
980             char *send = s + len;
981             char *start = s;
982             s = send - 1;
983             while (s > start && UTF8_IS_CONTINUATION(*s))
984                 s--;
985             if (utf8_to_uvchr((U8*)s, 0)) {
986                 sv_setpvn(astr, s, send - s);
987                 *s = '\0';
988                 SvCUR_set(sv, s - start);
989                 SvNIOK_off(sv);
990                 SvUTF8_on(astr);
991             }
992         }
993         else
994             sv_setpvn(astr, "", 0);
995     }
996     else if (s && len) {
997         s += --len;
998         sv_setpvn(astr, s, 1);
999         *s = '\0';
1000         SvCUR_set(sv, len);
1001         SvUTF8_off(sv);
1002         SvNIOK_off(sv);
1003     }
1004     else
1005         sv_setpvn(astr, "", 0);
1006     SvSETMAGIC(sv);
1007 }
1008
1009 I32
1010 Perl_do_chomp(pTHX_ register SV *sv)
1011 {
1012     register I32 count;
1013     STRLEN len;
1014     STRLEN n_a;
1015     char *s;
1016     char *temp_buffer = NULL;
1017     SV* svrecode = Nullsv;
1018
1019     if (RsSNARF(PL_rs))
1020         return 0;
1021     if (RsRECORD(PL_rs))
1022       return 0;
1023     count = 0;
1024     if (SvTYPE(sv) == SVt_PVAV) {
1025         register I32 i;
1026         I32 max;
1027         AV* av = (AV*)sv;
1028         max = AvFILL(av);
1029         for (i = 0; i <= max; i++) {
1030             sv = (SV*)av_fetch(av, i, FALSE);
1031             if (sv && ((sv = *(SV**)sv), sv != &PL_sv_undef))
1032                 count += do_chomp(sv);
1033         }
1034         return count;
1035     }
1036     else if (SvTYPE(sv) == SVt_PVHV) {
1037         HV* hv = (HV*)sv;
1038         HE* entry;
1039         (void)hv_iterinit(hv);
1040         /*SUPPRESS 560*/
1041         while ((entry = hv_iternext(hv)))
1042             count += do_chomp(hv_iterval(hv,entry));
1043         return count;
1044     }
1045     else if (SvREADONLY(sv)) {
1046         if (SvFAKE(sv)) {
1047             /* SV is copy-on-write */
1048             sv_force_normal_flags(sv, 0);
1049         }
1050         if (SvREADONLY(sv))
1051             Perl_croak(aTHX_ PL_no_modify);
1052     }
1053
1054     if (PL_encoding) {
1055         if (!SvUTF8(sv)) {
1056         /* XXX, here sv is utf8-ized as a side-effect!
1057            If encoding.pm is used properly, almost string-generating
1058            operations, including literal strings, chr(), input data, etc.
1059            should have been utf8-ized already, right?
1060         */
1061             sv_recode_to_utf8(sv, PL_encoding);
1062         }
1063     }
1064
1065     s = SvPV(sv, len);
1066     if (s && len) {
1067         s += --len;
1068         if (RsPARA(PL_rs)) {
1069             if (*s != '\n')
1070                 goto nope;
1071             ++count;
1072             while (len && s[-1] == '\n') {
1073                 --len;
1074                 --s;
1075                 ++count;
1076             }
1077         }
1078         else {
1079             STRLEN rslen, rs_charlen;
1080             char *rsptr = SvPV(PL_rs, rslen);
1081
1082             rs_charlen = SvUTF8(PL_rs)
1083                 ? sv_len_utf8(PL_rs)
1084                 : rslen;
1085
1086             if (SvUTF8(PL_rs) != SvUTF8(sv)) {
1087                 /* Assumption is that rs is shorter than the scalar.  */
1088                 if (SvUTF8(PL_rs)) {
1089                     /* RS is utf8, scalar is 8 bit.  */
1090                     bool is_utf8 = TRUE;
1091                     temp_buffer = (char*)bytes_from_utf8((U8*)rsptr,
1092                                                          &rslen, &is_utf8);
1093                     if (is_utf8) {
1094                         /* Cannot downgrade, therefore cannot possibly match
1095                          */
1096                         assert (temp_buffer == rsptr);
1097                         temp_buffer = NULL;
1098                         goto nope;
1099                     }
1100                     rsptr = temp_buffer;
1101                 }
1102                 else if (PL_encoding) {
1103                     /* RS is 8 bit, encoding.pm is used.
1104                      * Do not recode PL_rs as a side-effect. */
1105                    svrecode = newSVpvn(rsptr, rslen);
1106                    sv_recode_to_utf8(svrecode, PL_encoding);
1107                    rsptr = SvPV(svrecode, rslen);
1108                    rs_charlen = sv_len_utf8(svrecode);
1109                 }
1110                 else {
1111                     /* RS is 8 bit, scalar is utf8.  */
1112                     temp_buffer = (char*)bytes_to_utf8((U8*)rsptr, &rslen);
1113                     rsptr = temp_buffer;
1114                 }
1115             }
1116             if (rslen == 1) {
1117                 if (*s != *rsptr)
1118                     goto nope;
1119                 ++count;
1120             }
1121             else {
1122                 if (len < rslen - 1)
1123                     goto nope;
1124                 len -= rslen - 1;
1125                 s -= rslen - 1;
1126                 if (memNE(s, rsptr, rslen))
1127                     goto nope;
1128                 count += rs_charlen;
1129             }
1130         }
1131         s = SvPV_force(sv, n_a);
1132         SvCUR_set(sv, len);
1133         *SvEND(sv) = '\0';
1134         SvNIOK_off(sv);
1135         SvSETMAGIC(sv);
1136     }
1137   nope:
1138
1139     if (svrecode)
1140          SvREFCNT_dec(svrecode);
1141
1142     Safefree(temp_buffer);
1143     return count;
1144 }
1145
1146 void
1147 Perl_do_vop(pTHX_ I32 optype, SV *sv, SV *left, SV *right)
1148 {
1149 #ifdef LIBERAL
1150     register long *dl;
1151     register long *ll;
1152     register long *rl;
1153 #endif
1154     register char *dc;
1155     STRLEN leftlen;
1156     STRLEN rightlen;
1157     register char *lc;
1158     register char *rc;
1159     register I32 len;
1160     I32 lensave;
1161     char *lsave;
1162     char *rsave;
1163     bool left_utf = DO_UTF8(left);
1164     bool right_utf = DO_UTF8(right);
1165     I32 needlen = 0;
1166
1167     if (left_utf && !right_utf)
1168         sv_utf8_upgrade(right);
1169     else if (!left_utf && right_utf)
1170         sv_utf8_upgrade(left);
1171
1172     if (sv != left || (optype != OP_BIT_AND && !SvOK(sv) && !SvGMAGICAL(sv)))
1173         sv_setpvn(sv, "", 0);   /* avoid undef warning on |= and ^= */
1174     lsave = lc = SvPV_nomg(left, leftlen);
1175     rsave = rc = SvPV_nomg(right, rightlen);
1176     len = leftlen < rightlen ? leftlen : rightlen;
1177     lensave = len;
1178     if ((left_utf || right_utf) && (sv == left || sv == right)) {
1179         needlen = optype == OP_BIT_AND ? len : leftlen + rightlen;
1180         Newz(801, dc, needlen + 1, char);
1181     }
1182     else if (SvOK(sv) || SvTYPE(sv) > SVt_PVMG) {
1183         STRLEN n_a;
1184         dc = SvPV_force_nomg(sv, n_a);
1185         if (SvCUR(sv) < (STRLEN)len) {
1186             dc = SvGROW(sv, (STRLEN)(len + 1));
1187             (void)memzero(dc + SvCUR(sv), len - SvCUR(sv) + 1);
1188         }
1189         if (optype != OP_BIT_AND && (left_utf || right_utf))
1190             dc = SvGROW(sv, leftlen + rightlen + 1);
1191     }
1192     else {
1193         needlen = ((optype == OP_BIT_AND)
1194                     ? len : (leftlen > rightlen ? leftlen : rightlen));
1195         Newz(801, dc, needlen + 1, char);
1196         (void)sv_usepvn(sv, dc, needlen);
1197         dc = SvPVX(sv);         /* sv_usepvn() calls Renew() */
1198     }
1199     SvCUR_set(sv, len);
1200     (void)SvPOK_only(sv);
1201     if (left_utf || right_utf) {
1202         UV duc, luc, ruc;
1203         char *dcsave = dc;
1204         STRLEN lulen = leftlen;
1205         STRLEN rulen = rightlen;
1206         STRLEN ulen;
1207
1208         switch (optype) {
1209         case OP_BIT_AND:
1210             while (lulen && rulen) {
1211                 luc = utf8n_to_uvchr((U8*)lc, lulen, &ulen, UTF8_ALLOW_ANYUV);
1212                 lc += ulen;
1213                 lulen -= ulen;
1214                 ruc = utf8n_to_uvchr((U8*)rc, rulen, &ulen, UTF8_ALLOW_ANYUV);
1215                 rc += ulen;
1216                 rulen -= ulen;
1217                 duc = luc & ruc;
1218                 dc = (char*)uvchr_to_utf8((U8*)dc, duc);
1219             }
1220             if (sv == left || sv == right)
1221                 (void)sv_usepvn(sv, dcsave, needlen);
1222             SvCUR_set(sv, dc - dcsave);
1223             break;
1224         case OP_BIT_XOR:
1225             while (lulen && rulen) {
1226                 luc = utf8n_to_uvchr((U8*)lc, lulen, &ulen, UTF8_ALLOW_ANYUV);
1227                 lc += ulen;
1228                 lulen -= ulen;
1229                 ruc = utf8n_to_uvchr((U8*)rc, rulen, &ulen, UTF8_ALLOW_ANYUV);
1230                 rc += ulen;
1231                 rulen -= ulen;
1232                 duc = luc ^ ruc;
1233                 dc = (char*)uvchr_to_utf8((U8*)dc, duc);
1234             }
1235             goto mop_up_utf;
1236         case OP_BIT_OR:
1237             while (lulen && rulen) {
1238                 luc = utf8n_to_uvchr((U8*)lc, lulen, &ulen, UTF8_ALLOW_ANYUV);
1239                 lc += ulen;
1240                 lulen -= ulen;
1241                 ruc = utf8n_to_uvchr((U8*)rc, rulen, &ulen, UTF8_ALLOW_ANYUV);
1242                 rc += ulen;
1243                 rulen -= ulen;
1244                 duc = luc | ruc;
1245                 dc = (char*)uvchr_to_utf8((U8*)dc, duc);
1246             }
1247           mop_up_utf:
1248             if (sv == left || sv == right)
1249                 (void)sv_usepvn(sv, dcsave, needlen);
1250             SvCUR_set(sv, dc - dcsave);
1251             if (rulen)
1252                 sv_catpvn(sv, rc, rulen);
1253             else if (lulen)
1254                 sv_catpvn(sv, lc, lulen);
1255             else
1256                 *SvEND(sv) = '\0';
1257             break;
1258         }
1259         SvUTF8_on(sv);
1260         goto finish;
1261     }
1262     else
1263 #ifdef LIBERAL
1264     if (len >= sizeof(long)*4 &&
1265         !((long)dc % sizeof(long)) &&
1266         !((long)lc % sizeof(long)) &&
1267         !((long)rc % sizeof(long)))     /* It's almost always aligned... */
1268     {
1269         I32 remainder = len % (sizeof(long)*4);
1270         len /= (sizeof(long)*4);
1271
1272         dl = (long*)dc;
1273         ll = (long*)lc;
1274         rl = (long*)rc;
1275
1276         switch (optype) {
1277         case OP_BIT_AND:
1278             while (len--) {
1279                 *dl++ = *ll++ & *rl++;
1280                 *dl++ = *ll++ & *rl++;
1281                 *dl++ = *ll++ & *rl++;
1282                 *dl++ = *ll++ & *rl++;
1283             }
1284             break;
1285         case OP_BIT_XOR:
1286             while (len--) {
1287                 *dl++ = *ll++ ^ *rl++;
1288                 *dl++ = *ll++ ^ *rl++;
1289                 *dl++ = *ll++ ^ *rl++;
1290                 *dl++ = *ll++ ^ *rl++;
1291             }
1292             break;
1293         case OP_BIT_OR:
1294             while (len--) {
1295                 *dl++ = *ll++ | *rl++;
1296                 *dl++ = *ll++ | *rl++;
1297                 *dl++ = *ll++ | *rl++;
1298                 *dl++ = *ll++ | *rl++;
1299             }
1300         }
1301
1302         dc = (char*)dl;
1303         lc = (char*)ll;
1304         rc = (char*)rl;
1305
1306         len = remainder;
1307     }
1308 #endif
1309     {
1310         switch (optype) {
1311         case OP_BIT_AND:
1312             while (len--)
1313                 *dc++ = *lc++ & *rc++;
1314             break;
1315         case OP_BIT_XOR:
1316             while (len--)
1317                 *dc++ = *lc++ ^ *rc++;
1318             goto mop_up;
1319         case OP_BIT_OR:
1320             while (len--)
1321                 *dc++ = *lc++ | *rc++;
1322           mop_up:
1323             len = lensave;
1324             if (rightlen > (STRLEN)len)
1325                 sv_catpvn(sv, rsave + len, rightlen - len);
1326             else if (leftlen > (STRLEN)len)
1327                 sv_catpvn(sv, lsave + len, leftlen - len);
1328             else
1329                 *SvEND(sv) = '\0';
1330             break;
1331         }
1332     }
1333 finish:
1334     SvTAINT(sv);
1335 }
1336
1337 OP *
1338 Perl_do_kv(pTHX)
1339 {
1340     dSP;
1341     HV *hv = (HV*)POPs;
1342     HV *keys;
1343     register HE *entry;
1344     SV *tmpstr;
1345     I32 gimme = GIMME_V;
1346     I32 dokeys =   (PL_op->op_type == OP_KEYS);
1347     I32 dovalues = (PL_op->op_type == OP_VALUES);
1348
1349     if (PL_op->op_type == OP_RV2HV || PL_op->op_type == OP_PADHV)
1350         dokeys = dovalues = TRUE;
1351
1352     if (!hv) {
1353         if (PL_op->op_flags & OPf_MOD || LVRET) {       /* lvalue */
1354             dTARGET;            /* make sure to clear its target here */
1355             if (SvTYPE(TARG) == SVt_PVLV)
1356                 LvTARG(TARG) = Nullsv;
1357             PUSHs(TARG);
1358         }
1359         RETURN;
1360     }
1361
1362     keys = hv;
1363     (void)hv_iterinit(keys);    /* always reset iterator regardless */
1364
1365     if (gimme == G_VOID)
1366         RETURN;
1367
1368     if (gimme == G_SCALAR) {
1369         IV i;
1370         dTARGET;
1371
1372         if (PL_op->op_flags & OPf_MOD || LVRET) {       /* lvalue */
1373             if (SvTYPE(TARG) < SVt_PVLV) {
1374                 sv_upgrade(TARG, SVt_PVLV);
1375                 sv_magic(TARG, Nullsv, PERL_MAGIC_nkeys, Nullch, 0);
1376             }
1377             LvTYPE(TARG) = 'k';
1378             if (LvTARG(TARG) != (SV*)keys) {
1379                 if (LvTARG(TARG))
1380                     SvREFCNT_dec(LvTARG(TARG));
1381                 LvTARG(TARG) = SvREFCNT_inc(keys);
1382             }
1383             PUSHs(TARG);
1384             RETURN;
1385         }
1386
1387         if (! SvTIED_mg((SV*)keys, PERL_MAGIC_tied))
1388             i = HvKEYS(keys);
1389         else {
1390             i = 0;
1391             /*SUPPRESS 560*/
1392             while (hv_iternext(keys)) i++;
1393         }
1394         PUSHi( i );
1395         RETURN;
1396     }
1397
1398     EXTEND(SP, HvKEYS(keys) * (dokeys + dovalues));
1399
1400     PUTBACK;    /* hv_iternext and hv_iterval might clobber stack_sp */
1401     while ((entry = hv_iternext(keys))) {
1402         SPAGAIN;
1403         if (dokeys) {
1404             SV* sv = hv_iterkeysv(entry);
1405             XPUSHs(sv); /* won't clobber stack_sp */
1406         }
1407         if (dovalues) {
1408             PUTBACK;
1409             tmpstr = hv_iterval(hv,entry);
1410             DEBUG_H(Perl_sv_setpvf(aTHX_ tmpstr, "%lu%%%d=%lu",
1411                             (unsigned long)HeHASH(entry),
1412                             HvMAX(keys)+1,
1413                             (unsigned long)(HeHASH(entry) & HvMAX(keys))));
1414             SPAGAIN;
1415             XPUSHs(tmpstr);
1416         }
1417         PUTBACK;
1418     }
1419     return NORMAL;
1420 }
1421