This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
document regcomp.c/regexec.c's dual life under ext/re/
[perl5.git] / regexec.c
index 63cb5e9..6a7f064 100644 (file)
--- a/regexec.c
+++ b/regexec.c
@@ -5,6 +5,17 @@
  * "One Ring to rule them all, One Ring to find them..."
  */
 
+/* This file contains functions for executing a regular expression.  See
+ * also regcomp.c which funnily enough, contains functions for compiling
+ * a regular expression.
+ *
+ * This file is also copied at build time to ext/re/re_exec.c, where
+ * it's built with -DPERL_EXT_RE_BUILD -DPERL_EXT_RE_DEBUG -DPERL_EXT.
+ * This causes the main functions to be compiled under new names and with
+ * debugging support added, which makes "use re 'debug'" work.
+ */
+
 /* NOTE: this is derived from Henry Spencer's regexp code, and should not
  * confused with the original package (see point 3 below).  Thanks, Henry!
  */
@@ -398,6 +409,7 @@ Perl_re_intuit_start(pTHX_ regexp *prog, SV *sv, char *strpos,
     I32 ml_anch;
     register char *other_last = Nullch;        /* other substr checked before this */
     char *check_at = Nullch;           /* check substr found at this pos */
+    I32 multiline = prog->reganch & PMf_MULTILINE;
 #ifdef DEBUGGING
     char *i_strpos = strpos;
     SV *dsv = PERL_DEBUG_PAD_ZERO(0);
@@ -459,7 +471,7 @@ Perl_re_intuit_start(pTHX_ regexp *prog, SV *sv, char *strpos,
     if (prog->reganch & ROPT_ANCH) {   /* Match at beg-of-str or after \n */
        ml_anch = !( (prog->reganch & ROPT_ANCH_SINGLE)
                     || ( (prog->reganch & ROPT_ANCH_BOL)
-                         && !PL_multiline ) ); /* Check after \n? */
+                         && !multiline ) );    /* Check after \n? */
 
        if (!ml_anch) {
          if ( !(prog->reganch & (ROPT_ANCH_GPOS /* Checked by the caller */
@@ -553,11 +565,11 @@ Perl_re_intuit_start(pTHX_ regexp *prog, SV *sv, char *strpos,
     else if (prog->reganch & ROPT_CANY_SEEN)
        s = fbm_instr((U8*)(s + start_shift),
                      (U8*)(strend - end_shift),
-                     check, PL_multiline ? FBMrf_MULTILINE : 0);
+                     check, multiline ? FBMrf_MULTILINE : 0);
     else
        s = fbm_instr(HOP3(s, start_shift, strend),
                      HOP3(strend, -end_shift, strbeg),
-                     check, PL_multiline ? FBMrf_MULTILINE : 0);
+                     check, multiline ? FBMrf_MULTILINE : 0);
 
     /* Update the count-of-usability, remove useless subpatterns,
        unshift s.  */
@@ -626,7 +638,7 @@ Perl_re_intuit_start(pTHX_ regexp *prog, SV *sv, char *strpos,
                        HOP3(HOP3(last1, prog->anchored_offset, strend)
                                + SvCUR(must), -(SvTAIL(must)!=0), strbeg),
                        must,
-                       PL_multiline ? FBMrf_MULTILINE : 0
+                       multiline ? FBMrf_MULTILINE : 0
                    );
                DEBUG_r(PerlIO_printf(Perl_debug_log,
                        "%s anchored substr `%s%.*s%s'%s",
@@ -687,7 +699,7 @@ Perl_re_intuit_start(pTHX_ regexp *prog, SV *sv, char *strpos,
                s = fbm_instr((unsigned char*)s,
                              (unsigned char*)last + SvCUR(must)
                                  - (SvTAIL(must)!=0),
-                             must, PL_multiline ? FBMrf_MULTILINE : 0);
+                             must, multiline ? FBMrf_MULTILINE : 0);
            DEBUG_r(PerlIO_printf(Perl_debug_log, "%s floating substr `%s%.*s%s'%s",
                    (s ? "Found" : "Contradicts"),
                    PL_colors[0],
@@ -954,6 +966,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        char *m;
        STRLEN ln;
        STRLEN lnc;
+       register STRLEN uskip;
        unsigned int c1;
        unsigned int c2;
        char *e;
@@ -964,7 +977,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        switch (OP(c)) {
        case ANYOF:
            if (do_utf8) {
-                while (s < strend) {
+                while (s + (uskip = UTF8SKIP(s)) <= strend) {
                      if ((ANYOF_FLAGS(c) & ANYOF_UNICODE) ||
                          !UTF8_IS_INVARIANT((U8)s[0]) ?
                          reginclass(c, (U8*)s, 0, do_utf8) :
@@ -976,7 +989,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                      }
                      else 
                           tmp = 1;
-                     s += UTF8SKIP(s);
+                     s += uskip;
                 }
            }
            else {
@@ -1172,7 +1185,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                tmp = ((OP(c) == BOUND ?
                        isALNUM_uni(tmp) : isALNUM_LC_uvchr(UNI_TO_NATIVE(tmp))) != 0);
                LOAD_UTF8_CHARCLASS(alnum,"a");
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (tmp == !(OP(c) == BOUND ?
                                 swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8) :
                                 isALNUM_LC_utf8((U8*)s)))
@@ -1181,7 +1194,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                        if ((norun || regtry(prog, s)))
                            goto got_it;
                    }
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1215,14 +1228,14 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                tmp = ((OP(c) == NBOUND ?
                        isALNUM_uni(tmp) : isALNUM_LC_uvchr(UNI_TO_NATIVE(tmp))) != 0);
                LOAD_UTF8_CHARCLASS(alnum,"a");
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (tmp == !(OP(c) == NBOUND ?
                                 swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8) :
                                 isALNUM_LC_utf8((U8*)s)))
                        tmp = !tmp;
                    else if ((norun || regtry(prog, s)))
                        goto got_it;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1244,7 +1257,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case ALNUM:
            if (do_utf8) {
                LOAD_UTF8_CHARCLASS(alnum,"a");
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8)) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1253,7 +1266,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1273,7 +1286,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case ALNUML:
            PL_reg_flags |= RF_tainted;
            if (do_utf8) {
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (isALNUM_LC_utf8((U8*)s)) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1282,7 +1295,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1302,7 +1315,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case NALNUM:
            if (do_utf8) {
                LOAD_UTF8_CHARCLASS(alnum,"a");
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (!swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8)) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1311,7 +1324,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1331,7 +1344,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case NALNUML:
            PL_reg_flags |= RF_tainted;
            if (do_utf8) {
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (!isALNUM_LC_utf8((U8*)s)) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1340,7 +1353,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1360,7 +1373,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case SPACE:
            if (do_utf8) {
                LOAD_UTF8_CHARCLASS(space," ");
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (*s == ' ' || swash_fetch(PL_utf8_space,(U8*)s, do_utf8)) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1369,7 +1382,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1389,7 +1402,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case SPACEL:
            PL_reg_flags |= RF_tainted;
            if (do_utf8) {
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (*s == ' ' || isSPACE_LC_utf8((U8*)s)) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1398,7 +1411,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1418,7 +1431,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case NSPACE:
            if (do_utf8) {
                LOAD_UTF8_CHARCLASS(space," ");
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (!(*s == ' ' || swash_fetch(PL_utf8_space,(U8*)s, do_utf8))) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1427,7 +1440,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1447,7 +1460,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case NSPACEL:
            PL_reg_flags |= RF_tainted;
            if (do_utf8) {
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (!(*s == ' ' || isSPACE_LC_utf8((U8*)s))) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1456,7 +1469,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1476,7 +1489,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case DIGIT:
            if (do_utf8) {
                LOAD_UTF8_CHARCLASS(digit,"0");
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (swash_fetch(PL_utf8_digit,(U8*)s, do_utf8)) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1485,7 +1498,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1505,7 +1518,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case DIGITL:
            PL_reg_flags |= RF_tainted;
            if (do_utf8) {
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (isDIGIT_LC_utf8((U8*)s)) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1514,7 +1527,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1534,7 +1547,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case NDIGIT:
            if (do_utf8) {
                LOAD_UTF8_CHARCLASS(digit,"0");
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (!swash_fetch(PL_utf8_digit,(U8*)s, do_utf8)) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1543,7 +1556,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1563,7 +1576,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
        case NDIGITL:
            PL_reg_flags |= RF_tainted;
            if (do_utf8) {
-               while (s < strend) {
+               while (s + (uskip = UTF8SKIP(s)) <= strend) {
                    if (!isDIGIT_LC_utf8((U8*)s)) {
                        if (tmp && (norun || regtry(prog, s)))
                            goto got_it;
@@ -1572,7 +1585,7 @@ S_find_byclass(pTHX_ regexp * prog, regnode *c, char *s, char *strend, char *sta
                    }
                    else
                        tmp = 1;
-                   s += UTF8SKIP(s);
+                   s += uskip;
                }
            }
            else {
@@ -1622,6 +1635,7 @@ Perl_regexec_flags(pTHX_ register regexp *prog, char *stringarg, register char *
     char *scream_olds;
     SV* oreplsv = GvSV(PL_replgv);
     bool do_utf8 = DO_UTF8(sv);
+    I32 multiline = prog->reganch & PMf_MULTILINE;
 #ifdef DEBUGGING
     SV *dsv0 = PERL_DEBUG_PAD_ZERO(0);
     SV *dsv1 = PERL_DEBUG_PAD_ZERO(1);
@@ -1738,7 +1752,7 @@ Perl_regexec_flags(pTHX_ register regexp *prog, char *stringarg, register char *
     if (prog->reganch & (ROPT_ANCH & ~ROPT_ANCH_GPOS)) {
        if (s == startpos && regtry(prog, startpos))
            goto got_it;
-       else if (PL_multiline || (prog->reganch & ROPT_IMPLICIT)
+       else if (multiline || (prog->reganch & ROPT_IMPLICIT)
                 || (prog->reganch & ROPT_ANCH_MBOL)) /* XXXX SBOL? */
        {
            char *end;
@@ -1872,7 +1886,7 @@ Perl_regexec_flags(pTHX_ register regexp *prog, char *stringarg, register char *
                                    end_shift, &scream_pos, 0))
                 : (s = fbm_instr((unsigned char*)HOP3(s, back_min, strend),
                                  (unsigned char*)strend, must,
-                                 PL_multiline ? FBMrf_MULTILINE : 0))) ) {
+                                 multiline ? FBMrf_MULTILINE : 0))) ) {
            /* we may be pointing at the wrong string */
            if ((flags & REXEC_SCREAM) && RX_MATCH_COPIED(prog))
                s = strbeg + (s - SvPVX(sv));
@@ -1973,7 +1987,7 @@ Perl_regexec_flags(pTHX_ register regexp *prog, char *stringarg, register char *
                if (SvTAIL(float_real)) {
                    if (memEQ(strend - len + 1, little, len - 1))
                        last = strend - len + 1;
-                   else if (!PL_multiline)
+                   else if (!multiline)
                        last = memEQ(strend - len, little, len)
                            ? strend - len : Nullch;
                    else
@@ -2363,8 +2377,7 @@ S_regmatch(pTHX_ regnode *prog)
 
        switch (OP(scan)) {
        case BOL:
-           if (locinput == PL_bostr || (PL_multiline &&
-               (nextchr || locinput < PL_regeol) && locinput[-1] == '\n') )
+           if (locinput == PL_bostr)
            {
                /* regtill = regbol; */
                break;
@@ -2386,12 +2399,8 @@ S_regmatch(pTHX_ regnode *prog)
                break;
            sayNO;
        case EOL:
-           if (PL_multiline)
-               goto meol;
-           else
                goto seol;
        case MEOL:
-         meol:
            if ((nextchr || locinput < PL_regeol) && nextchr != '\n')
                sayNO;
            break;
@@ -3367,7 +3376,7 @@ S_regmatch(pTHX_ regnode *prog)
            CHECKPOINT lastcp;
        
            /* We suppose that the next guy does not need
-              backtracking: in particular, it is of constant length,
+              backtracking: in particular, it is of constant non-zero length,
               and has no parenths to influence future backrefs. */
            ln = ARG1(scan);  /* min to match */
            n  = ARG2(scan);  /* max to match */
@@ -3386,15 +3395,6 @@ S_regmatch(pTHX_ regnode *prog)
                minmod = 0;
                if (ln && regrepeat_hard(scan, ln, &l) < ln)
                    sayNO;
-               /* if we matched something zero-length we don't need to
-                  backtrack - capturing parens are already defined, so
-                  the caveat in the maximal case doesn't apply
-
-                  XXXX if ln == 0, we can redo this check first time
-                  through the following loop
-               */
-               if (ln && l == 0)
-                   n = ln;     /* don't backtrack */
                locinput = PL_reginput;
                if (HAS_TEXT(next) || JUMPABLE(next)) {
                    regnode *text_node = next;
@@ -3420,8 +3420,7 @@ S_regmatch(pTHX_ regnode *prog)
                    c1 = c2 = -1000;
            assume_ok_MM:
                REGCP_SET(lastcp);
-               /* This may be improved if l == 0.  */
-               while (n >= ln || (n == REG_INFTY && ln > 0 && l)) { /* ln overflow ? */
+               while (n >= ln || (n == REG_INFTY && ln > 0)) { /* ln overflow ? */
                    /* If it could work, try it. */
                    if (c1 == -1000 ||
                        UCHARAT(PL_reginput) == c1 ||
@@ -3452,13 +3451,6 @@ S_regmatch(pTHX_ regnode *prog)
            }
            else {
                n = regrepeat_hard(scan, n, &l);
-               /* if we matched something zero-length we don't need to
-                  backtrack, unless the minimum count is zero and we
-                  are capturing the result - in that case the capture
-                  being defined or not may affect later execution
-               */
-               if (n != 0 && l == 0 && !(paren && ln == 0))
-                   ln = n;     /* don't backtrack */
                locinput = PL_reginput;
                DEBUG_r(
                    PerlIO_printf(Perl_debug_log,
@@ -3745,7 +3737,7 @@ S_regmatch(pTHX_ regnode *prog)
                n = regrepeat(scan, n);
                locinput = PL_reginput;
                if (ln < n && PL_regkind[(U8)OP(next)] == EOL &&
-                   ((!PL_multiline && OP(next) != MEOL) ||
+                   (OP(next) != MEOL ||
                        OP(next) == SEOL || OP(next) == EOS))
                {
                    ln = n;                     /* why back off? */
@@ -4263,7 +4255,7 @@ S_regrepeat(pTHX_ regnode *p, I32 max)
 /*
  - regrepeat_hard - repeatedly match something, report total lenth and length
  *
- * The repeater is supposed to have constant length.
+ * The repeater is supposed to have constant non-zero length.
  */
 
 STATIC I32