This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
fix paren unwinding with CURLYN, CURLYM
authorDavid Mitchell <davem@iabyn.com>
Sat, 16 Jun 2012 12:56:50 +0000 (13:56 +0100)
committerDavid Mitchell <davem@iabyn.com>
Sat, 16 Jun 2012 13:09:41 +0000 (14:09 +0100)
Historically, CURLYN and CURLYM didn't restore lastparen ($+) nor
invalidate higher numbered paren slots (reg->offs[n].end = -1)
when backtracking.

Recent commit f6033a9d6c91e0c29d5aa5049361a529b5d7cdc4 fixed the lastparen
issue, but then exposed the offs[n].end issue, which had previously been
masked by the too-high lastparen value causing a previous state (such as a
branch) to conveniently wipe out the offending parens on further
backtracking.

Or to put it another way, each backtracker should be expected to clean up
his own mess, not hope that someone previous to him will do it for him.

Fix this by doing the .end = 1 stuff on CURLYN,M failure as well as
BRANCH/TRIE. For consistency, define a new macro to do it.

regexec.c
t/re/re_tests

index 764ea3d..0bb8d7e 100644 (file)
--- a/regexec.c
+++ b/regexec.c
@@ -408,6 +408,13 @@ S_regcppush(pTHX_ const regexp *rex, I32 parenfloor)
                (IV)(cp), (IV)PL_savestack_ix));                \
     regcpblow(cp)
 
+#define UNWIND_PAREN(lp, lcp)               \
+    for (n = rex->lastparen; n > lp; n--)   \
+        rex->offs[n].end = -1;              \
+    rex->lastparen = n;                     \
+    rex->lastcloseparen = lcp;
+
+
 STATIC void
 S_regcppop(pTHX_ regexp *rex)
 {
@@ -3497,10 +3504,7 @@ S_regmatch(pTHX_ regmatch_info *reginfo, regnode *prog)
        case TRIE_next_fail: /* we failed - try next alternative */
             if ( ST.jump) {
                 REGCP_UNWIND(ST.cp);
-               for (n = rex->lastparen; n > ST.lastparen; n--)
-                   rex->offs[n].end = -1;
-               rex->lastparen = n;
-               rex->lastcloseparen = ST.lastcloseparen;
+                UNWIND_PAREN(ST.lastparen, ST.lastcloseparen);
            }
            if (!--ST.accepted) {
                DEBUG_EXECUTE_r({
@@ -5067,10 +5071,7 @@ NULL
                no_final = 0;
            }
            REGCP_UNWIND(ST.cp);
-           for (n = rex->lastparen; n > ST.lastparen; n--)
-               rex->offs[n].end = -1;
-           rex->lastparen = n;
-           rex->lastcloseparen = ST.lastcloseparen;
+            UNWIND_PAREN(ST.lastparen, ST.lastcloseparen);
            scan = ST.next_branch;
            /* no more branches? */
            if (!scan || (OP(scan) != BRANCH && OP(scan) != BRANCHJ)) {
@@ -5264,8 +5265,7 @@ NULL
 
        case CURLYM_B_fail: /* just failed to match a B */
            REGCP_UNWIND(ST.cp);
-           rex->lastparen      = ST.lastparen;
-           rex->lastcloseparen = ST.lastcloseparen;
+            UNWIND_PAREN(ST.lastparen, ST.lastcloseparen);
            if (ST.minmod) {
                I32 max = ARG2(ST.me);
                if (max != REG_INFTY && ST.count == max)
@@ -5462,6 +5462,9 @@ NULL
 
            PL_reginput = locinput;     /* Could be reset... */
            REGCP_UNWIND(ST.cp);
+            if (ST.paren) {
+                UNWIND_PAREN(ST.lastparen, ST.lastcloseparen);
+            }
            /* Couldn't or didn't -- move forward. */
            ST.oldloc = locinput;
            if (utf8_target)
@@ -5537,6 +5540,9 @@ NULL
            /* failed to find B in a non-greedy match where c1,c2 invalid */
 
            REGCP_UNWIND(ST.cp);
+            if (ST.paren) {
+                UNWIND_PAREN(ST.lastparen, ST.lastcloseparen);
+            }
            /* failed -- move forward one */
            PL_reginput = locinput;
            if (regrepeat(rex, ST.A, 1, depth)) {
@@ -5582,6 +5588,9 @@ NULL
            /* failed to find B in a greedy match */
 
            REGCP_UNWIND(ST.cp);
+            if (ST.paren) {
+                UNWIND_PAREN(ST.lastparen, ST.lastcloseparen);
+            }
            /*  back up. */
            if (--ST.count < ST.min)
                sayNO;
index ca40bc1..587ff69 100644 (file)
@@ -1665,4 +1665,10 @@ ab[c\\\](??{"x"})]{3}d   ab\\](d y       -       -
 /^(??{"s"})$/iaa       \x{17F} n       -       -
 /^(??{'\w'})$/u        \x{AA}  y       -       -
 
+# #113670 ensure any captures to the right are invalidated when CURLY
+# and CURLYM backtrack
+
+^(?:(X)?(\d)|(X)?(\d\d))$      X12     y       $1-$2-$3-$4     --X-12
+^(?:(XX)?(\d)|(XX)?(\d\d))$    XX12    y       $1-$2-$3-$4     --XX-12
+
 # vim: softtabstop=0 noexpandtab