This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
In struct regexp replace the two arrays of I32s accessed via startp
[perl5.git] / regexec.c
1 /*    regexec.c
2  */
3
4 /*
5  * "One Ring to rule them all, One Ring to find them..."
6  */
7
8 /* This file contains functions for executing a regular expression.  See
9  * also regcomp.c which funnily enough, contains functions for compiling
10  * a regular expression.
11  *
12  * This file is also copied at build time to ext/re/re_exec.c, where
13  * it's built with -DPERL_EXT_RE_BUILD -DPERL_EXT_RE_DEBUG -DPERL_EXT.
14  * This causes the main functions to be compiled under new names and with
15  * debugging support added, which makes "use re 'debug'" work.
16  */
17
18 /* NOTE: this is derived from Henry Spencer's regexp code, and should not
19  * confused with the original package (see point 3 below).  Thanks, Henry!
20  */
21
22 /* Additional note: this code is very heavily munged from Henry's version
23  * in places.  In some spots I've traded clarity for efficiency, so don't
24  * blame Henry for some of the lack of readability.
25  */
26
27 /* The names of the functions have been changed from regcomp and
28  * regexec to  pregcomp and pregexec in order to avoid conflicts
29  * with the POSIX routines of the same names.
30 */
31
32 #ifdef PERL_EXT_RE_BUILD
33 #include "re_top.h"
34 #endif
35
36 /*
37  * pregcomp and pregexec -- regsub and regerror are not used in perl
38  *
39  *      Copyright (c) 1986 by University of Toronto.
40  *      Written by Henry Spencer.  Not derived from licensed software.
41  *
42  *      Permission is granted to anyone to use this software for any
43  *      purpose on any computer system, and to redistribute it freely,
44  *      subject to the following restrictions:
45  *
46  *      1. The author is not responsible for the consequences of use of
47  *              this software, no matter how awful, even if they arise
48  *              from defects in it.
49  *
50  *      2. The origin of this software must not be misrepresented, either
51  *              by explicit claim or by omission.
52  *
53  *      3. Altered versions must be plainly marked as such, and must not
54  *              be misrepresented as being the original software.
55  *
56  ****    Alterations to Henry's code are...
57  ****
58  ****    Copyright (C) 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999,
59  ****    2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007 by Larry Wall and others
60  ****
61  ****    You may distribute under the terms of either the GNU General Public
62  ****    License or the Artistic License, as specified in the README file.
63  *
64  * Beware that some of this code is subtly aware of the way operator
65  * precedence is structured in regular expressions.  Serious changes in
66  * regular-expression syntax might require a total rethink.
67  */
68 #include "EXTERN.h"
69 #define PERL_IN_REGEXEC_C
70 #include "perl.h"
71
72 #ifdef PERL_IN_XSUB_RE
73 #  include "re_comp.h"
74 #else
75 #  include "regcomp.h"
76 #endif
77
78 #define RF_tainted      1               /* tainted information used? */
79 #define RF_warned       2               /* warned about big count? */
80
81 #define RF_utf8         8               /* Pattern contains multibyte chars? */
82
83 #define UTF ((PL_reg_flags & RF_utf8) != 0)
84
85 #define RS_init         1               /* eval environment created */
86 #define RS_set          2               /* replsv value is set */
87
88 #ifndef STATIC
89 #define STATIC  static
90 #endif
91
92 #define REGINCLASS(prog,p,c)  (ANYOF_FLAGS(p) ? reginclass(prog,p,c,0,0) : ANYOF_BITMAP_TEST(p,*(c)))
93
94 /*
95  * Forwards.
96  */
97
98 #define CHR_SVLEN(sv) (do_utf8 ? sv_len_utf8(sv) : SvCUR(sv))
99 #define CHR_DIST(a,b) (PL_reg_match_utf8 ? utf8_distance(a,b) : a - b)
100
101 #define HOPc(pos,off) \
102         (char *)(PL_reg_match_utf8 \
103             ? reghop3((U8*)pos, off, (U8*)(off >= 0 ? PL_regeol : PL_bostr)) \
104             : (U8*)(pos + off))
105 #define HOPBACKc(pos, off) \
106         (char*)(PL_reg_match_utf8\
107             ? reghopmaybe3((U8*)pos, -off, (U8*)PL_bostr) \
108             : (pos - off >= PL_bostr)           \
109                 ? (U8*)pos - off                \
110                 : NULL)
111
112 #define HOP3(pos,off,lim) (PL_reg_match_utf8 ? reghop3((U8*)(pos), off, (U8*)(lim)) : (U8*)(pos + off))
113 #define HOP3c(pos,off,lim) ((char*)HOP3(pos,off,lim))
114
115 #define LOAD_UTF8_CHARCLASS(class,str) STMT_START { \
116     if (!CAT2(PL_utf8_,class)) { bool ok; ENTER; save_re_context(); ok=CAT2(is_utf8_,class)((const U8*)str); assert(ok); LEAVE; } } STMT_END
117 #define LOAD_UTF8_CHARCLASS_ALNUM() LOAD_UTF8_CHARCLASS(alnum,"a")
118 #define LOAD_UTF8_CHARCLASS_DIGIT() LOAD_UTF8_CHARCLASS(digit,"0")
119 #define LOAD_UTF8_CHARCLASS_SPACE() LOAD_UTF8_CHARCLASS(space," ")
120 #define LOAD_UTF8_CHARCLASS_MARK()  LOAD_UTF8_CHARCLASS(mark, "\xcd\x86")
121
122 /* TODO: Combine JUMPABLE and HAS_TEXT to cache OP(rn) */
123
124 /* for use after a quantifier and before an EXACT-like node -- japhy */
125 /* it would be nice to rework regcomp.sym to generate this stuff. sigh */
126 #define JUMPABLE(rn) (      \
127     OP(rn) == OPEN ||       \
128     (OP(rn) == CLOSE && (!cur_eval || cur_eval->u.eval.close_paren != ARG(rn))) || \
129     OP(rn) == EVAL ||   \
130     OP(rn) == SUSPEND || OP(rn) == IFMATCH || \
131     OP(rn) == PLUS || OP(rn) == MINMOD || \
132     OP(rn) == KEEPS || (PL_regkind[OP(rn)] == VERB) || \
133     (PL_regkind[OP(rn)] == CURLY && ARG1(rn) > 0) \
134 )
135 #define IS_EXACT(rn) (PL_regkind[OP(rn)] == EXACT)
136
137 #define HAS_TEXT(rn) ( IS_EXACT(rn) || PL_regkind[OP(rn)] == REF )
138
139 #if 0 
140 /* Currently these are only used when PL_regkind[OP(rn)] == EXACT so
141    we don't need this definition. */
142 #define IS_TEXT(rn)   ( OP(rn)==EXACT   || OP(rn)==REF   || OP(rn)==NREF   )
143 #define IS_TEXTF(rn)  ( OP(rn)==EXACTF  || OP(rn)==REFF  || OP(rn)==NREFF  )
144 #define IS_TEXTFL(rn) ( OP(rn)==EXACTFL || OP(rn)==REFFL || OP(rn)==NREFFL )
145
146 #else
147 /* ... so we use this as its faster. */
148 #define IS_TEXT(rn)   ( OP(rn)==EXACT   )
149 #define IS_TEXTF(rn)  ( OP(rn)==EXACTF  )
150 #define IS_TEXTFL(rn) ( OP(rn)==EXACTFL )
151
152 #endif
153
154 /*
155   Search for mandatory following text node; for lookahead, the text must
156   follow but for lookbehind (rn->flags != 0) we skip to the next step.
157 */
158 #define FIND_NEXT_IMPT(rn) STMT_START { \
159     while (JUMPABLE(rn)) { \
160         const OPCODE type = OP(rn); \
161         if (type == SUSPEND || PL_regkind[type] == CURLY) \
162             rn = NEXTOPER(NEXTOPER(rn)); \
163         else if (type == PLUS) \
164             rn = NEXTOPER(rn); \
165         else if (type == IFMATCH) \
166             rn = (rn->flags == 0) ? NEXTOPER(NEXTOPER(rn)) : rn + ARG(rn); \
167         else rn += NEXT_OFF(rn); \
168     } \
169 } STMT_END 
170
171
172 static void restore_pos(pTHX_ void *arg);
173
174 STATIC CHECKPOINT
175 S_regcppush(pTHX_ I32 parenfloor)
176 {
177     dVAR;
178     const int retval = PL_savestack_ix;
179 #define REGCP_PAREN_ELEMS 4
180     const int paren_elems_to_push = (PL_regsize - parenfloor) * REGCP_PAREN_ELEMS;
181     int p;
182     GET_RE_DEBUG_FLAGS_DECL;
183
184     if (paren_elems_to_push < 0)
185         Perl_croak(aTHX_ "panic: paren_elems_to_push < 0");
186
187 #define REGCP_OTHER_ELEMS 7
188     SSGROW(paren_elems_to_push + REGCP_OTHER_ELEMS);
189     
190     for (p = PL_regsize; p > parenfloor; p--) {
191 /* REGCP_PARENS_ELEMS are pushed per pairs of parentheses. */
192         SSPUSHINT(PL_regoffs[p].end);
193         SSPUSHINT(PL_regoffs[p].start);
194         SSPUSHPTR(PL_reg_start_tmp[p]);
195         SSPUSHINT(p);
196         DEBUG_BUFFERS_r(PerlIO_printf(Perl_debug_log,
197           "     saving \\%"UVuf" %"IVdf"(%"IVdf")..%"IVdf"\n",
198                       (UV)p, (IV)PL_regoffs[p].start,
199                       (IV)(PL_reg_start_tmp[p] - PL_bostr),
200                       (IV)PL_regoffs[p].end
201         ));
202     }
203 /* REGCP_OTHER_ELEMS are pushed in any case, parentheses or no. */
204     SSPUSHPTR(PL_regoffs);
205     SSPUSHINT(PL_regsize);
206     SSPUSHINT(*PL_reglastparen);
207     SSPUSHINT(*PL_reglastcloseparen);
208     SSPUSHPTR(PL_reginput);
209 #define REGCP_FRAME_ELEMS 2
210 /* REGCP_FRAME_ELEMS are part of the REGCP_OTHER_ELEMS and
211  * are needed for the regexp context stack bookkeeping. */
212     SSPUSHINT(paren_elems_to_push + REGCP_OTHER_ELEMS - REGCP_FRAME_ELEMS);
213     SSPUSHINT(SAVEt_REGCONTEXT); /* Magic cookie. */
214
215     return retval;
216 }
217
218 /* These are needed since we do not localize EVAL nodes: */
219 #define REGCP_SET(cp)                                           \
220     DEBUG_STATE_r(                                              \
221             PerlIO_printf(Perl_debug_log,                       \
222                 "  Setting an EVAL scope, savestack=%"IVdf"\n", \
223                 (IV)PL_savestack_ix));                          \
224     cp = PL_savestack_ix
225
226 #define REGCP_UNWIND(cp)                                        \
227     DEBUG_STATE_r(                                              \
228         if (cp != PL_savestack_ix)                              \
229             PerlIO_printf(Perl_debug_log,                       \
230                 "  Clearing an EVAL scope, savestack=%"IVdf"..%"IVdf"\n", \
231                 (IV)(cp), (IV)PL_savestack_ix));                \
232     regcpblow(cp)
233
234 STATIC char *
235 S_regcppop(pTHX_ const regexp *rex)
236 {
237     dVAR;
238     U32 i;
239     char *input;
240
241     GET_RE_DEBUG_FLAGS_DECL;
242
243     /* Pop REGCP_OTHER_ELEMS before the parentheses loop starts. */
244     i = SSPOPINT;
245     assert(i == SAVEt_REGCONTEXT); /* Check that the magic cookie is there. */
246     i = SSPOPINT; /* Parentheses elements to pop. */
247     input = (char *) SSPOPPTR;
248     *PL_reglastcloseparen = SSPOPINT;
249     *PL_reglastparen = SSPOPINT;
250     PL_regsize = SSPOPINT;
251     PL_regoffs=(regexp_paren_pair *) SSPOPPTR;
252
253     
254     /* Now restore the parentheses context. */
255     for (i -= (REGCP_OTHER_ELEMS - REGCP_FRAME_ELEMS);
256          i > 0; i -= REGCP_PAREN_ELEMS) {
257         I32 tmps;
258         U32 paren = (U32)SSPOPINT;
259         PL_reg_start_tmp[paren] = (char *) SSPOPPTR;
260         PL_regoffs[paren].start = SSPOPINT;
261         tmps = SSPOPINT;
262         if (paren <= *PL_reglastparen)
263             PL_regoffs[paren].end = tmps;
264         DEBUG_BUFFERS_r(
265             PerlIO_printf(Perl_debug_log,
266                           "     restoring \\%"UVuf" to %"IVdf"(%"IVdf")..%"IVdf"%s\n",
267                           (UV)paren, (IV)PL_regoffs[paren].start,
268                           (IV)(PL_reg_start_tmp[paren] - PL_bostr),
269                           (IV)PL_regoffs[paren].end,
270                           (paren > *PL_reglastparen ? "(no)" : ""));
271         );
272     }
273     DEBUG_BUFFERS_r(
274         if (*PL_reglastparen + 1 <= rex->nparens) {
275             PerlIO_printf(Perl_debug_log,
276                           "     restoring \\%"IVdf"..\\%"IVdf" to undef\n",
277                           (IV)(*PL_reglastparen + 1), (IV)rex->nparens);
278         }
279     );
280 #if 1
281     /* It would seem that the similar code in regtry()
282      * already takes care of this, and in fact it is in
283      * a better location to since this code can #if 0-ed out
284      * but the code in regtry() is needed or otherwise tests
285      * requiring null fields (pat.t#187 and split.t#{13,14}
286      * (as of patchlevel 7877)  will fail.  Then again,
287      * this code seems to be necessary or otherwise
288      * building DynaLoader will fail:
289      * "Error: '*' not in typemap in DynaLoader.xs, line 164"
290      * --jhi */
291     for (i = *PL_reglastparen + 1; i <= rex->nparens; i++) {
292         if (i > PL_regsize)
293             PL_regoffs[i].start = -1;
294         PL_regoffs[i].end = -1;
295     }
296 #endif
297     return input;
298 }
299
300 #define regcpblow(cp) LEAVE_SCOPE(cp)   /* Ignores regcppush()ed data. */
301
302 /*
303  * pregexec and friends
304  */
305
306 #ifndef PERL_IN_XSUB_RE
307 /*
308  - pregexec - match a regexp against a string
309  */
310 I32
311 Perl_pregexec(pTHX_ register regexp *prog, char *stringarg, register char *strend,
312          char *strbeg, I32 minend, SV *screamer, U32 nosave)
313 /* strend: pointer to null at end of string */
314 /* strbeg: real beginning of string */
315 /* minend: end of match must be >=minend after stringarg. */
316 /* nosave: For optimizations. */
317 {
318     return
319         regexec_flags(prog, stringarg, strend, strbeg, minend, screamer, NULL,
320                       nosave ? 0 : REXEC_COPY_STR);
321 }
322 #endif
323
324 /*
325  * Need to implement the following flags for reg_anch:
326  *
327  * USE_INTUIT_NOML              - Useful to call re_intuit_start() first
328  * USE_INTUIT_ML
329  * INTUIT_AUTORITATIVE_NOML     - Can trust a positive answer
330  * INTUIT_AUTORITATIVE_ML
331  * INTUIT_ONCE_NOML             - Intuit can match in one location only.
332  * INTUIT_ONCE_ML
333  *
334  * Another flag for this function: SECOND_TIME (so that float substrs
335  * with giant delta may be not rechecked).
336  */
337
338 /* Assumptions: if ANCH_GPOS, then strpos is anchored. XXXX Check GPOS logic */
339
340 /* If SCREAM, then SvPVX_const(sv) should be compatible with strpos and strend.
341    Otherwise, only SvCUR(sv) is used to get strbeg. */
342
343 /* XXXX We assume that strpos is strbeg unless sv. */
344
345 /* XXXX Some places assume that there is a fixed substring.
346         An update may be needed if optimizer marks as "INTUITable"
347         RExen without fixed substrings.  Similarly, it is assumed that
348         lengths of all the strings are no more than minlen, thus they
349         cannot come from lookahead.
350         (Or minlen should take into account lookahead.) 
351   NOTE: Some of this comment is not correct. minlen does now take account
352   of lookahead/behind. Further research is required. -- demerphq
353
354 */
355
356 /* A failure to find a constant substring means that there is no need to make
357    an expensive call to REx engine, thus we celebrate a failure.  Similarly,
358    finding a substring too deep into the string means that less calls to
359    regtry() should be needed.
360
361    REx compiler's optimizer found 4 possible hints:
362         a) Anchored substring;
363         b) Fixed substring;
364         c) Whether we are anchored (beginning-of-line or \G);
365         d) First node (of those at offset 0) which may distingush positions;
366    We use a)b)d) and multiline-part of c), and try to find a position in the
367    string which does not contradict any of them.
368  */
369
370 /* Most of decisions we do here should have been done at compile time.
371    The nodes of the REx which we used for the search should have been
372    deleted from the finite automaton. */
373
374 char *
375 Perl_re_intuit_start(pTHX_ regexp *prog, SV *sv, char *strpos,
376                      char *strend, U32 flags, re_scream_pos_data *data)
377 {
378     dVAR;
379     register I32 start_shift = 0;
380     /* Should be nonnegative! */
381     register I32 end_shift   = 0;
382     register char *s;
383     register SV *check;
384     char *strbeg;
385     char *t;
386     const bool do_utf8 = (sv && SvUTF8(sv)) ? 1 : 0; /* if no sv we have to assume bytes */
387     I32 ml_anch;
388     register char *other_last = NULL;   /* other substr checked before this */
389     char *check_at = NULL;              /* check substr found at this pos */
390     const I32 multiline = prog->extflags & RXf_PMf_MULTILINE;
391     RXi_GET_DECL(prog,progi);
392 #ifdef DEBUGGING
393     const char * const i_strpos = strpos;
394 #endif
395
396     GET_RE_DEBUG_FLAGS_DECL;
397
398     RX_MATCH_UTF8_set(prog,do_utf8);
399
400     if (prog->extflags & RXf_UTF8) {
401         PL_reg_flags |= RF_utf8;
402     }
403     DEBUG_EXECUTE_r( 
404         debug_start_match(prog, do_utf8, strpos, strend, 
405             sv ? "Guessing start of match in sv for"
406                : "Guessing start of match in string for");
407               );
408
409     /* CHR_DIST() would be more correct here but it makes things slow. */
410     if (prog->minlen > strend - strpos) {
411         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
412                               "String too short... [re_intuit_start]\n"));
413         goto fail;
414     }
415                 
416     strbeg = (sv && SvPOK(sv)) ? strend - SvCUR(sv) : strpos;
417     PL_regeol = strend;
418     if (do_utf8) {
419         if (!prog->check_utf8 && prog->check_substr)
420             to_utf8_substr(prog);
421         check = prog->check_utf8;
422     } else {
423         if (!prog->check_substr && prog->check_utf8)
424             to_byte_substr(prog);
425         check = prog->check_substr;
426     }
427     if (check == &PL_sv_undef) {
428         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
429                 "Non-utf8 string cannot match utf8 check string\n"));
430         goto fail;
431     }
432     if (prog->extflags & RXf_ANCH) {    /* Match at beg-of-str or after \n */
433         ml_anch = !( (prog->extflags & RXf_ANCH_SINGLE)
434                      || ( (prog->extflags & RXf_ANCH_BOL)
435                           && !multiline ) );    /* Check after \n? */
436
437         if (!ml_anch) {
438           if ( !(prog->extflags & RXf_ANCH_GPOS) /* Checked by the caller */
439                 && !(prog->intflags & PREGf_IMPLICIT) /* not a real BOL */
440                /* SvCUR is not set on references: SvRV and SvPVX_const overlap */
441                && sv && !SvROK(sv)
442                && (strpos != strbeg)) {
443               DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Not at start...\n"));
444               goto fail;
445           }
446           if (prog->check_offset_min == prog->check_offset_max &&
447               !(prog->extflags & RXf_CANY_SEEN)) {
448             /* Substring at constant offset from beg-of-str... */
449             I32 slen;
450
451             s = HOP3c(strpos, prog->check_offset_min, strend);
452             
453             if (SvTAIL(check)) {
454                 slen = SvCUR(check);    /* >= 1 */
455
456                 if ( strend - s > slen || strend - s < slen - 1
457                      || (strend - s == slen && strend[-1] != '\n')) {
458                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "String too long...\n"));
459                     goto fail_finish;
460                 }
461                 /* Now should match s[0..slen-2] */
462                 slen--;
463                 if (slen && (*SvPVX_const(check) != *s
464                              || (slen > 1
465                                  && memNE(SvPVX_const(check), s, slen)))) {
466                   report_neq:
467                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "String not equal...\n"));
468                     goto fail_finish;
469                 }
470             }
471             else if (*SvPVX_const(check) != *s
472                      || ((slen = SvCUR(check)) > 1
473                          && memNE(SvPVX_const(check), s, slen)))
474                 goto report_neq;
475             check_at = s;
476             goto success_at_start;
477           }
478         }
479         /* Match is anchored, but substr is not anchored wrt beg-of-str. */
480         s = strpos;
481         start_shift = prog->check_offset_min; /* okay to underestimate on CC */
482         end_shift = prog->check_end_shift;
483         
484         if (!ml_anch) {
485             const I32 end = prog->check_offset_max + CHR_SVLEN(check)
486                                          - (SvTAIL(check) != 0);
487             const I32 eshift = CHR_DIST((U8*)strend, (U8*)s) - end;
488
489             if (end_shift < eshift)
490                 end_shift = eshift;
491         }
492     }
493     else {                              /* Can match at random position */
494         ml_anch = 0;
495         s = strpos;
496         start_shift = prog->check_offset_min;  /* okay to underestimate on CC */
497         end_shift = prog->check_end_shift;
498         
499         /* end shift should be non negative here */
500     }
501
502 #ifdef QDEBUGGING       /* 7/99: reports of failure (with the older version) */
503     if (end_shift < 0)
504         Perl_croak(aTHX_ "panic: end_shift: %"IVdf" pattern:\n%s\n ",
505                    (IV)end_shift, prog->precomp);
506 #endif
507
508   restart:
509     /* Find a possible match in the region s..strend by looking for
510        the "check" substring in the region corrected by start/end_shift. */
511     
512     {
513         I32 srch_start_shift = start_shift;
514         I32 srch_end_shift = end_shift;
515         if (srch_start_shift < 0 && strbeg - s > srch_start_shift) {
516             srch_end_shift -= ((strbeg - s) - srch_start_shift); 
517             srch_start_shift = strbeg - s;
518         }
519     DEBUG_OPTIMISE_MORE_r({
520         PerlIO_printf(Perl_debug_log, "Check offset min: %"IVdf" Start shift: %"IVdf" End shift %"IVdf" Real End Shift: %"IVdf"\n",
521             (IV)prog->check_offset_min,
522             (IV)srch_start_shift,
523             (IV)srch_end_shift, 
524             (IV)prog->check_end_shift);
525     });       
526         
527     if (flags & REXEC_SCREAM) {
528         I32 p = -1;                     /* Internal iterator of scream. */
529         I32 * const pp = data ? data->scream_pos : &p;
530
531         if (PL_screamfirst[BmRARE(check)] >= 0
532             || ( BmRARE(check) == '\n'
533                  && (BmPREVIOUS(check) == SvCUR(check) - 1)
534                  && SvTAIL(check) ))
535             s = screaminstr(sv, check,
536                             srch_start_shift + (s - strbeg), srch_end_shift, pp, 0);
537         else
538             goto fail_finish;
539         /* we may be pointing at the wrong string */
540         if (s && RX_MATCH_COPIED(prog))
541             s = strbeg + (s - SvPVX_const(sv));
542         if (data)
543             *data->scream_olds = s;
544     }
545     else {
546         U8* start_point;
547         U8* end_point;
548         if (prog->extflags & RXf_CANY_SEEN) {
549             start_point= (U8*)(s + srch_start_shift);
550             end_point= (U8*)(strend - srch_end_shift);
551         } else {
552             start_point= HOP3(s, srch_start_shift, srch_start_shift < 0 ? strbeg : strend);
553             end_point= HOP3(strend, -srch_end_shift, strbeg);
554         }
555         DEBUG_OPTIMISE_MORE_r({
556             PerlIO_printf(Perl_debug_log, "fbm_instr len=%d str=<%.*s>\n", 
557                 (int)(end_point - start_point),
558                 (int)(end_point - start_point) > 20 ? 20 : (int)(end_point - start_point), 
559                 start_point);
560         });
561
562         s = fbm_instr( start_point, end_point,
563                       check, multiline ? FBMrf_MULTILINE : 0);
564     }
565     }
566     /* Update the count-of-usability, remove useless subpatterns,
567         unshift s.  */
568
569     DEBUG_EXECUTE_r({
570         RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
571             SvPVX_const(check), RE_SV_DUMPLEN(check), 30);
572         PerlIO_printf(Perl_debug_log, "%s %s substr %s%s%s",
573                           (s ? "Found" : "Did not find"),
574             (check == (do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) 
575                 ? "anchored" : "floating"),
576             quoted,
577             RE_SV_TAIL(check),
578             (s ? " at offset " : "...\n") ); 
579     });
580
581     if (!s)
582         goto fail_finish;
583     /* Finish the diagnostic message */
584     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%ld...\n", (long)(s - i_strpos)) );
585
586     /* XXX dmq: first branch is for positive lookbehind...
587        Our check string is offset from the beginning of the pattern.
588        So we need to do any stclass tests offset forward from that 
589        point. I think. :-(
590      */
591     
592         
593     
594     check_at=s;
595      
596
597     /* Got a candidate.  Check MBOL anchoring, and the *other* substr.
598        Start with the other substr.
599        XXXX no SCREAM optimization yet - and a very coarse implementation
600        XXXX /ttx+/ results in anchored="ttx", floating="x".  floating will
601                 *always* match.  Probably should be marked during compile...
602        Probably it is right to do no SCREAM here...
603      */
604
605     if (do_utf8 ? (prog->float_utf8 && prog->anchored_utf8) 
606                 : (prog->float_substr && prog->anchored_substr)) 
607     {
608         /* Take into account the "other" substring. */
609         /* XXXX May be hopelessly wrong for UTF... */
610         if (!other_last)
611             other_last = strpos;
612         if (check == (do_utf8 ? prog->float_utf8 : prog->float_substr)) {
613           do_other_anchored:
614             {
615                 char * const last = HOP3c(s, -start_shift, strbeg);
616                 char *last1, *last2;
617                 char * const saved_s = s;
618                 SV* must;
619
620                 t = s - prog->check_offset_max;
621                 if (s - strpos > prog->check_offset_max  /* signed-corrected t > strpos */
622                     && (!do_utf8
623                         || ((t = (char*)reghopmaybe3((U8*)s, -(prog->check_offset_max), (U8*)strpos))
624                             && t > strpos)))
625                     NOOP;
626                 else
627                     t = strpos;
628                 t = HOP3c(t, prog->anchored_offset, strend);
629                 if (t < other_last)     /* These positions already checked */
630                     t = other_last;
631                 last2 = last1 = HOP3c(strend, -prog->minlen, strbeg);
632                 if (last < last1)
633                     last1 = last;
634                 /* XXXX It is not documented what units *_offsets are in.  
635                    We assume bytes, but this is clearly wrong. 
636                    Meaning this code needs to be carefully reviewed for errors.
637                    dmq.
638                   */
639  
640                 /* On end-of-str: see comment below. */
641                 must = do_utf8 ? prog->anchored_utf8 : prog->anchored_substr;
642                 if (must == &PL_sv_undef) {
643                     s = (char*)NULL;
644                     DEBUG_r(must = prog->anchored_utf8);        /* for debug */
645                 }
646                 else
647                     s = fbm_instr(
648                         (unsigned char*)t,
649                         HOP3(HOP3(last1, prog->anchored_offset, strend)
650                                 + SvCUR(must), -(SvTAIL(must)!=0), strbeg),
651                         must,
652                         multiline ? FBMrf_MULTILINE : 0
653                     );
654                 DEBUG_EXECUTE_r({
655                     RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
656                         SvPVX_const(must), RE_SV_DUMPLEN(must), 30);
657                     PerlIO_printf(Perl_debug_log, "%s anchored substr %s%s",
658                         (s ? "Found" : "Contradicts"),
659                         quoted, RE_SV_TAIL(must));
660                 });                 
661                 
662                             
663                 if (!s) {
664                     if (last1 >= last2) {
665                         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
666                                                 ", giving up...\n"));
667                         goto fail_finish;
668                     }
669                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
670                         ", trying floating at offset %ld...\n",
671                         (long)(HOP3c(saved_s, 1, strend) - i_strpos)));
672                     other_last = HOP3c(last1, prog->anchored_offset+1, strend);
673                     s = HOP3c(last, 1, strend);
674                     goto restart;
675                 }
676                 else {
677                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, " at offset %ld...\n",
678                           (long)(s - i_strpos)));
679                     t = HOP3c(s, -prog->anchored_offset, strbeg);
680                     other_last = HOP3c(s, 1, strend);
681                     s = saved_s;
682                     if (t == strpos)
683                         goto try_at_start;
684                     goto try_at_offset;
685                 }
686             }
687         }
688         else {          /* Take into account the floating substring. */
689             char *last, *last1;
690             char * const saved_s = s;
691             SV* must;
692
693             t = HOP3c(s, -start_shift, strbeg);
694             last1 = last =
695                 HOP3c(strend, -prog->minlen + prog->float_min_offset, strbeg);
696             if (CHR_DIST((U8*)last, (U8*)t) > prog->float_max_offset)
697                 last = HOP3c(t, prog->float_max_offset, strend);
698             s = HOP3c(t, prog->float_min_offset, strend);
699             if (s < other_last)
700                 s = other_last;
701  /* XXXX It is not documented what units *_offsets are in.  Assume bytes.  */
702             must = do_utf8 ? prog->float_utf8 : prog->float_substr;
703             /* fbm_instr() takes into account exact value of end-of-str
704                if the check is SvTAIL(ed).  Since false positives are OK,
705                and end-of-str is not later than strend we are OK. */
706             if (must == &PL_sv_undef) {
707                 s = (char*)NULL;
708                 DEBUG_r(must = prog->float_utf8);       /* for debug message */
709             }
710             else
711                 s = fbm_instr((unsigned char*)s,
712                               (unsigned char*)last + SvCUR(must)
713                                   - (SvTAIL(must)!=0),
714                               must, multiline ? FBMrf_MULTILINE : 0);
715             DEBUG_EXECUTE_r({
716                 RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
717                     SvPVX_const(must), RE_SV_DUMPLEN(must), 30);
718                 PerlIO_printf(Perl_debug_log, "%s floating substr %s%s",
719                     (s ? "Found" : "Contradicts"),
720                     quoted, RE_SV_TAIL(must));
721             });
722             if (!s) {
723                 if (last1 == last) {
724                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
725                                             ", giving up...\n"));
726                     goto fail_finish;
727                 }
728                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
729                     ", trying anchored starting at offset %ld...\n",
730                     (long)(saved_s + 1 - i_strpos)));
731                 other_last = last;
732                 s = HOP3c(t, 1, strend);
733                 goto restart;
734             }
735             else {
736                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, " at offset %ld...\n",
737                       (long)(s - i_strpos)));
738                 other_last = s; /* Fix this later. --Hugo */
739                 s = saved_s;
740                 if (t == strpos)
741                     goto try_at_start;
742                 goto try_at_offset;
743             }
744         }
745     }
746
747     
748     t= (char*)HOP3( s, -prog->check_offset_max, (prog->check_offset_max<0) ? strend : strpos);
749         
750     DEBUG_OPTIMISE_MORE_r(
751         PerlIO_printf(Perl_debug_log, 
752             "Check offset min:%"IVdf" max:%"IVdf" S:%"IVdf" t:%"IVdf" D:%"IVdf" end:%"IVdf"\n",
753             (IV)prog->check_offset_min,
754             (IV)prog->check_offset_max,
755             (IV)(s-strpos),
756             (IV)(t-strpos),
757             (IV)(t-s),
758             (IV)(strend-strpos)
759         )
760     );
761
762     if (s - strpos > prog->check_offset_max  /* signed-corrected t > strpos */
763         && (!do_utf8
764             || ((t = (char*)reghopmaybe3((U8*)s, -prog->check_offset_max, (U8*) ((prog->check_offset_max<0) ? strend : strpos)))
765                  && t > strpos))) 
766     {
767         /* Fixed substring is found far enough so that the match
768            cannot start at strpos. */
769       try_at_offset:
770         if (ml_anch && t[-1] != '\n') {
771             /* Eventually fbm_*() should handle this, but often
772                anchored_offset is not 0, so this check will not be wasted. */
773             /* XXXX In the code below we prefer to look for "^" even in
774                presence of anchored substrings.  And we search even
775                beyond the found float position.  These pessimizations
776                are historical artefacts only.  */
777           find_anchor:
778             while (t < strend - prog->minlen) {
779                 if (*t == '\n') {
780                     if (t < check_at - prog->check_offset_min) {
781                         if (do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) {
782                             /* Since we moved from the found position,
783                                we definitely contradict the found anchored
784                                substr.  Due to the above check we do not
785                                contradict "check" substr.
786                                Thus we can arrive here only if check substr
787                                is float.  Redo checking for "other"=="fixed".
788                              */
789                             strpos = t + 1;                     
790                             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m at offset %ld, rescanning for anchored from offset %ld...\n",
791                                 PL_colors[0], PL_colors[1], (long)(strpos - i_strpos), (long)(strpos - i_strpos + prog->anchored_offset)));
792                             goto do_other_anchored;
793                         }
794                         /* We don't contradict the found floating substring. */
795                         /* XXXX Why not check for STCLASS? */
796                         s = t + 1;
797                         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m at offset %ld...\n",
798                             PL_colors[0], PL_colors[1], (long)(s - i_strpos)));
799                         goto set_useful;
800                     }
801                     /* Position contradicts check-string */
802                     /* XXXX probably better to look for check-string
803                        than for "\n", so one should lower the limit for t? */
804                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m, restarting lookup for check-string at offset %ld...\n",
805                         PL_colors[0], PL_colors[1], (long)(t + 1 - i_strpos)));
806                     other_last = strpos = s = t + 1;
807                     goto restart;
808                 }
809                 t++;
810             }
811             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Did not find /%s^%s/m...\n",
812                         PL_colors[0], PL_colors[1]));
813             goto fail_finish;
814         }
815         else {
816             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Starting position does not contradict /%s^%s/m...\n",
817                         PL_colors[0], PL_colors[1]));
818         }
819         s = t;
820       set_useful:
821         ++BmUSEFUL(do_utf8 ? prog->check_utf8 : prog->check_substr);    /* hooray/5 */
822     }
823     else {
824         /* The found string does not prohibit matching at strpos,
825            - no optimization of calling REx engine can be performed,
826            unless it was an MBOL and we are not after MBOL,
827            or a future STCLASS check will fail this. */
828       try_at_start:
829         /* Even in this situation we may use MBOL flag if strpos is offset
830            wrt the start of the string. */
831         if (ml_anch && sv && !SvROK(sv) /* See prev comment on SvROK */
832             && (strpos != strbeg) && strpos[-1] != '\n'
833             /* May be due to an implicit anchor of m{.*foo}  */
834             && !(prog->intflags & PREGf_IMPLICIT))
835         {
836             t = strpos;
837             goto find_anchor;
838         }
839         DEBUG_EXECUTE_r( if (ml_anch)
840             PerlIO_printf(Perl_debug_log, "Position at offset %ld does not contradict /%s^%s/m...\n",
841                           (long)(strpos - i_strpos), PL_colors[0], PL_colors[1]);
842         );
843       success_at_start:
844         if (!(prog->intflags & PREGf_NAUGHTY)   /* XXXX If strpos moved? */
845             && (do_utf8 ? (
846                 prog->check_utf8                /* Could be deleted already */
847                 && --BmUSEFUL(prog->check_utf8) < 0
848                 && (prog->check_utf8 == prog->float_utf8)
849             ) : (
850                 prog->check_substr              /* Could be deleted already */
851                 && --BmUSEFUL(prog->check_substr) < 0
852                 && (prog->check_substr == prog->float_substr)
853             )))
854         {
855             /* If flags & SOMETHING - do not do it many times on the same match */
856             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "... Disabling check substring...\n"));
857             SvREFCNT_dec(do_utf8 ? prog->check_utf8 : prog->check_substr);
858             if (do_utf8 ? prog->check_substr : prog->check_utf8)
859                 SvREFCNT_dec(do_utf8 ? prog->check_substr : prog->check_utf8);
860             prog->check_substr = prog->check_utf8 = NULL;       /* disable */
861             prog->float_substr = prog->float_utf8 = NULL;       /* clear */
862             check = NULL;                       /* abort */
863             s = strpos;
864             /* XXXX This is a remnant of the old implementation.  It
865                     looks wasteful, since now INTUIT can use many
866                     other heuristics. */
867             prog->extflags &= ~RXf_USE_INTUIT;
868         }
869         else
870             s = strpos;
871     }
872
873     /* Last resort... */
874     /* XXXX BmUSEFUL already changed, maybe multiple change is meaningful... */
875     /* trie stclasses are too expensive to use here, we are better off to
876        leave it to regmatch itself */
877     if (progi->regstclass && PL_regkind[OP(progi->regstclass)]!=TRIE) {
878         /* minlen == 0 is possible if regstclass is \b or \B,
879            and the fixed substr is ''$.
880            Since minlen is already taken into account, s+1 is before strend;
881            accidentally, minlen >= 1 guaranties no false positives at s + 1
882            even for \b or \B.  But (minlen? 1 : 0) below assumes that
883            regstclass does not come from lookahead...  */
884         /* If regstclass takes bytelength more than 1: If charlength==1, OK.
885            This leaves EXACTF only, which is dealt with in find_byclass().  */
886         const U8* const str = (U8*)STRING(progi->regstclass);
887         const int cl_l = (PL_regkind[OP(progi->regstclass)] == EXACT
888                     ? CHR_DIST(str+STR_LEN(progi->regstclass), str)
889                     : 1);
890         char * endpos;
891         if (prog->anchored_substr || prog->anchored_utf8 || ml_anch)
892             endpos= HOP3c(s, (prog->minlen ? cl_l : 0), strend);
893         else if (prog->float_substr || prog->float_utf8)
894             endpos= HOP3c(HOP3c(check_at, -start_shift, strbeg), cl_l, strend);
895         else 
896             endpos= strend;
897                     
898         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "start_shift: %"IVdf" check_at: %"IVdf" s: %"IVdf" endpos: %"IVdf"\n",
899                                       (IV)start_shift, (IV)(check_at - strbeg), (IV)(s - strbeg), (IV)(endpos - strbeg)));
900         
901         t = s;
902         s = find_byclass(prog, progi->regstclass, s, endpos, NULL);
903         if (!s) {
904 #ifdef DEBUGGING
905             const char *what = NULL;
906 #endif
907             if (endpos == strend) {
908                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
909                                 "Could not match STCLASS...\n") );
910                 goto fail;
911             }
912             DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
913                                    "This position contradicts STCLASS...\n") );
914             if ((prog->extflags & RXf_ANCH) && !ml_anch)
915                 goto fail;
916             /* Contradict one of substrings */
917             if (prog->anchored_substr || prog->anchored_utf8) {
918                 if ((do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) == check) {
919                     DEBUG_EXECUTE_r( what = "anchored" );
920                   hop_and_restart:
921                     s = HOP3c(t, 1, strend);
922                     if (s + start_shift + end_shift > strend) {
923                         /* XXXX Should be taken into account earlier? */
924                         DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
925                                                "Could not match STCLASS...\n") );
926                         goto fail;
927                     }
928                     if (!check)
929                         goto giveup;
930                     DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
931                                 "Looking for %s substr starting at offset %ld...\n",
932                                  what, (long)(s + start_shift - i_strpos)) );
933                     goto restart;
934                 }
935                 /* Have both, check_string is floating */
936                 if (t + start_shift >= check_at) /* Contradicts floating=check */
937                     goto retry_floating_check;
938                 /* Recheck anchored substring, but not floating... */
939                 s = check_at;
940                 if (!check)
941                     goto giveup;
942                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
943                           "Looking for anchored substr starting at offset %ld...\n",
944                           (long)(other_last - i_strpos)) );
945                 goto do_other_anchored;
946             }
947             /* Another way we could have checked stclass at the
948                current position only: */
949             if (ml_anch) {
950                 s = t = t + 1;
951                 if (!check)
952                     goto giveup;
953                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
954                           "Looking for /%s^%s/m starting at offset %ld...\n",
955                           PL_colors[0], PL_colors[1], (long)(t - i_strpos)) );
956                 goto try_at_offset;
957             }
958             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))     /* Could have been deleted */
959                 goto fail;
960             /* Check is floating subtring. */
961           retry_floating_check:
962             t = check_at - start_shift;
963             DEBUG_EXECUTE_r( what = "floating" );
964             goto hop_and_restart;
965         }
966         if (t != s) {
967             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
968                         "By STCLASS: moving %ld --> %ld\n",
969                                   (long)(t - i_strpos), (long)(s - i_strpos))
970                    );
971         }
972         else {
973             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
974                                   "Does not contradict STCLASS...\n"); 
975                    );
976         }
977     }
978   giveup:
979     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%s%s:%s match at offset %ld\n",
980                           PL_colors[4], (check ? "Guessed" : "Giving up"),
981                           PL_colors[5], (long)(s - i_strpos)) );
982     return s;
983
984   fail_finish:                          /* Substring not found */
985     if (prog->check_substr || prog->check_utf8)         /* could be removed already */
986         BmUSEFUL(do_utf8 ? prog->check_utf8 : prog->check_substr) += 5; /* hooray */
987   fail:
988     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch rejected by optimizer%s\n",
989                           PL_colors[4], PL_colors[5]));
990     return NULL;
991 }
992
993
994
995 #define REXEC_TRIE_READ_CHAR(trie_type, trie, widecharmap, uc, uscan, len,  \
996 uvc, charid, foldlen, foldbuf, uniflags) STMT_START {                       \
997     switch (trie_type) {                                                    \
998     case trie_utf8_fold:                                                    \
999         if ( foldlen>0 ) {                                                  \
1000             uvc = utf8n_to_uvuni( uscan, UTF8_MAXLEN, &len, uniflags );     \
1001             foldlen -= len;                                                 \
1002             uscan += len;                                                   \
1003             len=0;                                                          \
1004         } else {                                                            \
1005             uvc = utf8n_to_uvuni( (U8*)uc, UTF8_MAXLEN, &len, uniflags );   \
1006             uvc = to_uni_fold( uvc, foldbuf, &foldlen );                    \
1007             foldlen -= UNISKIP( uvc );                                      \
1008             uscan = foldbuf + UNISKIP( uvc );                               \
1009         }                                                                   \
1010         break;                                                              \
1011     case trie_utf8:                                                         \
1012         uvc = utf8n_to_uvuni( (U8*)uc, UTF8_MAXLEN, &len, uniflags );       \
1013         break;                                                              \
1014     case trie_plain:                                                        \
1015         uvc = (UV)*uc;                                                      \
1016         len = 1;                                                            \
1017     }                                                                       \
1018                                                                             \
1019     if (uvc < 256) {                                                        \
1020         charid = trie->charmap[ uvc ];                                      \
1021     }                                                                       \
1022     else {                                                                  \
1023         charid = 0;                                                         \
1024         if (widecharmap) {                                                  \
1025             SV** const svpp = hv_fetch(widecharmap,                         \
1026                         (char*)&uvc, sizeof(UV), 0);                        \
1027             if (svpp)                                                       \
1028                 charid = (U16)SvIV(*svpp);                                  \
1029         }                                                                   \
1030     }                                                                       \
1031 } STMT_END
1032
1033 #define REXEC_FBC_EXACTISH_CHECK(CoNd)                  \
1034     if ( (CoNd)                                        \
1035          && (ln == len ||                              \
1036              ibcmp_utf8(s, NULL, 0,  do_utf8,          \
1037                         m, NULL, ln, (bool)UTF))       \
1038          && (!reginfo || regtry(reginfo, &s)) )         \
1039         goto got_it;                                   \
1040     else {                                             \
1041          U8 foldbuf[UTF8_MAXBYTES_CASE+1];             \
1042          uvchr_to_utf8(tmpbuf, c);                     \
1043          f = to_utf8_fold(tmpbuf, foldbuf, &foldlen);  \
1044          if ( f != c                                   \
1045               && (f == c1 || f == c2)                  \
1046               && (ln == foldlen ||                     \
1047                   !ibcmp_utf8((char *) foldbuf,        \
1048                               NULL, foldlen, do_utf8,  \
1049                               m,                       \
1050                               NULL, ln, (bool)UTF))    \
1051               && (!reginfo || regtry(reginfo, &s)) )    \
1052               goto got_it;                             \
1053     }                                                  \
1054     s += len
1055
1056 #define REXEC_FBC_EXACTISH_SCAN(CoNd)                     \
1057 STMT_START {                                              \
1058     while (s <= e) {                                      \
1059         if ( (CoNd)                                       \
1060              && (ln == 1 || !(OP(c) == EXACTF             \
1061                               ? ibcmp(s, m, ln)           \
1062                               : ibcmp_locale(s, m, ln)))  \
1063              && (!reginfo || regtry(reginfo, &s)) )        \
1064             goto got_it;                                  \
1065         s++;                                              \
1066     }                                                     \
1067 } STMT_END
1068
1069 #define REXEC_FBC_UTF8_SCAN(CoDe)                     \
1070 STMT_START {                                          \
1071     while (s + (uskip = UTF8SKIP(s)) <= strend) {     \
1072         CoDe                                          \
1073         s += uskip;                                   \
1074     }                                                 \
1075 } STMT_END
1076
1077 #define REXEC_FBC_SCAN(CoDe)                          \
1078 STMT_START {                                          \
1079     while (s < strend) {                              \
1080         CoDe                                          \
1081         s++;                                          \
1082     }                                                 \
1083 } STMT_END
1084
1085 #define REXEC_FBC_UTF8_CLASS_SCAN(CoNd)               \
1086 REXEC_FBC_UTF8_SCAN(                                  \
1087     if (CoNd) {                                       \
1088         if (tmp && (!reginfo || regtry(reginfo, &s)))  \
1089             goto got_it;                              \
1090         else                                          \
1091             tmp = doevery;                            \
1092     }                                                 \
1093     else                                              \
1094         tmp = 1;                                      \
1095 )
1096
1097 #define REXEC_FBC_CLASS_SCAN(CoNd)                    \
1098 REXEC_FBC_SCAN(                                       \
1099     if (CoNd) {                                       \
1100         if (tmp && (!reginfo || regtry(reginfo, &s)))  \
1101             goto got_it;                              \
1102         else                                          \
1103             tmp = doevery;                            \
1104     }                                                 \
1105     else                                              \
1106         tmp = 1;                                      \
1107 )
1108
1109 #define REXEC_FBC_TRYIT               \
1110 if ((!reginfo || regtry(reginfo, &s))) \
1111     goto got_it
1112
1113 #define REXEC_FBC_CSCAN_PRELOAD(UtFpReLoAd,CoNdUtF8,CoNd)      \
1114     if (do_utf8) {                                             \
1115         UtFpReLoAd;                                            \
1116         REXEC_FBC_UTF8_CLASS_SCAN(CoNdUtF8);                   \
1117     }                                                          \
1118     else {                                                     \
1119         REXEC_FBC_CLASS_SCAN(CoNd);                            \
1120     }                                                          \
1121     break
1122
1123 #define REXEC_FBC_CSCAN_TAINT(CoNdUtF8,CoNd)                   \
1124     PL_reg_flags |= RF_tainted;                                \
1125     if (do_utf8) {                                             \
1126         REXEC_FBC_UTF8_CLASS_SCAN(CoNdUtF8);                   \
1127     }                                                          \
1128     else {                                                     \
1129         REXEC_FBC_CLASS_SCAN(CoNd);                            \
1130     }                                                          \
1131     break
1132
1133 #define DUMP_EXEC_POS(li,s,doutf8) \
1134     dump_exec_pos(li,s,(PL_regeol),(PL_bostr),(PL_reg_starttry),doutf8)
1135
1136 /* We know what class REx starts with.  Try to find this position... */
1137 /* if reginfo is NULL, its a dryrun */
1138 /* annoyingly all the vars in this routine have different names from their counterparts
1139    in regmatch. /grrr */
1140
1141 STATIC char *
1142 S_find_byclass(pTHX_ regexp * prog, const regnode *c, char *s, 
1143     const char *strend, regmatch_info *reginfo)
1144 {
1145         dVAR;
1146         const I32 doevery = (prog->intflags & PREGf_SKIP) == 0;
1147         char *m;
1148         STRLEN ln;
1149         STRLEN lnc;
1150         register STRLEN uskip;
1151         unsigned int c1;
1152         unsigned int c2;
1153         char *e;
1154         register I32 tmp = 1;   /* Scratch variable? */
1155         register const bool do_utf8 = PL_reg_match_utf8;
1156         RXi_GET_DECL(prog,progi);
1157         
1158         /* We know what class it must start with. */
1159         switch (OP(c)) {
1160         case ANYOF:
1161             if (do_utf8) {
1162                  REXEC_FBC_UTF8_CLASS_SCAN((ANYOF_FLAGS(c) & ANYOF_UNICODE) ||
1163                           !UTF8_IS_INVARIANT((U8)s[0]) ?
1164                           reginclass(prog, c, (U8*)s, 0, do_utf8) :
1165                           REGINCLASS(prog, c, (U8*)s));
1166             }
1167             else {
1168                  while (s < strend) {
1169                       STRLEN skip = 1;
1170
1171                       if (REGINCLASS(prog, c, (U8*)s) ||
1172                           (ANYOF_FOLD_SHARP_S(c, s, strend) &&
1173                            /* The assignment of 2 is intentional:
1174                             * for the folded sharp s, the skip is 2. */
1175                            (skip = SHARP_S_SKIP))) {
1176                            if (tmp && (!reginfo || regtry(reginfo, &s)))
1177                                 goto got_it;
1178                            else
1179                                 tmp = doevery;
1180                       }
1181                       else 
1182                            tmp = 1;
1183                       s += skip;
1184                  }
1185             }
1186             break;
1187         case CANY:
1188             REXEC_FBC_SCAN(
1189                 if (tmp && (!reginfo || regtry(reginfo, &s)))
1190                     goto got_it;
1191                 else
1192                     tmp = doevery;
1193             );
1194             break;
1195         case EXACTF:
1196             m   = STRING(c);
1197             ln  = STR_LEN(c);   /* length to match in octets/bytes */
1198             lnc = (I32) ln;     /* length to match in characters */
1199             if (UTF) {
1200                 STRLEN ulen1, ulen2;
1201                 U8 *sm = (U8 *) m;
1202                 U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
1203                 U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
1204                 const U32 uniflags = UTF8_ALLOW_DEFAULT;
1205
1206                 to_utf8_lower((U8*)m, tmpbuf1, &ulen1);
1207                 to_utf8_upper((U8*)m, tmpbuf2, &ulen2);
1208
1209                 c1 = utf8n_to_uvchr(tmpbuf1, UTF8_MAXBYTES_CASE, 
1210                                     0, uniflags);
1211                 c2 = utf8n_to_uvchr(tmpbuf2, UTF8_MAXBYTES_CASE,
1212                                     0, uniflags);
1213                 lnc = 0;
1214                 while (sm < ((U8 *) m + ln)) {
1215                     lnc++;
1216                     sm += UTF8SKIP(sm);
1217                 }
1218             }
1219             else {
1220                 c1 = *(U8*)m;
1221                 c2 = PL_fold[c1];
1222             }
1223             goto do_exactf;
1224         case EXACTFL:
1225             m   = STRING(c);
1226             ln  = STR_LEN(c);
1227             lnc = (I32) ln;
1228             c1 = *(U8*)m;
1229             c2 = PL_fold_locale[c1];
1230           do_exactf:
1231             e = HOP3c(strend, -((I32)lnc), s);
1232
1233             if (!reginfo && e < s)
1234                 e = s;                  /* Due to minlen logic of intuit() */
1235
1236             /* The idea in the EXACTF* cases is to first find the
1237              * first character of the EXACTF* node and then, if
1238              * necessary, case-insensitively compare the full
1239              * text of the node.  The c1 and c2 are the first
1240              * characters (though in Unicode it gets a bit
1241              * more complicated because there are more cases
1242              * than just upper and lower: one needs to use
1243              * the so-called folding case for case-insensitive
1244              * matching (called "loose matching" in Unicode).
1245              * ibcmp_utf8() will do just that. */
1246
1247             if (do_utf8) {
1248                 UV c, f;
1249                 U8 tmpbuf [UTF8_MAXBYTES+1];
1250                 STRLEN len, foldlen;
1251                 const U32 uniflags = UTF8_ALLOW_DEFAULT;
1252                 if (c1 == c2) {
1253                     /* Upper and lower of 1st char are equal -
1254                      * probably not a "letter". */
1255                     while (s <= e) {
1256                         c = utf8n_to_uvchr((U8*)s, UTF8_MAXBYTES, &len,
1257                                            uniflags);
1258                         REXEC_FBC_EXACTISH_CHECK(c == c1);
1259                     }
1260                 }
1261                 else {
1262                     while (s <= e) {
1263                       c = utf8n_to_uvchr((U8*)s, UTF8_MAXBYTES, &len,
1264                                            uniflags);
1265
1266                         /* Handle some of the three Greek sigmas cases.
1267                          * Note that not all the possible combinations
1268                          * are handled here: some of them are handled
1269                          * by the standard folding rules, and some of
1270                          * them (the character class or ANYOF cases)
1271                          * are handled during compiletime in
1272                          * regexec.c:S_regclass(). */
1273                         if (c == (UV)UNICODE_GREEK_CAPITAL_LETTER_SIGMA ||
1274                             c == (UV)UNICODE_GREEK_SMALL_LETTER_FINAL_SIGMA)
1275                             c = (UV)UNICODE_GREEK_SMALL_LETTER_SIGMA;
1276
1277                         REXEC_FBC_EXACTISH_CHECK(c == c1 || c == c2);
1278                     }
1279                 }
1280             }
1281             else {
1282                 if (c1 == c2)
1283                     REXEC_FBC_EXACTISH_SCAN(*(U8*)s == c1);
1284                 else
1285                     REXEC_FBC_EXACTISH_SCAN(*(U8*)s == c1 || *(U8*)s == c2);
1286             }
1287             break;
1288         case BOUNDL:
1289             PL_reg_flags |= RF_tainted;
1290             /* FALL THROUGH */
1291         case BOUND:
1292             if (do_utf8) {
1293                 if (s == PL_bostr)
1294                     tmp = '\n';
1295                 else {
1296                     U8 * const r = reghop3((U8*)s, -1, (U8*)PL_bostr);
1297                     tmp = utf8n_to_uvchr(r, UTF8SKIP(r), 0, UTF8_ALLOW_DEFAULT);
1298                 }
1299                 tmp = ((OP(c) == BOUND ?
1300                         isALNUM_uni(tmp) : isALNUM_LC_uvchr(UNI_TO_NATIVE(tmp))) != 0);
1301                 LOAD_UTF8_CHARCLASS_ALNUM();
1302                 REXEC_FBC_UTF8_SCAN(
1303                     if (tmp == !(OP(c) == BOUND ?
1304                                  (bool)swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8) :
1305                                  isALNUM_LC_utf8((U8*)s)))
1306                     {
1307                         tmp = !tmp;
1308                         REXEC_FBC_TRYIT;
1309                 }
1310                 );
1311             }
1312             else {
1313                 tmp = (s != PL_bostr) ? UCHARAT(s - 1) : '\n';
1314                 tmp = ((OP(c) == BOUND ? isALNUM(tmp) : isALNUM_LC(tmp)) != 0);
1315                 REXEC_FBC_SCAN(
1316                     if (tmp ==
1317                         !(OP(c) == BOUND ? isALNUM(*s) : isALNUM_LC(*s))) {
1318                         tmp = !tmp;
1319                         REXEC_FBC_TRYIT;
1320                 }
1321                 );
1322             }
1323             if ((!prog->minlen && tmp) && (!reginfo || regtry(reginfo, &s)))
1324                 goto got_it;
1325             break;
1326         case NBOUNDL:
1327             PL_reg_flags |= RF_tainted;
1328             /* FALL THROUGH */
1329         case NBOUND:
1330             if (do_utf8) {
1331                 if (s == PL_bostr)
1332                     tmp = '\n';
1333                 else {
1334                     U8 * const r = reghop3((U8*)s, -1, (U8*)PL_bostr);
1335                     tmp = utf8n_to_uvchr(r, UTF8SKIP(r), 0, UTF8_ALLOW_DEFAULT);
1336                 }
1337                 tmp = ((OP(c) == NBOUND ?
1338                         isALNUM_uni(tmp) : isALNUM_LC_uvchr(UNI_TO_NATIVE(tmp))) != 0);
1339                 LOAD_UTF8_CHARCLASS_ALNUM();
1340                 REXEC_FBC_UTF8_SCAN(
1341                     if (tmp == !(OP(c) == NBOUND ?
1342                                  (bool)swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8) :
1343                                  isALNUM_LC_utf8((U8*)s)))
1344                         tmp = !tmp;
1345                     else REXEC_FBC_TRYIT;
1346                 );
1347             }
1348             else {
1349                 tmp = (s != PL_bostr) ? UCHARAT(s - 1) : '\n';
1350                 tmp = ((OP(c) == NBOUND ?
1351                         isALNUM(tmp) : isALNUM_LC(tmp)) != 0);
1352                 REXEC_FBC_SCAN(
1353                     if (tmp ==
1354                         !(OP(c) == NBOUND ? isALNUM(*s) : isALNUM_LC(*s)))
1355                         tmp = !tmp;
1356                     else REXEC_FBC_TRYIT;
1357                 );
1358             }
1359             if ((!prog->minlen && !tmp) && (!reginfo || regtry(reginfo, &s)))
1360                 goto got_it;
1361             break;
1362         case ALNUM:
1363             REXEC_FBC_CSCAN_PRELOAD(
1364                 LOAD_UTF8_CHARCLASS_ALNUM(),
1365                 swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8),
1366                 isALNUM(*s)
1367             );
1368         case ALNUML:
1369             REXEC_FBC_CSCAN_TAINT(
1370                 isALNUM_LC_utf8((U8*)s),
1371                 isALNUM_LC(*s)
1372             );
1373         case NALNUM:
1374             REXEC_FBC_CSCAN_PRELOAD(
1375                 LOAD_UTF8_CHARCLASS_ALNUM(),
1376                 !swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8),
1377                 !isALNUM(*s)
1378             );
1379         case NALNUML:
1380             REXEC_FBC_CSCAN_TAINT(
1381                 !isALNUM_LC_utf8((U8*)s),
1382                 !isALNUM_LC(*s)
1383             );
1384         case SPACE:
1385             REXEC_FBC_CSCAN_PRELOAD(
1386                 LOAD_UTF8_CHARCLASS_SPACE(),
1387                 *s == ' ' || swash_fetch(PL_utf8_space,(U8*)s, do_utf8),
1388                 isSPACE(*s)
1389             );
1390         case SPACEL:
1391             REXEC_FBC_CSCAN_TAINT(
1392                 *s == ' ' || isSPACE_LC_utf8((U8*)s),
1393                 isSPACE_LC(*s)
1394             );
1395         case NSPACE:
1396             REXEC_FBC_CSCAN_PRELOAD(
1397                 LOAD_UTF8_CHARCLASS_SPACE(),
1398                 !(*s == ' ' || swash_fetch(PL_utf8_space,(U8*)s, do_utf8)),
1399                 !isSPACE(*s)
1400             );
1401         case NSPACEL:
1402             REXEC_FBC_CSCAN_TAINT(
1403                 !(*s == ' ' || isSPACE_LC_utf8((U8*)s)),
1404                 !isSPACE_LC(*s)
1405             );
1406         case DIGIT:
1407             REXEC_FBC_CSCAN_PRELOAD(
1408                 LOAD_UTF8_CHARCLASS_DIGIT(),
1409                 swash_fetch(PL_utf8_digit,(U8*)s, do_utf8),
1410                 isDIGIT(*s)
1411             );
1412         case DIGITL:
1413             REXEC_FBC_CSCAN_TAINT(
1414                 isDIGIT_LC_utf8((U8*)s),
1415                 isDIGIT_LC(*s)
1416             );
1417         case NDIGIT:
1418             REXEC_FBC_CSCAN_PRELOAD(
1419                 LOAD_UTF8_CHARCLASS_DIGIT(),
1420                 !swash_fetch(PL_utf8_digit,(U8*)s, do_utf8),
1421                 !isDIGIT(*s)
1422             );
1423         case NDIGITL:
1424             REXEC_FBC_CSCAN_TAINT(
1425                 !isDIGIT_LC_utf8((U8*)s),
1426                 !isDIGIT_LC(*s)
1427             );
1428         case AHOCORASICKC:
1429         case AHOCORASICK: 
1430             {
1431                 const enum { trie_plain, trie_utf8, trie_utf8_fold }
1432                     trie_type = do_utf8 ?
1433                           (c->flags == EXACT ? trie_utf8 : trie_utf8_fold)
1434                         : trie_plain;
1435                 /* what trie are we using right now */
1436                 reg_ac_data *aho
1437                     = (reg_ac_data*)progi->data->data[ ARG( c ) ];
1438                 reg_trie_data *trie
1439                     = (reg_trie_data*)progi->data->data[ aho->trie ];
1440                 HV *widecharmap = (HV*) progi->data->data[ aho->trie + 1 ];
1441
1442                 const char *last_start = strend - trie->minlen;
1443 #ifdef DEBUGGING
1444                 const char *real_start = s;
1445 #endif
1446                 STRLEN maxlen = trie->maxlen;
1447                 SV *sv_points;
1448                 U8 **points; /* map of where we were in the input string
1449                                 when reading a given char. For ASCII this
1450                                 is unnecessary overhead as the relationship
1451                                 is always 1:1, but for unicode, especially
1452                                 case folded unicode this is not true. */
1453                 U8 foldbuf[ UTF8_MAXBYTES_CASE + 1 ];
1454                 U8 *bitmap=NULL;
1455
1456
1457                 GET_RE_DEBUG_FLAGS_DECL;
1458
1459                 /* We can't just allocate points here. We need to wrap it in
1460                  * an SV so it gets freed properly if there is a croak while
1461                  * running the match */
1462                 ENTER;
1463                 SAVETMPS;
1464                 sv_points=newSV(maxlen * sizeof(U8 *));
1465                 SvCUR_set(sv_points,
1466                     maxlen * sizeof(U8 *));
1467                 SvPOK_on(sv_points);
1468                 sv_2mortal(sv_points);
1469                 points=(U8**)SvPV_nolen(sv_points );
1470                 if ( trie_type != trie_utf8_fold 
1471                      && (trie->bitmap || OP(c)==AHOCORASICKC) ) 
1472                 {
1473                     if (trie->bitmap) 
1474                         bitmap=(U8*)trie->bitmap;
1475                     else
1476                         bitmap=(U8*)ANYOF_BITMAP(c);
1477                 }
1478                 /* this is the Aho-Corasick algorithm modified a touch
1479                    to include special handling for long "unknown char" 
1480                    sequences. The basic idea being that we use AC as long
1481                    as we are dealing with a possible matching char, when
1482                    we encounter an unknown char (and we have not encountered
1483                    an accepting state) we scan forward until we find a legal 
1484                    starting char. 
1485                    AC matching is basically that of trie matching, except
1486                    that when we encounter a failing transition, we fall back
1487                    to the current states "fail state", and try the current char 
1488                    again, a process we repeat until we reach the root state, 
1489                    state 1, or a legal transition. If we fail on the root state 
1490                    then we can either terminate if we have reached an accepting 
1491                    state previously, or restart the entire process from the beginning 
1492                    if we have not.
1493
1494                  */
1495                 while (s <= last_start) {
1496                     const U32 uniflags = UTF8_ALLOW_DEFAULT;
1497                     U8 *uc = (U8*)s;
1498                     U16 charid = 0;
1499                     U32 base = 1;
1500                     U32 state = 1;
1501                     UV uvc = 0;
1502                     STRLEN len = 0;
1503                     STRLEN foldlen = 0;
1504                     U8 *uscan = (U8*)NULL;
1505                     U8 *leftmost = NULL;
1506 #ifdef DEBUGGING                    
1507                     U32 accepted_word= 0;
1508 #endif
1509                     U32 pointpos = 0;
1510
1511                     while ( state && uc <= (U8*)strend ) {
1512                         int failed=0;
1513                         U32 word = aho->states[ state ].wordnum;
1514
1515                         if( state==1 ) {
1516                             if ( bitmap ) {
1517                                 DEBUG_TRIE_EXECUTE_r(
1518                                     if ( uc <= (U8*)last_start && !BITMAP_TEST(bitmap,*uc) ) {
1519                                         dump_exec_pos( (char *)uc, c, strend, real_start, 
1520                                             (char *)uc, do_utf8 );
1521                                         PerlIO_printf( Perl_debug_log,
1522                                             " Scanning for legal start char...\n");
1523                                     }
1524                                 );            
1525                                 while ( uc <= (U8*)last_start  && !BITMAP_TEST(bitmap,*uc) ) {
1526                                     uc++;
1527                                 }
1528                                 s= (char *)uc;
1529                             }
1530                             if (uc >(U8*)last_start) break;
1531                         }
1532                                             
1533                         if ( word ) {
1534                             U8 *lpos= points[ (pointpos - trie->wordlen[word-1] ) % maxlen ];
1535                             if (!leftmost || lpos < leftmost) {
1536                                 DEBUG_r(accepted_word=word);
1537                                 leftmost= lpos;
1538                             }
1539                             if (base==0) break;
1540                             
1541                         }
1542                         points[pointpos++ % maxlen]= uc;
1543                         REXEC_TRIE_READ_CHAR(trie_type, trie, widecharmap, uc,
1544                                              uscan, len, uvc, charid, foldlen,
1545                                              foldbuf, uniflags);
1546                         DEBUG_TRIE_EXECUTE_r({
1547                             dump_exec_pos( (char *)uc, c, strend, real_start, 
1548                                 s,   do_utf8 );
1549                             PerlIO_printf(Perl_debug_log,
1550                                 " Charid:%3u CP:%4"UVxf" ",
1551                                  charid, uvc);
1552                         });
1553
1554                         do {
1555 #ifdef DEBUGGING
1556                             word = aho->states[ state ].wordnum;
1557 #endif
1558                             base = aho->states[ state ].trans.base;
1559
1560                             DEBUG_TRIE_EXECUTE_r({
1561                                 if (failed) 
1562                                     dump_exec_pos( (char *)uc, c, strend, real_start, 
1563                                         s,   do_utf8 );
1564                                 PerlIO_printf( Perl_debug_log,
1565                                     "%sState: %4"UVxf", word=%"UVxf,
1566                                     failed ? " Fail transition to " : "",
1567                                     (UV)state, (UV)word);
1568                             });
1569                             if ( base ) {
1570                                 U32 tmp;
1571                                 if (charid &&
1572                                      (base + charid > trie->uniquecharcount )
1573                                      && (base + charid - 1 - trie->uniquecharcount
1574                                             < trie->lasttrans)
1575                                      && trie->trans[base + charid - 1 -
1576                                             trie->uniquecharcount].check == state
1577                                      && (tmp=trie->trans[base + charid - 1 -
1578                                         trie->uniquecharcount ].next))
1579                                 {
1580                                     DEBUG_TRIE_EXECUTE_r(
1581                                         PerlIO_printf( Perl_debug_log," - legal\n"));
1582                                     state = tmp;
1583                                     break;
1584                                 }
1585                                 else {
1586                                     DEBUG_TRIE_EXECUTE_r(
1587                                         PerlIO_printf( Perl_debug_log," - fail\n"));
1588                                     failed = 1;
1589                                     state = aho->fail[state];
1590                                 }
1591                             }
1592                             else {
1593                                 /* we must be accepting here */
1594                                 DEBUG_TRIE_EXECUTE_r(
1595                                         PerlIO_printf( Perl_debug_log," - accepting\n"));
1596                                 failed = 1;
1597                                 break;
1598                             }
1599                         } while(state);
1600                         uc += len;
1601                         if (failed) {
1602                             if (leftmost)
1603                                 break;
1604                             if (!state) state = 1;
1605                         }
1606                     }
1607                     if ( aho->states[ state ].wordnum ) {
1608                         U8 *lpos = points[ (pointpos - trie->wordlen[aho->states[ state ].wordnum-1]) % maxlen ];
1609                         if (!leftmost || lpos < leftmost) {
1610                             DEBUG_r(accepted_word=aho->states[ state ].wordnum);
1611                             leftmost = lpos;
1612                         }
1613                     }
1614                     if (leftmost) {
1615                         s = (char*)leftmost;
1616                         DEBUG_TRIE_EXECUTE_r({
1617                             PerlIO_printf( 
1618                                 Perl_debug_log,"Matches word #%"UVxf" at position %"IVdf". Trying full pattern...\n",
1619                                 (UV)accepted_word, (IV)(s - real_start)
1620                             );
1621                         });
1622                         if (!reginfo || regtry(reginfo, &s)) {
1623                             FREETMPS;
1624                             LEAVE;
1625                             goto got_it;
1626                         }
1627                         s = HOPc(s,1);
1628                         DEBUG_TRIE_EXECUTE_r({
1629                             PerlIO_printf( Perl_debug_log,"Pattern failed. Looking for new start point...\n");
1630                         });
1631                     } else {
1632                         DEBUG_TRIE_EXECUTE_r(
1633                             PerlIO_printf( Perl_debug_log,"No match.\n"));
1634                         break;
1635                     }
1636                 }
1637                 FREETMPS;
1638                 LEAVE;
1639             }
1640             break;
1641         default:
1642             Perl_croak(aTHX_ "panic: unknown regstclass %d", (int)OP(c));
1643             break;
1644         }
1645         return 0;
1646       got_it:
1647         return s;
1648 }
1649
1650 static void 
1651 S_swap_match_buff (pTHX_ regexp *prog) {
1652     regexp_paren_pair *t;
1653
1654     if (!prog->swap) {
1655     /* We have to be careful. If the previous successful match
1656        was from this regex we don't want a subsequent paritally
1657        successful match to clobber the old results. 
1658        So when we detect this possibility we add a swap buffer
1659        to the re, and switch the buffer each match. If we fail
1660        we switch it back, otherwise we leave it swapped.
1661     */
1662         Newxz(prog->swap, (prog->nparens + 1), regexp_paren_pair);
1663     }
1664     t = prog->swap;
1665     prog->swap = prog->offs;
1666     prog->offs = t;
1667 }    
1668
1669
1670 /*
1671  - regexec_flags - match a regexp against a string
1672  */
1673 I32
1674 Perl_regexec_flags(pTHX_ register regexp *prog, char *stringarg, register char *strend,
1675               char *strbeg, I32 minend, SV *sv, void *data, U32 flags)
1676 /* strend: pointer to null at end of string */
1677 /* strbeg: real beginning of string */
1678 /* minend: end of match must be >=minend after stringarg. */
1679 /* data: May be used for some additional optimizations. 
1680          Currently its only used, with a U32 cast, for transmitting 
1681          the ganch offset when doing a /g match. This will change */
1682 /* nosave: For optimizations. */
1683 {
1684     dVAR;
1685     /*register*/ char *s;
1686     register regnode *c;
1687     /*register*/ char *startpos = stringarg;
1688     I32 minlen;         /* must match at least this many chars */
1689     I32 dontbother = 0; /* how many characters not to try at end */
1690     I32 end_shift = 0;                  /* Same for the end. */         /* CC */
1691     I32 scream_pos = -1;                /* Internal iterator of scream. */
1692     char *scream_olds = NULL;
1693     SV* const oreplsv = GvSV(PL_replgv);
1694     const bool do_utf8 = (bool)DO_UTF8(sv);
1695     I32 multiline;
1696     RXi_GET_DECL(prog,progi);
1697     regmatch_info reginfo;  /* create some info to pass to regtry etc */
1698     bool swap_on_fail = 0;
1699
1700     GET_RE_DEBUG_FLAGS_DECL;
1701
1702     PERL_UNUSED_ARG(data);
1703
1704     /* Be paranoid... */
1705     if (prog == NULL || startpos == NULL) {
1706         Perl_croak(aTHX_ "NULL regexp parameter");
1707         return 0;
1708     }
1709
1710     multiline = prog->extflags & RXf_PMf_MULTILINE;
1711     reginfo.prog = prog;
1712
1713     RX_MATCH_UTF8_set(prog, do_utf8);
1714     DEBUG_EXECUTE_r( 
1715         debug_start_match(prog, do_utf8, startpos, strend, 
1716         "Matching");
1717     );
1718
1719     minlen = prog->minlen;
1720     
1721     if (strend - startpos < (minlen+(prog->check_offset_min<0?prog->check_offset_min:0))) {
1722         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
1723                               "String too short [regexec_flags]...\n"));
1724         goto phooey;
1725     }
1726
1727     
1728     /* Check validity of program. */
1729     if (UCHARAT(progi->program) != REG_MAGIC) {
1730         Perl_croak(aTHX_ "corrupted regexp program");
1731     }
1732
1733     PL_reg_flags = 0;
1734     PL_reg_eval_set = 0;
1735     PL_reg_maxiter = 0;
1736
1737     if (prog->extflags & RXf_UTF8)
1738         PL_reg_flags |= RF_utf8;
1739
1740     /* Mark beginning of line for ^ and lookbehind. */
1741     reginfo.bol = startpos; /* XXX not used ??? */
1742     PL_bostr  = strbeg;
1743     reginfo.sv = sv;
1744
1745     /* Mark end of line for $ (and such) */
1746     PL_regeol = strend;
1747
1748     /* see how far we have to get to not match where we matched before */
1749     reginfo.till = startpos+minend;
1750
1751     /* If there is a "must appear" string, look for it. */
1752     s = startpos;
1753
1754     if (prog->extflags & RXf_GPOS_SEEN) { /* Need to set reginfo->ganch */
1755         MAGIC *mg;
1756
1757         if (flags & REXEC_IGNOREPOS)    /* Means: check only at start */
1758             reginfo.ganch = startpos + prog->gofs;
1759         else if (sv && SvTYPE(sv) >= SVt_PVMG
1760                   && SvMAGIC(sv)
1761                   && (mg = mg_find(sv, PERL_MAGIC_regex_global))
1762                   && mg->mg_len >= 0) {
1763             reginfo.ganch = strbeg + mg->mg_len;        /* Defined pos() */
1764             if (prog->extflags & RXf_ANCH_GPOS) {
1765                 if (s > reginfo.ganch)
1766                     goto phooey;
1767                 s = reginfo.ganch - prog->gofs;
1768             }
1769         }
1770         else if (data) {
1771             reginfo.ganch = strbeg + PTR2UV(data);
1772         } else                          /* pos() not defined */
1773             reginfo.ganch = strbeg;
1774     }
1775     if (PL_curpm && (PM_GETRE(PL_curpm) == prog)) {
1776         swap_on_fail = 1;
1777         swap_match_buff(prog); /* do we need a save destructor here for
1778                                   eval dies? */
1779     }
1780     if (!(flags & REXEC_CHECKED) && (prog->check_substr != NULL || prog->check_utf8 != NULL)) {
1781         re_scream_pos_data d;
1782
1783         d.scream_olds = &scream_olds;
1784         d.scream_pos = &scream_pos;
1785         s = re_intuit_start(prog, sv, s, strend, flags, &d);
1786         if (!s) {
1787             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Not present...\n"));
1788             goto phooey;        /* not present */
1789         }
1790     }
1791
1792
1793
1794     /* Simplest case:  anchored match need be tried only once. */
1795     /*  [unless only anchor is BOL and multiline is set] */
1796     if (prog->extflags & (RXf_ANCH & ~RXf_ANCH_GPOS)) {
1797         if (s == startpos && regtry(&reginfo, &startpos))
1798             goto got_it;
1799         else if (multiline || (prog->intflags & PREGf_IMPLICIT)
1800                  || (prog->extflags & RXf_ANCH_MBOL)) /* XXXX SBOL? */
1801         {
1802             char *end;
1803
1804             if (minlen)
1805                 dontbother = minlen - 1;
1806             end = HOP3c(strend, -dontbother, strbeg) - 1;
1807             /* for multiline we only have to try after newlines */
1808             if (prog->check_substr || prog->check_utf8) {
1809                 if (s == startpos)
1810                     goto after_try;
1811                 while (1) {
1812                     if (regtry(&reginfo, &s))
1813                         goto got_it;
1814                   after_try:
1815                     if (s >= end)
1816                         goto phooey;
1817                     if (prog->extflags & RXf_USE_INTUIT) {
1818                         s = re_intuit_start(prog, sv, s + 1, strend, flags, NULL);
1819                         if (!s)
1820                             goto phooey;
1821                     }
1822                     else
1823                         s++;
1824                 }               
1825             } else {
1826                 if (s > startpos)
1827                     s--;
1828                 while (s < end) {
1829                     if (*s++ == '\n') { /* don't need PL_utf8skip here */
1830                         if (regtry(&reginfo, &s))
1831                             goto got_it;
1832                     }
1833                 }               
1834             }
1835         }
1836         goto phooey;
1837     } else if (RXf_GPOS_CHECK == (prog->extflags & RXf_GPOS_CHECK)) 
1838     {
1839         /* the warning about reginfo.ganch being used without intialization
1840            is bogus -- we set it above, when prog->extflags & RXf_GPOS_SEEN 
1841            and we only enter this block when the same bit is set. */
1842         char *tmp_s = reginfo.ganch - prog->gofs;
1843         if (regtry(&reginfo, &tmp_s))
1844             goto got_it;
1845         goto phooey;
1846     }
1847
1848     /* Messy cases:  unanchored match. */
1849     if ((prog->anchored_substr || prog->anchored_utf8) && prog->intflags & PREGf_SKIP) {
1850         /* we have /x+whatever/ */
1851         /* it must be a one character string (XXXX Except UTF?) */
1852         char ch;
1853 #ifdef DEBUGGING
1854         int did_match = 0;
1855 #endif
1856         if (!(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr))
1857             do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1858         ch = SvPVX_const(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr)[0];
1859
1860         if (do_utf8) {
1861             REXEC_FBC_SCAN(
1862                 if (*s == ch) {
1863                     DEBUG_EXECUTE_r( did_match = 1 );
1864                     if (regtry(&reginfo, &s)) goto got_it;
1865                     s += UTF8SKIP(s);
1866                     while (s < strend && *s == ch)
1867                         s += UTF8SKIP(s);
1868                 }
1869             );
1870         }
1871         else {
1872             REXEC_FBC_SCAN(
1873                 if (*s == ch) {
1874                     DEBUG_EXECUTE_r( did_match = 1 );
1875                     if (regtry(&reginfo, &s)) goto got_it;
1876                     s++;
1877                     while (s < strend && *s == ch)
1878                         s++;
1879                 }
1880             );
1881         }
1882         DEBUG_EXECUTE_r(if (!did_match)
1883                 PerlIO_printf(Perl_debug_log,
1884                                   "Did not find anchored character...\n")
1885                );
1886     }
1887     else if (prog->anchored_substr != NULL
1888               || prog->anchored_utf8 != NULL
1889               || ((prog->float_substr != NULL || prog->float_utf8 != NULL)
1890                   && prog->float_max_offset < strend - s)) {
1891         SV *must;
1892         I32 back_max;
1893         I32 back_min;
1894         char *last;
1895         char *last1;            /* Last position checked before */
1896 #ifdef DEBUGGING
1897         int did_match = 0;
1898 #endif
1899         if (prog->anchored_substr || prog->anchored_utf8) {
1900             if (!(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr))
1901                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1902             must = do_utf8 ? prog->anchored_utf8 : prog->anchored_substr;
1903             back_max = back_min = prog->anchored_offset;
1904         } else {
1905             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))
1906                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1907             must = do_utf8 ? prog->float_utf8 : prog->float_substr;
1908             back_max = prog->float_max_offset;
1909             back_min = prog->float_min_offset;
1910         }
1911         
1912             
1913         if (must == &PL_sv_undef)
1914             /* could not downgrade utf8 check substring, so must fail */
1915             goto phooey;
1916
1917         if (back_min<0) {
1918             last = strend;
1919         } else {
1920             last = HOP3c(strend,        /* Cannot start after this */
1921                   -(I32)(CHR_SVLEN(must)
1922                          - (SvTAIL(must) != 0) + back_min), strbeg);
1923         }
1924         if (s > PL_bostr)
1925             last1 = HOPc(s, -1);
1926         else
1927             last1 = s - 1;      /* bogus */
1928
1929         /* XXXX check_substr already used to find "s", can optimize if
1930            check_substr==must. */
1931         scream_pos = -1;
1932         dontbother = end_shift;
1933         strend = HOPc(strend, -dontbother);
1934         while ( (s <= last) &&
1935                 ((flags & REXEC_SCREAM)
1936                  ? (s = screaminstr(sv, must, HOP3c(s, back_min, (back_min<0 ? strbeg : strend)) - strbeg,
1937                                     end_shift, &scream_pos, 0))
1938                  : (s = fbm_instr((unsigned char*)HOP3(s, back_min, (back_min<0 ? strbeg : strend)),
1939                                   (unsigned char*)strend, must,
1940                                   multiline ? FBMrf_MULTILINE : 0))) ) {
1941             /* we may be pointing at the wrong string */
1942             if ((flags & REXEC_SCREAM) && RX_MATCH_COPIED(prog))
1943                 s = strbeg + (s - SvPVX_const(sv));
1944             DEBUG_EXECUTE_r( did_match = 1 );
1945             if (HOPc(s, -back_max) > last1) {
1946                 last1 = HOPc(s, -back_min);
1947                 s = HOPc(s, -back_max);
1948             }
1949             else {
1950                 char * const t = (last1 >= PL_bostr) ? HOPc(last1, 1) : last1 + 1;
1951
1952                 last1 = HOPc(s, -back_min);
1953                 s = t;
1954             }
1955             if (do_utf8) {
1956                 while (s <= last1) {
1957                     if (regtry(&reginfo, &s))
1958                         goto got_it;
1959                     s += UTF8SKIP(s);
1960                 }
1961             }
1962             else {
1963                 while (s <= last1) {
1964                     if (regtry(&reginfo, &s))
1965                         goto got_it;
1966                     s++;
1967                 }
1968             }
1969         }
1970         DEBUG_EXECUTE_r(if (!did_match) {
1971             RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
1972                 SvPVX_const(must), RE_SV_DUMPLEN(must), 30);
1973             PerlIO_printf(Perl_debug_log, "Did not find %s substr %s%s...\n",
1974                               ((must == prog->anchored_substr || must == prog->anchored_utf8)
1975                                ? "anchored" : "floating"),
1976                 quoted, RE_SV_TAIL(must));
1977         });                 
1978         goto phooey;
1979     }
1980     else if ( (c = progi->regstclass) ) {
1981         if (minlen) {
1982             const OPCODE op = OP(progi->regstclass);
1983             /* don't bother with what can't match */
1984             if (PL_regkind[op] != EXACT && op != CANY && PL_regkind[op] != TRIE)
1985                 strend = HOPc(strend, -(minlen - 1));
1986         }
1987         DEBUG_EXECUTE_r({
1988             SV * const prop = sv_newmortal();
1989             regprop(prog, prop, c);
1990             {
1991                 RE_PV_QUOTED_DECL(quoted,do_utf8,PERL_DEBUG_PAD_ZERO(1),
1992                     s,strend-s,60);
1993                 PerlIO_printf(Perl_debug_log,
1994                     "Matching stclass %.*s against %s (%d chars)\n",
1995                     (int)SvCUR(prop), SvPVX_const(prop),
1996                      quoted, (int)(strend - s));
1997             }
1998         });
1999         if (find_byclass(prog, c, s, strend, &reginfo))
2000             goto got_it;
2001         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Contradicts stclass... [regexec_flags]\n"));
2002     }
2003     else {
2004         dontbother = 0;
2005         if (prog->float_substr != NULL || prog->float_utf8 != NULL) {
2006             /* Trim the end. */
2007             char *last;
2008             SV* float_real;
2009
2010             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))
2011                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
2012             float_real = do_utf8 ? prog->float_utf8 : prog->float_substr;
2013
2014             if (flags & REXEC_SCREAM) {
2015                 last = screaminstr(sv, float_real, s - strbeg,
2016                                    end_shift, &scream_pos, 1); /* last one */
2017                 if (!last)
2018                     last = scream_olds; /* Only one occurrence. */
2019                 /* we may be pointing at the wrong string */
2020                 else if (RX_MATCH_COPIED(prog))
2021                     s = strbeg + (s - SvPVX_const(sv));
2022             }
2023             else {
2024                 STRLEN len;
2025                 const char * const little = SvPV_const(float_real, len);
2026
2027                 if (SvTAIL(float_real)) {
2028                     if (memEQ(strend - len + 1, little, len - 1))
2029                         last = strend - len + 1;
2030                     else if (!multiline)
2031                         last = memEQ(strend - len, little, len)
2032                             ? strend - len : NULL;
2033                     else
2034                         goto find_last;
2035                 } else {
2036                   find_last:
2037                     if (len)
2038                         last = rninstr(s, strend, little, little + len);
2039                     else
2040                         last = strend;  /* matching "$" */
2041                 }
2042             }
2043             if (last == NULL) {
2044                 DEBUG_EXECUTE_r(
2045                     PerlIO_printf(Perl_debug_log,
2046                         "%sCan't trim the tail, match fails (should not happen)%s\n",
2047                         PL_colors[4], PL_colors[5]));
2048                 goto phooey; /* Should not happen! */
2049             }
2050             dontbother = strend - last + prog->float_min_offset;
2051         }
2052         if (minlen && (dontbother < minlen))
2053             dontbother = minlen - 1;
2054         strend -= dontbother;              /* this one's always in bytes! */
2055         /* We don't know much -- general case. */
2056         if (do_utf8) {
2057             for (;;) {
2058                 if (regtry(&reginfo, &s))
2059                     goto got_it;
2060                 if (s >= strend)
2061                     break;
2062                 s += UTF8SKIP(s);
2063             };
2064         }
2065         else {
2066             do {
2067                 if (regtry(&reginfo, &s))
2068                     goto got_it;
2069             } while (s++ < strend);
2070         }
2071     }
2072
2073     /* Failure. */
2074     goto phooey;
2075
2076 got_it:
2077     RX_MATCH_TAINTED_set(prog, PL_reg_flags & RF_tainted);
2078
2079     if (PL_reg_eval_set) {
2080         /* Preserve the current value of $^R */
2081         if (oreplsv != GvSV(PL_replgv))
2082             sv_setsv(oreplsv, GvSV(PL_replgv));/* So that when GvSV(replgv) is
2083                                                   restored, the value remains
2084                                                   the same. */
2085         restore_pos(aTHX_ prog);
2086     }
2087     if (prog->paren_names) 
2088         (void)hv_iterinit(prog->paren_names);
2089
2090     /* make sure $`, $&, $', and $digit will work later */
2091     if ( !(flags & REXEC_NOT_FIRST) ) {
2092         RX_MATCH_COPY_FREE(prog);
2093         if (flags & REXEC_COPY_STR) {
2094             const I32 i = PL_regeol - startpos + (stringarg - strbeg);
2095 #ifdef PERL_OLD_COPY_ON_WRITE
2096             if ((SvIsCOW(sv)
2097                  || (SvFLAGS(sv) & CAN_COW_MASK) == CAN_COW_FLAGS)) {
2098                 if (DEBUG_C_TEST) {
2099                     PerlIO_printf(Perl_debug_log,
2100                                   "Copy on write: regexp capture, type %d\n",
2101                                   (int) SvTYPE(sv));
2102                 }
2103                 prog->saved_copy = sv_setsv_cow(prog->saved_copy, sv);
2104                 prog->subbeg = (char *)SvPVX_const(prog->saved_copy);
2105                 assert (SvPOKp(prog->saved_copy));
2106             } else
2107 #endif
2108             {
2109                 RX_MATCH_COPIED_on(prog);
2110                 s = savepvn(strbeg, i);
2111                 prog->subbeg = s;
2112             }
2113             prog->sublen = i;
2114         }
2115         else {
2116             prog->subbeg = strbeg;
2117             prog->sublen = PL_regeol - strbeg;  /* strend may have been modified */
2118         }
2119     }
2120
2121     return 1;
2122
2123 phooey:
2124     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch failed%s\n",
2125                           PL_colors[4], PL_colors[5]));
2126     if (PL_reg_eval_set)
2127         restore_pos(aTHX_ prog);
2128     if (swap_on_fail) 
2129         /* we failed :-( roll it back */
2130         swap_match_buff(prog);
2131     
2132     return 0;
2133 }
2134
2135
2136 /*
2137  - regtry - try match at specific point
2138  */
2139 STATIC I32                      /* 0 failure, 1 success */
2140 S_regtry(pTHX_ regmatch_info *reginfo, char **startpos)
2141 {
2142     dVAR;
2143     CHECKPOINT lastcp;
2144     regexp *prog = reginfo->prog;
2145     RXi_GET_DECL(prog,progi);
2146     GET_RE_DEBUG_FLAGS_DECL;
2147     reginfo->cutpoint=NULL;
2148
2149     if ((prog->extflags & RXf_EVAL_SEEN) && !PL_reg_eval_set) {
2150         MAGIC *mg;
2151
2152         PL_reg_eval_set = RS_init;
2153         DEBUG_EXECUTE_r(DEBUG_s(
2154             PerlIO_printf(Perl_debug_log, "  setting stack tmpbase at %"IVdf"\n",
2155                           (IV)(PL_stack_sp - PL_stack_base));
2156             ));
2157         SAVESTACK_CXPOS();
2158         cxstack[cxstack_ix].blk_oldsp = PL_stack_sp - PL_stack_base;
2159         /* Otherwise OP_NEXTSTATE will free whatever on stack now.  */
2160         SAVETMPS;
2161         /* Apparently this is not needed, judging by wantarray. */
2162         /* SAVEI8(cxstack[cxstack_ix].blk_gimme);
2163            cxstack[cxstack_ix].blk_gimme = G_SCALAR; */
2164
2165         if (reginfo->sv) {
2166             /* Make $_ available to executed code. */
2167             if (reginfo->sv != DEFSV) {
2168                 SAVE_DEFSV;
2169                 DEFSV = reginfo->sv;
2170             }
2171         
2172             if (!(SvTYPE(reginfo->sv) >= SVt_PVMG && SvMAGIC(reginfo->sv)
2173                   && (mg = mg_find(reginfo->sv, PERL_MAGIC_regex_global)))) {
2174                 /* prepare for quick setting of pos */
2175 #ifdef PERL_OLD_COPY_ON_WRITE
2176                 if (SvIsCOW(reginfo->sv))
2177                     sv_force_normal_flags(reginfo->sv, 0);
2178 #endif
2179                 mg = sv_magicext(reginfo->sv, NULL, PERL_MAGIC_regex_global,
2180                                  &PL_vtbl_mglob, NULL, 0);
2181                 mg->mg_len = -1;
2182             }
2183             PL_reg_magic    = mg;
2184             PL_reg_oldpos   = mg->mg_len;
2185             SAVEDESTRUCTOR_X(restore_pos, prog);
2186         }
2187         if (!PL_reg_curpm) {
2188             Newxz(PL_reg_curpm, 1, PMOP);
2189 #ifdef USE_ITHREADS
2190             {
2191                 SV* const repointer = newSViv(0);
2192                 /* so we know which PL_regex_padav element is PL_reg_curpm */
2193                 SvFLAGS(repointer) |= SVf_BREAK;
2194                 av_push(PL_regex_padav,repointer);
2195                 PL_reg_curpm->op_pmoffset = av_len(PL_regex_padav);
2196                 PL_regex_pad = AvARRAY(PL_regex_padav);
2197             }
2198 #endif      
2199         }
2200         PM_SETRE(PL_reg_curpm, prog);
2201         PL_reg_oldcurpm = PL_curpm;
2202         PL_curpm = PL_reg_curpm;
2203         if (RX_MATCH_COPIED(prog)) {
2204             /*  Here is a serious problem: we cannot rewrite subbeg,
2205                 since it may be needed if this match fails.  Thus
2206                 $` inside (?{}) could fail... */
2207             PL_reg_oldsaved = prog->subbeg;
2208             PL_reg_oldsavedlen = prog->sublen;
2209 #ifdef PERL_OLD_COPY_ON_WRITE
2210             PL_nrs = prog->saved_copy;
2211 #endif
2212             RX_MATCH_COPIED_off(prog);
2213         }
2214         else
2215             PL_reg_oldsaved = NULL;
2216         prog->subbeg = PL_bostr;
2217         prog->sublen = PL_regeol - PL_bostr; /* strend may have been modified */
2218     }
2219     DEBUG_EXECUTE_r(PL_reg_starttry = *startpos);
2220     prog->offs[0].start = *startpos - PL_bostr;
2221     PL_reginput = *startpos;
2222     PL_reglastparen = &prog->lastparen;
2223     PL_reglastcloseparen = &prog->lastcloseparen;
2224     prog->lastparen = 0;
2225     prog->lastcloseparen = 0;
2226     PL_regsize = 0;
2227     PL_regoffs = prog->offs;
2228     if (PL_reg_start_tmpl <= prog->nparens) {
2229         PL_reg_start_tmpl = prog->nparens*3/2 + 3;
2230         if(PL_reg_start_tmp)
2231             Renew(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
2232         else
2233             Newx(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
2234     }
2235
2236     /* XXXX What this code is doing here?!!!  There should be no need
2237        to do this again and again, PL_reglastparen should take care of
2238        this!  --ilya*/
2239
2240     /* Tests pat.t#187 and split.t#{13,14} seem to depend on this code.
2241      * Actually, the code in regcppop() (which Ilya may be meaning by
2242      * PL_reglastparen), is not needed at all by the test suite
2243      * (op/regexp, op/pat, op/split), but that code is needed, oddly
2244      * enough, for building DynaLoader, or otherwise this
2245      * "Error: '*' not in typemap in DynaLoader.xs, line 164"
2246      * will happen.  Meanwhile, this code *is* needed for the
2247      * above-mentioned test suite tests to succeed.  The common theme
2248      * on those tests seems to be returning null fields from matches.
2249      * --jhi */
2250 #if 1
2251     if (prog->nparens) {
2252         regexp_paren_pair *pp = PL_regoffs;
2253         register I32 i;
2254         for (i = prog->nparens; i > (I32)*PL_reglastparen; i--) {
2255             ++pp;
2256             pp->start = -1;
2257             pp->end = -1;
2258         }
2259     }
2260 #endif
2261     REGCP_SET(lastcp);
2262     if (regmatch(reginfo, progi->program + 1)) {
2263         PL_regoffs[0].end = PL_reginput - PL_bostr;
2264         return 1;
2265     }
2266     if (reginfo->cutpoint)
2267         *startpos= reginfo->cutpoint;
2268     REGCP_UNWIND(lastcp);
2269     return 0;
2270 }
2271
2272
2273 #define sayYES goto yes
2274 #define sayNO goto no
2275 #define sayNO_SILENT goto no_silent
2276
2277 /* we dont use STMT_START/END here because it leads to 
2278    "unreachable code" warnings, which are bogus, but distracting. */
2279 #define CACHEsayNO \
2280     if (ST.cache_mask) \
2281        PL_reg_poscache[ST.cache_offset] |= ST.cache_mask; \
2282     sayNO
2283
2284 /* this is used to determine how far from the left messages like
2285    'failed...' are printed. It should be set such that messages 
2286    are inline with the regop output that created them.
2287 */
2288 #define REPORT_CODE_OFF 32
2289
2290
2291 /* Make sure there is a test for this +1 options in re_tests */
2292 #define TRIE_INITAL_ACCEPT_BUFFLEN 4;
2293
2294 #define CHRTEST_UNINIT -1001 /* c1/c2 haven't been calculated yet */
2295 #define CHRTEST_VOID   -1000 /* the c1/c2 "next char" test should be skipped */
2296
2297 #define SLAB_FIRST(s) (&(s)->states[0])
2298 #define SLAB_LAST(s)  (&(s)->states[PERL_REGMATCH_SLAB_SLOTS-1])
2299
2300 /* grab a new slab and return the first slot in it */
2301
2302 STATIC regmatch_state *
2303 S_push_slab(pTHX)
2304 {
2305 #if PERL_VERSION < 9 && !defined(PERL_CORE)
2306     dMY_CXT;
2307 #endif
2308     regmatch_slab *s = PL_regmatch_slab->next;
2309     if (!s) {
2310         Newx(s, 1, regmatch_slab);
2311         s->prev = PL_regmatch_slab;
2312         s->next = NULL;
2313         PL_regmatch_slab->next = s;
2314     }
2315     PL_regmatch_slab = s;
2316     return SLAB_FIRST(s);
2317 }
2318
2319
2320 /* push a new state then goto it */
2321
2322 #define PUSH_STATE_GOTO(state, node) \
2323     scan = node; \
2324     st->resume_state = state; \
2325     goto push_state;
2326
2327 /* push a new state with success backtracking, then goto it */
2328
2329 #define PUSH_YES_STATE_GOTO(state, node) \
2330     scan = node; \
2331     st->resume_state = state; \
2332     goto push_yes_state;
2333
2334
2335
2336 /*
2337
2338 regmatch() - main matching routine
2339
2340 This is basically one big switch statement in a loop. We execute an op,
2341 set 'next' to point the next op, and continue. If we come to a point which
2342 we may need to backtrack to on failure such as (A|B|C), we push a
2343 backtrack state onto the backtrack stack. On failure, we pop the top
2344 state, and re-enter the loop at the state indicated. If there are no more
2345 states to pop, we return failure.
2346
2347 Sometimes we also need to backtrack on success; for example /A+/, where
2348 after successfully matching one A, we need to go back and try to
2349 match another one; similarly for lookahead assertions: if the assertion
2350 completes successfully, we backtrack to the state just before the assertion
2351 and then carry on.  In these cases, the pushed state is marked as
2352 'backtrack on success too'. This marking is in fact done by a chain of
2353 pointers, each pointing to the previous 'yes' state. On success, we pop to
2354 the nearest yes state, discarding any intermediate failure-only states.
2355 Sometimes a yes state is pushed just to force some cleanup code to be
2356 called at the end of a successful match or submatch; e.g. (??{$re}) uses
2357 it to free the inner regex.
2358
2359 Note that failure backtracking rewinds the cursor position, while
2360 success backtracking leaves it alone.
2361
2362 A pattern is complete when the END op is executed, while a subpattern
2363 such as (?=foo) is complete when the SUCCESS op is executed. Both of these
2364 ops trigger the "pop to last yes state if any, otherwise return true"
2365 behaviour.
2366
2367 A common convention in this function is to use A and B to refer to the two
2368 subpatterns (or to the first nodes thereof) in patterns like /A*B/: so A is
2369 the subpattern to be matched possibly multiple times, while B is the entire
2370 rest of the pattern. Variable and state names reflect this convention.
2371
2372 The states in the main switch are the union of ops and failure/success of
2373 substates associated with with that op.  For example, IFMATCH is the op
2374 that does lookahead assertions /(?=A)B/ and so the IFMATCH state means
2375 'execute IFMATCH'; while IFMATCH_A is a state saying that we have just
2376 successfully matched A and IFMATCH_A_fail is a state saying that we have
2377 just failed to match A. Resume states always come in pairs. The backtrack
2378 state we push is marked as 'IFMATCH_A', but when that is popped, we resume
2379 at IFMATCH_A or IFMATCH_A_fail, depending on whether we are backtracking
2380 on success or failure.
2381
2382 The struct that holds a backtracking state is actually a big union, with
2383 one variant for each major type of op. The variable st points to the
2384 top-most backtrack struct. To make the code clearer, within each
2385 block of code we #define ST to alias the relevant union.
2386
2387 Here's a concrete example of a (vastly oversimplified) IFMATCH
2388 implementation:
2389
2390     switch (state) {
2391     ....
2392
2393 #define ST st->u.ifmatch
2394
2395     case IFMATCH: // we are executing the IFMATCH op, (?=A)B
2396         ST.foo = ...; // some state we wish to save
2397         ...
2398         // push a yes backtrack state with a resume value of
2399         // IFMATCH_A/IFMATCH_A_fail, then continue execution at the
2400         // first node of A:
2401         PUSH_YES_STATE_GOTO(IFMATCH_A, A);
2402         // NOTREACHED
2403
2404     case IFMATCH_A: // we have successfully executed A; now continue with B
2405         next = B;
2406         bar = ST.foo; // do something with the preserved value
2407         break;
2408
2409     case IFMATCH_A_fail: // A failed, so the assertion failed
2410         ...;   // do some housekeeping, then ...
2411         sayNO; // propagate the failure
2412
2413 #undef ST
2414
2415     ...
2416     }
2417
2418 For any old-timers reading this who are familiar with the old recursive
2419 approach, the code above is equivalent to:
2420
2421     case IFMATCH: // we are executing the IFMATCH op, (?=A)B
2422     {
2423         int foo = ...
2424         ...
2425         if (regmatch(A)) {
2426             next = B;
2427             bar = foo;
2428             break;
2429         }
2430         ...;   // do some housekeeping, then ...
2431         sayNO; // propagate the failure
2432     }
2433
2434 The topmost backtrack state, pointed to by st, is usually free. If you
2435 want to claim it, populate any ST.foo fields in it with values you wish to
2436 save, then do one of
2437
2438         PUSH_STATE_GOTO(resume_state, node);
2439         PUSH_YES_STATE_GOTO(resume_state, node);
2440
2441 which sets that backtrack state's resume value to 'resume_state', pushes a
2442 new free entry to the top of the backtrack stack, then goes to 'node'.
2443 On backtracking, the free slot is popped, and the saved state becomes the
2444 new free state. An ST.foo field in this new top state can be temporarily
2445 accessed to retrieve values, but once the main loop is re-entered, it
2446 becomes available for reuse.
2447
2448 Note that the depth of the backtrack stack constantly increases during the
2449 left-to-right execution of the pattern, rather than going up and down with
2450 the pattern nesting. For example the stack is at its maximum at Z at the
2451 end of the pattern, rather than at X in the following:
2452
2453     /(((X)+)+)+....(Y)+....Z/
2454
2455 The only exceptions to this are lookahead/behind assertions and the cut,
2456 (?>A), which pop all the backtrack states associated with A before
2457 continuing.
2458  
2459 Bascktrack state structs are allocated in slabs of about 4K in size.
2460 PL_regmatch_state and st always point to the currently active state,
2461 and PL_regmatch_slab points to the slab currently containing
2462 PL_regmatch_state.  The first time regmatch() is called, the first slab is
2463 allocated, and is never freed until interpreter destruction. When the slab
2464 is full, a new one is allocated and chained to the end. At exit from
2465 regmatch(), slabs allocated since entry are freed.
2466
2467 */
2468  
2469
2470 #define DEBUG_STATE_pp(pp)                                  \
2471     DEBUG_STATE_r({                                         \
2472         DUMP_EXEC_POS(locinput, scan, do_utf8);             \
2473         PerlIO_printf(Perl_debug_log,                       \
2474             "    %*s"pp" %s%s%s%s%s\n",                     \
2475             depth*2, "",                                    \
2476             PL_reg_name[st->resume_state],                     \
2477             ((st==yes_state||st==mark_state) ? "[" : ""),   \
2478             ((st==yes_state) ? "Y" : ""),                   \
2479             ((st==mark_state) ? "M" : ""),                  \
2480             ((st==yes_state||st==mark_state) ? "]" : "")    \
2481         );                                                  \
2482     });
2483
2484
2485 #define REG_NODE_NUM(x) ((x) ? (int)((x)-prog) : -1)
2486
2487 #ifdef DEBUGGING
2488
2489 STATIC void
2490 S_debug_start_match(pTHX_ const regexp *prog, const bool do_utf8, 
2491     const char *start, const char *end, const char *blurb)
2492 {
2493     const bool utf8_pat= prog->extflags & RXf_UTF8 ? 1 : 0;
2494     if (!PL_colorset)   
2495             reginitcolors();    
2496     {
2497         RE_PV_QUOTED_DECL(s0, utf8_pat, PERL_DEBUG_PAD_ZERO(0), 
2498             prog->precomp, prog->prelen, 60);   
2499         
2500         RE_PV_QUOTED_DECL(s1, do_utf8, PERL_DEBUG_PAD_ZERO(1), 
2501             start, end - start, 60); 
2502         
2503         PerlIO_printf(Perl_debug_log, 
2504             "%s%s REx%s %s against %s\n", 
2505                        PL_colors[4], blurb, PL_colors[5], s0, s1); 
2506         
2507         if (do_utf8||utf8_pat) 
2508             PerlIO_printf(Perl_debug_log, "UTF-8 %s%s%s...\n",
2509                 utf8_pat ? "pattern" : "",
2510                 utf8_pat && do_utf8 ? " and " : "",
2511                 do_utf8 ? "string" : ""
2512             ); 
2513     }
2514 }
2515
2516 STATIC void
2517 S_dump_exec_pos(pTHX_ const char *locinput, 
2518                       const regnode *scan, 
2519                       const char *loc_regeol, 
2520                       const char *loc_bostr, 
2521                       const char *loc_reg_starttry,
2522                       const bool do_utf8)
2523 {
2524     const int docolor = *PL_colors[0] || *PL_colors[2] || *PL_colors[4];
2525     const int taill = (docolor ? 10 : 7); /* 3 chars for "> <" */
2526     int l = (loc_regeol - locinput) > taill ? taill : (loc_regeol - locinput);
2527     /* The part of the string before starttry has one color
2528        (pref0_len chars), between starttry and current
2529        position another one (pref_len - pref0_len chars),
2530        after the current position the third one.
2531        We assume that pref0_len <= pref_len, otherwise we
2532        decrease pref0_len.  */
2533     int pref_len = (locinput - loc_bostr) > (5 + taill) - l
2534         ? (5 + taill) - l : locinput - loc_bostr;
2535     int pref0_len;
2536
2537     while (do_utf8 && UTF8_IS_CONTINUATION(*(U8*)(locinput - pref_len)))
2538         pref_len++;
2539     pref0_len = pref_len  - (locinput - loc_reg_starttry);
2540     if (l + pref_len < (5 + taill) && l < loc_regeol - locinput)
2541         l = ( loc_regeol - locinput > (5 + taill) - pref_len
2542               ? (5 + taill) - pref_len : loc_regeol - locinput);
2543     while (do_utf8 && UTF8_IS_CONTINUATION(*(U8*)(locinput + l)))
2544         l--;
2545     if (pref0_len < 0)
2546         pref0_len = 0;
2547     if (pref0_len > pref_len)
2548         pref0_len = pref_len;
2549     {
2550         const int is_uni = (do_utf8 && OP(scan) != CANY) ? 1 : 0;
2551
2552         RE_PV_COLOR_DECL(s0,len0,is_uni,PERL_DEBUG_PAD(0),
2553             (locinput - pref_len),pref0_len, 60, 4, 5);
2554         
2555         RE_PV_COLOR_DECL(s1,len1,is_uni,PERL_DEBUG_PAD(1),
2556                     (locinput - pref_len + pref0_len),
2557                     pref_len - pref0_len, 60, 2, 3);
2558         
2559         RE_PV_COLOR_DECL(s2,len2,is_uni,PERL_DEBUG_PAD(2),
2560                     locinput, loc_regeol - locinput, 10, 0, 1);
2561
2562         const STRLEN tlen=len0+len1+len2;
2563         PerlIO_printf(Perl_debug_log,
2564                     "%4"IVdf" <%.*s%.*s%s%.*s>%*s|",
2565                     (IV)(locinput - loc_bostr),
2566                     len0, s0,
2567                     len1, s1,
2568                     (docolor ? "" : "> <"),
2569                     len2, s2,
2570                     (int)(tlen > 19 ? 0 :  19 - tlen),
2571                     "");
2572     }
2573 }
2574
2575 #endif
2576
2577 /* reg_check_named_buff_matched()
2578  * Checks to see if a named buffer has matched. The data array of 
2579  * buffer numbers corresponding to the buffer is expected to reside
2580  * in the regexp->data->data array in the slot stored in the ARG() of
2581  * node involved. Note that this routine doesn't actually care about the
2582  * name, that information is not preserved from compilation to execution.
2583  * Returns the index of the leftmost defined buffer with the given name
2584  * or 0 if non of the buffers matched.
2585  */
2586 STATIC I32
2587 S_reg_check_named_buff_matched(pTHX_ const regexp *rex, const regnode *scan) {
2588     I32 n;
2589     RXi_GET_DECL(rex,rexi);
2590     SV *sv_dat=(SV*)rexi->data->data[ ARG( scan ) ];
2591     I32 *nums=(I32*)SvPVX(sv_dat);
2592     for ( n=0; n<SvIVX(sv_dat); n++ ) {
2593         if ((I32)*PL_reglastparen >= nums[n] &&
2594             PL_regoffs[nums[n]].end != -1)
2595         {
2596             return nums[n];
2597         }
2598     }
2599     return 0;
2600 }
2601
2602 #define SETREX(Re1,Re2) \
2603     if (PL_reg_eval_set) PM_SETRE((PL_reg_curpm), (Re2)); \
2604     Re1 = (Re2)
2605
2606 STATIC I32                      /* 0 failure, 1 success */
2607 S_regmatch(pTHX_ regmatch_info *reginfo, regnode *prog)
2608 {
2609 #if PERL_VERSION < 9 && !defined(PERL_CORE)
2610     dMY_CXT;
2611 #endif
2612     dVAR;
2613     register const bool do_utf8 = PL_reg_match_utf8;
2614     const U32 uniflags = UTF8_ALLOW_DEFAULT;
2615
2616     regexp *rex = reginfo->prog;
2617     RXi_GET_DECL(rex,rexi);
2618     
2619     regmatch_slab  *orig_slab;
2620     regmatch_state *orig_state;
2621
2622     /* the current state. This is a cached copy of PL_regmatch_state */
2623     register regmatch_state *st;
2624
2625     /* cache heavy used fields of st in registers */
2626     register regnode *scan;
2627     register regnode *next;
2628     register U32 n = 0; /* general value; init to avoid compiler warning */
2629     register I32 ln = 0; /* len or last;  init to avoid compiler warning */
2630     register char *locinput = PL_reginput;
2631     register I32 nextchr;   /* is always set to UCHARAT(locinput) */
2632
2633     bool result = 0;        /* return value of S_regmatch */
2634     int depth = 0;          /* depth of backtrack stack */
2635     U32 nochange_depth = 0; /* depth of GOSUB recursion with nochange */
2636     const U32 max_nochange_depth =
2637         (3 * rex->nparens > MAX_RECURSE_EVAL_NOCHANGE_DEPTH) ?
2638         3 * rex->nparens : MAX_RECURSE_EVAL_NOCHANGE_DEPTH;
2639             
2640     regmatch_state *yes_state = NULL; /* state to pop to on success of
2641                                                             subpattern */
2642     /* mark_state piggy backs on the yes_state logic so that when we unwind 
2643        the stack on success we can update the mark_state as we go */
2644     regmatch_state *mark_state = NULL; /* last mark state we have seen */
2645     
2646     regmatch_state *cur_eval = NULL; /* most recent EVAL_AB state */
2647     struct regmatch_state  *cur_curlyx = NULL; /* most recent curlyx */
2648     U32 state_num;
2649     bool no_final = 0;      /* prevent failure from backtracking? */
2650     bool do_cutgroup = 0;   /* no_final only until next branch/trie entry */
2651     char *startpoint = PL_reginput;
2652     SV *popmark = NULL;     /* are we looking for a mark? */
2653     SV *sv_commit = NULL;   /* last mark name seen in failure */
2654     SV *sv_yes_mark = NULL; /* last mark name we have seen 
2655                                during a successfull match */
2656     U32 lastopen = 0;       /* last open we saw */
2657     bool has_cutgroup = RX_HAS_CUTGROUP(rex) ? 1 : 0;   
2658                
2659     
2660     /* these three flags are set by various ops to signal information to
2661      * the very next op. They have a useful lifetime of exactly one loop
2662      * iteration, and are not preserved or restored by state pushes/pops
2663      */
2664     bool sw = 0;            /* the condition value in (?(cond)a|b) */
2665     bool minmod = 0;        /* the next "{n,m}" is a "{n,m}?" */
2666     int logical = 0;        /* the following EVAL is:
2667                                 0: (?{...})
2668                                 1: (?(?{...})X|Y)
2669                                 2: (??{...})
2670                                or the following IFMATCH/UNLESSM is:
2671                                 false: plain (?=foo)
2672                                 true:  used as a condition: (?(?=foo))
2673                             */
2674
2675 #ifdef DEBUGGING
2676     GET_RE_DEBUG_FLAGS_DECL;
2677 #endif
2678
2679     DEBUG_OPTIMISE_r( DEBUG_EXECUTE_r({
2680             PerlIO_printf(Perl_debug_log,"regmatch start\n");
2681     }));
2682     /* on first ever call to regmatch, allocate first slab */
2683     if (!PL_regmatch_slab) {
2684         Newx(PL_regmatch_slab, 1, regmatch_slab);
2685         PL_regmatch_slab->prev = NULL;
2686         PL_regmatch_slab->next = NULL;
2687         PL_regmatch_state = SLAB_FIRST(PL_regmatch_slab);
2688     }
2689
2690     /* remember current high-water mark for exit */
2691     /* XXX this should be done with SAVE* instead */
2692     orig_slab  = PL_regmatch_slab;
2693     orig_state = PL_regmatch_state;
2694
2695     /* grab next free state slot */
2696     st = ++PL_regmatch_state;
2697     if (st >  SLAB_LAST(PL_regmatch_slab))
2698         st = PL_regmatch_state = S_push_slab(aTHX);
2699
2700     /* Note that nextchr is a byte even in UTF */
2701     nextchr = UCHARAT(locinput);
2702     scan = prog;
2703     while (scan != NULL) {
2704
2705         DEBUG_EXECUTE_r( {
2706             SV * const prop = sv_newmortal();
2707             regnode *rnext=regnext(scan);
2708             DUMP_EXEC_POS( locinput, scan, do_utf8 );
2709             regprop(rex, prop, scan);
2710             
2711             PerlIO_printf(Perl_debug_log,
2712                     "%3"IVdf":%*s%s(%"IVdf")\n",
2713                     (IV)(scan - rexi->program), depth*2, "",
2714                     SvPVX_const(prop),
2715                     (PL_regkind[OP(scan)] == END || !rnext) ? 
2716                         0 : (IV)(rnext - rexi->program));
2717         });
2718
2719         next = scan + NEXT_OFF(scan);
2720         if (next == scan)
2721             next = NULL;
2722         state_num = OP(scan);
2723
2724       reenter_switch:
2725         switch (state_num) {
2726         case BOL:
2727             if (locinput == PL_bostr)
2728             {
2729                 /* reginfo->till = reginfo->bol; */
2730                 break;
2731             }
2732             sayNO;
2733         case MBOL:
2734             if (locinput == PL_bostr ||
2735                 ((nextchr || locinput < PL_regeol) && locinput[-1] == '\n'))
2736             {
2737                 break;
2738             }
2739             sayNO;
2740         case SBOL:
2741             if (locinput == PL_bostr)
2742                 break;
2743             sayNO;
2744         case GPOS:
2745             if (locinput == reginfo->ganch)
2746                 break;
2747             sayNO;
2748
2749         case KEEPS:
2750             /* update the startpoint */
2751             st->u.keeper.val = PL_regoffs[0].start;
2752             PL_reginput = locinput;
2753             PL_regoffs[0].start = locinput - PL_bostr;
2754             PUSH_STATE_GOTO(KEEPS_next, next);
2755             /*NOT-REACHED*/
2756         case KEEPS_next_fail:
2757             /* rollback the start point change */
2758             PL_regoffs[0].start = st->u.keeper.val;
2759             sayNO_SILENT;
2760             /*NOT-REACHED*/
2761         case EOL:
2762                 goto seol;
2763         case MEOL:
2764             if ((nextchr || locinput < PL_regeol) && nextchr != '\n')
2765                 sayNO;
2766             break;
2767         case SEOL:
2768           seol:
2769             if ((nextchr || locinput < PL_regeol) && nextchr != '\n')
2770                 sayNO;
2771             if (PL_regeol - locinput > 1)
2772                 sayNO;
2773             break;
2774         case EOS:
2775             if (PL_regeol != locinput)
2776                 sayNO;
2777             break;
2778         case SANY:
2779             if (!nextchr && locinput >= PL_regeol)
2780                 sayNO;
2781             if (do_utf8) {
2782                 locinput += PL_utf8skip[nextchr];
2783                 if (locinput > PL_regeol)
2784                     sayNO;
2785                 nextchr = UCHARAT(locinput);
2786             }
2787             else
2788                 nextchr = UCHARAT(++locinput);
2789             break;
2790         case CANY:
2791             if (!nextchr && locinput >= PL_regeol)
2792                 sayNO;
2793             nextchr = UCHARAT(++locinput);
2794             break;
2795         case REG_ANY:
2796             if ((!nextchr && locinput >= PL_regeol) || nextchr == '\n')
2797                 sayNO;
2798             if (do_utf8) {
2799                 locinput += PL_utf8skip[nextchr];
2800                 if (locinput > PL_regeol)
2801                     sayNO;
2802                 nextchr = UCHARAT(locinput);
2803             }
2804             else
2805                 nextchr = UCHARAT(++locinput);
2806             break;
2807
2808 #undef  ST
2809 #define ST st->u.trie
2810         case TRIEC:
2811             /* In this case the charclass data is available inline so
2812                we can fail fast without a lot of extra overhead. 
2813              */
2814             if (scan->flags == EXACT || !do_utf8) {
2815                 if(!ANYOF_BITMAP_TEST(scan, *locinput)) {
2816                     DEBUG_EXECUTE_r(
2817                         PerlIO_printf(Perl_debug_log,
2818                                   "%*s  %sfailed to match trie start class...%s\n",
2819                                   REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5])
2820                     );
2821                     sayNO_SILENT;
2822                     /* NOTREACHED */
2823                 }                       
2824             }
2825             /* FALL THROUGH */
2826         case TRIE:
2827             {
2828                 /* what type of TRIE am I? (utf8 makes this contextual) */
2829                 const enum { trie_plain, trie_utf8, trie_utf8_fold }
2830                     trie_type = do_utf8 ?
2831                           (scan->flags == EXACT ? trie_utf8 : trie_utf8_fold)
2832                         : trie_plain;
2833
2834                 /* what trie are we using right now */
2835                 reg_trie_data * const trie
2836                     = (reg_trie_data*)rexi->data->data[ ARG( scan ) ];
2837                 HV * widecharmap = (HV *)rexi->data->data[ ARG( scan ) + 1 ];
2838                 U32 state = trie->startstate;
2839
2840                 if (trie->bitmap && trie_type != trie_utf8_fold &&
2841                     !TRIE_BITMAP_TEST(trie,*locinput)
2842                 ) {
2843                     if (trie->states[ state ].wordnum) {
2844                          DEBUG_EXECUTE_r(
2845                             PerlIO_printf(Perl_debug_log,
2846                                           "%*s  %smatched empty string...%s\n",
2847                                           REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5])
2848                         );
2849                         break;
2850                     } else {
2851                         DEBUG_EXECUTE_r(
2852                             PerlIO_printf(Perl_debug_log,
2853                                           "%*s  %sfailed to match trie start class...%s\n",
2854                                           REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5])
2855                         );
2856                         sayNO_SILENT;
2857                    }
2858                 }
2859
2860             { 
2861                 U8 *uc = ( U8* )locinput;
2862
2863                 STRLEN len = 0;
2864                 STRLEN foldlen = 0;
2865                 U8 *uscan = (U8*)NULL;
2866                 STRLEN bufflen=0;
2867                 SV *sv_accept_buff = NULL;
2868                 U8 foldbuf[ UTF8_MAXBYTES_CASE + 1 ];
2869
2870                 ST.accepted = 0; /* how many accepting states we have seen */
2871                 ST.B = next;
2872                 ST.jump = trie->jump;
2873                 ST.me = scan;
2874                 /*
2875                    traverse the TRIE keeping track of all accepting states
2876                    we transition through until we get to a failing node.
2877                 */
2878
2879                 while ( state && uc <= (U8*)PL_regeol ) {
2880                     U32 base = trie->states[ state ].trans.base;
2881                     UV uvc = 0;
2882                     U16 charid;
2883                     /* We use charid to hold the wordnum as we don't use it
2884                        for charid until after we have done the wordnum logic. 
2885                        We define an alias just so that the wordnum logic reads
2886                        more naturally. */
2887
2888 #define got_wordnum charid
2889                     got_wordnum = trie->states[ state ].wordnum;
2890
2891                     if ( got_wordnum ) {
2892                         if ( ! ST.accepted ) {
2893                             ENTER;
2894                             SAVETMPS;
2895                             bufflen = TRIE_INITAL_ACCEPT_BUFFLEN;
2896                             sv_accept_buff=newSV(bufflen *
2897                                             sizeof(reg_trie_accepted) - 1);
2898                             SvCUR_set(sv_accept_buff, 0);
2899                             SvPOK_on(sv_accept_buff);
2900                             sv_2mortal(sv_accept_buff);
2901                             SAVETMPS;
2902                             ST.accept_buff =
2903                                 (reg_trie_accepted*)SvPV_nolen(sv_accept_buff );
2904                         }
2905                         do {
2906                             if (ST.accepted >= bufflen) {
2907                                 bufflen *= 2;
2908                                 ST.accept_buff =(reg_trie_accepted*)
2909                                     SvGROW(sv_accept_buff,
2910                                         bufflen * sizeof(reg_trie_accepted));
2911                             }
2912                             SvCUR_set(sv_accept_buff,SvCUR(sv_accept_buff)
2913                                 + sizeof(reg_trie_accepted));
2914
2915
2916                             ST.accept_buff[ST.accepted].wordnum = got_wordnum;
2917                             ST.accept_buff[ST.accepted].endpos = uc;
2918                             ++ST.accepted;
2919                         } while (trie->nextword && (got_wordnum= trie->nextword[got_wordnum]));
2920                     }
2921 #undef got_wordnum 
2922
2923                     DEBUG_TRIE_EXECUTE_r({
2924                                 DUMP_EXEC_POS( (char *)uc, scan, do_utf8 );
2925                                 PerlIO_printf( Perl_debug_log,
2926                                     "%*s  %sState: %4"UVxf" Accepted: %4"UVxf" ",
2927                                     2+depth * 2, "", PL_colors[4],
2928                                     (UV)state, (UV)ST.accepted );
2929                     });
2930
2931                     if ( base ) {
2932                         REXEC_TRIE_READ_CHAR(trie_type, trie, widecharmap, uc,
2933                                              uscan, len, uvc, charid, foldlen,
2934                                              foldbuf, uniflags);
2935
2936                         if (charid &&
2937                              (base + charid > trie->uniquecharcount )
2938                              && (base + charid - 1 - trie->uniquecharcount
2939                                     < trie->lasttrans)
2940                              && trie->trans[base + charid - 1 -
2941                                     trie->uniquecharcount].check == state)
2942                         {
2943                             state = trie->trans[base + charid - 1 -
2944                                 trie->uniquecharcount ].next;
2945                         }
2946                         else {
2947                             state = 0;
2948                         }
2949                         uc += len;
2950
2951                     }
2952                     else {
2953                         state = 0;
2954                     }
2955                     DEBUG_TRIE_EXECUTE_r(
2956                         PerlIO_printf( Perl_debug_log,
2957                             "Charid:%3x CP:%4"UVxf" After State: %4"UVxf"%s\n",
2958                             charid, uvc, (UV)state, PL_colors[5] );
2959                     );
2960                 }
2961                 if (!ST.accepted )
2962                    sayNO;
2963
2964                 DEBUG_EXECUTE_r(
2965                     PerlIO_printf( Perl_debug_log,
2966                         "%*s  %sgot %"IVdf" possible matches%s\n",
2967                         REPORT_CODE_OFF + depth * 2, "",
2968                         PL_colors[4], (IV)ST.accepted, PL_colors[5] );
2969                 );
2970             }}
2971             goto trie_first_try; /* jump into the fail handler */
2972             /* NOTREACHED */
2973         case TRIE_next_fail: /* we failed - try next alterative */
2974             if ( ST.jump) {
2975                 REGCP_UNWIND(ST.cp);
2976                 for (n = *PL_reglastparen; n > ST.lastparen; n--)
2977                     PL_regoffs[n].end = -1;
2978                 *PL_reglastparen = n;
2979             }
2980           trie_first_try:
2981             if (do_cutgroup) {
2982                 do_cutgroup = 0;
2983                 no_final = 0;
2984             }
2985
2986             if ( ST.jump) {
2987                 ST.lastparen = *PL_reglastparen;
2988                 REGCP_SET(ST.cp);
2989             }           
2990             if ( ST.accepted == 1 ) {
2991                 /* only one choice left - just continue */
2992                 DEBUG_EXECUTE_r({
2993                     AV *const trie_words
2994                         = (AV *) rexi->data->data[ARG(ST.me)+TRIE_WORDS_OFFSET];
2995                     SV ** const tmp = av_fetch( trie_words, 
2996                         ST.accept_buff[ 0 ].wordnum-1, 0 );
2997                     SV *sv= tmp ? sv_newmortal() : NULL;
2998                     
2999                     PerlIO_printf( Perl_debug_log,
3000                         "%*s  %sonly one match left: #%d <%s>%s\n",
3001                         REPORT_CODE_OFF+depth*2, "", PL_colors[4],
3002                         ST.accept_buff[ 0 ].wordnum,
3003                         tmp ? pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), 0, 
3004                                 PL_colors[0], PL_colors[1],
3005                                 (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0)
3006                             ) 
3007                         : "not compiled under -Dr",
3008                         PL_colors[5] );
3009                 });
3010                 PL_reginput = (char *)ST.accept_buff[ 0 ].endpos;
3011                 /* in this case we free tmps/leave before we call regmatch
3012                    as we wont be using accept_buff again. */
3013                 
3014                 locinput = PL_reginput;
3015                 nextchr = UCHARAT(locinput);
3016                 if ( !ST.jump || !ST.jump[ST.accept_buff[0].wordnum]) 
3017                     scan = ST.B;
3018                 else
3019                     scan = ST.me + ST.jump[ST.accept_buff[0].wordnum];
3020                 if (!has_cutgroup) {
3021                     FREETMPS;
3022                     LEAVE;
3023                 } else {
3024                     ST.accepted--;
3025                     PUSH_YES_STATE_GOTO(TRIE_next, scan);
3026                 }
3027                 
3028                 continue; /* execute rest of RE */
3029             }
3030             
3031             if ( !ST.accepted-- ) {
3032                 DEBUG_EXECUTE_r({
3033                     PerlIO_printf( Perl_debug_log,
3034                         "%*s  %sTRIE failed...%s\n",
3035                         REPORT_CODE_OFF+depth*2, "", 
3036                         PL_colors[4],
3037                         PL_colors[5] );
3038                 });
3039                 FREETMPS;
3040                 LEAVE;
3041                 sayNO_SILENT;
3042                 /*NOTREACHED*/
3043             } 
3044
3045             /*
3046                There are at least two accepting states left.  Presumably
3047                the number of accepting states is going to be low,
3048                typically two. So we simply scan through to find the one
3049                with lowest wordnum.  Once we find it, we swap the last
3050                state into its place and decrement the size. We then try to
3051                match the rest of the pattern at the point where the word
3052                ends. If we succeed, control just continues along the
3053                regex; if we fail we return here to try the next accepting
3054                state
3055              */
3056
3057             {
3058                 U32 best = 0;
3059                 U32 cur;
3060                 for( cur = 1 ; cur <= ST.accepted ; cur++ ) {
3061                     DEBUG_TRIE_EXECUTE_r(
3062                         PerlIO_printf( Perl_debug_log,
3063                             "%*s  %sgot %"IVdf" (%d) as best, looking at %"IVdf" (%d)%s\n",
3064                             REPORT_CODE_OFF + depth * 2, "", PL_colors[4],
3065                             (IV)best, ST.accept_buff[ best ].wordnum, (IV)cur,
3066                             ST.accept_buff[ cur ].wordnum, PL_colors[5] );
3067                     );
3068
3069                     if (ST.accept_buff[cur].wordnum <
3070                             ST.accept_buff[best].wordnum)
3071                         best = cur;
3072                 }
3073
3074                 DEBUG_EXECUTE_r({
3075                     AV *const trie_words
3076                         = (AV *) rexi->data->data[ARG(ST.me)+TRIE_WORDS_OFFSET];
3077                     SV ** const tmp = av_fetch( trie_words, 
3078                         ST.accept_buff[ best ].wordnum - 1, 0 );
3079                     regnode *nextop=(!ST.jump || !ST.jump[ST.accept_buff[best].wordnum]) ? 
3080                                     ST.B : 
3081                                     ST.me + ST.jump[ST.accept_buff[best].wordnum];    
3082                     SV *sv= tmp ? sv_newmortal() : NULL;
3083                     
3084                     PerlIO_printf( Perl_debug_log, 
3085                         "%*s  %strying alternation #%d <%s> at node #%d %s\n",
3086                         REPORT_CODE_OFF+depth*2, "", PL_colors[4],
3087                         ST.accept_buff[best].wordnum,
3088                         tmp ? pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), 0, 
3089                                 PL_colors[0], PL_colors[1],
3090                                 (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0)
3091                             ) : "not compiled under -Dr", 
3092                             REG_NODE_NUM(nextop),
3093                         PL_colors[5] );
3094                 });
3095
3096                 if ( best<ST.accepted ) {
3097                     reg_trie_accepted tmp = ST.accept_buff[ best ];
3098                     ST.accept_buff[ best ] = ST.accept_buff[ ST.accepted ];
3099                     ST.accept_buff[ ST.accepted ] = tmp;
3100                     best = ST.accepted;
3101                 }
3102                 PL_reginput = (char *)ST.accept_buff[ best ].endpos;
3103                 if ( !ST.jump || !ST.jump[ST.accept_buff[best].wordnum]) {
3104                     scan = ST.B;
3105                     /* NOTREACHED */
3106                 } else {
3107                     scan = ST.me + ST.jump[ST.accept_buff[best].wordnum];
3108                     /* NOTREACHED */
3109                 }
3110                 if (has_cutgroup) {
3111                     PUSH_YES_STATE_GOTO(TRIE_next, scan);    
3112                     /* NOTREACHED */
3113                 } else {
3114                     PUSH_STATE_GOTO(TRIE_next, scan);
3115                     /* NOTREACHED */
3116                 }
3117                 /* NOTREACHED */
3118             }
3119             /* NOTREACHED */
3120         case TRIE_next:
3121             FREETMPS;
3122             LEAVE;
3123             sayYES;
3124 #undef  ST
3125
3126         case EXACT: {
3127             char *s = STRING(scan);
3128             ln = STR_LEN(scan);
3129             if (do_utf8 != UTF) {
3130                 /* The target and the pattern have differing utf8ness. */
3131                 char *l = locinput;
3132                 const char * const e = s + ln;
3133
3134                 if (do_utf8) {
3135                     /* The target is utf8, the pattern is not utf8. */
3136                     while (s < e) {
3137                         STRLEN ulen;
3138                         if (l >= PL_regeol)
3139                              sayNO;
3140                         if (NATIVE_TO_UNI(*(U8*)s) !=
3141                             utf8n_to_uvuni((U8*)l, UTF8_MAXBYTES, &ulen,
3142                                             uniflags))
3143                              sayNO;
3144                         l += ulen;
3145                         s ++;
3146                     }
3147                 }
3148                 else {
3149                     /* The target is not utf8, the pattern is utf8. */
3150                     while (s < e) {
3151                         STRLEN ulen;
3152                         if (l >= PL_regeol)
3153                             sayNO;
3154                         if (NATIVE_TO_UNI(*((U8*)l)) !=
3155                             utf8n_to_uvuni((U8*)s, UTF8_MAXBYTES, &ulen,
3156                                            uniflags))
3157                             sayNO;
3158                         s += ulen;
3159                         l ++;
3160                     }
3161                 }
3162                 locinput = l;
3163                 nextchr = UCHARAT(locinput);
3164                 break;
3165             }
3166             /* The target and the pattern have the same utf8ness. */
3167             /* Inline the first character, for speed. */
3168             if (UCHARAT(s) != nextchr)
3169                 sayNO;
3170             if (PL_regeol - locinput < ln)
3171                 sayNO;
3172             if (ln > 1 && memNE(s, locinput, ln))
3173                 sayNO;
3174             locinput += ln;
3175             nextchr = UCHARAT(locinput);
3176             break;
3177             }
3178         case EXACTFL:
3179             PL_reg_flags |= RF_tainted;
3180             /* FALL THROUGH */
3181         case EXACTF: {
3182             char * const s = STRING(scan);
3183             ln = STR_LEN(scan);
3184
3185             if (do_utf8 || UTF) {
3186               /* Either target or the pattern are utf8. */
3187                 const char * const l = locinput;
3188                 char *e = PL_regeol;
3189
3190                 if (ibcmp_utf8(s, 0,  ln, (bool)UTF,
3191                                l, &e, 0,  do_utf8)) {
3192                      /* One more case for the sharp s:
3193                       * pack("U0U*", 0xDF) =~ /ss/i,
3194                       * the 0xC3 0x9F are the UTF-8
3195                       * byte sequence for the U+00DF. */
3196                      if (!(do_utf8 &&
3197                            toLOWER(s[0]) == 's' &&
3198                            ln >= 2 &&
3199                            toLOWER(s[1]) == 's' &&
3200                            (U8)l[0] == 0xC3 &&
3201                            e - l >= 2 &&
3202                            (U8)l[1] == 0x9F))
3203                           sayNO;
3204                 }
3205                 locinput = e;
3206                 nextchr = UCHARAT(locinput);
3207                 break;
3208             }
3209
3210             /* Neither the target and the pattern are utf8. */
3211
3212             /* Inline the first character, for speed. */
3213             if (UCHARAT(s) != nextchr &&
3214                 UCHARAT(s) != ((OP(scan) == EXACTF)
3215                                ? PL_fold : PL_fold_locale)[nextchr])
3216                 sayNO;
3217             if (PL_regeol - locinput < ln)
3218                 sayNO;
3219             if (ln > 1 && (OP(scan) == EXACTF
3220                            ? ibcmp(s, locinput, ln)
3221                            : ibcmp_locale(s, locinput, ln)))
3222                 sayNO;
3223             locinput += ln;
3224             nextchr = UCHARAT(locinput);
3225             break;
3226             }
3227         case ANYOF:
3228             if (do_utf8) {
3229                 STRLEN inclasslen = PL_regeol - locinput;
3230
3231                 if (!reginclass(rex, scan, (U8*)locinput, &inclasslen, do_utf8))
3232                     goto anyof_fail;
3233                 if (locinput >= PL_regeol)
3234                     sayNO;
3235                 locinput += inclasslen ? inclasslen : UTF8SKIP(locinput);
3236                 nextchr = UCHARAT(locinput);
3237                 break;
3238             }
3239             else {
3240                 if (nextchr < 0)
3241                     nextchr = UCHARAT(locinput);
3242                 if (!REGINCLASS(rex, scan, (U8*)locinput))
3243                     goto anyof_fail;
3244                 if (!nextchr && locinput >= PL_regeol)
3245                     sayNO;
3246                 nextchr = UCHARAT(++locinput);
3247                 break;
3248             }
3249         anyof_fail:
3250             /* If we might have the case of the German sharp s
3251              * in a casefolding Unicode character class. */
3252
3253             if (ANYOF_FOLD_SHARP_S(scan, locinput, PL_regeol)) {
3254                  locinput += SHARP_S_SKIP;
3255                  nextchr = UCHARAT(locinput);
3256             }
3257             else
3258                  sayNO;
3259             break;
3260         case ALNUML:
3261             PL_reg_flags |= RF_tainted;
3262             /* FALL THROUGH */
3263         case ALNUM:
3264             if (!nextchr)
3265                 sayNO;
3266             if (do_utf8) {
3267                 LOAD_UTF8_CHARCLASS_ALNUM();
3268                 if (!(OP(scan) == ALNUM
3269                       ? (bool)swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8)
3270                       : isALNUM_LC_utf8((U8*)locinput)))
3271                 {
3272                     sayNO;
3273                 }
3274                 locinput += PL_utf8skip[nextchr];
3275                 nextchr = UCHARAT(locinput);
3276                 break;
3277             }
3278             if (!(OP(scan) == ALNUM
3279                   ? isALNUM(nextchr) : isALNUM_LC(nextchr)))
3280                 sayNO;
3281             nextchr = UCHARAT(++locinput);
3282             break;
3283         case NALNUML:
3284             PL_reg_flags |= RF_tainted;
3285             /* FALL THROUGH */
3286         case NALNUM:
3287             if (!nextchr && locinput >= PL_regeol)
3288                 sayNO;
3289             if (do_utf8) {
3290                 LOAD_UTF8_CHARCLASS_ALNUM();
3291                 if (OP(scan) == NALNUM
3292                     ? (bool)swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8)
3293                     : isALNUM_LC_utf8((U8*)locinput))
3294                 {
3295                     sayNO;
3296                 }
3297                 locinput += PL_utf8skip[nextchr];
3298                 nextchr = UCHARAT(locinput);
3299                 break;
3300             }
3301             if (OP(scan) == NALNUM
3302                 ? isALNUM(nextchr) : isALNUM_LC(nextchr))
3303                 sayNO;
3304             nextchr = UCHARAT(++locinput);
3305             break;
3306         case BOUNDL:
3307         case NBOUNDL:
3308             PL_reg_flags |= RF_tainted;
3309             /* FALL THROUGH */
3310         case BOUND:
3311         case NBOUND:
3312             /* was last char in word? */
3313             if (do_utf8) {
3314                 if (locinput == PL_bostr)
3315                     ln = '\n';
3316                 else {
3317                     const U8 * const r = reghop3((U8*)locinput, -1, (U8*)PL_bostr);
3318                 
3319                     ln = utf8n_to_uvchr(r, UTF8SKIP(r), 0, uniflags);
3320                 }
3321                 if (OP(scan) == BOUND || OP(scan) == NBOUND) {
3322                     ln = isALNUM_uni(ln);
3323                     LOAD_UTF8_CHARCLASS_ALNUM();
3324                     n = swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8);
3325                 }
3326                 else {
3327                     ln = isALNUM_LC_uvchr(UNI_TO_NATIVE(ln));
3328                     n = isALNUM_LC_utf8((U8*)locinput);
3329                 }
3330             }
3331             else {
3332                 ln = (locinput != PL_bostr) ?
3333                     UCHARAT(locinput - 1) : '\n';
3334                 if (OP(scan) == BOUND || OP(scan) == NBOUND) {
3335                     ln = isALNUM(ln);
3336                     n = isALNUM(nextchr);
3337                 }
3338                 else {
3339                     ln = isALNUM_LC(ln);
3340                     n = isALNUM_LC(nextchr);
3341                 }
3342             }
3343             if (((!ln) == (!n)) == (OP(scan) == BOUND ||
3344                                     OP(scan) == BOUNDL))
3345                     sayNO;
3346             break;
3347         case SPACEL:
3348             PL_reg_flags |= RF_tainted;
3349             /* FALL THROUGH */
3350         case SPACE:
3351             if (!nextchr)
3352                 sayNO;
3353             if (do_utf8) {
3354                 if (UTF8_IS_CONTINUED(nextchr)) {
3355                     LOAD_UTF8_CHARCLASS_SPACE();
3356                     if (!(OP(scan) == SPACE
3357                           ? (bool)swash_fetch(PL_utf8_space, (U8*)locinput, do_utf8)
3358                           : isSPACE_LC_utf8((U8*)locinput)))
3359                     {
3360                         sayNO;
3361                     }
3362                     locinput += PL_utf8skip[nextchr];
3363                     nextchr = UCHARAT(locinput);
3364                     break;
3365                 }
3366                 if (!(OP(scan) == SPACE
3367                       ? isSPACE(nextchr) : isSPACE_LC(nextchr)))
3368                     sayNO;
3369                 nextchr = UCHARAT(++locinput);
3370             }
3371             else {
3372                 if (!(OP(scan) == SPACE
3373                       ? isSPACE(nextchr) : isSPACE_LC(nextchr)))
3374                     sayNO;
3375                 nextchr = UCHARAT(++locinput);
3376             }
3377             break;
3378         case NSPACEL:
3379             PL_reg_flags |= RF_tainted;
3380             /* FALL THROUGH */
3381         case NSPACE:
3382             if (!nextchr && locinput >= PL_regeol)
3383                 sayNO;
3384             if (do_utf8) {
3385                 LOAD_UTF8_CHARCLASS_SPACE();
3386                 if (OP(scan) == NSPACE
3387                     ? (bool)swash_fetch(PL_utf8_space, (U8*)locinput, do_utf8)
3388                     : isSPACE_LC_utf8((U8*)locinput))
3389                 {
3390                     sayNO;
3391                 }
3392                 locinput += PL_utf8skip[nextchr];
3393                 nextchr = UCHARAT(locinput);
3394                 break;
3395             }
3396             if (OP(scan) == NSPACE
3397                 ? isSPACE(nextchr) : isSPACE_LC(nextchr))
3398                 sayNO;
3399             nextchr = UCHARAT(++locinput);
3400             break;
3401         case DIGITL:
3402             PL_reg_flags |= RF_tainted;
3403             /* FALL THROUGH */
3404         case DIGIT:
3405             if (!nextchr)
3406                 sayNO;
3407             if (do_utf8) {
3408                 LOAD_UTF8_CHARCLASS_DIGIT();
3409                 if (!(OP(scan) == DIGIT
3410                       ? (bool)swash_fetch(PL_utf8_digit, (U8*)locinput, do_utf8)
3411                       : isDIGIT_LC_utf8((U8*)locinput)))
3412                 {
3413                     sayNO;
3414                 }
3415                 locinput += PL_utf8skip[nextchr];
3416                 nextchr = UCHARAT(locinput);
3417                 break;
3418             }
3419             if (!(OP(scan) == DIGIT
3420                   ? isDIGIT(nextchr) : isDIGIT_LC(nextchr)))
3421                 sayNO;
3422             nextchr = UCHARAT(++locinput);
3423             break;
3424         case NDIGITL:
3425             PL_reg_flags |= RF_tainted;
3426             /* FALL THROUGH */
3427         case NDIGIT:
3428             if (!nextchr && locinput >= PL_regeol)
3429                 sayNO;
3430             if (do_utf8) {
3431                 LOAD_UTF8_CHARCLASS_DIGIT();
3432                 if (OP(scan) == NDIGIT
3433                     ? (bool)swash_fetch(PL_utf8_digit, (U8*)locinput, do_utf8)
3434                     : isDIGIT_LC_utf8((U8*)locinput))
3435                 {
3436                     sayNO;
3437                 }
3438                 locinput += PL_utf8skip[nextchr];
3439                 nextchr = UCHARAT(locinput);
3440                 break;
3441             }
3442             if (OP(scan) == NDIGIT
3443                 ? isDIGIT(nextchr) : isDIGIT_LC(nextchr))
3444                 sayNO;
3445             nextchr = UCHARAT(++locinput);
3446             break;
3447         case CLUMP:
3448             if (locinput >= PL_regeol)
3449                 sayNO;
3450             if  (do_utf8) {
3451                 LOAD_UTF8_CHARCLASS_MARK();
3452                 if (swash_fetch(PL_utf8_mark,(U8*)locinput, do_utf8))
3453                     sayNO;
3454                 locinput += PL_utf8skip[nextchr];
3455                 while (locinput < PL_regeol &&
3456                        swash_fetch(PL_utf8_mark,(U8*)locinput, do_utf8))
3457                     locinput += UTF8SKIP(locinput);
3458                 if (locinput > PL_regeol)
3459                     sayNO;
3460             } 
3461             else
3462                locinput++;
3463             nextchr = UCHARAT(locinput);
3464             break;
3465             
3466         case NREFFL:
3467         {
3468             char *s;
3469             char type;
3470             PL_reg_flags |= RF_tainted;
3471             /* FALL THROUGH */
3472         case NREF:
3473         case NREFF:
3474             type = OP(scan);
3475             n = reg_check_named_buff_matched(rex,scan);
3476
3477             if ( n ) {
3478                 type = REF + ( type - NREF );
3479                 goto do_ref;
3480             } else {
3481                 sayNO;
3482             }
3483             /* unreached */
3484         case REFFL:
3485             PL_reg_flags |= RF_tainted;
3486             /* FALL THROUGH */
3487         case REF:
3488         case REFF: 
3489             n = ARG(scan);  /* which paren pair */
3490             type = OP(scan);
3491           do_ref:  
3492             ln = PL_regoffs[n].start;
3493             PL_reg_leftiter = PL_reg_maxiter;           /* Void cache */
3494             if (*PL_reglastparen < n || ln == -1)
3495                 sayNO;                  /* Do not match unless seen CLOSEn. */
3496             if (ln == PL_regoffs[n].end)
3497                 break;
3498
3499             s = PL_bostr + ln;
3500             if (do_utf8 && type != REF) {       /* REF can do byte comparison */
3501                 char *l = locinput;
3502                 const char *e = PL_bostr + PL_regoffs[n].end;
3503                 /*
3504                  * Note that we can't do the "other character" lookup trick as
3505                  * in the 8-bit case (no pun intended) because in Unicode we
3506                  * have to map both upper and title case to lower case.
3507                  */
3508                 if (type == REFF) {
3509                     while (s < e) {
3510                         STRLEN ulen1, ulen2;
3511                         U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
3512                         U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
3513
3514                         if (l >= PL_regeol)
3515                             sayNO;
3516                         toLOWER_utf8((U8*)s, tmpbuf1, &ulen1);
3517                         toLOWER_utf8((U8*)l, tmpbuf2, &ulen2);
3518                         if (ulen1 != ulen2 || memNE((char *)tmpbuf1, (char *)tmpbuf2, ulen1))
3519                             sayNO;
3520                         s += ulen1;
3521                         l += ulen2;
3522                     }
3523                 }
3524                 locinput = l;
3525                 nextchr = UCHARAT(locinput);
3526                 break;
3527             }
3528
3529             /* Inline the first character, for speed. */
3530             if (UCHARAT(s) != nextchr &&
3531                 (type == REF ||
3532                  (UCHARAT(s) != (type == REFF
3533                                   ? PL_fold : PL_fold_locale)[nextchr])))
3534                 sayNO;
3535             ln = PL_regoffs[n].end - ln;
3536             if (locinput + ln > PL_regeol)
3537                 sayNO;
3538             if (ln > 1 && (type == REF
3539                            ? memNE(s, locinput, ln)
3540                            : (type == REFF
3541                               ? ibcmp(s, locinput, ln)
3542                               : ibcmp_locale(s, locinput, ln))))
3543                 sayNO;
3544             locinput += ln;
3545             nextchr = UCHARAT(locinput);
3546             break;
3547         }
3548         case NOTHING:
3549         case TAIL:
3550             break;
3551         case BACK:
3552             break;
3553
3554 #undef  ST
3555 #define ST st->u.eval
3556         {
3557             SV *ret;
3558             regexp *re;
3559             regexp_internal *rei;
3560             regnode *startpoint;
3561
3562         case GOSTART:
3563         case GOSUB: /*    /(...(?1))/   /(...(?&foo))/   */
3564             if (cur_eval && cur_eval->locinput==locinput) {
3565                 if (cur_eval->u.eval.close_paren == (U32)ARG(scan)) 
3566                     Perl_croak(aTHX_ "Infinite recursion in regex");
3567                 if ( ++nochange_depth > max_nochange_depth )
3568                     Perl_croak(aTHX_ 
3569                         "Pattern subroutine nesting without pos change"
3570                         " exceeded limit in regex");
3571             } else {
3572                 nochange_depth = 0;
3573             }
3574             re = rex;
3575             rei = rexi;
3576             (void)ReREFCNT_inc(rex);
3577             if (OP(scan)==GOSUB) {
3578                 startpoint = scan + ARG2L(scan);
3579                 ST.close_paren = ARG(scan);
3580             } else {
3581                 startpoint = rei->program+1;
3582                 ST.close_paren = 0;
3583             }
3584             goto eval_recurse_doit;
3585             /* NOTREACHED */
3586         case EVAL:  /*   /(?{A})B/   /(??{A})B/  and /(?(?{A})X|Y)B/   */        
3587             if (cur_eval && cur_eval->locinput==locinput) {
3588                 if ( ++nochange_depth > max_nochange_depth )
3589                     Perl_croak(aTHX_ "EVAL without pos change exceeded limit in regex");
3590             } else {
3591                 nochange_depth = 0;
3592             }    
3593             {
3594                 /* execute the code in the {...} */
3595                 dSP;
3596                 SV ** const before = SP;
3597                 OP_4tree * const oop = PL_op;
3598                 COP * const ocurcop = PL_curcop;
3599                 PAD *old_comppad;
3600             
3601                 n = ARG(scan);
3602                 PL_op = (OP_4tree*)rexi->data->data[n];
3603                 DEBUG_STATE_r( PerlIO_printf(Perl_debug_log, 
3604                     "  re_eval 0x%"UVxf"\n", PTR2UV(PL_op)) );
3605                 PAD_SAVE_LOCAL(old_comppad, (PAD*)rexi->data->data[n + 2]);
3606                 PL_regoffs[0].end = PL_reg_magic->mg_len = locinput - PL_bostr;
3607
3608                 if (sv_yes_mark) {
3609                     SV *sv_mrk = get_sv("REGMARK", 1);
3610                     sv_setsv(sv_mrk, sv_yes_mark);
3611                 }
3612
3613                 CALLRUNOPS(aTHX);                       /* Scalar context. */
3614                 SPAGAIN;
3615                 if (SP == before)
3616                     ret = &PL_sv_undef;   /* protect against empty (?{}) blocks. */
3617                 else {
3618                     ret = POPs;
3619                     PUTBACK;
3620                 }
3621
3622                 PL_op = oop;
3623                 PAD_RESTORE_LOCAL(old_comppad);
3624                 PL_curcop = ocurcop;
3625                 if (!logical) {
3626                     /* /(?{...})/ */
3627                     sv_setsv(save_scalar(PL_replgv), ret);
3628                     break;
3629                 }
3630             }
3631             if (logical == 2) { /* Postponed subexpression: /(??{...})/ */
3632                 logical = 0;
3633                 {
3634                     /* extract RE object from returned value; compiling if
3635                      * necessary */
3636
3637                     MAGIC *mg = NULL;
3638                     const SV *sv;
3639                     if(SvROK(ret) && SvSMAGICAL(sv = SvRV(ret)))
3640                         mg = mg_find(sv, PERL_MAGIC_qr);
3641                     else if (SvSMAGICAL(ret)) {
3642                         if (SvGMAGICAL(ret))
3643                             sv_unmagic(ret, PERL_MAGIC_qr);
3644                         else
3645                             mg = mg_find(ret, PERL_MAGIC_qr);
3646                     }
3647
3648                     if (mg) {
3649                         re = reg_temp_copy((regexp *)mg->mg_obj); /*XXX:dmq*/
3650                     }
3651                     else {
3652                         STRLEN len;
3653                         const char * const t = SvPV_const(ret, len);
3654                         PMOP pm;
3655                         const I32 osize = PL_regsize;
3656
3657                         Zero(&pm, 1, PMOP);
3658                         if (DO_UTF8(ret)) pm.op_pmdynflags |= PMdf_DYN_UTF8;
3659                         re = CALLREGCOMP((char*)t, (char*)t + len, &pm);
3660                         if (!(SvFLAGS(ret)
3661                               & (SVs_TEMP | SVs_PADTMP | SVf_READONLY
3662                                 | SVs_GMG)))
3663                             sv_magic(ret,(SV*)ReREFCNT_inc(re),
3664                                         PERL_MAGIC_qr,0,0);
3665                         PL_regsize = osize;
3666                     }
3667                 }
3668                 RX_MATCH_COPIED_off(re);
3669                 re->subbeg = rex->subbeg;
3670                 re->sublen = rex->sublen;
3671                 rei = RXi_GET(re);
3672                 DEBUG_EXECUTE_r(
3673                     debug_start_match(re, do_utf8, locinput, PL_regeol, 
3674                         "Matching embedded");
3675                 );              
3676                 startpoint = rei->program + 1;
3677                 ST.close_paren = 0; /* only used for GOSUB */
3678                 /* borrowed from regtry */
3679                 if (PL_reg_start_tmpl <= re->nparens) {
3680                     PL_reg_start_tmpl = re->nparens*3/2 + 3;
3681                     if(PL_reg_start_tmp)
3682                         Renew(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
3683                     else
3684                         Newx(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
3685                 }                       
3686
3687         eval_recurse_doit: /* Share code with GOSUB below this line */                          
3688                 /* run the pattern returned from (??{...}) */
3689                 ST.cp = regcppush(0);   /* Save *all* the positions. */
3690                 REGCP_SET(ST.lastcp);
3691                 
3692                 PL_regoffs = re->offs; /* essentially NOOP on GOSUB */
3693                 
3694                 *PL_reglastparen = 0;
3695                 *PL_reglastcloseparen = 0;
3696                 PL_reginput = locinput;
3697                 PL_regsize = 0;
3698
3699                 /* XXXX This is too dramatic a measure... */
3700                 PL_reg_maxiter = 0;
3701
3702                 ST.toggle_reg_flags = PL_reg_flags;
3703                 if (re->extflags & RXf_UTF8)
3704                     PL_reg_flags |= RF_utf8;
3705                 else
3706                     PL_reg_flags &= ~RF_utf8;
3707                 ST.toggle_reg_flags ^= PL_reg_flags; /* diff of old and new */
3708
3709                 ST.prev_rex = rex;
3710                 ST.prev_curlyx = cur_curlyx;
3711                 SETREX(rex,re);
3712                 rexi = rei;
3713                 cur_curlyx = NULL;
3714                 ST.B = next;
3715                 ST.prev_eval = cur_eval;
3716                 cur_eval = st;
3717                 /* now continue from first node in postoned RE */
3718                 PUSH_YES_STATE_GOTO(EVAL_AB, startpoint);
3719                 /* NOTREACHED */
3720             }
3721             /* logical is 1,   /(?(?{...})X|Y)/ */
3722             sw = (bool)SvTRUE(ret);
3723             logical = 0;
3724             break;
3725         }
3726
3727         case EVAL_AB: /* cleanup after a successful (??{A})B */
3728             /* note: this is called twice; first after popping B, then A */
3729             PL_reg_flags ^= ST.toggle_reg_flags; 
3730             ReREFCNT_dec(rex);
3731             SETREX(rex,ST.prev_rex);
3732             rexi = RXi_GET(rex);
3733             regcpblow(ST.cp);
3734             cur_eval = ST.prev_eval;
3735             cur_curlyx = ST.prev_curlyx;
3736             /* XXXX This is too dramatic a measure... */
3737             PL_reg_maxiter = 0;
3738             if ( nochange_depth )
3739                 nochange_depth--;
3740             sayYES;
3741
3742
3743         case EVAL_AB_fail: /* unsuccessfully ran A or B in (??{A})B */
3744             /* note: this is called twice; first after popping B, then A */
3745             PL_reg_flags ^= ST.toggle_reg_flags; 
3746             ReREFCNT_dec(rex);
3747             SETREX(rex,ST.prev_rex);
3748             rexi = RXi_GET(rex); 
3749             PL_reginput = locinput;
3750             REGCP_UNWIND(ST.lastcp);
3751             regcppop(rex);
3752             cur_eval = ST.prev_eval;
3753             cur_curlyx = ST.prev_curlyx;
3754             /* XXXX This is too dramatic a measure... */
3755             PL_reg_maxiter = 0;
3756             if ( nochange_depth )
3757                 nochange_depth--;
3758             sayNO_SILENT;
3759 #undef ST
3760
3761         case OPEN:
3762             n = ARG(scan);  /* which paren pair */
3763             PL_reg_start_tmp[n] = locinput;
3764             if (n > PL_regsize)
3765                 PL_regsize = n;
3766             lastopen = n;
3767             break;
3768         case CLOSE:
3769             n = ARG(scan);  /* which paren pair */
3770             PL_regoffs[n].start = PL_reg_start_tmp[n] - PL_bostr;
3771             PL_regoffs[n].end = locinput - PL_bostr;
3772             /*if (n > PL_regsize)
3773                 PL_regsize = n;*/
3774             if (n > *PL_reglastparen)
3775                 *PL_reglastparen = n;
3776             *PL_reglastcloseparen = n;
3777             if (cur_eval && cur_eval->u.eval.close_paren == n) {
3778                 goto fake_end;
3779             }    
3780             break;
3781         case ACCEPT:
3782             if (ARG(scan)){
3783                 regnode *cursor;
3784                 for (cursor=scan;
3785                      cursor && OP(cursor)!=END; 
3786                      cursor=regnext(cursor)) 
3787                 {
3788                     if ( OP(cursor)==CLOSE ){
3789                         n = ARG(cursor);
3790                         if ( n <= lastopen ) {
3791                             PL_regoffs[n].start
3792                                 = PL_reg_start_tmp[n] - PL_bostr;
3793                             PL_regoffs[n].end = locinput - PL_bostr;
3794                             /*if (n > PL_regsize)
3795                             PL_regsize = n;*/
3796                             if (n > *PL_reglastparen)
3797                                 *PL_reglastparen = n;
3798                             *PL_reglastcloseparen = n;
3799                             if ( n == ARG(scan) || (cur_eval &&
3800                                 cur_eval->u.eval.close_paren == n))
3801                                 break;
3802                         }
3803                     }
3804                 }
3805             }
3806             goto fake_end;
3807             /*NOTREACHED*/          
3808         case GROUPP:
3809             n = ARG(scan);  /* which paren pair */
3810             sw = (bool)(*PL_reglastparen >= n && PL_regoffs[n].end != -1);
3811             break;
3812         case NGROUPP:
3813             /* reg_check_named_buff_matched returns 0 for no match */
3814             sw = (bool)(0 < reg_check_named_buff_matched(rex,scan));
3815             break;
3816         case INSUBP:
3817             n = ARG(scan);
3818             sw = (cur_eval && (!n || cur_eval->u.eval.close_paren == n));
3819             break;
3820         case DEFINEP:
3821             sw = 0;
3822             break;
3823         case IFTHEN:
3824             PL_reg_leftiter = PL_reg_maxiter;           /* Void cache */
3825             if (sw)
3826                 next = NEXTOPER(NEXTOPER(scan));
3827             else {
3828                 next = scan + ARG(scan);
3829                 if (OP(next) == IFTHEN) /* Fake one. */
3830                     next = NEXTOPER(NEXTOPER(next));
3831             }
3832             break;
3833         case LOGICAL:
3834             logical = scan->flags;
3835             break;
3836
3837 /*******************************************************************
3838
3839 The CURLYX/WHILEM pair of ops handle the most generic case of the /A*B/
3840 pattern, where A and B are subpatterns. (For simple A, CURLYM or
3841 STAR/PLUS/CURLY/CURLYN are used instead.)
3842
3843 A*B is compiled as <CURLYX><A><WHILEM><B>
3844
3845 On entry to the subpattern, CURLYX is called. This pushes a CURLYX
3846 state, which contains the current count, initialised to -1. It also sets
3847 cur_curlyx to point to this state, with any previous value saved in the
3848 state block.
3849
3850 CURLYX then jumps straight to the WHILEM op, rather than executing A,
3851 since the pattern may possibly match zero times (i.e. it's a while {} loop
3852 rather than a do {} while loop).
3853
3854 Each entry to WHILEM represents a successful match of A. The count in the
3855 CURLYX block is incremented, another WHILEM state is pushed, and execution
3856 passes to A or B depending on greediness and the current count.
3857
3858 For example, if matching against the string a1a2a3b (where the aN are
3859 substrings that match /A/), then the match progresses as follows: (the
3860 pushed states are interspersed with the bits of strings matched so far):
3861
3862     <CURLYX cnt=-1>
3863     <CURLYX cnt=0><WHILEM>
3864     <CURLYX cnt=1><WHILEM> a1 <WHILEM>
3865     <CURLYX cnt=2><WHILEM> a1 <WHILEM> a2 <WHILEM>
3866     <CURLYX cnt=3><WHILEM> a1 <WHILEM> a2 <WHILEM> a3 <WHILEM>
3867     <CURLYX cnt=3><WHILEM> a1 <WHILEM> a2 <WHILEM> a3 <WHILEM> b
3868
3869 (Contrast this with something like CURLYM, which maintains only a single
3870 backtrack state:
3871
3872     <CURLYM cnt=0> a1
3873     a1 <CURLYM cnt=1> a2
3874     a1 a2 <CURLYM cnt=2> a3
3875     a1 a2 a3 <CURLYM cnt=3> b
3876 )
3877
3878 Each WHILEM state block marks a point to backtrack to upon partial failure
3879 of A or B, and also contains some minor state data related to that
3880 iteration.  The CURLYX block, pointed to by cur_curlyx, contains the
3881 overall state, such as the count, and pointers to the A and B ops.
3882
3883 This is complicated slightly by nested CURLYX/WHILEM's. Since cur_curlyx
3884 must always point to the *current* CURLYX block, the rules are:
3885
3886 When executing CURLYX, save the old cur_curlyx in the CURLYX state block,
3887 and set cur_curlyx to point the new block.
3888
3889 When popping the CURLYX block after a successful or unsuccessful match,
3890 restore the previous cur_curlyx.
3891
3892 When WHILEM is about to execute B, save the current cur_curlyx, and set it
3893 to the outer one saved in the CURLYX block.
3894
3895 When popping the WHILEM block after a successful or unsuccessful B match,
3896 restore the previous cur_curlyx.
3897
3898 Here's an example for the pattern (AI* BI)*BO
3899 I and O refer to inner and outer, C and W refer to CURLYX and WHILEM:
3900
3901 cur_
3902 curlyx backtrack stack
3903 ------ ---------------
3904 NULL   
3905 CO     <CO prev=NULL> <WO>
3906 CI     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai 
3907 CO     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai <WI prev=CI> bi 
3908 NULL   <CO prev=NULL> <WO> <CI prev=CO> <WI> ai <WI prev=CI> bi <WO prev=CO> bo
3909
3910 At this point the pattern succeeds, and we work back down the stack to
3911 clean up, restoring as we go:
3912
3913 CO     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai <WI prev=CI> bi 
3914 CI     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai 
3915 CO     <CO prev=NULL> <WO>
3916 NULL   
3917
3918 *******************************************************************/
3919
3920 #define ST st->u.curlyx
3921
3922         case CURLYX:    /* start of /A*B/  (for complex A) */
3923         {
3924             /* No need to save/restore up to this paren */
3925             I32 parenfloor = scan->flags;
3926             
3927             assert(next); /* keep Coverity happy */
3928             if (OP(PREVOPER(next)) == NOTHING) /* LONGJMP */
3929                 next += ARG(next);
3930
3931             /* XXXX Probably it is better to teach regpush to support
3932                parenfloor > PL_regsize... */
3933             if (parenfloor > (I32)*PL_reglastparen)
3934                 parenfloor = *PL_reglastparen; /* Pessimization... */
3935
3936             ST.prev_curlyx= cur_curlyx;
3937             cur_curlyx = st;
3938             ST.cp = PL_savestack_ix;
3939
3940             /* these fields contain the state of the current curly.
3941              * they are accessed by subsequent WHILEMs */
3942             ST.parenfloor = parenfloor;
3943             ST.min = ARG1(scan);
3944             ST.max = ARG2(scan);
3945             ST.A = NEXTOPER(scan) + EXTRA_STEP_2ARGS;
3946             ST.B = next;
3947             ST.minmod = minmod;
3948             minmod = 0;
3949             ST.count = -1;      /* this will be updated by WHILEM */
3950             ST.lastloc = NULL;  /* this will be updated by WHILEM */
3951
3952             PL_reginput = locinput;
3953             PUSH_YES_STATE_GOTO(CURLYX_end, PREVOPER(next));
3954             /* NOTREACHED */
3955