This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
7b312952debf1529f8fe89dce584c1ea827e9eb9
[perl5.git] / regcomp.c
1 /*    regcomp.c
2  */
3
4 /*
5  * 'A fair jaw-cracker dwarf-language must be.'            --Samwise Gamgee
6  *
7  *     [p.285 of _The Lord of the Rings_, II/iii: "The Ring Goes South"]
8  */
9
10 /* This file contains functions for compiling a regular expression.  See
11  * also regexec.c which funnily enough, contains functions for executing
12  * a regular expression.
13  *
14  * This file is also copied at build time to ext/re/re_comp.c, where
15  * it's built with -DPERL_EXT_RE_BUILD -DPERL_EXT_RE_DEBUG -DPERL_EXT.
16  * This causes the main functions to be compiled under new names and with
17  * debugging support added, which makes "use re 'debug'" work.
18  */
19
20 /* NOTE: this is derived from Henry Spencer's regexp code, and should not
21  * confused with the original package (see point 3 below).  Thanks, Henry!
22  */
23
24 /* Additional note: this code is very heavily munged from Henry's version
25  * in places.  In some spots I've traded clarity for efficiency, so don't
26  * blame Henry for some of the lack of readability.
27  */
28
29 /* The names of the functions have been changed from regcomp and
30  * regexec to pregcomp and pregexec in order to avoid conflicts
31  * with the POSIX routines of the same names.
32 */
33
34 #ifdef PERL_EXT_RE_BUILD
35 #include "re_top.h"
36 #endif
37
38 /*
39  * pregcomp and pregexec -- regsub and regerror are not used in perl
40  *
41  *      Copyright (c) 1986 by University of Toronto.
42  *      Written by Henry Spencer.  Not derived from licensed software.
43  *
44  *      Permission is granted to anyone to use this software for any
45  *      purpose on any computer system, and to redistribute it freely,
46  *      subject to the following restrictions:
47  *
48  *      1. The author is not responsible for the consequences of use of
49  *              this software, no matter how awful, even if they arise
50  *              from defects in it.
51  *
52  *      2. The origin of this software must not be misrepresented, either
53  *              by explicit claim or by omission.
54  *
55  *      3. Altered versions must be plainly marked as such, and must not
56  *              be misrepresented as being the original software.
57  *
58  *
59  ****    Alterations to Henry's code are...
60  ****
61  ****    Copyright (C) 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999,
62  ****    2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008
63  ****    by Larry Wall and others
64  ****
65  ****    You may distribute under the terms of either the GNU General Public
66  ****    License or the Artistic License, as specified in the README file.
67
68  *
69  * Beware that some of this code is subtly aware of the way operator
70  * precedence is structured in regular expressions.  Serious changes in
71  * regular-expression syntax might require a total rethink.
72  */
73 #include "EXTERN.h"
74 #define PERL_IN_REGCOMP_C
75 #include "perl.h"
76
77 #ifndef PERL_IN_XSUB_RE
78 #  include "INTERN.h"
79 #endif
80
81 #define REG_COMP_C
82 #ifdef PERL_IN_XSUB_RE
83 #  include "re_comp.h"
84 EXTERN_C const struct regexp_engine my_reg_engine;
85 #else
86 #  include "regcomp.h"
87 #endif
88
89 #include "dquote_inline.h"
90 #include "invlist_inline.h"
91 #include "unicode_constants.h"
92
93 #define HAS_NONLATIN1_FOLD_CLOSURE(i) \
94  _HAS_NONLATIN1_FOLD_CLOSURE_ONLY_FOR_USE_BY_REGCOMP_DOT_C_AND_REGEXEC_DOT_C(i)
95 #define HAS_NONLATIN1_SIMPLE_FOLD_CLOSURE(i) \
96  _HAS_NONLATIN1_SIMPLE_FOLD_CLOSURE_ONLY_FOR_USE_BY_REGCOMP_DOT_C_AND_REGEXEC_DOT_C(i)
97 #define IS_NON_FINAL_FOLD(c) _IS_NON_FINAL_FOLD_ONLY_FOR_USE_BY_REGCOMP_DOT_C(c)
98 #define IS_IN_SOME_FOLD_L1(c) _IS_IN_SOME_FOLD_ONLY_FOR_USE_BY_REGCOMP_DOT_C(c)
99
100 #ifndef STATIC
101 #define STATIC  static
102 #endif
103
104 /* this is a chain of data about sub patterns we are processing that
105    need to be handled separately/specially in study_chunk. Its so
106    we can simulate recursion without losing state.  */
107 struct scan_frame;
108 typedef struct scan_frame {
109     regnode *last_regnode;      /* last node to process in this frame */
110     regnode *next_regnode;      /* next node to process when last is reached */
111     U32 prev_recursed_depth;
112     I32 stopparen;              /* what stopparen do we use */
113     U32 is_top_frame;           /* what flags do we use? */
114
115     struct scan_frame *this_prev_frame; /* this previous frame */
116     struct scan_frame *prev_frame;      /* previous frame */
117     struct scan_frame *next_frame;      /* next frame */
118 } scan_frame;
119
120 /* Certain characters are output as a sequence with the first being a
121  * backslash. */
122 #define isBACKSLASHED_PUNCT(c)                                              \
123                     ((c) == '-' || (c) == ']' || (c) == '\\' || (c) == '^')
124
125
126 struct RExC_state_t {
127     U32         flags;                  /* RXf_* are we folding, multilining? */
128     U32         pm_flags;               /* PMf_* stuff from the calling PMOP */
129     char        *precomp;               /* uncompiled string. */
130     char        *precomp_end;           /* pointer to end of uncompiled string. */
131     REGEXP      *rx_sv;                 /* The SV that is the regexp. */
132     regexp      *rx;                    /* perl core regexp structure */
133     regexp_internal     *rxi;           /* internal data for regexp object
134                                            pprivate field */
135     char        *start;                 /* Start of input for compile */
136     char        *end;                   /* End of input for compile */
137     char        *parse;                 /* Input-scan pointer. */
138     char        *adjusted_start;        /* 'start', adjusted.  See code use */
139     STRLEN      precomp_adj;            /* an offset beyond precomp.  See code use */
140     SSize_t     whilem_seen;            /* number of WHILEM in this expr */
141     regnode     *emit_start;            /* Start of emitted-code area */
142     regnode     *emit_bound;            /* First regnode outside of the
143                                            allocated space */
144     regnode     *emit;                  /* Code-emit pointer; if = &emit_dummy,
145                                            implies compiling, so don't emit */
146     regnode_ssc emit_dummy;             /* placeholder for emit to point to;
147                                            large enough for the largest
148                                            non-EXACTish node, so can use it as
149                                            scratch in pass1 */
150     I32         naughty;                /* How bad is this pattern? */
151     I32         sawback;                /* Did we see \1, ...? */
152     U32         seen;
153     SSize_t     size;                   /* Code size. */
154     I32                npar;            /* Capture buffer count, (OPEN) plus
155                                            one. ("par" 0 is the whole
156                                            pattern)*/
157     I32         nestroot;               /* root parens we are in - used by
158                                            accept */
159     I32         extralen;
160     I32         seen_zerolen;
161     regnode     **open_parens;          /* pointers to open parens */
162     regnode     **close_parens;         /* pointers to close parens */
163     regnode     *end_op;                /* END node in program */
164     I32         utf8;           /* whether the pattern is utf8 or not */
165     I32         orig_utf8;      /* whether the pattern was originally in utf8 */
166                                 /* XXX use this for future optimisation of case
167                                  * where pattern must be upgraded to utf8. */
168     I32         uni_semantics;  /* If a d charset modifier should use unicode
169                                    rules, even if the pattern is not in
170                                    utf8 */
171     HV          *paren_names;           /* Paren names */
172
173     regnode     **recurse;              /* Recurse regops */
174     I32                recurse_count;                /* Number of recurse regops we have generated */
175     U8          *study_chunk_recursed;  /* bitmap of which subs we have moved
176                                            through */
177     U32         study_chunk_recursed_bytes;  /* bytes in bitmap */
178     I32         in_lookbehind;
179     I32         contains_locale;
180     I32         contains_i;
181     I32         override_recoding;
182 #ifdef EBCDIC
183     I32         recode_x_to_native;
184 #endif
185     I32         in_multi_char_class;
186     struct reg_code_block *code_blocks; /* positions of literal (?{})
187                                             within pattern */
188     int         num_code_blocks;        /* size of code_blocks[] */
189     int         code_index;             /* next code_blocks[] slot */
190     SSize_t     maxlen;                        /* mininum possible number of chars in string to match */
191     scan_frame *frame_head;
192     scan_frame *frame_last;
193     U32         frame_count;
194     AV         *warn_text;
195 #ifdef ADD_TO_REGEXEC
196     char        *starttry;              /* -Dr: where regtry was called. */
197 #define RExC_starttry   (pRExC_state->starttry)
198 #endif
199     SV          *runtime_code_qr;       /* qr with the runtime code blocks */
200 #ifdef DEBUGGING
201     const char  *lastparse;
202     I32         lastnum;
203     AV          *paren_name_list;       /* idx -> name */
204     U32         study_chunk_recursed_count;
205     SV          *mysv1;
206     SV          *mysv2;
207 #define RExC_lastparse  (pRExC_state->lastparse)
208 #define RExC_lastnum    (pRExC_state->lastnum)
209 #define RExC_paren_name_list    (pRExC_state->paren_name_list)
210 #define RExC_study_chunk_recursed_count    (pRExC_state->study_chunk_recursed_count)
211 #define RExC_mysv       (pRExC_state->mysv1)
212 #define RExC_mysv1      (pRExC_state->mysv1)
213 #define RExC_mysv2      (pRExC_state->mysv2)
214
215 #endif
216     bool        seen_unfolded_sharp_s;
217     bool        strict;
218     bool        study_started;
219 };
220
221 #define RExC_flags      (pRExC_state->flags)
222 #define RExC_pm_flags   (pRExC_state->pm_flags)
223 #define RExC_precomp    (pRExC_state->precomp)
224 #define RExC_precomp_adj (pRExC_state->precomp_adj)
225 #define RExC_adjusted_start  (pRExC_state->adjusted_start)
226 #define RExC_precomp_end (pRExC_state->precomp_end)
227 #define RExC_rx_sv      (pRExC_state->rx_sv)
228 #define RExC_rx         (pRExC_state->rx)
229 #define RExC_rxi        (pRExC_state->rxi)
230 #define RExC_start      (pRExC_state->start)
231 #define RExC_end        (pRExC_state->end)
232 #define RExC_parse      (pRExC_state->parse)
233 #define RExC_whilem_seen        (pRExC_state->whilem_seen)
234
235 /* Set during the sizing pass when there is a LATIN SMALL LETTER SHARP S in any
236  * EXACTF node, hence was parsed under /di rules.  If later in the parse,
237  * something forces the pattern into using /ui rules, the sharp s should be
238  * folded into the sequence 'ss', which takes up more space than previously
239  * calculated.  This means that the sizing pass needs to be restarted.  (The
240  * node also becomes an EXACTFU_SS.)  For all other characters, an EXACTF node
241  * that gets converted to /ui (and EXACTFU) occupies the same amount of space,
242  * so there is no need to resize [perl #125990]. */
243 #define RExC_seen_unfolded_sharp_s (pRExC_state->seen_unfolded_sharp_s)
244
245 #ifdef RE_TRACK_PATTERN_OFFSETS
246 #define RExC_offsets    (pRExC_state->rxi->u.offsets) /* I am not like the
247                                                          others */
248 #endif
249 #define RExC_emit       (pRExC_state->emit)
250 #define RExC_emit_dummy (pRExC_state->emit_dummy)
251 #define RExC_emit_start (pRExC_state->emit_start)
252 #define RExC_emit_bound (pRExC_state->emit_bound)
253 #define RExC_sawback    (pRExC_state->sawback)
254 #define RExC_seen       (pRExC_state->seen)
255 #define RExC_size       (pRExC_state->size)
256 #define RExC_maxlen        (pRExC_state->maxlen)
257 #define RExC_npar       (pRExC_state->npar)
258 #define RExC_nestroot   (pRExC_state->nestroot)
259 #define RExC_extralen   (pRExC_state->extralen)
260 #define RExC_seen_zerolen       (pRExC_state->seen_zerolen)
261 #define RExC_utf8       (pRExC_state->utf8)
262 #define RExC_uni_semantics      (pRExC_state->uni_semantics)
263 #define RExC_orig_utf8  (pRExC_state->orig_utf8)
264 #define RExC_open_parens        (pRExC_state->open_parens)
265 #define RExC_close_parens       (pRExC_state->close_parens)
266 #define RExC_end_op     (pRExC_state->end_op)
267 #define RExC_paren_names        (pRExC_state->paren_names)
268 #define RExC_recurse    (pRExC_state->recurse)
269 #define RExC_recurse_count      (pRExC_state->recurse_count)
270 #define RExC_study_chunk_recursed        (pRExC_state->study_chunk_recursed)
271 #define RExC_study_chunk_recursed_bytes  \
272                                    (pRExC_state->study_chunk_recursed_bytes)
273 #define RExC_in_lookbehind      (pRExC_state->in_lookbehind)
274 #define RExC_contains_locale    (pRExC_state->contains_locale)
275 #define RExC_contains_i (pRExC_state->contains_i)
276 #define RExC_override_recoding (pRExC_state->override_recoding)
277 #ifdef EBCDIC
278 #   define RExC_recode_x_to_native (pRExC_state->recode_x_to_native)
279 #endif
280 #define RExC_in_multi_char_class (pRExC_state->in_multi_char_class)
281 #define RExC_frame_head (pRExC_state->frame_head)
282 #define RExC_frame_last (pRExC_state->frame_last)
283 #define RExC_frame_count (pRExC_state->frame_count)
284 #define RExC_strict (pRExC_state->strict)
285 #define RExC_study_started      (pRExC_state->study_started)
286 #define RExC_warn_text (pRExC_state->warn_text)
287
288 /* Heuristic check on the complexity of the pattern: if TOO_NAUGHTY, we set
289  * a flag to disable back-off on the fixed/floating substrings - if it's
290  * a high complexity pattern we assume the benefit of avoiding a full match
291  * is worth the cost of checking for the substrings even if they rarely help.
292  */
293 #define RExC_naughty    (pRExC_state->naughty)
294 #define TOO_NAUGHTY (10)
295 #define MARK_NAUGHTY(add) \
296     if (RExC_naughty < TOO_NAUGHTY) \
297         RExC_naughty += (add)
298 #define MARK_NAUGHTY_EXP(exp, add) \
299     if (RExC_naughty < TOO_NAUGHTY) \
300         RExC_naughty += RExC_naughty / (exp) + (add)
301
302 #define ISMULT1(c)      ((c) == '*' || (c) == '+' || (c) == '?')
303 #define ISMULT2(s)      ((*s) == '*' || (*s) == '+' || (*s) == '?' || \
304         ((*s) == '{' && regcurly(s)))
305
306 /*
307  * Flags to be passed up and down.
308  */
309 #define WORST           0       /* Worst case. */
310 #define HASWIDTH        0x01    /* Known to match non-null strings. */
311
312 /* Simple enough to be STAR/PLUS operand; in an EXACTish node must be a single
313  * character.  (There needs to be a case: in the switch statement in regexec.c
314  * for any node marked SIMPLE.)  Note that this is not the same thing as
315  * REGNODE_SIMPLE */
316 #define SIMPLE          0x02
317 #define SPSTART         0x04    /* Starts with * or + */
318 #define POSTPONED       0x08    /* (?1),(?&name), (??{...}) or similar */
319 #define TRYAGAIN        0x10    /* Weeded out a declaration. */
320 #define RESTART_PASS1   0x20    /* Need to restart sizing pass */
321 #define NEED_UTF8       0x40    /* In conjunction with RESTART_PASS1, need to
322                                    calcuate sizes as UTF-8 */
323
324 #define REG_NODE_NUM(x) ((x) ? (int)((x)-RExC_emit_start) : -1)
325
326 /* whether trie related optimizations are enabled */
327 #if PERL_ENABLE_EXTENDED_TRIE_OPTIMISATION
328 #define TRIE_STUDY_OPT
329 #define FULL_TRIE_STUDY
330 #define TRIE_STCLASS
331 #endif
332
333
334
335 #define PBYTE(u8str,paren) ((U8*)(u8str))[(paren) >> 3]
336 #define PBITVAL(paren) (1 << ((paren) & 7))
337 #define PAREN_TEST(u8str,paren) ( PBYTE(u8str,paren) & PBITVAL(paren))
338 #define PAREN_SET(u8str,paren) PBYTE(u8str,paren) |= PBITVAL(paren)
339 #define PAREN_UNSET(u8str,paren) PBYTE(u8str,paren) &= (~PBITVAL(paren))
340
341 #define REQUIRE_UTF8(flagp) STMT_START {                                   \
342                                      if (!UTF) {                           \
343                                          assert(PASS1);                    \
344                                          *flagp = RESTART_PASS1|NEED_UTF8; \
345                                          return NULL;                      \
346                                      }                                     \
347                              } STMT_END
348
349 /* Change from /d into /u rules, and restart the parse if we've already seen
350  * something whose size would increase as a result, by setting *flagp and
351  * returning 'restart_retval'.  RExC_uni_semantics is a flag that indicates
352  * we've change to /u during the parse.  */
353 #define REQUIRE_UNI_RULES(flagp, restart_retval)                            \
354     STMT_START {                                                            \
355             if (DEPENDS_SEMANTICS) {                                        \
356                 assert(PASS1);                                              \
357                 set_regex_charset(&RExC_flags, REGEX_UNICODE_CHARSET);      \
358                 RExC_uni_semantics = 1;                                     \
359                 if (RExC_seen_unfolded_sharp_s) {                           \
360                     *flagp |= RESTART_PASS1;                                \
361                     return restart_retval;                                  \
362                 }                                                           \
363             }                                                               \
364     } STMT_END
365
366 /* This converts the named class defined in regcomp.h to its equivalent class
367  * number defined in handy.h. */
368 #define namedclass_to_classnum(class)  ((int) ((class) / 2))
369 #define classnum_to_namedclass(classnum)  ((classnum) * 2)
370
371 #define _invlist_union_complement_2nd(a, b, output) \
372                         _invlist_union_maybe_complement_2nd(a, b, TRUE, output)
373 #define _invlist_intersection_complement_2nd(a, b, output) \
374                  _invlist_intersection_maybe_complement_2nd(a, b, TRUE, output)
375
376 /* About scan_data_t.
377
378   During optimisation we recurse through the regexp program performing
379   various inplace (keyhole style) optimisations. In addition study_chunk
380   and scan_commit populate this data structure with information about
381   what strings MUST appear in the pattern. We look for the longest
382   string that must appear at a fixed location, and we look for the
383   longest string that may appear at a floating location. So for instance
384   in the pattern:
385
386     /FOO[xX]A.*B[xX]BAR/
387
388   Both 'FOO' and 'A' are fixed strings. Both 'B' and 'BAR' are floating
389   strings (because they follow a .* construct). study_chunk will identify
390   both FOO and BAR as being the longest fixed and floating strings respectively.
391
392   The strings can be composites, for instance
393
394      /(f)(o)(o)/
395
396   will result in a composite fixed substring 'foo'.
397
398   For each string some basic information is maintained:
399
400   - offset or min_offset
401     This is the position the string must appear at, or not before.
402     It also implicitly (when combined with minlenp) tells us how many
403     characters must match before the string we are searching for.
404     Likewise when combined with minlenp and the length of the string it
405     tells us how many characters must appear after the string we have
406     found.
407
408   - max_offset
409     Only used for floating strings. This is the rightmost point that
410     the string can appear at. If set to SSize_t_MAX it indicates that the
411     string can occur infinitely far to the right.
412
413   - minlenp
414     A pointer to the minimum number of characters of the pattern that the
415     string was found inside. This is important as in the case of positive
416     lookahead or positive lookbehind we can have multiple patterns
417     involved. Consider
418
419     /(?=FOO).*F/
420
421     The minimum length of the pattern overall is 3, the minimum length
422     of the lookahead part is 3, but the minimum length of the part that
423     will actually match is 1. So 'FOO's minimum length is 3, but the
424     minimum length for the F is 1. This is important as the minimum length
425     is used to determine offsets in front of and behind the string being
426     looked for.  Since strings can be composites this is the length of the
427     pattern at the time it was committed with a scan_commit. Note that
428     the length is calculated by study_chunk, so that the minimum lengths
429     are not known until the full pattern has been compiled, thus the
430     pointer to the value.
431
432   - lookbehind
433
434     In the case of lookbehind the string being searched for can be
435     offset past the start point of the final matching string.
436     If this value was just blithely removed from the min_offset it would
437     invalidate some of the calculations for how many chars must match
438     before or after (as they are derived from min_offset and minlen and
439     the length of the string being searched for).
440     When the final pattern is compiled and the data is moved from the
441     scan_data_t structure into the regexp structure the information
442     about lookbehind is factored in, with the information that would
443     have been lost precalculated in the end_shift field for the
444     associated string.
445
446   The fields pos_min and pos_delta are used to store the minimum offset
447   and the delta to the maximum offset at the current point in the pattern.
448
449 */
450
451 typedef struct scan_data_t {
452     /*I32 len_min;      unused */
453     /*I32 len_delta;    unused */
454     SSize_t pos_min;
455     SSize_t pos_delta;
456     SV *last_found;
457     SSize_t last_end;       /* min value, <0 unless valid. */
458     SSize_t last_start_min;
459     SSize_t last_start_max;
460     SV **longest;           /* Either &l_fixed, or &l_float. */
461     SV *longest_fixed;      /* longest fixed string found in pattern */
462     SSize_t offset_fixed;   /* offset where it starts */
463     SSize_t *minlen_fixed;  /* pointer to the minlen relevant to the string */
464     I32 lookbehind_fixed;   /* is the position of the string modfied by LB */
465     SV *longest_float;      /* longest floating string found in pattern */
466     SSize_t offset_float_min; /* earliest point in string it can appear */
467     SSize_t offset_float_max; /* latest point in string it can appear */
468     SSize_t *minlen_float;  /* pointer to the minlen relevant to the string */
469     SSize_t lookbehind_float; /* is the pos of the string modified by LB */
470     I32 flags;
471     I32 whilem_c;
472     SSize_t *last_closep;
473     regnode_ssc *start_class;
474 } scan_data_t;
475
476 /*
477  * Forward declarations for pregcomp()'s friends.
478  */
479
480 static const scan_data_t zero_scan_data =
481   { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 ,0};
482
483 #define SF_BEFORE_EOL           (SF_BEFORE_SEOL|SF_BEFORE_MEOL)
484 #define SF_BEFORE_SEOL          0x0001
485 #define SF_BEFORE_MEOL          0x0002
486 #define SF_FIX_BEFORE_EOL       (SF_FIX_BEFORE_SEOL|SF_FIX_BEFORE_MEOL)
487 #define SF_FL_BEFORE_EOL        (SF_FL_BEFORE_SEOL|SF_FL_BEFORE_MEOL)
488
489 #define SF_FIX_SHIFT_EOL        (+2)
490 #define SF_FL_SHIFT_EOL         (+4)
491
492 #define SF_FIX_BEFORE_SEOL      (SF_BEFORE_SEOL << SF_FIX_SHIFT_EOL)
493 #define SF_FIX_BEFORE_MEOL      (SF_BEFORE_MEOL << SF_FIX_SHIFT_EOL)
494
495 #define SF_FL_BEFORE_SEOL       (SF_BEFORE_SEOL << SF_FL_SHIFT_EOL)
496 #define SF_FL_BEFORE_MEOL       (SF_BEFORE_MEOL << SF_FL_SHIFT_EOL) /* 0x20 */
497 #define SF_IS_INF               0x0040
498 #define SF_HAS_PAR              0x0080
499 #define SF_IN_PAR               0x0100
500 #define SF_HAS_EVAL             0x0200
501
502
503 /* SCF_DO_SUBSTR is the flag that tells the regexp analyzer to track the
504  * longest substring in the pattern. When it is not set the optimiser keeps
505  * track of position, but does not keep track of the actual strings seen,
506  *
507  * So for instance /foo/ will be parsed with SCF_DO_SUBSTR being true, but
508  * /foo/i will not.
509  *
510  * Similarly, /foo.*(blah|erm|huh).*fnorble/ will have "foo" and "fnorble"
511  * parsed with SCF_DO_SUBSTR on, but while processing the (...) it will be
512  * turned off because of the alternation (BRANCH). */
513 #define SCF_DO_SUBSTR           0x0400
514
515 #define SCF_DO_STCLASS_AND      0x0800
516 #define SCF_DO_STCLASS_OR       0x1000
517 #define SCF_DO_STCLASS          (SCF_DO_STCLASS_AND|SCF_DO_STCLASS_OR)
518 #define SCF_WHILEM_VISITED_POS  0x2000
519
520 #define SCF_TRIE_RESTUDY        0x4000 /* Do restudy? */
521 #define SCF_SEEN_ACCEPT         0x8000
522 #define SCF_TRIE_DOING_RESTUDY 0x10000
523 #define SCF_IN_DEFINE          0x20000
524
525
526
527
528 #define UTF cBOOL(RExC_utf8)
529
530 /* The enums for all these are ordered so things work out correctly */
531 #define LOC (get_regex_charset(RExC_flags) == REGEX_LOCALE_CHARSET)
532 #define DEPENDS_SEMANTICS (get_regex_charset(RExC_flags)                    \
533                                                      == REGEX_DEPENDS_CHARSET)
534 #define UNI_SEMANTICS (get_regex_charset(RExC_flags) == REGEX_UNICODE_CHARSET)
535 #define AT_LEAST_UNI_SEMANTICS (get_regex_charset(RExC_flags)                \
536                                                      >= REGEX_UNICODE_CHARSET)
537 #define ASCII_RESTRICTED (get_regex_charset(RExC_flags)                      \
538                                             == REGEX_ASCII_RESTRICTED_CHARSET)
539 #define AT_LEAST_ASCII_RESTRICTED (get_regex_charset(RExC_flags)             \
540                                             >= REGEX_ASCII_RESTRICTED_CHARSET)
541 #define ASCII_FOLD_RESTRICTED (get_regex_charset(RExC_flags)                 \
542                                         == REGEX_ASCII_MORE_RESTRICTED_CHARSET)
543
544 #define FOLD cBOOL(RExC_flags & RXf_PMf_FOLD)
545
546 /* For programs that want to be strictly Unicode compatible by dying if any
547  * attempt is made to match a non-Unicode code point against a Unicode
548  * property.  */
549 #define ALWAYS_WARN_SUPER  ckDEAD(packWARN(WARN_NON_UNICODE))
550
551 #define OOB_NAMEDCLASS          -1
552
553 /* There is no code point that is out-of-bounds, so this is problematic.  But
554  * its only current use is to initialize a variable that is always set before
555  * looked at. */
556 #define OOB_UNICODE             0xDEADBEEF
557
558 #define CHR_SVLEN(sv) (UTF ? sv_len_utf8(sv) : SvCUR(sv))
559 #define CHR_DIST(a,b) (UTF ? utf8_distance(a,b) : a - b)
560
561
562 /* length of regex to show in messages that don't mark a position within */
563 #define RegexLengthToShowInErrorMessages 127
564
565 /*
566  * If MARKER[12] are adjusted, be sure to adjust the constants at the top
567  * of t/op/regmesg.t, the tests in t/op/re_tests, and those in
568  * op/pragma/warn/regcomp.
569  */
570 #define MARKER1 "<-- HERE"    /* marker as it appears in the description */
571 #define MARKER2 " <-- HERE "  /* marker as it appears within the regex */
572
573 #define REPORT_LOCATION " in regex; marked by " MARKER1    \
574                         " in m/%" UTF8f MARKER2 "%" UTF8f "/"
575
576 /* The code in this file in places uses one level of recursion with parsing
577  * rebased to an alternate string constructed by us in memory.  This can take
578  * the form of something that is completely different from the input, or
579  * something that uses the input as part of the alternate.  In the first case,
580  * there should be no possibility of an error, as we are in complete control of
581  * the alternate string.  But in the second case we don't control the input
582  * portion, so there may be errors in that.  Here's an example:
583  *      /[abc\x{DF}def]/ui
584  * is handled specially because \x{df} folds to a sequence of more than one
585  * character, 'ss'.  What is done is to create and parse an alternate string,
586  * which looks like this:
587  *      /(?:\x{DF}|[abc\x{DF}def])/ui
588  * where it uses the input unchanged in the middle of something it constructs,
589  * which is a branch for the DF outside the character class, and clustering
590  * parens around the whole thing. (It knows enough to skip the DF inside the
591  * class while in this substitute parse.) 'abc' and 'def' may have errors that
592  * need to be reported.  The general situation looks like this:
593  *
594  *              sI                       tI               xI       eI
595  * Input:       ----------------------------------------------------
596  * Constructed:         ---------------------------------------------------
597  *                      sC               tC               xC       eC     EC
598  *
599  * The input string sI..eI is the input pattern.  The string sC..EC is the
600  * constructed substitute parse string.  The portions sC..tC and eC..EC are
601  * constructed by us.  The portion tC..eC is an exact duplicate of the input
602  * pattern tI..eI.  In the diagram, these are vertically aligned.  Suppose that
603  * while parsing, we find an error at xC.  We want to display a message showing
604  * the real input string.  Thus we need to find the point xI in it which
605  * corresponds to xC.  xC >= tC, since the portion of the string sC..tC has
606  * been constructed by us, and so shouldn't have errors.  We get:
607  *
608  *      xI = sI + (tI - sI) + (xC - tC)
609  *
610  * and, the offset into sI is:
611  *
612  *      (xI - sI) = (tI - sI) + (xC - tC)
613  *
614  * When the substitute is constructed, we save (tI -sI) as RExC_precomp_adj,
615  * and we save tC as RExC_adjusted_start.
616  *
617  * During normal processing of the input pattern, everything points to that,
618  * with RExC_precomp_adj set to 0, and RExC_adjusted_start set to sI.
619  */
620
621 #define tI_sI           RExC_precomp_adj
622 #define tC              RExC_adjusted_start
623 #define sC              RExC_precomp
624 #define xI_offset(xC)   ((IV) (tI_sI + (xC - tC)))
625 #define xI(xC)          (sC + xI_offset(xC))
626 #define eC              RExC_precomp_end
627
628 #define REPORT_LOCATION_ARGS(xC)                                            \
629     UTF8fARG(UTF,                                                           \
630              (xI(xC) > eC) /* Don't run off end */                          \
631               ? eC - sC   /* Length before the <--HERE */                   \
632               : xI_offset(xC),                                              \
633              sC),         /* The input pattern printed up to the <--HERE */ \
634     UTF8fARG(UTF,                                                           \
635              (xI(xC) > eC) ? 0 : eC - xI(xC), /* Length after <--HERE */    \
636              (xI(xC) > eC) ? eC : xI(xC))     /* pattern after <--HERE */
637
638 /* Used to point after bad bytes for an error message, but avoid skipping
639  * past a nul byte. */
640 #define SKIP_IF_CHAR(s) (!*(s) ? 0 : UTF ? UTF8SKIP(s) : 1)
641
642 /*
643  * Calls SAVEDESTRUCTOR_X if needed, then calls Perl_croak with the given
644  * arg. Show regex, up to a maximum length. If it's too long, chop and add
645  * "...".
646  */
647 #define _FAIL(code) STMT_START {                                        \
648     const char *ellipses = "";                                          \
649     IV len = RExC_precomp_end - RExC_precomp;                                   \
650                                                                         \
651     if (!SIZE_ONLY)                                                     \
652         SAVEFREESV(RExC_rx_sv);                                         \
653     if (len > RegexLengthToShowInErrorMessages) {                       \
654         /* chop 10 shorter than the max, to ensure meaning of "..." */  \
655         len = RegexLengthToShowInErrorMessages - 10;                    \
656         ellipses = "...";                                               \
657     }                                                                   \
658     code;                                                               \
659 } STMT_END
660
661 #define FAIL(msg) _FAIL(                            \
662     Perl_croak(aTHX_ "%s in regex m/%" UTF8f "%s/",         \
663             msg, UTF8fARG(UTF, len, RExC_precomp), ellipses))
664
665 #define FAIL2(msg,arg) _FAIL(                       \
666     Perl_croak(aTHX_ msg " in regex m/%" UTF8f "%s/",       \
667             arg, UTF8fARG(UTF, len, RExC_precomp), ellipses))
668
669 /*
670  * Simple_vFAIL -- like FAIL, but marks the current location in the scan
671  */
672 #define Simple_vFAIL(m) STMT_START {                                    \
673     Perl_croak(aTHX_ "%s" REPORT_LOCATION,                              \
674             m, REPORT_LOCATION_ARGS(RExC_parse));                       \
675 } STMT_END
676
677 /*
678  * Calls SAVEDESTRUCTOR_X if needed, then Simple_vFAIL()
679  */
680 #define vFAIL(m) STMT_START {                           \
681     if (!SIZE_ONLY)                                     \
682         SAVEFREESV(RExC_rx_sv);                         \
683     Simple_vFAIL(m);                                    \
684 } STMT_END
685
686 /*
687  * Like Simple_vFAIL(), but accepts two arguments.
688  */
689 #define Simple_vFAIL2(m,a1) STMT_START {                        \
690     S_re_croak2(aTHX_ UTF, m, REPORT_LOCATION, a1,              \
691                       REPORT_LOCATION_ARGS(RExC_parse));        \
692 } STMT_END
693
694 /*
695  * Calls SAVEDESTRUCTOR_X if needed, then Simple_vFAIL2().
696  */
697 #define vFAIL2(m,a1) STMT_START {                       \
698     if (!SIZE_ONLY)                                     \
699         SAVEFREESV(RExC_rx_sv);                         \
700     Simple_vFAIL2(m, a1);                               \
701 } STMT_END
702
703
704 /*
705  * Like Simple_vFAIL(), but accepts three arguments.
706  */
707 #define Simple_vFAIL3(m, a1, a2) STMT_START {                   \
708     S_re_croak2(aTHX_ UTF, m, REPORT_LOCATION, a1, a2,          \
709             REPORT_LOCATION_ARGS(RExC_parse));                  \
710 } STMT_END
711
712 /*
713  * Calls SAVEDESTRUCTOR_X if needed, then Simple_vFAIL3().
714  */
715 #define vFAIL3(m,a1,a2) STMT_START {                    \
716     if (!SIZE_ONLY)                                     \
717         SAVEFREESV(RExC_rx_sv);                         \
718     Simple_vFAIL3(m, a1, a2);                           \
719 } STMT_END
720
721 /*
722  * Like Simple_vFAIL(), but accepts four arguments.
723  */
724 #define Simple_vFAIL4(m, a1, a2, a3) STMT_START {               \
725     S_re_croak2(aTHX_ UTF, m, REPORT_LOCATION, a1, a2, a3,      \
726             REPORT_LOCATION_ARGS(RExC_parse));                  \
727 } STMT_END
728
729 #define vFAIL4(m,a1,a2,a3) STMT_START {                 \
730     if (!SIZE_ONLY)                                     \
731         SAVEFREESV(RExC_rx_sv);                         \
732     Simple_vFAIL4(m, a1, a2, a3);                       \
733 } STMT_END
734
735 /* A specialized version of vFAIL2 that works with UTF8f */
736 #define vFAIL2utf8f(m, a1) STMT_START {             \
737     if (!SIZE_ONLY)                                 \
738         SAVEFREESV(RExC_rx_sv);                     \
739     S_re_croak2(aTHX_ UTF, m, REPORT_LOCATION, a1,  \
740             REPORT_LOCATION_ARGS(RExC_parse));      \
741 } STMT_END
742
743 #define vFAIL3utf8f(m, a1, a2) STMT_START {             \
744     if (!SIZE_ONLY)                                     \
745         SAVEFREESV(RExC_rx_sv);                         \
746     S_re_croak2(aTHX_ UTF, m, REPORT_LOCATION, a1, a2,  \
747             REPORT_LOCATION_ARGS(RExC_parse));          \
748 } STMT_END
749
750 /* These have asserts in them because of [perl #122671] Many warnings in
751  * regcomp.c can occur twice.  If they get output in pass1 and later in that
752  * pass, the pattern has to be converted to UTF-8 and the pass restarted, they
753  * would get output again.  So they should be output in pass2, and these
754  * asserts make sure new warnings follow that paradigm. */
755
756 /* m is not necessarily a "literal string", in this macro */
757 #define reg_warn_non_literal_string(loc, m) STMT_START {                \
758     __ASSERT_(PASS2) Perl_warner(aTHX_ packWARN(WARN_REGEXP),           \
759                                        "%s" REPORT_LOCATION,            \
760                                   m, REPORT_LOCATION_ARGS(loc));        \
761 } STMT_END
762
763 #define ckWARNreg(loc,m) STMT_START {                                   \
764     __ASSERT_(PASS2) Perl_ck_warner(aTHX_ packWARN(WARN_REGEXP),        \
765                                           m REPORT_LOCATION,            \
766                                           REPORT_LOCATION_ARGS(loc));   \
767 } STMT_END
768
769 #define vWARN(loc, m) STMT_START {                                      \
770     __ASSERT_(PASS2) Perl_warner(aTHX_ packWARN(WARN_REGEXP),           \
771                                        m REPORT_LOCATION,               \
772                                        REPORT_LOCATION_ARGS(loc));      \
773 } STMT_END
774
775 #define vWARN_dep(loc, m) STMT_START {                                  \
776     __ASSERT_(PASS2) Perl_warner(aTHX_ packWARN(WARN_DEPRECATED),       \
777                                        m REPORT_LOCATION,               \
778                                        REPORT_LOCATION_ARGS(loc));      \
779 } STMT_END
780
781 #define ckWARNdep(loc,m) STMT_START {                                   \
782     __ASSERT_(PASS2) Perl_ck_warner_d(aTHX_ packWARN(WARN_DEPRECATED),  \
783                                             m REPORT_LOCATION,          \
784                                             REPORT_LOCATION_ARGS(loc)); \
785 } STMT_END
786
787 #define ckWARNregdep(loc,m) STMT_START {                                    \
788     __ASSERT_(PASS2) Perl_ck_warner_d(aTHX_ packWARN2(WARN_DEPRECATED,      \
789                                                       WARN_REGEXP),         \
790                                              m REPORT_LOCATION,             \
791                                              REPORT_LOCATION_ARGS(loc));    \
792 } STMT_END
793
794 #define ckWARN2reg_d(loc,m, a1) STMT_START {                                \
795     __ASSERT_(PASS2) Perl_ck_warner_d(aTHX_ packWARN(WARN_REGEXP),          \
796                                             m REPORT_LOCATION,              \
797                                             a1, REPORT_LOCATION_ARGS(loc)); \
798 } STMT_END
799
800 #define ckWARN2reg(loc, m, a1) STMT_START {                                 \
801     __ASSERT_(PASS2) Perl_ck_warner(aTHX_ packWARN(WARN_REGEXP),            \
802                                           m REPORT_LOCATION,                \
803                                           a1, REPORT_LOCATION_ARGS(loc));   \
804 } STMT_END
805
806 #define vWARN3(loc, m, a1, a2) STMT_START {                                 \
807     __ASSERT_(PASS2) Perl_warner(aTHX_ packWARN(WARN_REGEXP),               \
808                                        m REPORT_LOCATION,                   \
809                                        a1, a2, REPORT_LOCATION_ARGS(loc));  \
810 } STMT_END
811
812 #define ckWARN3reg(loc, m, a1, a2) STMT_START {                             \
813     __ASSERT_(PASS2) Perl_ck_warner(aTHX_ packWARN(WARN_REGEXP),            \
814                                           m REPORT_LOCATION,                \
815                                           a1, a2,                           \
816                                           REPORT_LOCATION_ARGS(loc));       \
817 } STMT_END
818
819 #define vWARN4(loc, m, a1, a2, a3) STMT_START {                         \
820     __ASSERT_(PASS2) Perl_warner(aTHX_ packWARN(WARN_REGEXP),           \
821                                        m REPORT_LOCATION,               \
822                                        a1, a2, a3,                      \
823                                        REPORT_LOCATION_ARGS(loc));      \
824 } STMT_END
825
826 #define ckWARN4reg(loc, m, a1, a2, a3) STMT_START {                     \
827     __ASSERT_(PASS2) Perl_ck_warner(aTHX_ packWARN(WARN_REGEXP),        \
828                                           m REPORT_LOCATION,            \
829                                           a1, a2, a3,                   \
830                                           REPORT_LOCATION_ARGS(loc));   \
831 } STMT_END
832
833 #define vWARN5(loc, m, a1, a2, a3, a4) STMT_START {                     \
834     __ASSERT_(PASS2) Perl_warner(aTHX_ packWARN(WARN_REGEXP),           \
835                                        m REPORT_LOCATION,               \
836                                        a1, a2, a3, a4,                  \
837                                        REPORT_LOCATION_ARGS(loc));      \
838 } STMT_END
839
840 /* Macros for recording node offsets.   20001227 mjd@plover.com
841  * Nodes are numbered 1, 2, 3, 4.  Node #n's position is recorded in
842  * element 2*n-1 of the array.  Element #2n holds the byte length node #n.
843  * Element 0 holds the number n.
844  * Position is 1 indexed.
845  */
846 #ifndef RE_TRACK_PATTERN_OFFSETS
847 #define Set_Node_Offset_To_R(node,byte)
848 #define Set_Node_Offset(node,byte)
849 #define Set_Cur_Node_Offset
850 #define Set_Node_Length_To_R(node,len)
851 #define Set_Node_Length(node,len)
852 #define Set_Node_Cur_Length(node,start)
853 #define Node_Offset(n)
854 #define Node_Length(n)
855 #define Set_Node_Offset_Length(node,offset,len)
856 #define ProgLen(ri) ri->u.proglen
857 #define SetProgLen(ri,x) ri->u.proglen = x
858 #else
859 #define ProgLen(ri) ri->u.offsets[0]
860 #define SetProgLen(ri,x) ri->u.offsets[0] = x
861 #define Set_Node_Offset_To_R(node,byte) STMT_START {                    \
862     if (! SIZE_ONLY) {                                                  \
863         MJD_OFFSET_DEBUG(("** (%d) offset of node %d is %d.\n",         \
864                     __LINE__, (int)(node), (int)(byte)));               \
865         if((node) < 0) {                                                \
866             Perl_croak(aTHX_ "value of node is %d in Offset macro",     \
867                                          (int)(node));                  \
868         } else {                                                        \
869             RExC_offsets[2*(node)-1] = (byte);                          \
870         }                                                               \
871     }                                                                   \
872 } STMT_END
873
874 #define Set_Node_Offset(node,byte) \
875     Set_Node_Offset_To_R((node)-RExC_emit_start, (byte)-RExC_start)
876 #define Set_Cur_Node_Offset Set_Node_Offset(RExC_emit, RExC_parse)
877
878 #define Set_Node_Length_To_R(node,len) STMT_START {                     \
879     if (! SIZE_ONLY) {                                                  \
880         MJD_OFFSET_DEBUG(("** (%d) size of node %d is %d.\n",           \
881                 __LINE__, (int)(node), (int)(len)));                    \
882         if((node) < 0) {                                                \
883             Perl_croak(aTHX_ "value of node is %d in Length macro",     \
884                                          (int)(node));                  \
885         } else {                                                        \
886             RExC_offsets[2*(node)] = (len);                             \
887         }                                                               \
888     }                                                                   \
889 } STMT_END
890
891 #define Set_Node_Length(node,len) \
892     Set_Node_Length_To_R((node)-RExC_emit_start, len)
893 #define Set_Node_Cur_Length(node, start)                \
894     Set_Node_Length(node, RExC_parse - start)
895
896 /* Get offsets and lengths */
897 #define Node_Offset(n) (RExC_offsets[2*((n)-RExC_emit_start)-1])
898 #define Node_Length(n) (RExC_offsets[2*((n)-RExC_emit_start)])
899
900 #define Set_Node_Offset_Length(node,offset,len) STMT_START {    \
901     Set_Node_Offset_To_R((node)-RExC_emit_start, (offset));     \
902     Set_Node_Length_To_R((node)-RExC_emit_start, (len));        \
903 } STMT_END
904 #endif
905
906 #if PERL_ENABLE_EXPERIMENTAL_REGEX_OPTIMISATIONS
907 #define EXPERIMENTAL_INPLACESCAN
908 #endif /*PERL_ENABLE_EXPERIMENTAL_REGEX_OPTIMISATIONS*/
909
910 #ifdef DEBUGGING
911 int
912 Perl_re_printf(pTHX_ const char *fmt, ...)
913 {
914     va_list ap;
915     int result;
916     PerlIO *f= Perl_debug_log;
917     PERL_ARGS_ASSERT_RE_PRINTF;
918     va_start(ap, fmt);
919     result = PerlIO_vprintf(f, fmt, ap);
920     va_end(ap);
921     return result;
922 }
923
924 int
925 Perl_re_indentf(pTHX_ const char *fmt, U32 depth, ...)
926 {
927     va_list ap;
928     int result;
929     PerlIO *f= Perl_debug_log;
930     PERL_ARGS_ASSERT_RE_INDENTF;
931     va_start(ap, depth);
932     PerlIO_printf(f, "%*s", ( (int)depth % 20 ) * 2, "");
933     result = PerlIO_vprintf(f, fmt, ap);
934     va_end(ap);
935     return result;
936 }
937 #endif /* DEBUGGING */
938
939 #define DEBUG_RExC_seen()                                                   \
940         DEBUG_OPTIMISE_MORE_r({                                             \
941             Perl_re_printf( aTHX_ "RExC_seen: ");                                       \
942                                                                             \
943             if (RExC_seen & REG_ZERO_LEN_SEEN)                              \
944                 Perl_re_printf( aTHX_ "REG_ZERO_LEN_SEEN ");                            \
945                                                                             \
946             if (RExC_seen & REG_LOOKBEHIND_SEEN)                            \
947                 Perl_re_printf( aTHX_ "REG_LOOKBEHIND_SEEN ");                          \
948                                                                             \
949             if (RExC_seen & REG_GPOS_SEEN)                                  \
950                 Perl_re_printf( aTHX_ "REG_GPOS_SEEN ");                                \
951                                                                             \
952             if (RExC_seen & REG_RECURSE_SEEN)                               \
953                 Perl_re_printf( aTHX_ "REG_RECURSE_SEEN ");                             \
954                                                                             \
955             if (RExC_seen & REG_TOP_LEVEL_BRANCHES_SEEN)                    \
956                 Perl_re_printf( aTHX_ "REG_TOP_LEVEL_BRANCHES_SEEN ");                  \
957                                                                             \
958             if (RExC_seen & REG_VERBARG_SEEN)                               \
959                 Perl_re_printf( aTHX_ "REG_VERBARG_SEEN ");                             \
960                                                                             \
961             if (RExC_seen & REG_CUTGROUP_SEEN)                              \
962                 Perl_re_printf( aTHX_ "REG_CUTGROUP_SEEN ");                            \
963                                                                             \
964             if (RExC_seen & REG_RUN_ON_COMMENT_SEEN)                        \
965                 Perl_re_printf( aTHX_ "REG_RUN_ON_COMMENT_SEEN ");                      \
966                                                                             \
967             if (RExC_seen & REG_UNFOLDED_MULTI_SEEN)                        \
968                 Perl_re_printf( aTHX_ "REG_UNFOLDED_MULTI_SEEN ");                      \
969                                                                             \
970             if (RExC_seen & REG_UNBOUNDED_QUANTIFIER_SEEN)                  \
971                 Perl_re_printf( aTHX_ "REG_UNBOUNDED_QUANTIFIER_SEEN ");                \
972                                                                             \
973             Perl_re_printf( aTHX_ "\n");                                                \
974         });
975
976 #define DEBUG_SHOW_STUDY_FLAG(flags,flag) \
977   if ((flags) & flag) Perl_re_printf( aTHX_  "%s ", #flag)
978
979 #define DEBUG_SHOW_STUDY_FLAGS(flags,open_str,close_str)                    \
980     if ( ( flags ) ) {                                                      \
981         Perl_re_printf( aTHX_  "%s", open_str);                                         \
982         DEBUG_SHOW_STUDY_FLAG(flags,SF_FL_BEFORE_SEOL);                     \
983         DEBUG_SHOW_STUDY_FLAG(flags,SF_FL_BEFORE_MEOL);                     \
984         DEBUG_SHOW_STUDY_FLAG(flags,SF_IS_INF);                             \
985         DEBUG_SHOW_STUDY_FLAG(flags,SF_HAS_PAR);                            \
986         DEBUG_SHOW_STUDY_FLAG(flags,SF_IN_PAR);                             \
987         DEBUG_SHOW_STUDY_FLAG(flags,SF_HAS_EVAL);                           \
988         DEBUG_SHOW_STUDY_FLAG(flags,SCF_DO_SUBSTR);                         \
989         DEBUG_SHOW_STUDY_FLAG(flags,SCF_DO_STCLASS_AND);                    \
990         DEBUG_SHOW_STUDY_FLAG(flags,SCF_DO_STCLASS_OR);                     \
991         DEBUG_SHOW_STUDY_FLAG(flags,SCF_DO_STCLASS);                        \
992         DEBUG_SHOW_STUDY_FLAG(flags,SCF_WHILEM_VISITED_POS);                \
993         DEBUG_SHOW_STUDY_FLAG(flags,SCF_TRIE_RESTUDY);                      \
994         DEBUG_SHOW_STUDY_FLAG(flags,SCF_SEEN_ACCEPT);                       \
995         DEBUG_SHOW_STUDY_FLAG(flags,SCF_TRIE_DOING_RESTUDY);                \
996         DEBUG_SHOW_STUDY_FLAG(flags,SCF_IN_DEFINE);                         \
997         Perl_re_printf( aTHX_  "%s", close_str);                                        \
998     }
999
1000
1001 #define DEBUG_STUDYDATA(str,data,depth)                              \
1002 DEBUG_OPTIMISE_MORE_r(if(data){                                      \
1003     Perl_re_indentf( aTHX_  "" str "Pos:%" IVdf "/%" IVdf            \
1004         " Flags: 0x%" UVXf,                                          \
1005         depth,                                                       \
1006         (IV)((data)->pos_min),                                       \
1007         (IV)((data)->pos_delta),                                     \
1008         (UV)((data)->flags)                                          \
1009     );                                                               \
1010     DEBUG_SHOW_STUDY_FLAGS((data)->flags," [ ","]");                 \
1011     Perl_re_printf( aTHX_                                            \
1012         " Whilem_c: %" IVdf " Lcp: %" IVdf " %s",                    \
1013         (IV)((data)->whilem_c),                                      \
1014         (IV)((data)->last_closep ? *((data)->last_closep) : -1),     \
1015         is_inf ? "INF " : ""                                         \
1016     );                                                               \
1017     if ((data)->last_found)                                          \
1018         Perl_re_printf( aTHX_                                        \
1019             "Last:'%s' %" IVdf ":%" IVdf "/%" IVdf                   \
1020             " %sFixed:'%s' @ %" IVdf                                 \
1021             " %sFloat: '%s' @ %" IVdf "/%" IVdf,                     \
1022             SvPVX_const((data)->last_found),                         \
1023             (IV)((data)->last_end),                                  \
1024             (IV)((data)->last_start_min),                            \
1025             (IV)((data)->last_start_max),                            \
1026             ((data)->longest &&                                      \
1027              (data)->longest==&((data)->longest_fixed)) ? "*" : "",  \
1028             SvPVX_const((data)->longest_fixed),                      \
1029             (IV)((data)->offset_fixed),                              \
1030             ((data)->longest &&                                      \
1031              (data)->longest==&((data)->longest_float)) ? "*" : "",  \
1032             SvPVX_const((data)->longest_float),                      \
1033             (IV)((data)->offset_float_min),                          \
1034             (IV)((data)->offset_float_max)                           \
1035         );                                                           \
1036     Perl_re_printf( aTHX_ "\n");                                                 \
1037 });
1038
1039
1040 /* =========================================================
1041  * BEGIN edit_distance stuff.
1042  *
1043  * This calculates how many single character changes of any type are needed to
1044  * transform a string into another one.  It is taken from version 3.1 of
1045  *
1046  * https://metacpan.org/pod/Text::Levenshtein::Damerau::XS
1047  */
1048
1049 /* Our unsorted dictionary linked list.   */
1050 /* Note we use UVs, not chars. */
1051
1052 struct dictionary{
1053   UV key;
1054   UV value;
1055   struct dictionary* next;
1056 };
1057 typedef struct dictionary item;
1058
1059
1060 PERL_STATIC_INLINE item*
1061 push(UV key,item* curr)
1062 {
1063     item* head;
1064     Newxz(head, 1, item);
1065     head->key = key;
1066     head->value = 0;
1067     head->next = curr;
1068     return head;
1069 }
1070
1071
1072 PERL_STATIC_INLINE item*
1073 find(item* head, UV key)
1074 {
1075     item* iterator = head;
1076     while (iterator){
1077         if (iterator->key == key){
1078             return iterator;
1079         }
1080         iterator = iterator->next;
1081     }
1082
1083     return NULL;
1084 }
1085
1086 PERL_STATIC_INLINE item*
1087 uniquePush(item* head,UV key)
1088 {
1089     item* iterator = head;
1090
1091     while (iterator){
1092         if (iterator->key == key) {
1093             return head;
1094         }
1095         iterator = iterator->next;
1096     }
1097
1098     return push(key,head);
1099 }
1100
1101 PERL_STATIC_INLINE void
1102 dict_free(item* head)
1103 {
1104     item* iterator = head;
1105
1106     while (iterator) {
1107         item* temp = iterator;
1108         iterator = iterator->next;
1109         Safefree(temp);
1110     }
1111
1112     head = NULL;
1113 }
1114
1115 /* End of Dictionary Stuff */
1116
1117 /* All calculations/work are done here */
1118 STATIC int
1119 S_edit_distance(const UV* src,
1120                 const UV* tgt,
1121                 const STRLEN x,             /* length of src[] */
1122                 const STRLEN y,             /* length of tgt[] */
1123                 const SSize_t maxDistance
1124 )
1125 {
1126     item *head = NULL;
1127     UV swapCount,swapScore,targetCharCount,i,j;
1128     UV *scores;
1129     UV score_ceil = x + y;
1130
1131     PERL_ARGS_ASSERT_EDIT_DISTANCE;
1132
1133     /* intialize matrix start values */
1134     Newxz(scores, ( (x + 2) * (y + 2)), UV);
1135     scores[0] = score_ceil;
1136     scores[1 * (y + 2) + 0] = score_ceil;
1137     scores[0 * (y + 2) + 1] = score_ceil;
1138     scores[1 * (y + 2) + 1] = 0;
1139     head = uniquePush(uniquePush(head,src[0]),tgt[0]);
1140
1141     /* work loops    */
1142     /* i = src index */
1143     /* j = tgt index */
1144     for (i=1;i<=x;i++) {
1145         if (i < x)
1146             head = uniquePush(head,src[i]);
1147         scores[(i+1) * (y + 2) + 1] = i;
1148         scores[(i+1) * (y + 2) + 0] = score_ceil;
1149         swapCount = 0;
1150
1151         for (j=1;j<=y;j++) {
1152             if (i == 1) {
1153                 if(j < y)
1154                 head = uniquePush(head,tgt[j]);
1155                 scores[1 * (y + 2) + (j + 1)] = j;
1156                 scores[0 * (y + 2) + (j + 1)] = score_ceil;
1157             }
1158
1159             targetCharCount = find(head,tgt[j-1])->value;
1160             swapScore = scores[targetCharCount * (y + 2) + swapCount] + i - targetCharCount - 1 + j - swapCount;
1161
1162             if (src[i-1] != tgt[j-1]){
1163                 scores[(i+1) * (y + 2) + (j + 1)] = MIN(swapScore,(MIN(scores[i * (y + 2) + j], MIN(scores[(i+1) * (y + 2) + j], scores[i * (y + 2) + (j + 1)])) + 1));
1164             }
1165             else {
1166                 swapCount = j;
1167                 scores[(i+1) * (y + 2) + (j + 1)] = MIN(scores[i * (y + 2) + j], swapScore);
1168             }
1169         }
1170
1171         find(head,src[i-1])->value = i;
1172     }
1173
1174     {
1175         IV score = scores[(x+1) * (y + 2) + (y + 1)];
1176         dict_free(head);
1177         Safefree(scores);
1178         return (maxDistance != 0 && maxDistance < score)?(-1):score;
1179     }
1180 }
1181
1182 /* END of edit_distance() stuff
1183  * ========================================================= */
1184
1185 /* is c a control character for which we have a mnemonic? */
1186 #define isMNEMONIC_CNTRL(c) _IS_MNEMONIC_CNTRL_ONLY_FOR_USE_BY_REGCOMP_DOT_C(c)
1187
1188 STATIC const char *
1189 S_cntrl_to_mnemonic(const U8 c)
1190 {
1191     /* Returns the mnemonic string that represents character 'c', if one
1192      * exists; NULL otherwise.  The only ones that exist for the purposes of
1193      * this routine are a few control characters */
1194
1195     switch (c) {
1196         case '\a':       return "\\a";
1197         case '\b':       return "\\b";
1198         case ESC_NATIVE: return "\\e";
1199         case '\f':       return "\\f";
1200         case '\n':       return "\\n";
1201         case '\r':       return "\\r";
1202         case '\t':       return "\\t";
1203     }
1204
1205     return NULL;
1206 }
1207
1208 /* Mark that we cannot extend a found fixed substring at this point.
1209    Update the longest found anchored substring and the longest found
1210    floating substrings if needed. */
1211
1212 STATIC void
1213 S_scan_commit(pTHX_ const RExC_state_t *pRExC_state, scan_data_t *data,
1214                     SSize_t *minlenp, int is_inf)
1215 {
1216     const STRLEN l = CHR_SVLEN(data->last_found);
1217     const STRLEN old_l = CHR_SVLEN(*data->longest);
1218     GET_RE_DEBUG_FLAGS_DECL;
1219
1220     PERL_ARGS_ASSERT_SCAN_COMMIT;
1221
1222     if ((l >= old_l) && ((l > old_l) || (data->flags & SF_BEFORE_EOL))) {
1223         SvSetMagicSV(*data->longest, data->last_found);
1224         if (*data->longest == data->longest_fixed) {
1225             data->offset_fixed = l ? data->last_start_min : data->pos_min;
1226             if (data->flags & SF_BEFORE_EOL)
1227                 data->flags
1228                     |= ((data->flags & SF_BEFORE_EOL) << SF_FIX_SHIFT_EOL);
1229             else
1230                 data->flags &= ~SF_FIX_BEFORE_EOL;
1231             data->minlen_fixed=minlenp;
1232             data->lookbehind_fixed=0;
1233         }
1234         else { /* *data->longest == data->longest_float */
1235             data->offset_float_min = l ? data->last_start_min : data->pos_min;
1236             data->offset_float_max = (l
1237                           ? data->last_start_max
1238                           : (data->pos_delta > SSize_t_MAX - data->pos_min
1239                                          ? SSize_t_MAX
1240                                          : data->pos_min + data->pos_delta));
1241             if (is_inf
1242                  || (STRLEN)data->offset_float_max > (STRLEN)SSize_t_MAX)
1243                 data->offset_float_max = SSize_t_MAX;
1244             if (data->flags & SF_BEFORE_EOL)
1245                 data->flags
1246                     |= ((data->flags & SF_BEFORE_EOL) << SF_FL_SHIFT_EOL);
1247             else
1248                 data->flags &= ~SF_FL_BEFORE_EOL;
1249             data->minlen_float=minlenp;
1250             data->lookbehind_float=0;
1251         }
1252     }
1253     SvCUR_set(data->last_found, 0);
1254     {
1255         SV * const sv = data->last_found;
1256         if (SvUTF8(sv) && SvMAGICAL(sv)) {
1257             MAGIC * const mg = mg_find(sv, PERL_MAGIC_utf8);
1258             if (mg)
1259                 mg->mg_len = 0;
1260         }
1261     }
1262     data->last_end = -1;
1263     data->flags &= ~SF_BEFORE_EOL;
1264     DEBUG_STUDYDATA("commit: ",data,0);
1265 }
1266
1267 /* An SSC is just a regnode_charclass_posix with an extra field: the inversion
1268  * list that describes which code points it matches */
1269
1270 STATIC void
1271 S_ssc_anything(pTHX_ regnode_ssc *ssc)
1272 {
1273     /* Set the SSC 'ssc' to match an empty string or any code point */
1274
1275     PERL_ARGS_ASSERT_SSC_ANYTHING;
1276
1277     assert(is_ANYOF_SYNTHETIC(ssc));
1278
1279     /* mortalize so won't leak */
1280     ssc->invlist = sv_2mortal(_add_range_to_invlist(NULL, 0, UV_MAX));
1281     ANYOF_FLAGS(ssc) |= SSC_MATCHES_EMPTY_STRING;  /* Plus matches empty */
1282 }
1283
1284 STATIC int
1285 S_ssc_is_anything(const regnode_ssc *ssc)
1286 {
1287     /* Returns TRUE if the SSC 'ssc' can match the empty string and any code
1288      * point; FALSE otherwise.  Thus, this is used to see if using 'ssc' buys
1289      * us anything: if the function returns TRUE, 'ssc' hasn't been restricted
1290      * in any way, so there's no point in using it */
1291
1292     UV start, end;
1293     bool ret;
1294
1295     PERL_ARGS_ASSERT_SSC_IS_ANYTHING;
1296
1297     assert(is_ANYOF_SYNTHETIC(ssc));
1298
1299     if (! (ANYOF_FLAGS(ssc) & SSC_MATCHES_EMPTY_STRING)) {
1300         return FALSE;
1301     }
1302
1303     /* See if the list consists solely of the range 0 - Infinity */
1304     invlist_iterinit(ssc->invlist);
1305     ret = invlist_iternext(ssc->invlist, &start, &end)
1306           && start == 0
1307           && end == UV_MAX;
1308
1309     invlist_iterfinish(ssc->invlist);
1310
1311     if (ret) {
1312         return TRUE;
1313     }
1314
1315     /* If e.g., both \w and \W are set, matches everything */
1316     if (ANYOF_POSIXL_SSC_TEST_ANY_SET(ssc)) {
1317         int i;
1318         for (i = 0; i < ANYOF_POSIXL_MAX; i += 2) {
1319             if (ANYOF_POSIXL_TEST(ssc, i) && ANYOF_POSIXL_TEST(ssc, i+1)) {
1320                 return TRUE;
1321             }
1322         }
1323     }
1324
1325     return FALSE;
1326 }
1327
1328 STATIC void
1329 S_ssc_init(pTHX_ const RExC_state_t *pRExC_state, regnode_ssc *ssc)
1330 {
1331     /* Initializes the SSC 'ssc'.  This includes setting it to match an empty
1332      * string, any code point, or any posix class under locale */
1333
1334     PERL_ARGS_ASSERT_SSC_INIT;
1335
1336     Zero(ssc, 1, regnode_ssc);
1337     set_ANYOF_SYNTHETIC(ssc);
1338     ARG_SET(ssc, ANYOF_ONLY_HAS_BITMAP);
1339     ssc_anything(ssc);
1340
1341     /* If any portion of the regex is to operate under locale rules that aren't
1342      * fully known at compile time, initialization includes it.  The reason
1343      * this isn't done for all regexes is that the optimizer was written under
1344      * the assumption that locale was all-or-nothing.  Given the complexity and
1345      * lack of documentation in the optimizer, and that there are inadequate
1346      * test cases for locale, many parts of it may not work properly, it is
1347      * safest to avoid locale unless necessary. */
1348     if (RExC_contains_locale) {
1349         ANYOF_POSIXL_SETALL(ssc);
1350     }
1351     else {
1352         ANYOF_POSIXL_ZERO(ssc);
1353     }
1354 }
1355
1356 STATIC int
1357 S_ssc_is_cp_posixl_init(const RExC_state_t *pRExC_state,
1358                         const regnode_ssc *ssc)
1359 {
1360     /* Returns TRUE if the SSC 'ssc' is in its initial state with regard only
1361      * to the list of code points matched, and locale posix classes; hence does
1362      * not check its flags) */
1363
1364     UV start, end;
1365     bool ret;
1366
1367     PERL_ARGS_ASSERT_SSC_IS_CP_POSIXL_INIT;
1368
1369     assert(is_ANYOF_SYNTHETIC(ssc));
1370
1371     invlist_iterinit(ssc->invlist);
1372     ret = invlist_iternext(ssc->invlist, &start, &end)
1373           && start == 0
1374           && end == UV_MAX;
1375
1376     invlist_iterfinish(ssc->invlist);
1377
1378     if (! ret) {
1379         return FALSE;
1380     }
1381
1382     if (RExC_contains_locale && ! ANYOF_POSIXL_SSC_TEST_ALL_SET(ssc)) {
1383         return FALSE;
1384     }
1385
1386     return TRUE;
1387 }
1388
1389 STATIC SV*
1390 S_get_ANYOF_cp_list_for_ssc(pTHX_ const RExC_state_t *pRExC_state,
1391                                const regnode_charclass* const node)
1392 {
1393     /* Returns a mortal inversion list defining which code points are matched
1394      * by 'node', which is of type ANYOF.  Handles complementing the result if
1395      * appropriate.  If some code points aren't knowable at this time, the
1396      * returned list must, and will, contain every code point that is a
1397      * possibility. */
1398
1399     SV* invlist = NULL;
1400     SV* only_utf8_locale_invlist = NULL;
1401     unsigned int i;
1402     const U32 n = ARG(node);
1403     bool new_node_has_latin1 = FALSE;
1404
1405     PERL_ARGS_ASSERT_GET_ANYOF_CP_LIST_FOR_SSC;
1406
1407     /* Look at the data structure created by S_set_ANYOF_arg() */
1408     if (n != ANYOF_ONLY_HAS_BITMAP) {
1409         SV * const rv = MUTABLE_SV(RExC_rxi->data->data[n]);
1410         AV * const av = MUTABLE_AV(SvRV(rv));
1411         SV **const ary = AvARRAY(av);
1412         assert(RExC_rxi->data->what[n] == 's');
1413
1414         if (ary[1] && ary[1] != &PL_sv_undef) { /* Has compile-time swash */
1415             invlist = sv_2mortal(invlist_clone(_get_swash_invlist(ary[1])));
1416         }
1417         else if (ary[0] && ary[0] != &PL_sv_undef) {
1418
1419             /* Here, no compile-time swash, and there are things that won't be
1420              * known until runtime -- we have to assume it could be anything */
1421             invlist = sv_2mortal(_new_invlist(1));
1422             return _add_range_to_invlist(invlist, 0, UV_MAX);
1423         }
1424         else if (ary[3] && ary[3] != &PL_sv_undef) {
1425
1426             /* Here no compile-time swash, and no run-time only data.  Use the
1427              * node's inversion list */
1428             invlist = sv_2mortal(invlist_clone(ary[3]));
1429         }
1430
1431         /* Get the code points valid only under UTF-8 locales */
1432         if ((ANYOF_FLAGS(node) & ANYOFL_FOLD)
1433             && ary[2] && ary[2] != &PL_sv_undef)
1434         {
1435             only_utf8_locale_invlist = ary[2];
1436         }
1437     }
1438
1439     if (! invlist) {
1440         invlist = sv_2mortal(_new_invlist(0));
1441     }
1442
1443     /* An ANYOF node contains a bitmap for the first NUM_ANYOF_CODE_POINTS
1444      * code points, and an inversion list for the others, but if there are code
1445      * points that should match only conditionally on the target string being
1446      * UTF-8, those are placed in the inversion list, and not the bitmap.
1447      * Since there are circumstances under which they could match, they are
1448      * included in the SSC.  But if the ANYOF node is to be inverted, we have
1449      * to exclude them here, so that when we invert below, the end result
1450      * actually does include them.  (Think about "\xe0" =~ /[^\xc0]/di;).  We
1451      * have to do this here before we add the unconditionally matched code
1452      * points */
1453     if (ANYOF_FLAGS(node) & ANYOF_INVERT) {
1454         _invlist_intersection_complement_2nd(invlist,
1455                                              PL_UpperLatin1,
1456                                              &invlist);
1457     }
1458
1459     /* Add in the points from the bit map */
1460     for (i = 0; i < NUM_ANYOF_CODE_POINTS; i++) {
1461         if (ANYOF_BITMAP_TEST(node, i)) {
1462             unsigned int start = i++;
1463
1464             for (; i < NUM_ANYOF_CODE_POINTS && ANYOF_BITMAP_TEST(node, i); ++i) {
1465                 /* empty */
1466             }
1467             invlist = _add_range_to_invlist(invlist, start, i-1);
1468             new_node_has_latin1 = TRUE;
1469         }
1470     }
1471
1472     /* If this can match all upper Latin1 code points, have to add them
1473      * as well.  But don't add them if inverting, as when that gets done below,
1474      * it would exclude all these characters, including the ones it shouldn't
1475      * that were added just above */
1476     if (! (ANYOF_FLAGS(node) & ANYOF_INVERT) && OP(node) == ANYOFD
1477         && (ANYOF_FLAGS(node) & ANYOF_SHARED_d_MATCHES_ALL_NON_UTF8_NON_ASCII_non_d_WARN_SUPER))
1478     {
1479         _invlist_union(invlist, PL_UpperLatin1, &invlist);
1480     }
1481
1482     /* Similarly for these */
1483     if (ANYOF_FLAGS(node) & ANYOF_MATCHES_ALL_ABOVE_BITMAP) {
1484         _invlist_union_complement_2nd(invlist, PL_InBitmap, &invlist);
1485     }
1486
1487     if (ANYOF_FLAGS(node) & ANYOF_INVERT) {
1488         _invlist_invert(invlist);
1489     }
1490     else if (new_node_has_latin1 && ANYOF_FLAGS(node) & ANYOFL_FOLD) {
1491
1492         /* Under /li, any 0-255 could fold to any other 0-255, depending on the
1493          * locale.  We can skip this if there are no 0-255 at all. */
1494         _invlist_union(invlist, PL_Latin1, &invlist);
1495     }
1496
1497     /* Similarly add the UTF-8 locale possible matches.  These have to be
1498      * deferred until after the non-UTF-8 locale ones are taken care of just
1499      * above, or it leads to wrong results under ANYOF_INVERT */
1500     if (only_utf8_locale_invlist) {
1501         _invlist_union_maybe_complement_2nd(invlist,
1502                                             only_utf8_locale_invlist,
1503                                             ANYOF_FLAGS(node) & ANYOF_INVERT,
1504                                             &invlist);
1505     }
1506
1507     return invlist;
1508 }
1509
1510 /* These two functions currently do the exact same thing */
1511 #define ssc_init_zero           ssc_init
1512
1513 #define ssc_add_cp(ssc, cp)   ssc_add_range((ssc), (cp), (cp))
1514 #define ssc_match_all_cp(ssc) ssc_add_range(ssc, 0, UV_MAX)
1515
1516 /* 'AND' a given class with another one.  Can create false positives.  'ssc'
1517  * should not be inverted.  'and_with->flags & ANYOF_MATCHES_POSIXL' should be
1518  * 0 if 'and_with' is a regnode_charclass instead of a regnode_ssc. */
1519
1520 STATIC void
1521 S_ssc_and(pTHX_ const RExC_state_t *pRExC_state, regnode_ssc *ssc,
1522                 const regnode_charclass *and_with)
1523 {
1524     /* Accumulate into SSC 'ssc' its 'AND' with 'and_with', which is either
1525      * another SSC or a regular ANYOF class.  Can create false positives. */
1526
1527     SV* anded_cp_list;
1528     U8  anded_flags;
1529
1530     PERL_ARGS_ASSERT_SSC_AND;
1531
1532     assert(is_ANYOF_SYNTHETIC(ssc));
1533
1534     /* 'and_with' is used as-is if it too is an SSC; otherwise have to extract
1535      * the code point inversion list and just the relevant flags */
1536     if (is_ANYOF_SYNTHETIC(and_with)) {
1537         anded_cp_list = ((regnode_ssc *)and_with)->invlist;
1538         anded_flags = ANYOF_FLAGS(and_with);
1539
1540         /* XXX This is a kludge around what appears to be deficiencies in the
1541          * optimizer.  If we make S_ssc_anything() add in the WARN_SUPER flag,
1542          * there are paths through the optimizer where it doesn't get weeded
1543          * out when it should.  And if we don't make some extra provision for
1544          * it like the code just below, it doesn't get added when it should.
1545          * This solution is to add it only when AND'ing, which is here, and
1546          * only when what is being AND'ed is the pristine, original node
1547          * matching anything.  Thus it is like adding it to ssc_anything() but
1548          * only when the result is to be AND'ed.  Probably the same solution
1549          * could be adopted for the same problem we have with /l matching,
1550          * which is solved differently in S_ssc_init(), and that would lead to
1551          * fewer false positives than that solution has.  But if this solution
1552          * creates bugs, the consequences are only that a warning isn't raised
1553          * that should be; while the consequences for having /l bugs is
1554          * incorrect matches */
1555         if (ssc_is_anything((regnode_ssc *)and_with)) {
1556             anded_flags |= ANYOF_SHARED_d_MATCHES_ALL_NON_UTF8_NON_ASCII_non_d_WARN_SUPER;
1557         }
1558     }
1559     else {
1560         anded_cp_list = get_ANYOF_cp_list_for_ssc(pRExC_state, and_with);
1561         if (OP(and_with) == ANYOFD) {
1562             anded_flags = ANYOF_FLAGS(and_with) & ANYOF_COMMON_FLAGS;
1563         }
1564         else {
1565             anded_flags = ANYOF_FLAGS(and_with)
1566             &( ANYOF_COMMON_FLAGS
1567               |ANYOF_SHARED_d_MATCHES_ALL_NON_UTF8_NON_ASCII_non_d_WARN_SUPER
1568               |ANYOF_SHARED_d_UPPER_LATIN1_UTF8_STRING_MATCHES_non_d_RUNTIME_USER_PROP);
1569             if (ANYOFL_UTF8_LOCALE_REQD(ANYOF_FLAGS(and_with))) {
1570                 anded_flags &=
1571                     ANYOFL_SHARED_UTF8_LOCALE_fold_HAS_MATCHES_nonfold_REQD;
1572             }
1573         }
1574     }
1575
1576     ANYOF_FLAGS(ssc) &= anded_flags;
1577
1578     /* Below, C1 is the list of code points in 'ssc'; P1, its posix classes.
1579      * C2 is the list of code points in 'and-with'; P2, its posix classes.
1580      * 'and_with' may be inverted.  When not inverted, we have the situation of
1581      * computing:
1582      *  (C1 | P1) & (C2 | P2)
1583      *                     =  (C1 & (C2 | P2)) | (P1 & (C2 | P2))
1584      *                     =  ((C1 & C2) | (C1 & P2)) | ((P1 & C2) | (P1 & P2))
1585      *                    <=  ((C1 & C2) |       P2)) | ( P1       | (P1 & P2))
1586      *                    <=  ((C1 & C2) | P1 | P2)
1587      * Alternatively, the last few steps could be:
1588      *                     =  ((C1 & C2) | (C1 & P2)) | ((P1 & C2) | (P1 & P2))
1589      *                    <=  ((C1 & C2) |  C1      ) | (      C2  | (P1 & P2))
1590      *                    <=  (C1 | C2 | (P1 & P2))
1591      * We favor the second approach if either P1 or P2 is non-empty.  This is
1592      * because these components are a barrier to doing optimizations, as what
1593      * they match cannot be known until the moment of matching as they are
1594      * dependent on the current locale, 'AND"ing them likely will reduce or
1595      * eliminate them.
1596      * But we can do better if we know that C1,P1 are in their initial state (a
1597      * frequent occurrence), each matching everything:
1598      *  (<everything>) & (C2 | P2) =  C2 | P2
1599      * Similarly, if C2,P2 are in their initial state (again a frequent
1600      * occurrence), the result is a no-op
1601      *  (C1 | P1) & (<everything>) =  C1 | P1
1602      *
1603      * Inverted, we have
1604      *  (C1 | P1) & ~(C2 | P2)  =  (C1 | P1) & (~C2 & ~P2)
1605      *                          =  (C1 & (~C2 & ~P2)) | (P1 & (~C2 & ~P2))
1606      *                         <=  (C1 & ~C2) | (P1 & ~P2)
1607      * */
1608
1609     if ((ANYOF_FLAGS(and_with) & ANYOF_INVERT)
1610         && ! is_ANYOF_SYNTHETIC(and_with))
1611     {
1612         unsigned int i;
1613
1614         ssc_intersection(ssc,
1615                          anded_cp_list,
1616                          FALSE /* Has already been inverted */
1617                          );
1618
1619         /* If either P1 or P2 is empty, the intersection will be also; can skip
1620          * the loop */
1621         if (! (ANYOF_FLAGS(and_with) & ANYOF_MATCHES_POSIXL)) {
1622             ANYOF_POSIXL_ZERO(ssc);
1623         }
1624         else if (ANYOF_POSIXL_SSC_TEST_ANY_SET(ssc)) {
1625
1626             /* Note that the Posix class component P from 'and_with' actually
1627              * looks like:
1628              *      P = Pa | Pb | ... | Pn
1629              * where each component is one posix class, such as in [\w\s].
1630              * Thus
1631              *      ~P = ~(Pa | Pb | ... | Pn)
1632              *         = ~Pa & ~Pb & ... & ~Pn
1633              *        <= ~Pa | ~Pb | ... | ~Pn
1634              * The last is something we can easily calculate, but unfortunately
1635              * is likely to have many false positives.  We could do better
1636              * in some (but certainly not all) instances if two classes in
1637              * P have known relationships.  For example
1638              *      :lower: <= :alpha: <= :alnum: <= \w <= :graph: <= :print:
1639              * So
1640              *      :lower: & :print: = :lower:
1641              * And similarly for classes that must be disjoint.  For example,
1642              * since \s and \w can have no elements in common based on rules in
1643              * the POSIX standard,
1644              *      \w & ^\S = nothing
1645              * Unfortunately, some vendor locales do not meet the Posix
1646              * standard, in particular almost everything by Microsoft.
1647              * The loop below just changes e.g., \w into \W and vice versa */
1648
1649             regnode_charclass_posixl temp;
1650             int add = 1;    /* To calculate the index of the complement */
1651
1652             ANYOF_POSIXL_ZERO(&temp);
1653             for (i = 0; i < ANYOF_MAX; i++) {
1654                 assert(i % 2 != 0
1655                        || ! ANYOF_POSIXL_TEST((regnode_charclass_posixl*) and_with, i)
1656                        || ! ANYOF_POSIXL_TEST((regnode_charclass_posixl*) and_with, i + 1));
1657
1658                 if (ANYOF_POSIXL_TEST((regnode_charclass_posixl*) and_with, i)) {
1659                     ANYOF_POSIXL_SET(&temp, i + add);
1660                 }
1661                 add = 0 - add; /* 1 goes to -1; -1 goes to 1 */
1662             }
1663             ANYOF_POSIXL_AND(&temp, ssc);
1664
1665         } /* else ssc already has no posixes */
1666     } /* else: Not inverted.  This routine is a no-op if 'and_with' is an SSC
1667          in its initial state */
1668     else if (! is_ANYOF_SYNTHETIC(and_with)
1669              || ! ssc_is_cp_posixl_init(pRExC_state, (regnode_ssc *)and_with))
1670     {
1671         /* But if 'ssc' is in its initial state, the result is just 'and_with';
1672          * copy it over 'ssc' */
1673         if (ssc_is_cp_posixl_init(pRExC_state, ssc)) {
1674             if (is_ANYOF_SYNTHETIC(and_with)) {
1675                 StructCopy(and_with, ssc, regnode_ssc);
1676             }
1677             else {
1678                 ssc->invlist = anded_cp_list;
1679                 ANYOF_POSIXL_ZERO(ssc);
1680                 if (ANYOF_FLAGS(and_with) & ANYOF_MATCHES_POSIXL) {
1681                     ANYOF_POSIXL_OR((regnode_charclass_posixl*) and_with, ssc);
1682                 }
1683             }
1684         }
1685         else if (ANYOF_POSIXL_SSC_TEST_ANY_SET(ssc)
1686                  || (ANYOF_FLAGS(and_with) & ANYOF_MATCHES_POSIXL))
1687         {
1688             /* One or the other of P1, P2 is non-empty. */
1689             if (ANYOF_FLAGS(and_with) & ANYOF_MATCHES_POSIXL) {
1690                 ANYOF_POSIXL_AND((regnode_charclass_posixl*) and_with, ssc);
1691             }
1692             ssc_union(ssc, anded_cp_list, FALSE);
1693         }
1694         else { /* P1 = P2 = empty */
1695             ssc_intersection(ssc, anded_cp_list, FALSE);
1696         }
1697     }
1698 }
1699
1700 STATIC void
1701 S_ssc_or(pTHX_ const RExC_state_t *pRExC_state, regnode_ssc *ssc,
1702                const regnode_charclass *or_with)
1703 {
1704     /* Accumulate into SSC 'ssc' its 'OR' with 'or_with', which is either
1705      * another SSC or a regular ANYOF class.  Can create false positives if
1706      * 'or_with' is to be inverted. */
1707
1708     SV* ored_cp_list;
1709     U8 ored_flags;
1710
1711     PERL_ARGS_ASSERT_SSC_OR;
1712
1713     assert(is_ANYOF_SYNTHETIC(ssc));
1714
1715     /* 'or_with' is used as-is if it too is an SSC; otherwise have to extract
1716      * the code point inversion list and just the relevant flags */
1717     if (is_ANYOF_SYNTHETIC(or_with)) {
1718         ored_cp_list = ((regnode_ssc*) or_with)->invlist;
1719         ored_flags = ANYOF_FLAGS(or_with);
1720     }
1721     else {
1722         ored_cp_list = get_ANYOF_cp_list_for_ssc(pRExC_state, or_with);
1723         ored_flags = ANYOF_FLAGS(or_with) & ANYOF_COMMON_FLAGS;
1724         if (OP(or_with) != ANYOFD) {
1725             ored_flags
1726             |= ANYOF_FLAGS(or_with)
1727              & ( ANYOF_SHARED_d_MATCHES_ALL_NON_UTF8_NON_ASCII_non_d_WARN_SUPER
1728                 |ANYOF_SHARED_d_UPPER_LATIN1_UTF8_STRING_MATCHES_non_d_RUNTIME_USER_PROP);
1729             if (ANYOFL_UTF8_LOCALE_REQD(ANYOF_FLAGS(or_with))) {
1730                 ored_flags |=
1731                     ANYOFL_SHARED_UTF8_LOCALE_fold_HAS_MATCHES_nonfold_REQD;
1732             }
1733         }
1734     }
1735
1736     ANYOF_FLAGS(ssc) |= ored_flags;
1737
1738     /* Below, C1 is the list of code points in 'ssc'; P1, its posix classes.
1739      * C2 is the list of code points in 'or-with'; P2, its posix classes.
1740      * 'or_with' may be inverted.  When not inverted, we have the simple
1741      * situation of computing:
1742      *  (C1 | P1) | (C2 | P2)  =  (C1 | C2) | (P1 | P2)
1743      * If P1|P2 yields a situation with both a class and its complement are
1744      * set, like having both \w and \W, this matches all code points, and we
1745      * can delete these from the P component of the ssc going forward.  XXX We
1746      * might be able to delete all the P components, but I (khw) am not certain
1747      * about this, and it is better to be safe.
1748      *
1749      * Inverted, we have
1750      *  (C1 | P1) | ~(C2 | P2)  =  (C1 | P1) | (~C2 & ~P2)
1751      *                         <=  (C1 | P1) | ~C2
1752      *                         <=  (C1 | ~C2) | P1
1753      * (which results in actually simpler code than the non-inverted case)
1754      * */
1755
1756     if ((ANYOF_FLAGS(or_with) & ANYOF_INVERT)
1757         && ! is_ANYOF_SYNTHETIC(or_with))
1758     {
1759         /* We ignore P2, leaving P1 going forward */
1760     }   /* else  Not inverted */
1761     else if (ANYOF_FLAGS(or_with) & ANYOF_MATCHES_POSIXL) {
1762         ANYOF_POSIXL_OR((regnode_charclass_posixl*)or_with, ssc);
1763         if (ANYOF_POSIXL_SSC_TEST_ANY_SET(ssc)) {
1764             unsigned int i;
1765             for (i = 0; i < ANYOF_MAX; i += 2) {
1766                 if (ANYOF_POSIXL_TEST(ssc, i) && ANYOF_POSIXL_TEST(ssc, i + 1))
1767                 {
1768                     ssc_match_all_cp(ssc);
1769                     ANYOF_POSIXL_CLEAR(ssc, i);
1770                     ANYOF_POSIXL_CLEAR(ssc, i+1);
1771                 }
1772             }
1773         }
1774     }
1775
1776     ssc_union(ssc,
1777               ored_cp_list,
1778               FALSE /* Already has been inverted */
1779               );
1780 }
1781
1782 PERL_STATIC_INLINE void
1783 S_ssc_union(pTHX_ regnode_ssc *ssc, SV* const invlist, const bool invert2nd)
1784 {
1785     PERL_ARGS_ASSERT_SSC_UNION;
1786
1787     assert(is_ANYOF_SYNTHETIC(ssc));
1788
1789     _invlist_union_maybe_complement_2nd(ssc->invlist,
1790                                         invlist,
1791                                         invert2nd,
1792                                         &ssc->invlist);
1793 }
1794
1795 PERL_STATIC_INLINE void
1796 S_ssc_intersection(pTHX_ regnode_ssc *ssc,
1797                          SV* const invlist,
1798                          const bool invert2nd)
1799 {
1800     PERL_ARGS_ASSERT_SSC_INTERSECTION;
1801
1802     assert(is_ANYOF_SYNTHETIC(ssc));
1803
1804     _invlist_intersection_maybe_complement_2nd(ssc->invlist,
1805                                                invlist,
1806                                                invert2nd,
1807                                                &ssc->invlist);
1808 }
1809
1810 PERL_STATIC_INLINE void
1811 S_ssc_add_range(pTHX_ regnode_ssc *ssc, const UV start, const UV end)
1812 {
1813     PERL_ARGS_ASSERT_SSC_ADD_RANGE;
1814
1815     assert(is_ANYOF_SYNTHETIC(ssc));
1816
1817     ssc->invlist = _add_range_to_invlist(ssc->invlist, start, end);
1818 }
1819
1820 PERL_STATIC_INLINE void
1821 S_ssc_cp_and(pTHX_ regnode_ssc *ssc, const UV cp)
1822 {
1823     /* AND just the single code point 'cp' into the SSC 'ssc' */
1824
1825     SV* cp_list = _new_invlist(2);
1826
1827     PERL_ARGS_ASSERT_SSC_CP_AND;
1828
1829     assert(is_ANYOF_SYNTHETIC(ssc));
1830
1831     cp_list = add_cp_to_invlist(cp_list, cp);
1832     ssc_intersection(ssc, cp_list,
1833                      FALSE /* Not inverted */
1834                      );
1835     SvREFCNT_dec_NN(cp_list);
1836 }
1837
1838 PERL_STATIC_INLINE void
1839 S_ssc_clear_locale(regnode_ssc *ssc)
1840 {
1841     /* Set the SSC 'ssc' to not match any locale things */
1842     PERL_ARGS_ASSERT_SSC_CLEAR_LOCALE;
1843
1844     assert(is_ANYOF_SYNTHETIC(ssc));
1845
1846     ANYOF_POSIXL_ZERO(ssc);
1847     ANYOF_FLAGS(ssc) &= ~ANYOF_LOCALE_FLAGS;
1848 }
1849
1850 #define NON_OTHER_COUNT   NON_OTHER_COUNT_FOR_USE_ONLY_BY_REGCOMP_DOT_C
1851
1852 STATIC bool
1853 S_is_ssc_worth_it(const RExC_state_t * pRExC_state, const regnode_ssc * ssc)
1854 {
1855     /* The synthetic start class is used to hopefully quickly winnow down
1856      * places where a pattern could start a match in the target string.  If it
1857      * doesn't really narrow things down that much, there isn't much point to
1858      * having the overhead of using it.  This function uses some very crude
1859      * heuristics to decide if to use the ssc or not.
1860      *
1861      * It returns TRUE if 'ssc' rules out more than half what it considers to
1862      * be the "likely" possible matches, but of course it doesn't know what the
1863      * actual things being matched are going to be; these are only guesses
1864      *
1865      * For /l matches, it assumes that the only likely matches are going to be
1866      *      in the 0-255 range, uniformly distributed, so half of that is 127
1867      * For /a and /d matches, it assumes that the likely matches will be just
1868      *      the ASCII range, so half of that is 63
1869      * For /u and there isn't anything matching above the Latin1 range, it
1870      *      assumes that that is the only range likely to be matched, and uses
1871      *      half that as the cut-off: 127.  If anything matches above Latin1,
1872      *      it assumes that all of Unicode could match (uniformly), except for
1873      *      non-Unicode code points and things in the General Category "Other"
1874      *      (unassigned, private use, surrogates, controls and formats).  This
1875      *      is a much large number. */
1876
1877     U32 count = 0;      /* Running total of number of code points matched by
1878                            'ssc' */
1879     UV start, end;      /* Start and end points of current range in inversion
1880                            list */
1881     const U32 max_code_points = (LOC)
1882                                 ?  256
1883                                 : ((   ! UNI_SEMANTICS
1884                                      || invlist_highest(ssc->invlist) < 256)
1885                                   ? 128
1886                                   : NON_OTHER_COUNT);
1887     const U32 max_match = max_code_points / 2;
1888
1889     PERL_ARGS_ASSERT_IS_SSC_WORTH_IT;
1890
1891     invlist_iterinit(ssc->invlist);
1892     while (invlist_iternext(ssc->invlist, &start, &end)) {
1893         if (start >= max_code_points) {
1894             break;
1895         }
1896         end = MIN(end, max_code_points - 1);
1897         count += end - start + 1;
1898         if (count >= max_match) {
1899             invlist_iterfinish(ssc->invlist);
1900             return FALSE;
1901         }
1902     }
1903
1904     return TRUE;
1905 }
1906
1907
1908 STATIC void
1909 S_ssc_finalize(pTHX_ RExC_state_t *pRExC_state, regnode_ssc *ssc)
1910 {
1911     /* The inversion list in the SSC is marked mortal; now we need a more
1912      * permanent copy, which is stored the same way that is done in a regular
1913      * ANYOF node, with the first NUM_ANYOF_CODE_POINTS code points in a bit
1914      * map */
1915
1916     SV* invlist = invlist_clone(ssc->invlist);
1917
1918     PERL_ARGS_ASSERT_SSC_FINALIZE;
1919
1920     assert(is_ANYOF_SYNTHETIC(ssc));
1921
1922     /* The code in this file assumes that all but these flags aren't relevant
1923      * to the SSC, except SSC_MATCHES_EMPTY_STRING, which should be cleared
1924      * by the time we reach here */
1925     assert(! (ANYOF_FLAGS(ssc)
1926         & ~( ANYOF_COMMON_FLAGS
1927             |ANYOF_SHARED_d_MATCHES_ALL_NON_UTF8_NON_ASCII_non_d_WARN_SUPER
1928             |ANYOF_SHARED_d_UPPER_LATIN1_UTF8_STRING_MATCHES_non_d_RUNTIME_USER_PROP)));
1929
1930     populate_ANYOF_from_invlist( (regnode *) ssc, &invlist);
1931
1932     set_ANYOF_arg(pRExC_state, (regnode *) ssc, invlist,
1933                                 NULL, NULL, NULL, FALSE);
1934
1935     /* Make sure is clone-safe */
1936     ssc->invlist = NULL;
1937
1938     if (ANYOF_POSIXL_SSC_TEST_ANY_SET(ssc)) {
1939         ANYOF_FLAGS(ssc) |= ANYOF_MATCHES_POSIXL;
1940     }
1941
1942     if (RExC_contains_locale) {
1943         OP(ssc) = ANYOFL;
1944     }
1945
1946     assert(! (ANYOF_FLAGS(ssc) & ANYOF_LOCALE_FLAGS) || RExC_contains_locale);
1947 }
1948
1949 #define TRIE_LIST_ITEM(state,idx) (trie->states[state].trans.list)[ idx ]
1950 #define TRIE_LIST_CUR(state)  ( TRIE_LIST_ITEM( state, 0 ).forid )
1951 #define TRIE_LIST_LEN(state) ( TRIE_LIST_ITEM( state, 0 ).newstate )
1952 #define TRIE_LIST_USED(idx)  ( trie->states[state].trans.list         \
1953                                ? (TRIE_LIST_CUR( idx ) - 1)           \
1954                                : 0 )
1955
1956
1957 #ifdef DEBUGGING
1958 /*
1959    dump_trie(trie,widecharmap,revcharmap)
1960    dump_trie_interim_list(trie,widecharmap,revcharmap,next_alloc)
1961    dump_trie_interim_table(trie,widecharmap,revcharmap,next_alloc)
1962
1963    These routines dump out a trie in a somewhat readable format.
1964    The _interim_ variants are used for debugging the interim
1965    tables that are used to generate the final compressed
1966    representation which is what dump_trie expects.
1967
1968    Part of the reason for their existence is to provide a form
1969    of documentation as to how the different representations function.
1970
1971 */
1972
1973 /*
1974   Dumps the final compressed table form of the trie to Perl_debug_log.
1975   Used for debugging make_trie().
1976 */
1977
1978 STATIC void
1979 S_dump_trie(pTHX_ const struct _reg_trie_data *trie, HV *widecharmap,
1980             AV *revcharmap, U32 depth)
1981 {
1982     U32 state;
1983     SV *sv=sv_newmortal();
1984     int colwidth= widecharmap ? 6 : 4;
1985     U16 word;
1986     GET_RE_DEBUG_FLAGS_DECL;
1987
1988     PERL_ARGS_ASSERT_DUMP_TRIE;
1989
1990     Perl_re_indentf( aTHX_  "Char : %-6s%-6s%-4s ",
1991         depth+1, "Match","Base","Ofs" );
1992
1993     for( state = 0 ; state < trie->uniquecharcount ; state++ ) {
1994         SV ** const tmp = av_fetch( revcharmap, state, 0);
1995         if ( tmp ) {
1996             Perl_re_printf( aTHX_  "%*s",
1997                 colwidth,
1998                 pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), colwidth,
1999                             PL_colors[0], PL_colors[1],
2000                             (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0) |
2001                             PERL_PV_ESCAPE_FIRSTCHAR
2002                 )
2003             );
2004         }
2005     }
2006     Perl_re_printf( aTHX_  "\n");
2007     Perl_re_indentf( aTHX_ "State|-----------------------", depth+1);
2008
2009     for( state = 0 ; state < trie->uniquecharcount ; state++ )
2010         Perl_re_printf( aTHX_  "%.*s", colwidth, "--------");
2011     Perl_re_printf( aTHX_  "\n");
2012
2013     for( state = 1 ; state < trie->statecount ; state++ ) {
2014         const U32 base = trie->states[ state ].trans.base;
2015
2016         Perl_re_indentf( aTHX_  "#%4" UVXf "|", depth+1, (UV)state);
2017
2018         if ( trie->states[ state ].wordnum ) {
2019             Perl_re_printf( aTHX_  " W%4X", trie->states[ state ].wordnum );
2020         } else {
2021             Perl_re_printf( aTHX_  "%6s", "" );
2022         }
2023
2024         Perl_re_printf( aTHX_  " @%4" UVXf " ", (UV)base );
2025
2026         if ( base ) {
2027             U32 ofs = 0;
2028
2029             while( ( base + ofs  < trie->uniquecharcount ) ||
2030                    ( base + ofs - trie->uniquecharcount < trie->lasttrans
2031                      && trie->trans[ base + ofs - trie->uniquecharcount ].check
2032                                                                     != state))
2033                     ofs++;
2034
2035             Perl_re_printf( aTHX_  "+%2" UVXf "[ ", (UV)ofs);
2036
2037             for ( ofs = 0 ; ofs < trie->uniquecharcount ; ofs++ ) {
2038                 if ( ( base + ofs >= trie->uniquecharcount )
2039                         && ( base + ofs - trie->uniquecharcount
2040                                                         < trie->lasttrans )
2041                         && trie->trans[ base + ofs
2042                                     - trie->uniquecharcount ].check == state )
2043                 {
2044                    Perl_re_printf( aTHX_  "%*" UVXf, colwidth,
2045                     (UV)trie->trans[ base + ofs - trie->uniquecharcount ].next
2046                    );
2047                 } else {
2048                     Perl_re_printf( aTHX_  "%*s",colwidth,"   ." );
2049                 }
2050             }
2051
2052             Perl_re_printf( aTHX_  "]");
2053
2054         }
2055         Perl_re_printf( aTHX_  "\n" );
2056     }
2057     Perl_re_indentf( aTHX_  "word_info N:(prev,len)=",
2058                                 depth);
2059     for (word=1; word <= trie->wordcount; word++) {
2060         Perl_re_printf( aTHX_  " %d:(%d,%d)",
2061             (int)word, (int)(trie->wordinfo[word].prev),
2062             (int)(trie->wordinfo[word].len));
2063     }
2064     Perl_re_printf( aTHX_  "\n" );
2065 }
2066 /*
2067   Dumps a fully constructed but uncompressed trie in list form.
2068   List tries normally only are used for construction when the number of
2069   possible chars (trie->uniquecharcount) is very high.
2070   Used for debugging make_trie().
2071 */
2072 STATIC void
2073 S_dump_trie_interim_list(pTHX_ const struct _reg_trie_data *trie,
2074                          HV *widecharmap, AV *revcharmap, U32 next_alloc,
2075                          U32 depth)
2076 {
2077     U32 state;
2078     SV *sv=sv_newmortal();
2079     int colwidth= widecharmap ? 6 : 4;
2080     GET_RE_DEBUG_FLAGS_DECL;
2081
2082     PERL_ARGS_ASSERT_DUMP_TRIE_INTERIM_LIST;
2083
2084     /* print out the table precompression.  */
2085     Perl_re_indentf( aTHX_  "State :Word | Transition Data\n",
2086             depth+1 );
2087     Perl_re_indentf( aTHX_  "%s",
2088             depth+1, "------:-----+-----------------\n" );
2089
2090     for( state=1 ; state < next_alloc ; state ++ ) {
2091         U16 charid;
2092
2093         Perl_re_indentf( aTHX_  " %4" UVXf " :",
2094             depth+1, (UV)state  );
2095         if ( ! trie->states[ state ].wordnum ) {
2096             Perl_re_printf( aTHX_  "%5s| ","");
2097         } else {
2098             Perl_re_printf( aTHX_  "W%4x| ",
2099                 trie->states[ state ].wordnum
2100             );
2101         }
2102         for( charid = 1 ; charid <= TRIE_LIST_USED( state ) ; charid++ ) {
2103             SV ** const tmp = av_fetch( revcharmap,
2104                                         TRIE_LIST_ITEM(state,charid).forid, 0);
2105             if ( tmp ) {
2106                 Perl_re_printf( aTHX_  "%*s:%3X=%4" UVXf " | ",
2107                     colwidth,
2108                     pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp),
2109                               colwidth,
2110                               PL_colors[0], PL_colors[1],
2111                               (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0)
2112                               | PERL_PV_ESCAPE_FIRSTCHAR
2113                     ) ,
2114                     TRIE_LIST_ITEM(state,charid).forid,
2115                     (UV)TRIE_LIST_ITEM(state,charid).newstate
2116                 );
2117                 if (!(charid % 10))
2118                     Perl_re_printf( aTHX_  "\n%*s| ",
2119                         (int)((depth * 2) + 14), "");
2120             }
2121         }
2122         Perl_re_printf( aTHX_  "\n");
2123     }
2124 }
2125
2126 /*
2127   Dumps a fully constructed but uncompressed trie in table form.
2128   This is the normal DFA style state transition table, with a few
2129   twists to facilitate compression later.
2130   Used for debugging make_trie().
2131 */
2132 STATIC void
2133 S_dump_trie_interim_table(pTHX_ const struct _reg_trie_data *trie,
2134                           HV *widecharmap, AV *revcharmap, U32 next_alloc,
2135                           U32 depth)
2136 {
2137     U32 state;
2138     U16 charid;
2139     SV *sv=sv_newmortal();
2140     int colwidth= widecharmap ? 6 : 4;
2141     GET_RE_DEBUG_FLAGS_DECL;
2142
2143     PERL_ARGS_ASSERT_DUMP_TRIE_INTERIM_TABLE;
2144
2145     /*
2146        print out the table precompression so that we can do a visual check
2147        that they are identical.
2148      */
2149
2150     Perl_re_indentf( aTHX_  "Char : ", depth+1 );
2151
2152     for( charid = 0 ; charid < trie->uniquecharcount ; charid++ ) {
2153         SV ** const tmp = av_fetch( revcharmap, charid, 0);
2154         if ( tmp ) {
2155             Perl_re_printf( aTHX_  "%*s",
2156                 colwidth,
2157                 pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), colwidth,
2158                             PL_colors[0], PL_colors[1],
2159                             (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0) |
2160                             PERL_PV_ESCAPE_FIRSTCHAR
2161                 )
2162             );
2163         }
2164     }
2165
2166     Perl_re_printf( aTHX_ "\n");
2167     Perl_re_indentf( aTHX_  "State+-", depth+1 );
2168
2169     for( charid=0 ; charid < trie->uniquecharcount ; charid++ ) {
2170         Perl_re_printf( aTHX_  "%.*s", colwidth,"--------");
2171     }
2172
2173     Perl_re_printf( aTHX_  "\n" );
2174
2175     for( state=1 ; state < next_alloc ; state += trie->uniquecharcount ) {
2176
2177         Perl_re_indentf( aTHX_  "%4" UVXf " : ",
2178             depth+1,
2179             (UV)TRIE_NODENUM( state ) );
2180
2181         for( charid = 0 ; charid < trie->uniquecharcount ; charid++ ) {
2182             UV v=(UV)SAFE_TRIE_NODENUM( trie->trans[ state + charid ].next );
2183             if (v)
2184                 Perl_re_printf( aTHX_  "%*" UVXf, colwidth, v );
2185             else
2186                 Perl_re_printf( aTHX_  "%*s", colwidth, "." );
2187         }
2188         if ( ! trie->states[ TRIE_NODENUM( state ) ].wordnum ) {
2189             Perl_re_printf( aTHX_  " (%4" UVXf ")\n",
2190                                             (UV)trie->trans[ state ].check );
2191         } else {
2192             Perl_re_printf( aTHX_  " (%4" UVXf ") W%4X\n",
2193                                             (UV)trie->trans[ state ].check,
2194             trie->states[ TRIE_NODENUM( state ) ].wordnum );
2195         }
2196     }
2197 }
2198
2199 #endif
2200
2201
2202 /* make_trie(startbranch,first,last,tail,word_count,flags,depth)
2203   startbranch: the first branch in the whole branch sequence
2204   first      : start branch of sequence of branch-exact nodes.
2205                May be the same as startbranch
2206   last       : Thing following the last branch.
2207                May be the same as tail.
2208   tail       : item following the branch sequence
2209   count      : words in the sequence
2210   flags      : currently the OP() type we will be building one of /EXACT(|F|FA|FU|FU_SS|L|FLU8)/
2211   depth      : indent depth
2212
2213 Inplace optimizes a sequence of 2 or more Branch-Exact nodes into a TRIE node.
2214
2215 A trie is an N'ary tree where the branches are determined by digital
2216 decomposition of the key. IE, at the root node you look up the 1st character and
2217 follow that branch repeat until you find the end of the branches. Nodes can be
2218 marked as "accepting" meaning they represent a complete word. Eg:
2219
2220   /he|she|his|hers/
2221
2222 would convert into the following structure. Numbers represent states, letters
2223 following numbers represent valid transitions on the letter from that state, if
2224 the number is in square brackets it represents an accepting state, otherwise it
2225 will be in parenthesis.
2226
2227       +-h->+-e->[3]-+-r->(8)-+-s->[9]
2228       |    |
2229       |   (2)
2230       |    |
2231      (1)   +-i->(6)-+-s->[7]
2232       |
2233       +-s->(3)-+-h->(4)-+-e->[5]
2234
2235       Accept Word Mapping: 3=>1 (he),5=>2 (she), 7=>3 (his), 9=>4 (hers)
2236
2237 This shows that when matching against the string 'hers' we will begin at state 1
2238 read 'h' and move to state 2, read 'e' and move to state 3 which is accepting,
2239 then read 'r' and go to state 8 followed by 's' which takes us to state 9 which
2240 is also accepting. Thus we know that we can match both 'he' and 'hers' with a
2241 single traverse. We store a mapping from accepting to state to which word was
2242 matched, and then when we have multiple possibilities we try to complete the
2243 rest of the regex in the order in which they occurred in the alternation.
2244
2245 The only prior NFA like behaviour that would be changed by the TRIE support is
2246 the silent ignoring of duplicate alternations which are of the form:
2247
2248  / (DUPE|DUPE) X? (?{ ... }) Y /x
2249
2250 Thus EVAL blocks following a trie may be called a different number of times with
2251 and without the optimisation. With the optimisations dupes will be silently
2252 ignored. This inconsistent behaviour of EVAL type nodes is well established as
2253 the following demonstrates:
2254
2255  'words'=~/(word|word|word)(?{ print $1 })[xyz]/
2256
2257 which prints out 'word' three times, but
2258
2259  'words'=~/(word|word|word)(?{ print $1 })S/
2260
2261 which doesnt print it out at all. This is due to other optimisations kicking in.
2262
2263 Example of what happens on a structural level:
2264
2265 The regexp /(ac|ad|ab)+/ will produce the following debug output:
2266
2267    1: CURLYM[1] {1,32767}(18)
2268    5:   BRANCH(8)
2269    6:     EXACT <ac>(16)
2270    8:   BRANCH(11)
2271    9:     EXACT <ad>(16)
2272   11:   BRANCH(14)
2273   12:     EXACT <ab>(16)
2274   16:   SUCCEED(0)
2275   17:   NOTHING(18)
2276   18: END(0)
2277
2278 This would be optimizable with startbranch=5, first=5, last=16, tail=16
2279 and should turn into:
2280
2281    1: CURLYM[1] {1,32767}(18)
2282    5:   TRIE(16)
2283         [Words:3 Chars Stored:6 Unique Chars:4 States:5 NCP:1]
2284           <ac>
2285           <ad>
2286           <ab>
2287   16:   SUCCEED(0)
2288   17:   NOTHING(18)
2289   18: END(0)
2290
2291 Cases where tail != last would be like /(?foo|bar)baz/:
2292
2293    1: BRANCH(4)
2294    2:   EXACT <foo>(8)
2295    4: BRANCH(7)
2296    5:   EXACT <bar>(8)
2297    7: TAIL(8)
2298    8: EXACT <baz>(10)
2299   10: END(0)
2300
2301 which would be optimizable with startbranch=1, first=1, last=7, tail=8
2302 and would end up looking like:
2303
2304     1: TRIE(8)
2305       [Words:2 Chars Stored:6 Unique Chars:5 States:7 NCP:1]
2306         <foo>
2307         <bar>
2308    7: TAIL(8)
2309    8: EXACT <baz>(10)
2310   10: END(0)
2311
2312     d = uvchr_to_utf8_flags(d, uv, 0);
2313
2314 is the recommended Unicode-aware way of saying
2315
2316     *(d++) = uv;
2317 */
2318
2319 #define TRIE_STORE_REVCHAR(val)                                            \
2320     STMT_START {                                                           \
2321         if (UTF) {                                                         \
2322             SV *zlopp = newSV(UTF8_MAXBYTES);                              \
2323             unsigned char *flrbbbbb = (unsigned char *) SvPVX(zlopp);      \
2324             unsigned const char *const kapow = uvchr_to_utf8(flrbbbbb, val); \
2325             SvCUR_set(zlopp, kapow - flrbbbbb);                            \
2326             SvPOK_on(zlopp);                                               \
2327             SvUTF8_on(zlopp);                                              \
2328             av_push(revcharmap, zlopp);                                    \
2329         } else {                                                           \
2330             char ooooff = (char)val;                                           \
2331             av_push(revcharmap, newSVpvn(&ooooff, 1));                     \
2332         }                                                                  \
2333         } STMT_END
2334
2335 /* This gets the next character from the input, folding it if not already
2336  * folded. */
2337 #define TRIE_READ_CHAR STMT_START {                                           \
2338     wordlen++;                                                                \
2339     if ( UTF ) {                                                              \
2340         /* if it is UTF then it is either already folded, or does not need    \
2341          * folding */                                                         \
2342         uvc = valid_utf8_to_uvchr( (const U8*) uc, &len);                     \
2343     }                                                                         \
2344     else if (folder == PL_fold_latin1) {                                      \
2345         /* This folder implies Unicode rules, which in the range expressible  \
2346          *  by not UTF is the lower case, with the two exceptions, one of     \
2347          *  which should have been taken care of before calling this */       \
2348         assert(*uc != LATIN_SMALL_LETTER_SHARP_S);                            \
2349         uvc = toLOWER_L1(*uc);                                                \
2350         if (UNLIKELY(uvc == MICRO_SIGN)) uvc = GREEK_SMALL_LETTER_MU;         \
2351         len = 1;                                                              \
2352     } else {                                                                  \
2353         /* raw data, will be folded later if needed */                        \
2354         uvc = (U32)*uc;                                                       \
2355         len = 1;                                                              \
2356     }                                                                         \
2357 } STMT_END
2358
2359
2360
2361 #define TRIE_LIST_PUSH(state,fid,ns) STMT_START {               \
2362     if ( TRIE_LIST_CUR( state ) >=TRIE_LIST_LEN( state ) ) {    \
2363         U32 ging = TRIE_LIST_LEN( state ) *= 2;                 \
2364         Renew( trie->states[ state ].trans.list, ging, reg_trie_trans_le ); \
2365     }                                                           \
2366     TRIE_LIST_ITEM( state, TRIE_LIST_CUR( state ) ).forid = fid;     \
2367     TRIE_LIST_ITEM( state, TRIE_LIST_CUR( state ) ).newstate = ns;   \
2368     TRIE_LIST_CUR( state )++;                                   \
2369 } STMT_END
2370
2371 #define TRIE_LIST_NEW(state) STMT_START {                       \
2372     Newxz( trie->states[ state ].trans.list,               \
2373         4, reg_trie_trans_le );                                 \
2374      TRIE_LIST_CUR( state ) = 1;                                \
2375      TRIE_LIST_LEN( state ) = 4;                                \
2376 } STMT_END
2377
2378 #define TRIE_HANDLE_WORD(state) STMT_START {                    \
2379     U16 dupe= trie->states[ state ].wordnum;                    \
2380     regnode * const noper_next = regnext( noper );              \
2381                                                                 \
2382     DEBUG_r({                                                   \
2383         /* store the word for dumping */                        \
2384         SV* tmp;                                                \
2385         if (OP(noper) != NOTHING)                               \
2386             tmp = newSVpvn_utf8(STRING(noper), STR_LEN(noper), UTF);    \
2387         else                                                    \
2388             tmp = newSVpvn_utf8( "", 0, UTF );                  \
2389         av_push( trie_words, tmp );                             \
2390     });                                                         \
2391                                                                 \
2392     curword++;                                                  \
2393     trie->wordinfo[curword].prev   = 0;                         \
2394     trie->wordinfo[curword].len    = wordlen;                   \
2395     trie->wordinfo[curword].accept = state;                     \
2396                                                                 \
2397     if ( noper_next < tail ) {                                  \
2398         if (!trie->jump)                                        \
2399             trie->jump = (U16 *) PerlMemShared_calloc( word_count + 1, \
2400                                                  sizeof(U16) ); \
2401         trie->jump[curword] = (U16)(noper_next - convert);      \
2402         if (!jumper)                                            \
2403             jumper = noper_next;                                \
2404         if (!nextbranch)                                        \
2405             nextbranch= regnext(cur);                           \
2406     }                                                           \
2407                                                                 \
2408     if ( dupe ) {                                               \
2409         /* It's a dupe. Pre-insert into the wordinfo[].prev   */\
2410         /* chain, so that when the bits of chain are later    */\
2411         /* linked together, the dups appear in the chain      */\
2412         trie->wordinfo[curword].prev = trie->wordinfo[dupe].prev; \
2413         trie->wordinfo[dupe].prev = curword;                    \
2414     } else {                                                    \
2415         /* we haven't inserted this word yet.                */ \
2416         trie->states[ state ].wordnum = curword;                \
2417     }                                                           \
2418 } STMT_END
2419
2420
2421 #define TRIE_TRANS_STATE(state,base,ucharcount,charid,special)          \
2422      ( ( base + charid >=  ucharcount                                   \
2423          && base + charid < ubound                                      \
2424          && state == trie->trans[ base - ucharcount + charid ].check    \
2425          && trie->trans[ base - ucharcount + charid ].next )            \
2426            ? trie->trans[ base - ucharcount + charid ].next             \
2427            : ( state==1 ? special : 0 )                                 \
2428       )
2429
2430 #define TRIE_BITMAP_SET_FOLDED(trie, uvc, folder)           \
2431 STMT_START {                                                \
2432     TRIE_BITMAP_SET(trie, uvc);                             \
2433     /* store the folded codepoint */                        \
2434     if ( folder )                                           \
2435         TRIE_BITMAP_SET(trie, folder[(U8) uvc ]);           \
2436                                                             \
2437     if ( !UTF ) {                                           \
2438         /* store first byte of utf8 representation of */    \
2439         /* variant codepoints */                            \
2440         if (! UVCHR_IS_INVARIANT(uvc)) {                    \
2441             TRIE_BITMAP_SET(trie, UTF8_TWO_BYTE_HI(uvc));   \
2442         }                                                   \
2443     }                                                       \
2444 } STMT_END
2445 #define MADE_TRIE       1
2446 #define MADE_JUMP_TRIE  2
2447 #define MADE_EXACT_TRIE 4
2448
2449 STATIC I32
2450 S_make_trie(pTHX_ RExC_state_t *pRExC_state, regnode *startbranch,
2451                   regnode *first, regnode *last, regnode *tail,
2452                   U32 word_count, U32 flags, U32 depth)
2453 {
2454     /* first pass, loop through and scan words */
2455     reg_trie_data *trie;
2456     HV *widecharmap = NULL;
2457     AV *revcharmap = newAV();
2458     regnode *cur;
2459     STRLEN len = 0;
2460     UV uvc = 0;
2461     U16 curword = 0;
2462     U32 next_alloc = 0;
2463     regnode *jumper = NULL;
2464     regnode *nextbranch = NULL;
2465     regnode *convert = NULL;
2466     U32 *prev_states; /* temp array mapping each state to previous one */
2467     /* we just use folder as a flag in utf8 */
2468     const U8 * folder = NULL;
2469
2470 #ifdef DEBUGGING
2471     const U32 data_slot = add_data( pRExC_state, STR_WITH_LEN("tuuu"));
2472     AV *trie_words = NULL;
2473     /* along with revcharmap, this only used during construction but both are
2474      * useful during debugging so we store them in the struct when debugging.
2475      */
2476 #else
2477     const U32 data_slot = add_data( pRExC_state, STR_WITH_LEN("tu"));
2478     STRLEN trie_charcount=0;
2479 #endif
2480     SV *re_trie_maxbuff;
2481     GET_RE_DEBUG_FLAGS_DECL;
2482
2483     PERL_ARGS_ASSERT_MAKE_TRIE;
2484 #ifndef DEBUGGING
2485     PERL_UNUSED_ARG(depth);
2486 #endif
2487
2488     switch (flags) {
2489         case EXACT: case EXACTL: break;
2490         case EXACTFA:
2491         case EXACTFU_SS:
2492         case EXACTFU:
2493         case EXACTFLU8: folder = PL_fold_latin1; break;
2494         case EXACTF:  folder = PL_fold; break;
2495         default: Perl_croak( aTHX_ "panic! In trie construction, unknown node type %u %s", (unsigned) flags, PL_reg_name[flags] );
2496     }
2497
2498     trie = (reg_trie_data *) PerlMemShared_calloc( 1, sizeof(reg_trie_data) );
2499     trie->refcount = 1;
2500     trie->startstate = 1;
2501     trie->wordcount = word_count;
2502     RExC_rxi->data->data[ data_slot ] = (void*)trie;
2503     trie->charmap = (U16 *) PerlMemShared_calloc( 256, sizeof(U16) );
2504     if (flags == EXACT || flags == EXACTL)
2505         trie->bitmap = (char *) PerlMemShared_calloc( ANYOF_BITMAP_SIZE, 1 );
2506     trie->wordinfo = (reg_trie_wordinfo *) PerlMemShared_calloc(
2507                        trie->wordcount+1, sizeof(reg_trie_wordinfo));
2508
2509     DEBUG_r({
2510         trie_words = newAV();
2511     });
2512
2513     re_trie_maxbuff = get_sv(RE_TRIE_MAXBUF_NAME, 1);
2514     assert(re_trie_maxbuff);
2515     if (!SvIOK(re_trie_maxbuff)) {
2516         sv_setiv(re_trie_maxbuff, RE_TRIE_MAXBUF_INIT);
2517     }
2518     DEBUG_TRIE_COMPILE_r({
2519         Perl_re_indentf( aTHX_
2520           "make_trie start==%d, first==%d, last==%d, tail==%d depth=%d\n",
2521           depth+1,
2522           REG_NODE_NUM(startbranch),REG_NODE_NUM(first),
2523           REG_NODE_NUM(last), REG_NODE_NUM(tail), (int)depth);
2524     });
2525
2526    /* Find the node we are going to overwrite */
2527     if ( first == startbranch && OP( last ) != BRANCH ) {
2528         /* whole branch chain */
2529         convert = first;
2530     } else {
2531         /* branch sub-chain */
2532         convert = NEXTOPER( first );
2533     }
2534
2535     /*  -- First loop and Setup --
2536
2537        We first traverse the branches and scan each word to determine if it
2538        contains widechars, and how many unique chars there are, this is
2539        important as we have to build a table with at least as many columns as we
2540        have unique chars.
2541
2542        We use an array of integers to represent the character codes 0..255
2543        (trie->charmap) and we use a an HV* to store Unicode characters. We use
2544        the native representation of the character value as the key and IV's for
2545        the coded index.
2546
2547        *TODO* If we keep track of how many times each character is used we can
2548        remap the columns so that the table compression later on is more
2549        efficient in terms of memory by ensuring the most common value is in the
2550        middle and the least common are on the outside.  IMO this would be better
2551        than a most to least common mapping as theres a decent chance the most
2552        common letter will share a node with the least common, meaning the node
2553        will not be compressible. With a middle is most common approach the worst
2554        case is when we have the least common nodes twice.
2555
2556      */
2557
2558     for ( cur = first ; cur < last ; cur = regnext( cur ) ) {
2559         regnode *noper = NEXTOPER( cur );
2560         const U8 *uc;
2561         const U8 *e;
2562         int foldlen = 0;
2563         U32 wordlen      = 0;         /* required init */
2564         STRLEN minchars = 0;
2565         STRLEN maxchars = 0;
2566         bool set_bit = trie->bitmap ? 1 : 0; /*store the first char in the
2567                                                bitmap?*/
2568
2569         if (OP(noper) == NOTHING) {
2570             /* skip past a NOTHING at the start of an alternation
2571              * eg, /(?:)a|(?:b)/ should be the same as /a|b/
2572              */
2573             regnode *noper_next= regnext(noper);
2574             if (noper_next < tail)
2575                 noper= noper_next;
2576         }
2577
2578         if ( noper < tail &&
2579                 (
2580                     OP(noper) == flags ||
2581                     (
2582                         flags == EXACTFU &&
2583                         OP(noper) == EXACTFU_SS
2584                     )
2585                 )
2586         ) {
2587             uc= (U8*)STRING(noper);
2588             e= uc + STR_LEN(noper);
2589         } else {
2590             trie->minlen= 0;
2591             continue;
2592         }
2593
2594
2595         if ( set_bit ) { /* bitmap only alloced when !(UTF&&Folding) */
2596             TRIE_BITMAP_SET(trie,*uc); /* store the raw first byte
2597                                           regardless of encoding */
2598             if (OP( noper ) == EXACTFU_SS) {
2599                 /* false positives are ok, so just set this */
2600                 TRIE_BITMAP_SET(trie, LATIN_SMALL_LETTER_SHARP_S);
2601             }
2602         }
2603
2604         for ( ; uc < e ; uc += len ) {  /* Look at each char in the current
2605                                            branch */
2606             TRIE_CHARCOUNT(trie)++;
2607             TRIE_READ_CHAR;
2608
2609             /* TRIE_READ_CHAR returns the current character, or its fold if /i
2610              * is in effect.  Under /i, this character can match itself, or
2611              * anything that folds to it.  If not under /i, it can match just
2612              * itself.  Most folds are 1-1, for example k, K, and KELVIN SIGN
2613              * all fold to k, and all are single characters.   But some folds
2614              * expand to more than one character, so for example LATIN SMALL
2615              * LIGATURE FFI folds to the three character sequence 'ffi'.  If
2616              * the string beginning at 'uc' is 'ffi', it could be matched by
2617              * three characters, or just by the one ligature character. (It
2618              * could also be matched by two characters: LATIN SMALL LIGATURE FF
2619              * followed by 'i', or by 'f' followed by LATIN SMALL LIGATURE FI).
2620              * (Of course 'I' and/or 'F' instead of 'i' and 'f' can also
2621              * match.)  The trie needs to know the minimum and maximum number
2622              * of characters that could match so that it can use size alone to
2623              * quickly reject many match attempts.  The max is simple: it is
2624              * the number of folded characters in this branch (since a fold is
2625              * never shorter than what folds to it. */
2626
2627             maxchars++;
2628
2629             /* And the min is equal to the max if not under /i (indicated by
2630              * 'folder' being NULL), or there are no multi-character folds.  If
2631              * there is a multi-character fold, the min is incremented just
2632              * once, for the character that folds to the sequence.  Each
2633              * character in the sequence needs to be added to the list below of
2634              * characters in the trie, but we count only the first towards the
2635              * min number of characters needed.  This is done through the
2636              * variable 'foldlen', which is returned by the macros that look
2637              * for these sequences as the number of bytes the sequence
2638              * occupies.  Each time through the loop, we decrement 'foldlen' by
2639              * how many bytes the current char occupies.  Only when it reaches
2640              * 0 do we increment 'minchars' or look for another multi-character
2641              * sequence. */
2642             if (folder == NULL) {
2643                 minchars++;
2644             }
2645             else if (foldlen > 0) {
2646                 foldlen -= (UTF) ? UTF8SKIP(uc) : 1;
2647             }
2648             else {
2649                 minchars++;
2650
2651                 /* See if *uc is the beginning of a multi-character fold.  If
2652                  * so, we decrement the length remaining to look at, to account
2653                  * for the current character this iteration.  (We can use 'uc'
2654                  * instead of the fold returned by TRIE_READ_CHAR because for
2655                  * non-UTF, the latin1_safe macro is smart enough to account
2656                  * for all the unfolded characters, and because for UTF, the
2657                  * string will already have been folded earlier in the
2658                  * compilation process */
2659                 if (UTF) {
2660                     if ((foldlen = is_MULTI_CHAR_FOLD_utf8_safe(uc, e))) {
2661                         foldlen -= UTF8SKIP(uc);
2662                     }
2663                 }
2664                 else if ((foldlen = is_MULTI_CHAR_FOLD_latin1_safe(uc, e))) {
2665                     foldlen--;
2666                 }
2667             }
2668
2669             /* The current character (and any potential folds) should be added
2670              * to the possible matching characters for this position in this
2671              * branch */
2672             if ( uvc < 256 ) {
2673                 if ( folder ) {
2674                     U8 folded= folder[ (U8) uvc ];
2675                     if ( !trie->charmap[ folded ] ) {
2676                         trie->charmap[ folded ]=( ++trie->uniquecharcount );
2677                         TRIE_STORE_REVCHAR( folded );
2678                     }
2679                 }
2680                 if ( !trie->charmap[ uvc ] ) {
2681                     trie->charmap[ uvc ]=( ++trie->uniquecharcount );
2682                     TRIE_STORE_REVCHAR( uvc );
2683                 }
2684                 if ( set_bit ) {
2685                     /* store the codepoint in the bitmap, and its folded
2686                      * equivalent. */
2687                     TRIE_BITMAP_SET_FOLDED(trie, uvc, folder);
2688                     set_bit = 0; /* We've done our bit :-) */
2689                 }
2690             } else {
2691
2692                 /* XXX We could come up with the list of code points that fold
2693                  * to this using PL_utf8_foldclosures, except not for
2694                  * multi-char folds, as there may be multiple combinations
2695                  * there that could work, which needs to wait until runtime to
2696                  * resolve (The comment about LIGATURE FFI above is such an
2697                  * example */
2698
2699                 SV** svpp;
2700                 if ( !widecharmap )
2701                     widecharmap = newHV();
2702
2703                 svpp = hv_fetch( widecharmap, (char*)&uvc, sizeof( UV ), 1 );
2704
2705                 if ( !svpp )
2706                     Perl_croak( aTHX_ "error creating/fetching widecharmap entry for 0x%" UVXf, uvc );
2707
2708                 if ( !SvTRUE( *svpp ) ) {
2709                     sv_setiv( *svpp, ++trie->uniquecharcount );
2710                     TRIE_STORE_REVCHAR(uvc);
2711                 }
2712             }
2713         } /* end loop through characters in this branch of the trie */
2714
2715         /* We take the min and max for this branch and combine to find the min
2716          * and max for all branches processed so far */
2717         if( cur == first ) {
2718             trie->minlen = minchars;
2719             trie->maxlen = maxchars;
2720         } else if (minchars < trie->minlen) {
2721             trie->minlen = minchars;
2722         } else if (maxchars > trie->maxlen) {
2723             trie->maxlen = maxchars;
2724         }
2725     } /* end first pass */
2726     DEBUG_TRIE_COMPILE_r(
2727         Perl_re_indentf( aTHX_
2728                 "TRIE(%s): W:%d C:%d Uq:%d Min:%d Max:%d\n",
2729                 depth+1,
2730                 ( widecharmap ? "UTF8" : "NATIVE" ), (int)word_count,
2731                 (int)TRIE_CHARCOUNT(trie), trie->uniquecharcount,
2732                 (int)trie->minlen, (int)trie->maxlen )
2733     );
2734
2735     /*
2736         We now know what we are dealing with in terms of unique chars and
2737         string sizes so we can calculate how much memory a naive
2738         representation using a flat table  will take. If it's over a reasonable
2739         limit (as specified by ${^RE_TRIE_MAXBUF}) we use a more memory
2740         conservative but potentially much slower representation using an array
2741         of lists.
2742
2743         At the end we convert both representations into the same compressed
2744         form that will be used in regexec.c for matching with. The latter
2745         is a form that cannot be used to construct with but has memory
2746         properties similar to the list form and access properties similar
2747         to the table form making it both suitable for fast searches and
2748         small enough that its feasable to store for the duration of a program.
2749
2750         See the comment in the code where the compressed table is produced
2751         inplace from the flat tabe representation for an explanation of how
2752         the compression works.
2753
2754     */
2755
2756
2757     Newx(prev_states, TRIE_CHARCOUNT(trie) + 2, U32);
2758     prev_states[1] = 0;
2759
2760     if ( (IV)( ( TRIE_CHARCOUNT(trie) + 1 ) * trie->uniquecharcount + 1)
2761                                                     > SvIV(re_trie_maxbuff) )
2762     {
2763         /*
2764             Second Pass -- Array Of Lists Representation
2765
2766             Each state will be represented by a list of charid:state records
2767             (reg_trie_trans_le) the first such element holds the CUR and LEN
2768             points of the allocated array. (See defines above).
2769
2770             We build the initial structure using the lists, and then convert
2771             it into the compressed table form which allows faster lookups
2772             (but cant be modified once converted).
2773         */
2774
2775         STRLEN transcount = 1;
2776
2777         DEBUG_TRIE_COMPILE_MORE_r( Perl_re_indentf( aTHX_  "Compiling trie using list compiler\n",
2778             depth+1));
2779
2780         trie->states = (reg_trie_state *)
2781             PerlMemShared_calloc( TRIE_CHARCOUNT(trie) + 2,
2782                                   sizeof(reg_trie_state) );
2783         TRIE_LIST_NEW(1);
2784         next_alloc = 2;
2785
2786         for ( cur = first ; cur < last ; cur = regnext( cur ) ) {
2787
2788             regnode *noper   = NEXTOPER( cur );
2789             U32 state        = 1;         /* required init */
2790             U16 charid       = 0;         /* sanity init */
2791             U32 wordlen      = 0;         /* required init */
2792
2793             if (OP(noper) == NOTHING) {
2794                 regnode *noper_next= regnext(noper);
2795                 if (noper_next < tail)
2796                     noper= noper_next;
2797             }
2798
2799             if ( noper < tail && ( OP(noper) == flags || ( flags == EXACTFU && OP(noper) == EXACTFU_SS ) ) ) {
2800                 const U8 *uc= (U8*)STRING(noper);
2801                 const U8 *e= uc + STR_LEN(noper);
2802
2803                 for ( ; uc < e ; uc += len ) {
2804
2805                     TRIE_READ_CHAR;
2806
2807                     if ( uvc < 256 ) {
2808                         charid = trie->charmap[ uvc ];
2809                     } else {
2810                         SV** const svpp = hv_fetch( widecharmap,
2811                                                     (char*)&uvc,
2812                                                     sizeof( UV ),
2813                                                     0);
2814                         if ( !svpp ) {
2815                             charid = 0;
2816                         } else {
2817                             charid=(U16)SvIV( *svpp );
2818                         }
2819                     }
2820                     /* charid is now 0 if we dont know the char read, or
2821                      * nonzero if we do */
2822                     if ( charid ) {
2823
2824                         U16 check;
2825                         U32 newstate = 0;
2826
2827                         charid--;
2828                         if ( !trie->states[ state ].trans.list ) {
2829                             TRIE_LIST_NEW( state );
2830                         }
2831                         for ( check = 1;
2832                               check <= TRIE_LIST_USED( state );
2833                               check++ )
2834                         {
2835                             if ( TRIE_LIST_ITEM( state, check ).forid
2836                                                                     == charid )
2837                             {
2838                                 newstate = TRIE_LIST_ITEM( state, check ).newstate;
2839                                 break;
2840                             }
2841                         }
2842                         if ( ! newstate ) {
2843                             newstate = next_alloc++;
2844                             prev_states[newstate] = state;
2845                             TRIE_LIST_PUSH( state, charid, newstate );
2846                             transcount++;
2847                         }
2848                         state = newstate;
2849                     } else {
2850                         Perl_croak( aTHX_ "panic! In trie construction, no char mapping for %" IVdf, uvc );
2851                     }
2852                 }
2853             }
2854             TRIE_HANDLE_WORD(state);
2855
2856         } /* end second pass */
2857
2858         /* next alloc is the NEXT state to be allocated */
2859         trie->statecount = next_alloc;
2860         trie->states = (reg_trie_state *)
2861             PerlMemShared_realloc( trie->states,
2862                                    next_alloc
2863                                    * sizeof(reg_trie_state) );
2864
2865         /* and now dump it out before we compress it */
2866         DEBUG_TRIE_COMPILE_MORE_r(dump_trie_interim_list(trie, widecharmap,
2867                                                          revcharmap, next_alloc,
2868                                                          depth+1)
2869         );
2870
2871         trie->trans = (reg_trie_trans *)
2872             PerlMemShared_calloc( transcount, sizeof(reg_trie_trans) );
2873         {
2874             U32 state;
2875             U32 tp = 0;
2876             U32 zp = 0;
2877
2878
2879             for( state=1 ; state < next_alloc ; state ++ ) {
2880                 U32 base=0;
2881
2882                 /*
2883                 DEBUG_TRIE_COMPILE_MORE_r(
2884                     Perl_re_printf( aTHX_  "tp: %d zp: %d ",tp,zp)
2885                 );
2886                 */
2887
2888                 if (trie->states[state].trans.list) {
2889                     U16 minid=TRIE_LIST_ITEM( state, 1).forid;
2890                     U16 maxid=minid;
2891                     U16 idx;
2892
2893                     for( idx = 2 ; idx <= TRIE_LIST_USED( state ) ; idx++ ) {
2894                         const U16 forid = TRIE_LIST_ITEM( state, idx).forid;
2895                         if ( forid < minid ) {
2896                             minid=forid;
2897                         } else if ( forid > maxid ) {
2898                             maxid=forid;
2899                         }
2900                     }
2901                     if ( transcount < tp + maxid - minid + 1) {
2902                         transcount *= 2;
2903                         trie->trans = (reg_trie_trans *)
2904                             PerlMemShared_realloc( trie->trans,
2905                                                      transcount
2906                                                      * sizeof(reg_trie_trans) );
2907                         Zero( trie->trans + (transcount / 2),
2908                               transcount / 2,
2909                               reg_trie_trans );
2910                     }
2911                     base = trie->uniquecharcount + tp - minid;
2912                     if ( maxid == minid ) {
2913                         U32 set = 0;
2914                         for ( ; zp < tp ; zp++ ) {
2915                             if ( ! trie->trans[ zp ].next ) {
2916                                 base = trie->uniquecharcount + zp - minid;
2917                                 trie->trans[ zp ].next = TRIE_LIST_ITEM( state,
2918                                                                    1).newstate;
2919                                 trie->trans[ zp ].check = state;
2920                                 set = 1;
2921                                 break;
2922                             }
2923                         }
2924                         if ( !set ) {
2925                             trie->trans[ tp ].next = TRIE_LIST_ITEM( state,
2926                                                                    1).newstate;
2927                             trie->trans[ tp ].check = state;
2928                             tp++;
2929                             zp = tp;
2930                         }
2931                     } else {
2932                         for ( idx=1; idx <= TRIE_LIST_USED( state ) ; idx++ ) {
2933                             const U32 tid = base
2934                                            - trie->uniquecharcount
2935                                            + TRIE_LIST_ITEM( state, idx ).forid;
2936                             trie->trans[ tid ].next = TRIE_LIST_ITEM( state,
2937                                                                 idx ).newstate;
2938                             trie->trans[ tid ].check = state;
2939                         }
2940                         tp += ( maxid - minid + 1 );
2941                     }
2942                     Safefree(trie->states[ state ].trans.list);
2943                 }
2944                 /*
2945                 DEBUG_TRIE_COMPILE_MORE_r(
2946                     Perl_re_printf( aTHX_  " base: %d\n",base);
2947                 );
2948                 */
2949                 trie->states[ state ].trans.base=base;
2950             }
2951             trie->lasttrans = tp + 1;
2952         }
2953     } else {
2954         /*
2955            Second Pass -- Flat Table Representation.
2956
2957            we dont use the 0 slot of either trans[] or states[] so we add 1 to
2958            each.  We know that we will need Charcount+1 trans at most to store
2959            the data (one row per char at worst case) So we preallocate both
2960            structures assuming worst case.
2961
2962            We then construct the trie using only the .next slots of the entry
2963            structs.
2964
2965            We use the .check field of the first entry of the node temporarily
2966            to make compression both faster and easier by keeping track of how
2967            many non zero fields are in the node.
2968
2969            Since trans are numbered from 1 any 0 pointer in the table is a FAIL
2970            transition.
2971
2972            There are two terms at use here: state as a TRIE_NODEIDX() which is
2973            a number representing the first entry of the node, and state as a
2974            TRIE_NODENUM() which is the trans number. state 1 is TRIE_NODEIDX(1)
2975            and TRIE_NODENUM(1), state 2 is TRIE_NODEIDX(2) and TRIE_NODENUM(3)
2976            if there are 2 entrys per node. eg:
2977
2978              A B       A B
2979           1. 2 4    1. 3 7
2980           2. 0 3    3. 0 5
2981           3. 0 0    5. 0 0
2982           4. 0 0    7. 0 0
2983
2984            The table is internally in the right hand, idx form. However as we
2985            also have to deal with the states array which is indexed by nodenum
2986            we have to use TRIE_NODENUM() to convert.
2987
2988         */
2989         DEBUG_TRIE_COMPILE_MORE_r( Perl_re_indentf( aTHX_  "Compiling trie using table compiler\n",
2990             depth+1));
2991
2992         trie->trans = (reg_trie_trans *)
2993             PerlMemShared_calloc( ( TRIE_CHARCOUNT(trie) + 1 )
2994                                   * trie->uniquecharcount + 1,
2995                                   sizeof(reg_trie_trans) );
2996         trie->states = (reg_trie_state *)
2997             PerlMemShared_calloc( TRIE_CHARCOUNT(trie) + 2,
2998                                   sizeof(reg_trie_state) );
2999         next_alloc = trie->uniquecharcount + 1;
3000
3001
3002         for ( cur = first ; cur < last ; cur = regnext( cur ) ) {
3003
3004             regnode *noper   = NEXTOPER( cur );
3005
3006             U32 state        = 1;         /* required init */
3007
3008             U16 charid       = 0;         /* sanity init */
3009             U32 accept_state = 0;         /* sanity init */
3010
3011             U32 wordlen      = 0;         /* required init */
3012
3013             if (OP(noper) == NOTHING) {
3014                 regnode *noper_next= regnext(noper);
3015                 if (noper_next < tail)
3016                     noper= noper_next;
3017             }
3018
3019             if ( noper < tail && ( OP(noper) == flags || ( flags == EXACTFU && OP(noper) == EXACTFU_SS ) ) ) {
3020                 const U8 *uc= (U8*)STRING(noper);
3021                 const U8 *e= uc + STR_LEN(noper);
3022
3023                 for ( ; uc < e ; uc += len ) {
3024
3025                     TRIE_READ_CHAR;
3026
3027                     if ( uvc < 256 ) {
3028                         charid = trie->charmap[ uvc ];
3029                     } else {
3030                         SV* const * const svpp = hv_fetch( widecharmap,
3031                                                            (char*)&uvc,
3032                                                            sizeof( UV ),
3033                                                            0);
3034                         charid = svpp ? (U16)SvIV(*svpp) : 0;
3035                     }
3036                     if ( charid ) {
3037                         charid--;
3038                         if ( !trie->trans[ state + charid ].next ) {
3039                             trie->trans[ state + charid ].next = next_alloc;
3040                             trie->trans[ state ].check++;
3041                             prev_states[TRIE_NODENUM(next_alloc)]
3042                                     = TRIE_NODENUM(state);
3043                             next_alloc += trie->uniquecharcount;
3044                         }
3045                         state = trie->trans[ state + charid ].next;
3046                     } else {
3047                         Perl_croak( aTHX_ "panic! In trie construction, no char mapping for %" IVdf, uvc );
3048                     }
3049                     /* charid is now 0 if we dont know the char read, or
3050                      * nonzero if we do */
3051                 }
3052             }
3053             accept_state = TRIE_NODENUM( state );
3054             TRIE_HANDLE_WORD(accept_state);
3055
3056         } /* end second pass */
3057
3058         /* and now dump it out before we compress it */
3059         DEBUG_TRIE_COMPILE_MORE_r(dump_trie_interim_table(trie, widecharmap,
3060                                                           revcharmap,
3061                                                           next_alloc, depth+1));
3062
3063         {
3064         /*
3065            * Inplace compress the table.*
3066
3067            For sparse data sets the table constructed by the trie algorithm will
3068            be mostly 0/FAIL transitions or to put it another way mostly empty.
3069            (Note that leaf nodes will not contain any transitions.)
3070
3071            This algorithm compresses the tables by eliminating most such
3072            transitions, at the cost of a modest bit of extra work during lookup:
3073
3074            - Each states[] entry contains a .base field which indicates the
3075            index in the state[] array wheres its transition data is stored.
3076
3077            - If .base is 0 there are no valid transitions from that node.
3078
3079            - If .base is nonzero then charid is added to it to find an entry in
3080            the trans array.
3081
3082            -If trans[states[state].base+charid].check!=state then the
3083            transition is taken to be a 0/Fail transition. Thus if there are fail
3084            transitions at the front of the node then the .base offset will point
3085            somewhere inside the previous nodes data (or maybe even into a node
3086            even earlier), but the .check field determines if the transition is
3087            valid.
3088
3089            XXX - wrong maybe?
3090            The following process inplace converts the table to the compressed
3091            table: We first do not compress the root node 1,and mark all its
3092            .check pointers as 1 and set its .base pointer as 1 as well. This
3093            allows us to do a DFA construction from the compressed table later,
3094            and ensures that any .base pointers we calculate later are greater
3095            than 0.
3096
3097            - We set 'pos' to indicate the first entry of the second node.
3098
3099            - We then iterate over the columns of the node, finding the first and
3100            last used entry at l and m. We then copy l..m into pos..(pos+m-l),
3101            and set the .check pointers accordingly, and advance pos
3102            appropriately and repreat for the next node. Note that when we copy
3103            the next pointers we have to convert them from the original
3104            NODEIDX form to NODENUM form as the former is not valid post
3105            compression.
3106
3107            - If a node has no transitions used we mark its base as 0 and do not
3108            advance the pos pointer.
3109
3110            - If a node only has one transition we use a second pointer into the
3111            structure to fill in allocated fail transitions from other states.
3112            This pointer is independent of the main pointer and scans forward
3113            looking for null transitions that are allocated to a state. When it
3114            finds one it writes the single transition into the "hole".  If the
3115            pointer doesnt find one the single transition is appended as normal.
3116
3117            - Once compressed we can Renew/realloc the structures to release the
3118            excess space.
3119
3120            See "Table-Compression Methods" in sec 3.9 of the Red Dragon,
3121            specifically Fig 3.47 and the associated pseudocode.
3122
3123            demq
3124         */
3125         const U32 laststate = TRIE_NODENUM( next_alloc );
3126         U32 state, charid;
3127         U32 pos = 0, zp=0;
3128         trie->statecount = laststate;
3129
3130         for ( state = 1 ; state < laststate ; state++ ) {
3131             U8 flag = 0;
3132             const U32 stateidx = TRIE_NODEIDX( state );
3133             const U32 o_used = trie->trans[ stateidx ].check;
3134             U32 used = trie->trans[ stateidx ].check;
3135             trie->trans[ stateidx ].check = 0;
3136
3137             for ( charid = 0;
3138                   used && charid < trie->uniquecharcount;
3139                   charid++ )
3140             {
3141                 if ( flag || trie->trans[ stateidx + charid ].next ) {
3142                     if ( trie->trans[ stateidx + charid ].next ) {
3143                         if (o_used == 1) {
3144                             for ( ; zp < pos ; zp++ ) {
3145                                 if ( ! trie->trans[ zp ].next ) {
3146                                     break;
3147                                 }
3148                             }
3149                             trie->states[ state ].trans.base
3150                                                     = zp
3151                                                       + trie->uniquecharcount
3152                                                       - charid ;
3153                             trie->trans[ zp ].next
3154                                 = SAFE_TRIE_NODENUM( trie->trans[ stateidx
3155                                                              + charid ].next );
3156                             trie->trans[ zp ].check = state;
3157                             if ( ++zp > pos ) pos = zp;
3158                             break;
3159                         }
3160                         used--;
3161                     }
3162                     if ( !flag ) {
3163                         flag = 1;
3164                         trie->states[ state ].trans.base
3165                                        = pos + trie->uniquecharcount - charid ;
3166                     }
3167                     trie->trans[ pos ].next
3168                         = SAFE_TRIE_NODENUM(
3169                                        trie->trans[ stateidx + charid ].next );
3170                     trie->trans[ pos ].check = state;
3171                     pos++;
3172                 }
3173             }
3174         }
3175         trie->lasttrans = pos + 1;
3176         trie->states = (reg_trie_state *)
3177             PerlMemShared_realloc( trie->states, laststate
3178                                    * sizeof(reg_trie_state) );
3179         DEBUG_TRIE_COMPILE_MORE_r(
3180             Perl_re_indentf( aTHX_  "Alloc: %d Orig: %" IVdf " elements, Final:%" IVdf ". Savings of %%%5.2f\n",
3181                 depth+1,
3182                 (int)( ( TRIE_CHARCOUNT(trie) + 1 ) * trie->uniquecharcount
3183                        + 1 ),
3184                 (IV)next_alloc,
3185                 (IV)pos,
3186                 ( ( next_alloc - pos ) * 100 ) / (double)next_alloc );
3187             );
3188
3189         } /* end table compress */
3190     }
3191     DEBUG_TRIE_COMPILE_MORE_r(
3192             Perl_re_indentf( aTHX_  "Statecount:%" UVxf " Lasttrans:%" UVxf "\n",
3193                 depth+1,
3194                 (UV)trie->statecount,
3195                 (UV)trie->lasttrans)
3196     );
3197     /* resize the trans array to remove unused space */
3198     trie->trans = (reg_trie_trans *)
3199         PerlMemShared_realloc( trie->trans, trie->lasttrans
3200                                * sizeof(reg_trie_trans) );
3201
3202     {   /* Modify the program and insert the new TRIE node */
3203         U8 nodetype =(U8)(flags & 0xFF);
3204         char *str=NULL;
3205
3206 #ifdef DEBUGGING
3207         regnode *optimize = NULL;
3208 #ifdef RE_TRACK_PATTERN_OFFSETS
3209
3210         U32 mjd_offset = 0;
3211         U32 mjd_nodelen = 0;
3212 #endif /* RE_TRACK_PATTERN_OFFSETS */
3213 #endif /* DEBUGGING */
3214         /*
3215            This means we convert either the first branch or the first Exact,
3216            depending on whether the thing following (in 'last') is a branch
3217            or not and whther first is the startbranch (ie is it a sub part of
3218            the alternation or is it the whole thing.)
3219            Assuming its a sub part we convert the EXACT otherwise we convert
3220            the whole branch sequence, including the first.
3221          */
3222         /* Find the node we are going to overwrite */
3223         if ( first != startbranch || OP( last ) == BRANCH ) {
3224             /* branch sub-chain */
3225             NEXT_OFF( first ) = (U16)(last - first);
3226 #ifdef RE_TRACK_PATTERN_OFFSETS
3227             DEBUG_r({
3228                 mjd_offset= Node_Offset((convert));
3229                 mjd_nodelen= Node_Length((convert));
3230             });
3231 #endif
3232             /* whole branch chain */
3233         }
3234 #ifdef RE_TRACK_PATTERN_OFFSETS
3235         else {
3236             DEBUG_r({
3237                 const  regnode *nop = NEXTOPER( convert );
3238                 mjd_offset= Node_Offset((nop));
3239                 mjd_nodelen= Node_Length((nop));
3240             });
3241         }
3242         DEBUG_OPTIMISE_r(
3243             Perl_re_indentf( aTHX_  "MJD offset:%" UVuf " MJD length:%" UVuf "\n",
3244                 depth+1,
3245                 (UV)mjd_offset, (UV)mjd_nodelen)
3246         );
3247 #endif
3248         /* But first we check to see if there is a common prefix we can
3249            split out as an EXACT and put in front of the TRIE node.  */
3250         trie->startstate= 1;
3251         if ( trie->bitmap && !widecharmap && !trie->jump  ) {
3252             /* we want to find the first state that has more than
3253              * one transition, if that state is not the first state
3254              * then we have a common prefix which we can remove.
3255              */
3256             U32 state;
3257             for ( state = 1 ; state < trie->statecount-1 ; state++ ) {
3258                 U32 ofs = 0;
3259                 I32 first_ofs = -1; /* keeps track of the ofs of the first
3260                                        transition, -1 means none */
3261                 U32 count = 0;
3262                 const U32 base = trie->states[ state ].trans.base;
3263
3264                 /* does this state terminate an alternation? */
3265                 if ( trie->states[state].wordnum )
3266                         count = 1;
3267
3268                 for ( ofs = 0 ; ofs < trie->uniquecharcount ; ofs++ ) {
3269                     if ( ( base + ofs >= trie->uniquecharcount ) &&
3270                          ( base + ofs - trie->uniquecharcount < trie->lasttrans ) &&
3271                          trie->trans[ base + ofs - trie->uniquecharcount ].check == state )
3272                     {
3273                         if ( ++count > 1 ) {
3274                             /* we have more than one transition */
3275                             SV **tmp;
3276                             U8 *ch;
3277                             /* if this is the first state there is no common prefix
3278                              * to extract, so we can exit */
3279                             if ( state == 1 ) break;
3280                             tmp = av_fetch( revcharmap, ofs, 0);
3281                             ch = (U8*)SvPV_nolen_const( *tmp );
3282
3283                             /* if we are on count 2 then we need to initialize the
3284                              * bitmap, and store the previous char if there was one
3285                              * in it*/
3286                             if ( count == 2 ) {
3287                                 /* clear the bitmap */
3288                                 Zero(trie->bitmap, ANYOF_BITMAP_SIZE, char);
3289                                 DEBUG_OPTIMISE_r(
3290                                     Perl_re_indentf( aTHX_  "New Start State=%" UVuf " Class: [",
3291                                         depth+1,
3292                                         (UV)state));
3293                                 if (first_ofs >= 0) {
3294                                     SV ** const tmp = av_fetch( revcharmap, first_ofs, 0);
3295                                     const U8 * const ch = (U8*)SvPV_nolen_const( *tmp );
3296
3297                                     TRIE_BITMAP_SET_FOLDED(trie,*ch,folder);
3298                                     DEBUG_OPTIMISE_r(
3299                                         Perl_re_printf( aTHX_  "%s", (char*)ch)
3300                                     );
3301                                 }
3302                             }
3303                             /* store the current firstchar in the bitmap */
3304                             TRIE_BITMAP_SET_FOLDED(trie,*ch,folder);
3305                             DEBUG_OPTIMISE_r(Perl_re_printf( aTHX_ "%s", ch));
3306                         }
3307                         first_ofs = ofs;
3308                     }
3309                 }
3310                 if ( count == 1 ) {
3311                     /* This state has only one transition, its transition is part
3312                      * of a common prefix - we need to concatenate the char it
3313                      * represents to what we have so far. */
3314                     SV **tmp = av_fetch( revcharmap, first_ofs, 0);
3315                     STRLEN len;
3316                     char *ch = SvPV( *tmp, len );
3317                     DEBUG_OPTIMISE_r({
3318                         SV *sv=sv_newmortal();
3319                         Perl_re_indentf( aTHX_  "Prefix State: %" UVuf " Ofs:%" UVuf " Char='%s'\n",
3320                             depth+1,
3321                             (UV)state, (UV)first_ofs,
3322                             pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), 6,
3323                                 PL_colors[0], PL_colors[1],
3324                                 (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0) |
3325                                 PERL_PV_ESCAPE_FIRSTCHAR
3326                             )
3327                         );
3328                     });
3329                     if ( state==1 ) {
3330                         OP( convert ) = nodetype;
3331                         str=STRING(convert);
3332                         STR_LEN(convert)=0;
3333                     }
3334                     STR_LEN(convert) += len;
3335                     while (len--)
3336                         *str++ = *ch++;
3337                 } else {
3338 #ifdef DEBUGGING
3339                     if (state>1)
3340                         DEBUG_OPTIMISE_r(Perl_re_printf( aTHX_ "]\n"));
3341 #endif
3342                     break;
3343                 }
3344             }
3345             trie->prefixlen = (state-1);
3346             if (str) {
3347                 regnode *n = convert+NODE_SZ_STR(convert);
3348                 NEXT_OFF(convert) = NODE_SZ_STR(convert);
3349                 trie->startstate = state;
3350                 trie->minlen -= (state - 1);
3351                 trie->maxlen -= (state - 1);
3352 #ifdef DEBUGGING
3353                /* At least the UNICOS C compiler choked on this
3354                 * being argument to DEBUG_r(), so let's just have
3355                 * it right here. */
3356                if (
3357 #ifdef PERL_EXT_RE_BUILD
3358                    1
3359 #else
3360                    DEBUG_r_TEST
3361 #endif
3362                    ) {
3363                    regnode *fix = convert;
3364                    U32 word = trie->wordcount;
3365                    mjd_nodelen++;
3366                    Set_Node_Offset_Length(convert, mjd_offset, state - 1);
3367                    while( ++fix < n ) {
3368                        Set_Node_Offset_Length(fix, 0, 0);
3369                    }
3370                    while (word--) {
3371                        SV ** const tmp = av_fetch( trie_words, word, 0 );
3372                        if (tmp) {
3373                            if ( STR_LEN(convert) <= SvCUR(*tmp) )
3374                                sv_chop(*tmp, SvPV_nolen(*tmp) + STR_LEN(convert));
3375                            else
3376                                sv_chop(*tmp, SvPV_nolen(*tmp) + SvCUR(*tmp));
3377                        }
3378                    }
3379                }
3380 #endif
3381                 if (trie->maxlen) {
3382                     convert = n;
3383                 } else {
3384                     NEXT_OFF(convert) = (U16)(tail - convert);
3385                     DEBUG_r(optimize= n);
3386                 }
3387             }
3388         }
3389         if (!jumper)
3390             jumper = last;
3391         if ( trie->maxlen ) {
3392             NEXT_OFF( convert ) = (U16)(tail - convert);
3393             ARG_SET( convert, data_slot );
3394             /* Store the offset to the first unabsorbed branch in
3395                jump[0], which is otherwise unused by the jump logic.
3396                We use this when dumping a trie and during optimisation. */
3397             if (trie->jump)
3398                 trie->jump[0] = (U16)(nextbranch - convert);
3399
3400             /* If the start state is not accepting (meaning there is no empty string/NOTHING)
3401              *   and there is a bitmap
3402              *   and the first "jump target" node we found leaves enough room
3403              * then convert the TRIE node into a TRIEC node, with the bitmap
3404              * embedded inline in the opcode - this is hypothetically faster.
3405              */
3406             if ( !trie->states[trie->startstate].wordnum
3407                  && trie->bitmap
3408                  && ( (char *)jumper - (char *)convert) >= (int)sizeof(struct regnode_charclass) )
3409             {
3410                 OP( convert ) = TRIEC;
3411                 Copy(trie->bitmap, ((struct regnode_charclass *)convert)->bitmap, ANYOF_BITMAP_SIZE, char);
3412                 PerlMemShared_free(trie->bitmap);
3413                 trie->bitmap= NULL;
3414             } else
3415                 OP( convert ) = TRIE;
3416
3417             /* store the type in the flags */
3418             convert->flags = nodetype;
3419             DEBUG_r({
3420             optimize = convert
3421                       + NODE_STEP_REGNODE
3422                       + regarglen[ OP( convert ) ];
3423             });
3424             /* XXX We really should free up the resource in trie now,
3425                    as we won't use them - (which resources?) dmq */
3426         }
3427         /* needed for dumping*/
3428         DEBUG_r(if (optimize) {
3429             regnode *opt = convert;
3430
3431             while ( ++opt < optimize) {
3432                 Set_Node_Offset_Length(opt,0,0);
3433             }
3434             /*
3435                 Try to clean up some of the debris left after the
3436                 optimisation.
3437              */
3438             while( optimize < jumper ) {
3439                 mjd_nodelen += Node_Length((optimize));
3440                 OP( optimize ) = OPTIMIZED;
3441                 Set_Node_Offset_Length(optimize,0,0);
3442                 optimize++;
3443             }
3444             Set_Node_Offset_Length(convert,mjd_offset,mjd_nodelen);
3445         });
3446     } /* end node insert */
3447
3448     /*  Finish populating the prev field of the wordinfo array.  Walk back
3449      *  from each accept state until we find another accept state, and if
3450      *  so, point the first word's .prev field at the second word. If the
3451      *  second already has a .prev field set, stop now. This will be the
3452      *  case either if we've already processed that word's accept state,
3453      *  or that state had multiple words, and the overspill words were
3454      *  already linked up earlier.
3455      */
3456     {
3457         U16 word;
3458         U32 state;
3459         U16 prev;
3460
3461         for (word=1; word <= trie->wordcount; word++) {
3462             prev = 0;
3463             if (trie->wordinfo[word].prev)
3464                 continue;
3465             state = trie->wordinfo[word].accept;
3466             while (state) {
3467                 state = prev_states[state];
3468                 if (!state)
3469                     break;
3470                 prev = trie->states[state].wordnum;
3471                 if (prev)
3472                     break;
3473             }
3474             trie->wordinfo[word].prev = prev;
3475         }
3476         Safefree(prev_states);
3477     }
3478
3479
3480     /* and now dump out the compressed format */
3481     DEBUG_TRIE_COMPILE_r(dump_trie(trie, widecharmap, revcharmap, depth+1));
3482
3483     RExC_rxi->data->data[ data_slot + 1 ] = (void*)widecharmap;
3484 #ifdef DEBUGGING
3485     RExC_rxi->data->data[ data_slot + TRIE_WORDS_OFFSET ] = (void*)trie_words;
3486     RExC_rxi->data->data[ data_slot + 3 ] = (void*)revcharmap;
3487 #else
3488     SvREFCNT_dec_NN(revcharmap);
3489 #endif
3490     return trie->jump
3491            ? MADE_JUMP_TRIE
3492            : trie->startstate>1
3493              ? MADE_EXACT_TRIE
3494              : MADE_TRIE;
3495 }
3496
3497 STATIC regnode *
3498 S_construct_ahocorasick_from_trie(pTHX_ RExC_state_t *pRExC_state, regnode *source, U32 depth)
3499 {
3500 /* The Trie is constructed and compressed now so we can build a fail array if
3501  * it's needed
3502
3503    This is basically the Aho-Corasick algorithm. Its from exercise 3.31 and
3504    3.32 in the
3505    "Red Dragon" -- Compilers, principles, techniques, and tools. Aho, Sethi,
3506    Ullman 1985/88
3507    ISBN 0-201-10088-6
3508
3509    We find the fail state for each state in the trie, this state is the longest
3510    proper suffix of the current state's 'word' that is also a proper prefix of
3511    another word in our trie. State 1 represents the word '' and is thus the
3512    default fail state. This allows the DFA not to have to restart after its
3513    tried and failed a word at a given point, it simply continues as though it
3514    had been matching the other word in the first place.
3515    Consider
3516       'abcdgu'=~/abcdefg|cdgu/
3517    When we get to 'd' we are still matching the first word, we would encounter
3518    'g' which would fail, which would bring us to the state representing 'd' in
3519    the second word where we would try 'g' and succeed, proceeding to match
3520    'cdgu'.
3521  */
3522  /* add a fail transition */
3523     const U32 trie_offset = ARG(source);
3524     reg_trie_data *trie=(reg_trie_data *)RExC_rxi->data->data[trie_offset];
3525     U32 *q;
3526     const U32 ucharcount = trie->uniquecharcount;
3527     const U32 numstates = trie->statecount;
3528     const U32 ubound = trie->lasttrans + ucharcount;
3529     U32 q_read = 0;
3530     U32 q_write = 0;
3531     U32 charid;
3532     U32 base = trie->states[ 1 ].trans.base;
3533     U32 *fail;
3534     reg_ac_data *aho;
3535     const U32 data_slot = add_data( pRExC_state, STR_WITH_LEN("T"));
3536     regnode *stclass;
3537     GET_RE_DEBUG_FLAGS_DECL;
3538
3539     PERL_ARGS_ASSERT_CONSTRUCT_AHOCORASICK_FROM_TRIE;
3540     PERL_UNUSED_CONTEXT;
3541 #ifndef DEBUGGING
3542     PERL_UNUSED_ARG(depth);
3543 #endif
3544
3545     if ( OP(source) == TRIE ) {
3546         struct regnode_1 *op = (struct regnode_1 *)
3547             PerlMemShared_calloc(1, sizeof(struct regnode_1));
3548         StructCopy(source,op,struct regnode_1);
3549         stclass = (regnode *)op;
3550     } else {
3551         struct regnode_charclass *op = (struct regnode_charclass *)
3552             PerlMemShared_calloc(1, sizeof(struct regnode_charclass));
3553         StructCopy(source,op,struct regnode_charclass);
3554         stclass = (regnode *)op;
3555     }
3556     OP(stclass)+=2; /* convert the TRIE type to its AHO-CORASICK equivalent */
3557
3558     ARG_SET( stclass, data_slot );
3559     aho = (reg_ac_data *) PerlMemShared_calloc( 1, sizeof(reg_ac_data) );
3560     RExC_rxi->data->data[ data_slot ] = (void*)aho;
3561     aho->trie=trie_offset;
3562     aho->states=(reg_trie_state *)PerlMemShared_malloc( numstates * sizeof(reg_trie_state) );
3563     Copy( trie->states, aho->states, numstates, reg_trie_state );
3564     Newxz( q, numstates, U32);
3565     aho->fail = (U32 *) PerlMemShared_calloc( numstates, sizeof(U32) );
3566     aho->refcount = 1;
3567     fail = aho->fail;
3568     /* initialize fail[0..1] to be 1 so that we always have
3569        a valid final fail state */
3570     fail[ 0 ] = fail[ 1 ] = 1;
3571
3572     for ( charid = 0; charid < ucharcount ; charid++ ) {
3573         const U32 newstate = TRIE_TRANS_STATE( 1, base, ucharcount, charid, 0 );
3574         if ( newstate ) {
3575             q[ q_write ] = newstate;
3576             /* set to point at the root */
3577             fail[ q[ q_write++ ] ]=1;
3578         }
3579     }
3580     while ( q_read < q_write) {
3581         const U32 cur = q[ q_read++ % numstates ];
3582         base = trie->states[ cur ].trans.base;
3583
3584         for ( charid = 0 ; charid < ucharcount ; charid++ ) {
3585             const U32 ch_state = TRIE_TRANS_STATE( cur, base, ucharcount, charid, 1 );
3586             if (ch_state) {
3587                 U32 fail_state = cur;
3588                 U32 fail_base;
3589                 do {
3590                     fail_state = fail[ fail_state ];
3591                     fail_base = aho->states[ fail_state ].trans.base;
3592                 } while ( !TRIE_TRANS_STATE( fail_state, fail_base, ucharcount, charid, 1 ) );
3593
3594                 fail_state = TRIE_TRANS_STATE( fail_state, fail_base, ucharcount, charid, 1 );
3595                 fail[ ch_state ] = fail_state;
3596                 if ( !aho->states[ ch_state ].wordnum && aho->states[ fail_state ].wordnum )
3597                 {
3598                         aho->states[ ch_state ].wordnum =  aho->states[ fail_state ].wordnum;
3599                 }
3600                 q[ q_write++ % numstates] = ch_state;
3601             }
3602         }
3603     }
3604     /* restore fail[0..1] to 0 so that we "fall out" of the AC loop
3605        when we fail in state 1, this allows us to use the
3606        charclass scan to find a valid start char. This is based on the principle
3607        that theres a good chance the string being searched contains lots of stuff
3608        that cant be a start char.
3609      */
3610     fail[ 0 ] = fail[ 1 ] = 0;
3611     DEBUG_TRIE_COMPILE_r({
3612         Perl_re_indentf( aTHX_  "Stclass Failtable (%" UVuf " states): 0",
3613                       depth, (UV)numstates
3614         );
3615         for( q_read=1; q_read<numstates; q_read++ ) {
3616             Perl_re_printf( aTHX_  ", %" UVuf, (UV)fail[q_read]);
3617         }
3618         Perl_re_printf( aTHX_  "\n");
3619     });
3620     Safefree(q);
3621     /*RExC_seen |= REG_TRIEDFA_SEEN;*/
3622     return stclass;
3623 }
3624
3625
3626 #define DEBUG_PEEP(str,scan,depth)         \
3627     DEBUG_OPTIMISE_r({if (scan){           \
3628        regnode *Next = regnext(scan);      \
3629        regprop(RExC_rx, RExC_mysv, scan, NULL, pRExC_state);\
3630        Perl_re_indentf( aTHX_  "" str ">%3d: %s (%d)", \
3631            depth, REG_NODE_NUM(scan), SvPV_nolen_const(RExC_mysv),\
3632            Next ? (REG_NODE_NUM(Next)) : 0 );\
3633        DEBUG_SHOW_STUDY_FLAGS(flags," [ ","]");\
3634        Perl_re_printf( aTHX_  "\n");                   \
3635    }});
3636
3637 /* The below joins as many adjacent EXACTish nodes as possible into a single
3638  * one.  The regop may be changed if the node(s) contain certain sequences that
3639  * require special handling.  The joining is only done if:
3640  * 1) there is room in the current conglomerated node to entirely contain the
3641  *    next one.
3642  * 2) they are the exact same node type
3643  *
3644  * The adjacent nodes actually may be separated by NOTHING-kind nodes, and
3645  * these get optimized out
3646  *
3647  * XXX khw thinks this should be enhanced to fill EXACT (at least) nodes as full
3648  * as possible, even if that means splitting an existing node so that its first
3649  * part is moved to the preceeding node.  This would maximise the efficiency of
3650  * memEQ during matching.  Elsewhere in this file, khw proposes splitting
3651  * EXACTFish nodes into portions that don't change under folding vs those that
3652  * do.  Those portions that don't change may be the only things in the pattern that
3653  * could be used to find fixed and floating strings.
3654  *
3655  * If a node is to match under /i (folded), the number of characters it matches
3656  * can be different than its character length if it contains a multi-character
3657  * fold.  *min_subtract is set to the total delta number of characters of the
3658  * input nodes.
3659  *
3660  * And *unfolded_multi_char is set to indicate whether or not the node contains
3661  * an unfolded multi-char fold.  This happens when whether the fold is valid or
3662  * not won't be known until runtime; namely for EXACTF nodes that contain LATIN
3663  * SMALL LETTER SHARP S, as only if the target string being matched against
3664  * turns out to be UTF-8 is that fold valid; and also for EXACTFL nodes whose
3665  * folding rules depend on the locale in force at runtime.  (Multi-char folds
3666  * whose components are all above the Latin1 range are not run-time locale
3667  * dependent, and have already been folded by the time this function is
3668  * called.)
3669  *
3670  * This is as good a place as any to discuss the design of handling these
3671  * multi-character fold sequences.  It's been wrong in Perl for a very long
3672  * time.  There are three code points in Unicode whose multi-character folds
3673  * were long ago discovered to mess things up.  The previous designs for
3674  * dealing with these involved assigning a special node for them.  This
3675  * approach doesn't always work, as evidenced by this example:
3676  *      "\xDFs" =~ /s\xDF/ui    # Used to fail before these patches
3677  * Both sides fold to "sss", but if the pattern is parsed to create a node that
3678  * would match just the \xDF, it won't be able to handle the case where a
3679  * successful match would have to cross the node's boundary.  The new approach
3680  * that hopefully generally solves the problem generates an EXACTFU_SS node
3681  * that is "sss" in this case.
3682  *
3683  * It turns out that there are problems with all multi-character folds, and not
3684  * just these three.  Now the code is general, for all such cases.  The
3685  * approach taken is:
3686  * 1)   This routine examines each EXACTFish node that could contain multi-
3687  *      character folded sequences.  Since a single character can fold into
3688  *      such a sequence, the minimum match length for this node is less than
3689  *      the number of characters in the node.  This routine returns in
3690  *      *min_subtract how many characters to subtract from the the actual
3691  *      length of the string to get a real minimum match length; it is 0 if
3692  *      there are no multi-char foldeds.  This delta is used by the caller to
3693  *      adjust the min length of the match, and the delta between min and max,
3694  *      so that the optimizer doesn't reject these possibilities based on size
3695  *      constraints.
3696  * 2)   For the sequence involving the Sharp s (\xDF), the node type EXACTFU_SS
3697  *      is used for an EXACTFU node that contains at least one "ss" sequence in
3698  *      it.  For non-UTF-8 patterns and strings, this is the only case where
3699  *      there is a possible fold length change.  That means that a regular
3700  *      EXACTFU node without UTF-8 involvement doesn't have to concern itself
3701  *      with length changes, and so can be processed faster.  regexec.c takes
3702  *      advantage of this.  Generally, an EXACTFish node that is in UTF-8 is
3703  *      pre-folded by regcomp.c (except EXACTFL, some of whose folds aren't
3704  *      known until runtime).  This saves effort in regex matching.  However,
3705  *      the pre-folding isn't done for non-UTF8 patterns because the fold of
3706  *      the MICRO SIGN requires UTF-8, and we don't want to slow things down by
3707  *      forcing the pattern into UTF8 unless necessary.  Also what EXACTF (and,
3708  *      again, EXACTFL) nodes fold to isn't known until runtime.  The fold
3709  *      possibilities for the non-UTF8 patterns are quite simple, except for
3710  *      the sharp s.  All the ones that don't involve a UTF-8 target string are
3711  *      members of a fold-pair, and arrays are set up for all of them so that
3712  *      the other member of the pair can be found quickly.  Code elsewhere in
3713  *      this file makes sure that in EXACTFU nodes, the sharp s gets folded to
3714  *      'ss', even if the pattern isn't UTF-8.  This avoids the issues
3715  *      described in the next item.
3716  * 3)   A problem remains for unfolded multi-char folds. (These occur when the
3717  *      validity of the fold won't be known until runtime, and so must remain
3718  *      unfolded for now.  This happens for the sharp s in EXACTF and EXACTFA
3719  *      nodes when the pattern isn't in UTF-8.  (Note, BTW, that there cannot
3720  *      be an EXACTF node with a UTF-8 pattern.)  They also occur for various
3721  *      folds in EXACTFL nodes, regardless of the UTF-ness of the pattern.)
3722  *      The reason this is a problem is that the optimizer part of regexec.c
3723  *      (probably unwittingly, in Perl_regexec_flags()) makes an assumption
3724  *      that a character in the pattern corresponds to at most a single
3725  *      character in the target string.  (And I do mean character, and not byte
3726  *      here, unlike other parts of the documentation that have never been
3727  *      updated to account for multibyte Unicode.)  sharp s in EXACTF and
3728  *      EXACTFL nodes can match the two character string 'ss'; in EXACTFA nodes
3729  *      it can match "\x{17F}\x{17F}".  These, along with other ones in EXACTFL
3730  *      nodes, violate the assumption, and they are the only instances where it
3731  *      is violated.  I'm reluctant to try to change the assumption, as the
3732  *      code involved is impenetrable to me (khw), so instead the code here
3733  *      punts.  This routine examines EXACTFL nodes, and (when the pattern
3734  *      isn't UTF-8) EXACTF and EXACTFA for such unfolded folds, and returns a
3735  *      boolean indicating whether or not the node contains such a fold.  When
3736  *      it is true, the caller sets a flag that later causes the optimizer in
3737  *      this file to not set values for the floating and fixed string lengths,
3738  *      and thus avoids the optimizer code in regexec.c that makes the invalid
3739  *      assumption.  Thus, there is no optimization based on string lengths for
3740  *      EXACTFL nodes that contain these few folds, nor for non-UTF8-pattern
3741  *      EXACTF and EXACTFA nodes that contain the sharp s.  (The reason the
3742  *      assumption is wrong only in these cases is that all other non-UTF-8
3743  *      folds are 1-1; and, for UTF-8 patterns, we pre-fold all other folds to
3744  *      their expanded versions.  (Again, we can't prefold sharp s to 'ss' in
3745  *      EXACTF nodes because we don't know at compile time if it actually
3746  *      matches 'ss' or not.  For EXACTF nodes it will match iff the target
3747  *      string is in UTF-8.  This is in contrast to EXACTFU nodes, where it
3748  *      always matches; and EXACTFA where it never does.  In an EXACTFA node in
3749  *      a UTF-8 pattern, sharp s is folded to "\x{17F}\x{17F}, avoiding the
3750  *      problem; but in a non-UTF8 pattern, folding it to that above-Latin1
3751  *      string would require the pattern to be forced into UTF-8, the overhead
3752  *      of which we want to avoid.  Similarly the unfolded multi-char folds in
3753  *      EXACTFL nodes will match iff the locale at the time of match is a UTF-8
3754  *      locale.)
3755  *
3756  *      Similarly, the code that generates tries doesn't currently handle
3757  *      not-already-folded multi-char folds, and it looks like a pain to change
3758  *      that.  Therefore, trie generation of EXACTFA nodes with the sharp s
3759  *      doesn't work.  Instead, such an EXACTFA is turned into a new regnode,
3760  *      EXACTFA_NO_TRIE, which the trie code knows not to handle.  Most people
3761  *      using /iaa matching will be doing so almost entirely with ASCII
3762  *      strings, so this should rarely be encountered in practice */
3763
3764 #define JOIN_EXACT(scan,min_subtract,unfolded_multi_char, flags) \
3765     if (PL_regkind[OP(scan)] == EXACT) \
3766         join_exact(pRExC_state,(scan),(min_subtract),unfolded_multi_char, (flags),NULL,depth+1)
3767
3768 STATIC U32
3769 S_join_exact(pTHX_ RExC_state_t *pRExC_state, regnode *scan,
3770                    UV *min_subtract, bool *unfolded_multi_char,
3771                    U32 flags,regnode *val, U32 depth)
3772 {
3773     /* Merge several consecutive EXACTish nodes into one. */
3774     regnode *n = regnext(scan);
3775     U32 stringok = 1;
3776     regnode *next = scan + NODE_SZ_STR(scan);
3777     U32 merged = 0;
3778     U32 stopnow = 0;
3779 #ifdef DEBUGGING
3780     regnode *stop = scan;
3781     GET_RE_DEBUG_FLAGS_DECL;
3782 #else
3783     PERL_UNUSED_ARG(depth);
3784 #endif
3785
3786     PERL_ARGS_ASSERT_JOIN_EXACT;
3787 #ifndef EXPERIMENTAL_INPLACESCAN
3788     PERL_UNUSED_ARG(flags);
3789     PERL_UNUSED_ARG(val);
3790 #endif
3791     DEBUG_PEEP("join",scan,depth);
3792
3793     /* Look through the subsequent nodes in the chain.  Skip NOTHING, merge
3794      * EXACT ones that are mergeable to the current one. */
3795     while (n
3796            && (PL_regkind[OP(n)] == NOTHING
3797                || (stringok && OP(n) == OP(scan)))
3798            && NEXT_OFF(n)
3799            && NEXT_OFF(scan) + NEXT_OFF(n) < I16_MAX)
3800     {
3801
3802         if (OP(n) == TAIL || n > next)
3803             stringok = 0;
3804         if (PL_regkind[OP(n)] == NOTHING) {
3805             DEBUG_PEEP("skip:",n,depth);
3806             NEXT_OFF(scan) += NEXT_OFF(n);
3807             next = n + NODE_STEP_REGNODE;
3808 #ifdef DEBUGGING
3809             if (stringok)
3810                 stop = n;
3811 #endif
3812             n = regnext(n);
3813         }
3814         else if (stringok) {
3815             const unsigned int oldl = STR_LEN(scan);
3816             regnode * const nnext = regnext(n);
3817
3818             /* XXX I (khw) kind of doubt that this works on platforms (should
3819              * Perl ever run on one) where U8_MAX is above 255 because of lots
3820              * of other assumptions */
3821             /* Don't join if the sum can't fit into a single node */
3822             if (oldl + STR_LEN(n) > U8_MAX)
3823                 break;
3824
3825             DEBUG_PEEP("merg",n,depth);
3826             merged++;
3827
3828             NEXT_OFF(scan) += NEXT_OFF(n);
3829             STR_LEN(scan) += STR_LEN(n);
3830             next = n + NODE_SZ_STR(n);
3831             /* Now we can overwrite *n : */
3832             Move(STRING(n), STRING(scan) + oldl, STR_LEN(n), char);
3833 #ifdef DEBUGGING
3834             stop = next - 1;
3835 #endif
3836             n = nnext;
3837             if (stopnow) break;
3838         }
3839
3840 #ifdef EXPERIMENTAL_INPLACESCAN
3841         if (flags && !NEXT_OFF(n)) {
3842             DEBUG_PEEP("atch", val, depth);
3843             if (reg_off_by_arg[OP(n)]) {
3844                 ARG_SET(n, val - n);
3845             }
3846             else {
3847                 NEXT_OFF(n) = val - n;
3848             }
3849             stopnow = 1;
3850         }
3851 #endif
3852     }
3853
3854     *min_subtract = 0;
3855     *unfolded_multi_char = FALSE;
3856
3857     /* Here, all the adjacent mergeable EXACTish nodes have been merged.  We
3858      * can now analyze for sequences of problematic code points.  (Prior to
3859      * this final joining, sequences could have been split over boundaries, and
3860      * hence missed).  The sequences only happen in folding, hence for any
3861      * non-EXACT EXACTish node */
3862     if (OP(scan) != EXACT && OP(scan) != EXACTL) {
3863         U8* s0 = (U8*) STRING(scan);
3864         U8* s = s0;
3865         U8* s_end = s0 + STR_LEN(scan);
3866
3867         int total_count_delta = 0;  /* Total delta number of characters that
3868                                        multi-char folds expand to */
3869
3870         /* One pass is made over the node's string looking for all the
3871          * possibilities.  To avoid some tests in the loop, there are two main
3872          * cases, for UTF-8 patterns (which can't have EXACTF nodes) and
3873          * non-UTF-8 */
3874         if (UTF) {
3875             U8* folded = NULL;
3876
3877             if (OP(scan) == EXACTFL) {
3878                 U8 *d;
3879
3880                 /* An EXACTFL node would already have been changed to another
3881                  * node type unless there is at least one character in it that
3882                  * is problematic; likely a character whose fold definition
3883                  * won't be known until runtime, and so has yet to be folded.
3884                  * For all but the UTF-8 locale, folds are 1-1 in length, but
3885                  * to handle the UTF-8 case, we need to create a temporary
3886                  * folded copy using UTF-8 locale rules in order to analyze it.
3887                  * This is because our macros that look to see if a sequence is
3888                  * a multi-char fold assume everything is folded (otherwise the
3889                  * tests in those macros would be too complicated and slow).
3890                  * Note that here, the non-problematic folds will have already
3891                  * been done, so we can just copy such characters.  We actually
3892                  * don't completely fold the EXACTFL string.  We skip the
3893                  * unfolded multi-char folds, as that would just create work
3894                  * below to figure out the size they already are */
3895
3896                 Newx(folded, UTF8_MAX_FOLD_CHAR_EXPAND * STR_LEN(scan) + 1, U8);
3897                 d = folded;
3898                 while (s < s_end) {
3899                     STRLEN s_len = UTF8SKIP(s);
3900                     if (! is_PROBLEMATIC_LOCALE_FOLD_utf8(s)) {
3901                         Copy(s, d, s_len, U8);
3902                         d += s_len;
3903                     }
3904                     else if (is_FOLDS_TO_MULTI_utf8(s)) {
3905                         *unfolded_multi_char = TRUE;
3906                         Copy(s, d, s_len, U8);
3907                         d += s_len;
3908                     }
3909                     else if (isASCII(*s)) {
3910                         *(d++) = toFOLD(*s);
3911                     }
3912                     else {
3913                         STRLEN len;
3914                         _toFOLD_utf8_flags(s, s_end, d, &len, FOLD_FLAGS_FULL);
3915                         d += len;
3916                     }
3917                     s += s_len;
3918                 }
3919
3920                 /* Point the remainder of the routine to look at our temporary
3921                  * folded copy */
3922                 s = folded;
3923                 s_end = d;
3924             } /* End of creating folded copy of EXACTFL string */
3925
3926             /* Examine the string for a multi-character fold sequence.  UTF-8
3927              * patterns have all characters pre-folded by the time this code is
3928              * executed */
3929             while (s < s_end - 1) /* Can stop 1 before the end, as minimum
3930                                      length sequence we are looking for is 2 */
3931             {
3932                 int count = 0;  /* How many characters in a multi-char fold */
3933                 int len = is_MULTI_CHAR_FOLD_utf8_safe(s, s_end);
3934                 if (! len) {    /* Not a multi-char fold: get next char */
3935                     s += UTF8SKIP(s);
3936                     continue;
3937                 }
3938
3939                 /* Nodes with 'ss' require special handling, except for
3940                  * EXACTFA-ish for which there is no multi-char fold to this */
3941                 if (len == 2 && *s == 's' && *(s+1) == 's'
3942                     && OP(scan) != EXACTFA
3943                     && OP(scan) != EXACTFA_NO_TRIE)
3944                 {
3945                     count = 2;
3946                     if (OP(scan) != EXACTFL) {
3947                         OP(scan) = EXACTFU_SS;
3948                     }
3949                     s += 2;
3950                 }
3951                 else { /* Here is a generic multi-char fold. */
3952                     U8* multi_end  = s + len;
3953
3954                     /* Count how many characters are in it.  In the case of
3955                      * /aa, no folds which contain ASCII code points are
3956                      * allowed, so check for those, and skip if found. */
3957                     if (OP(scan) != EXACTFA && OP(scan) != EXACTFA_NO_TRIE) {
3958                         count = utf8_length(s, multi_end);
3959                         s = multi_end;
3960                     }
3961                     else {
3962                         while (s < multi_end) {
3963                             if (isASCII(*s)) {
3964                                 s++;
3965                                 goto next_iteration;
3966                             }
3967                             else {
3968                                 s += UTF8SKIP(s);