This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
migrate CURLYX/WHILEM branch in regmatch() to new FSM-esque paradigm
[perl5.git] / regcomp.sym
index bb5f8f8..f3f7164 100644 (file)
@@ -1,13 +1,28 @@
-# Format:
+# regcomp.sym
+#
+# File has two sections, divided by a line of dashes '-'. 
+#
+# Empty rows after #-comment are removed from input are ignored
+#
+# First section is for regops, second sectionis for regmatch-states
+#
+# Note that the order in this file is important.
+#
+# Format for first section: 
 # NAME \t TYPE, arg-description [num-args] [longjump-len] \t DESCRIPTION
+#
+#
+# run perl regen.pl after editing this file
+
 
-# Empty rows and #-comment rows are ignored.
 
-# Exit points
+#* Exit points (0,1)
+
 END            END,    no      End of program.
 SUCCEED                END,    no      Return from a subroutine, basically.
 
-# Anchors:
+#* Anchors: (2..13)
+
 BOL            BOL,    no      Match "" at beginning of line.
 MBOL           BOL,    no      Same, assuming multiline.
 SBOL           BOL,    no      Same, assuming singleline.
@@ -16,49 +31,34 @@ EOL         EOL,    no      Match "" at end of line.
 MEOL           EOL,    no      Same, assuming multiline.
 SEOL           EOL,    no      Same, assuming singleline.
 BOUND          BOUND,  no      Match "" at any word boundary
-BOUNDUTF8      BOUND,  no      Match "" at any word boundary
 BOUNDL         BOUND,  no      Match "" at any word boundary
-BOUNDLUTF8     BOUND,  no      Match "" at any word boundary
 NBOUND         NBOUND, no      Match "" at any word non-boundary
-NBOUNDUTF8     NBOUND, no      Match "" at any word non-boundary
 NBOUNDL                NBOUND, no      Match "" at any word non-boundary
-NBOUNDLUTF8    NBOUND, no      Match "" at any word non-boundary
 GPOS           GPOS,   no      Matches where last m//g left off.
 
-# [Special] alternatives
+#* [Special] alternatives: (14..30)
+
 REG_ANY                REG_ANY,    no  Match any one character (except newline).
-ANYUTF8                REG_ANY,    no  Match any one Unicode character (except newline).
 SANY           REG_ANY,    no  Match any one character.
-SANYUTF8       REG_ANY,    no  Match any one Unicode character.
+CANY           REG_ANY,    no  Match any one byte.
 ANYOF          ANYOF,  sv      Match character in (or not in) this class.
-ANYOFUTF8      ANYOF,  sv 1    Match character in (or not in) this class.
 ALNUM          ALNUM,  no      Match any alphanumeric character
-ALNUMUTF8      ALNUM,  no      Match any alphanumeric character in utf8
 ALNUML         ALNUM,  no      Match any alphanumeric char in locale
-ALNUMLUTF8     ALNUM,  no      Match any alphanumeric char in locale+utf8
 NALNUM         NALNUM, no      Match any non-alphanumeric character
-NALNUMUTF8     NALNUM, no      Match any non-alphanumeric character in utf8
 NALNUML                NALNUM, no      Match any non-alphanumeric char in locale
-NALNUMLUTF8    NALNUM, no      Match any non-alphanumeric char in locale+utf8
 SPACE          SPACE,  no      Match any whitespace character
-SPACEUTF8      SPACE,  no      Match any whitespace character in utf8
 SPACEL         SPACE,  no      Match any whitespace char in locale
-SPACELUTF8     SPACE,  no      Match any whitespace char in locale+utf8
 NSPACE         NSPACE, no      Match any non-whitespace character
-NSPACEUTF8     NSPACE, no      Match any non-whitespace character in utf8
 NSPACEL                NSPACE, no      Match any non-whitespace char in locale
-NSPACELUTF8    NSPACE, no      Match any non-whitespace char in locale+utf8
 DIGIT          DIGIT,  no      Match any numeric character
-DIGITUTF8      DIGIT,  no      Match any numeric character in utf8
 DIGITL         DIGIT,  no      Match any numeric character in locale
-DIGITLUTF8     DIGIT,  no      Match any numeric character in locale+utf8
 NDIGIT         NDIGIT, no      Match any non-numeric character
-NDIGITUTF8     NDIGIT, no      Match any non-numeric character in utf8
 NDIGITL                NDIGIT, no      Match any non-numeric character in locale
-NDIGITLUTF8    NDIGIT, no      Match any non-numeric character in locale+utf8
 CLUMP          CLUMP,  no      Match any combining character sequence
 
-# BRANCH       The set of branches constituting a single choice are hooked
+#* Alternation (31)
+
+# BRANCH       The set of branches constituting a single choice are hooked
 #              together with their "next" pointers, since precedence prevents
 #              anything being concatenated to any individual branch.  The
 #              "next" pointer of the last BRANCH in a choice points to the
@@ -68,21 +68,27 @@ CLUMP               CLUMP,  no      Match any combining character sequence
 #
 BRANCH         BRANCH, node    Match this alternative, or the next...
 
+#*Back pointer (32)
+
 # BACK         Normal "next" pointers all implicitly point forward; BACK
 #              exists to make loop structures possible.
 # not used
 BACK           BACK,   no      Match "", "next" ptr points backward.
 
-# Literals
+#*Literals (33..35)
+
 EXACT          EXACT,  sv      Match this string (preceded by length).
 EXACTF         EXACT,  sv      Match this string, folded (prec. by length).
 EXACTFL                EXACT,  sv      Match this string, folded in locale (w/len).
 
-# Do nothing
+#*Do nothing types (36..37)
+
 NOTHING                NOTHING,no      Match empty string.
 # A variant of above which delimits a group, thus stops optimizations
 TAIL           NOTHING,no      Match empty string. Can jump here from outside.
 
+#*Loops (38..44)
+
 # STAR,PLUS    '?', and complex '*' and '+', are implemented as circular
 #              BRANCH structures using BACK.  Simple cases (one character
 #              per match) are implemented with STAR and PLUS for speed
@@ -100,6 +106,8 @@ CURLYX              CURLY,  sv 2    Match this complex thing {n,m} times.
 # This terminator creates a loop structure for CURLYX
 WHILEM         WHILEM, no      Do curly processing and see if rest matches.
 
+#*Buffer related (45..49)
+
 # OPEN,CLOSE,GROUPP    ...are numbered at compile time.
 OPEN           OPEN,   num 1   Mark this point in input as start of #n.
 CLOSE          CLOSE,  num 1   Analogous to OPEN.
@@ -108,27 +116,81 @@ REF               REF,    num 1   Match some already matched string
 REFF           REF,    num 1   Match already matched string, folded
 REFFL          REF,    num 1   Match already matched string, folded in loc.
 
-# grouping assertions
+#*Grouping assertions (50..54)
+
 IFMATCH                BRANCHJ,off 1 2 Succeeds if the following matches.
 UNLESSM                BRANCHJ,off 1 2 Fails if the following matches.
 SUSPEND                BRANCHJ,off 1 1 "Independent" sub-RE.
 IFTHEN         BRANCHJ,off 1 1 Switch, should be preceeded by switcher .
 GROUPP         GROUPP, num 1   Whether the group matched.
 
-# Support for long RE
+#*Support for long RE (55..56)
+
 LONGJMP                LONGJMP,off 1 1 Jump far away.
 BRANCHJ                BRANCHJ,off 1 1 BRANCH with long offset.
 
-# The heavy worker
+#*The heavy worker (57..58)
+
 EVAL           EVAL,   evl 1   Execute some Perl code.
 
-# Modifiers
+#*Modifiers (59..60)
+
 MINMOD         MINMOD, no      Next operator is not greedy.
 LOGICAL                LOGICAL,no      Next opcode should set the flag only.
 
-# This is not used yet
+# This is not used yet (61)
 RENUM          BRANCHJ,off 1 1 Group with independently numbered parens.
 
+#*Trie Related (62..64)
+
+# Behave the same as A|LIST|OF|WORDS would. The '..C' variants have  
+# inline charclass data (ascii only), the 'C' store it in the structure.
+# NOTE: the relative order of the TRIE-like regops  is signifigant
+
+TRIE           TRIE,   trie 1  Match many EXACT(FL?)? at once. flags==type
+TRIEC          TRIE,   trie charclass  Same as TRIE, but with embedded charclass data
+
+# For start classes, contains an added fail table.
+AHOCORASICK    TRIE,   trie 1  Aho Corasick stclass. flags==type
+AHOCORASICKC   TRIE,   trie charclass  Same as AHOCORASICK, but with embedded charclass data
+
+#*Recursion (65) 
+RECURSE                RECURSE,   num/ofs 2L   recurse to paren arg1 at (signed) ofs arg2
+SRECURSE       RECURSE,   no           recurse to start of pattern
+
+# NEW STUFF ABOVE THIS LINE -- Please update counts below. 
+
+################################################################################
+
+#*SPECIAL  REGOPS (65, 66)
+
 # This is not really a node, but an optimized away piece of a "long" node.
 # To simplify debugging output, we mark it as if it were a node
 OPTIMIZED      NOTHING,off     Placeholder for dump.
+
+# Special opcode with the property that no opcode in a compiled program
+# will ever be of this type. Thus it can be used as a flag value that
+# no other opcode has been seen. END is used similarly, in that an END
+# node cant be optimized. So END implies "unoptimizable" and PSEUDO mean
+# "not seen anything to optimize yet".
+PSEUDO         PSEUDO,off      Pseudo opcode for internal use.
+
+-------------------------------------------------------------------------------
+# Format for second section:
+# REGOP \t typelist [ \t typelist] [# Comment]
+# typelist= namelist
+#         = namelist:FAIL
+#         = name:count
+
+# Anything below is a state
+#
+#
+TRIE           next:FAIL       
+EVAL           AB:FAIL 
+CURLYX         end:FAIL        
+WHILEM         A_pre,A_min,A_max,B_min,B_max:FAIL
+BRANCH         next:FAIL       
+CURLYM         A,B:FAIL        
+IFMATCH        A:FAIL  
+CURLY          B_min_known,B_min,B_max:FAIL    
+