This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
Add ANYOFHs regnode
authorKarl Williamson <khw@cpan.org>
Wed, 20 Nov 2019 02:15:38 +0000 (19:15 -0700)
committerKarl Williamson <khw@cpan.org>
Wed, 20 Nov 2019 21:09:21 +0000 (14:09 -0700)
commit34924db0919c191e271602c82cb2de7784fc63a4
tree420a27c457c5c44f6089f07fc2657813531d4920
parent21c3fd9dd0a7a389c901af03acc1907666ee1870
Add ANYOFHs regnode

This node is like ANYOFHb, but is used when more than one leading byte
is the same in all the matched code points.

ANYOFHb is used to avoid having to convert from UTF-8 to code point for
something that won't match.  It checks that the first byte in the UTF-8
encoded target is the desired one, thus ruling out most of the possible
code points.

But for higher code points that require longer UTF-8 sequences, many
many non-matching code points pass this filter.  Its almost 200K that it
is ineffective for for code points above 0xFFFF.

This commit creates a new node type that addresses this problem.
Instead of a single byte, it stores as many leading bytes that are the
same for all code points that match the class.  For many classes, that
will cut down the number of possible false positives by a huge amount
before having to convert to code point to make the final determination.

This regnode adds a UTF-8 string at the end.  It is still much smaller,
even in the rare worst case, than a plain ANYOF node because the maximum
string length, 15 bytes, is still shorter than the 32-byte bitmap that
is present in a plain ANYOF.  Most of the time the added string will
instead be at most 4 bytes.
embed.fnc
pod/perldebguts.pod
regcomp.c
regcomp.h
regcomp.sym
regexec.c
regnodes.h
t/re/pat.t