This is a live mirror of the Perl 5 development currently hosted at
8 years agoUse PL_parser->lex_shared instead of Sv[IN]VX(PL_linestr)
Father Chrysostomos [Tue, 28 Aug 2012 08:11:30 +0000 (01:11 -0700)]
Use PL_parser->lex_shared instead of Sv[IN]VX(PL_linestr)

Unfortunately, PL_parser->linestr and PL_parser->bufptr are both
part of the API, so we can’t just move them to PL_parser->lex_shared.
Instead, we have to copy them in sublex_push, to make them visible to
inner lexing scopes.

This allows the SvIVX(PL_linestr) and SvNVX(PL_linestr) hack to
be removed.

It should also speed things up slightly.  We are already allocating
PL_parser->lex_shared in sublex_push, so there should be no need to
upgrade PL_linestr to SvNVX as well.

I was pleasantly surprised to see how the here-doc code seemed to
shrink all by itself when modified to account.

PL_sublex_info.super_bufptr is also superseded by the addition of
->ls_bufptr to the LEXSHARED struct.  Its old values when localised
were not visible, being stashed away on the savestack, so it was
harder to use.

8 years agocaller.t: Fix ‘Caller’ test
Father Chrysostomos [Tue, 28 Aug 2012 07:51:27 +0000 (00:51 -0700)]
caller.t: Fix ‘Caller’ test

This string eval was always failing, leaving @c with its previous
value, which just happened to be what we were expecting.

8 years agoStop here-docs from gutting (caller $n)[6]
Father Chrysostomos [Tue, 28 Aug 2012 06:03:36 +0000 (23:03 -0700)]
Stop here-docs from gutting (caller $n)[6]

(caller $n)[6] returns the text of the eval.  Actually, it would
return, not the text of the eval, but the text with all the here-doc
bodies missing.

In this commit, I’m abusing the SvSCREAM flag to indicate that the
eval text stored in the context stack is refcounted.

8 years agoStop (caller $n)[6] from including final "\n;"
Father Chrysostomos [Tue, 28 Aug 2012 05:38:57 +0000 (22:38 -0700)]
Stop (caller $n)[6] from including final "\n;"

String eval appends "\n;" to the string before evaluating it.
(caller $n)[6], which returns the text of the eval, was giving the
modified string, rather than the original.

In fact, it was returning the actual string buffer that the parser
uses.  This commit changes it to create a new mortal SV from that
string buffer, but without the last two characters.

It unfortunately breaks this JAPH:

eval'BEGIN{${\(caller 2)[6]}=~y< !"$()+\-145=ACHMT^acfhinrsty{}>
<nlrhta"o Pe e,\nkrcrJ uthspeia">}say if+chr(1) -int"145"!=${^MATCH}'

8 years agoFix eval 'q;;'
Father Chrysostomos [Tue, 28 Aug 2012 01:26:11 +0000 (18:26 -0700)]
Fix eval 'q;;'

The parser expects a semicolon at the end of every statement, so the
lexer provides one.  It was not doing so for evals ending with a
semicolon, even if that semicolon was not a statement-terminating

8 years agoRevert "smoke-me diag"
Father Chrysostomos [Tue, 28 Aug 2012 01:19:24 +0000 (18:19 -0700)]
Revert "smoke-me diag"

This reverts commit 372a31d8f53707bcfa9c233ce02a93f778b7bb4b.

I missed this when I was merging that branch.  It should never have
made its way into blead.  It was to find out why the Windows smokes
were temporarily failing, by dumping in the logs.
This was what led to 0ee364945bd.

8 years agoparser.h: Document copline with more detail
Father Chrysostomos [Tue, 28 Aug 2012 01:19:12 +0000 (18:19 -0700)]
parser.h: Document copline with more detail

It took me a while to figure this out, so here it is for
future readers.

8 years agoFix line numbers inside here-docs
Father Chrysostomos [Tue, 28 Aug 2012 01:16:34 +0000 (18:16 -0700)]
Fix line numbers inside here-docs

A previous commit put the number of lines in a here-doc in a separ-
ate parser field, which was added on to the line number at the next
CopLINE_inc (actually COPLINE_INC_WITH_HERELINES, now used through-
out toke.c).

Code interpolated inside the here-doc was picking up that value,
throwing line numbers off.

Before that, they were already off by one.

This commit fixes both.

I removed the CLINE from S_scan_heredoc and stopped using TERM (which
uses CLINE) for here-docs.  CLINE sets PL_copline, which is used to
pass a specific line number to newSTATEOP, which may or may not be the
same number as CopLINE(PL_curcop).  newSTATEOP grabs that number and
sets PL_copline to -1 (aka NOLINE).  I assume this was used to make
the statement containing the <<foo marker have the right line number.
But it didn’t fully work out, as subsequent statements on the same
line had the wrong number.  That I fixed a few commits ago when I
introduced herelines, making CopLINE(PL_curcop) have the right line
number for that line.  So the CLINE is not actually necessary anymore.
It was causing a problem also with the first statement inside the
heredoc (in ${...}), which would ‘steal’ the line number of the
<<foo marker.

This also means that <FH> and <.*> no longer do CLINE, but it is not
necessary, as they cannot span multiple lines.

8 years agoop.c: newSTATEOP: don’t check PL_parser after using it
Father Chrysostomos [Mon, 27 Aug 2012 21:56:52 +0000 (14:56 -0700)]
op.c: newSTATEOP: don’t check PL_parser after using it

If it is null, we would already have crashed when reaching this

8 years agoAdd PL_parser->lex_shared struct; move herelines into it
Father Chrysostomos [Mon, 27 Aug 2012 16:18:29 +0000 (09:18 -0700)]
Add PL_parser->lex_shared struct; move herelines into it

PL_parser->herelines needs to be visible to inner lexing scopes, which
also need to have their own copy of it, so that the here-doc parser
can modify the right herelines variable corresponding to the
PL_linestr from which it is stealing its body.  (A subsequent commit
will take take of that.)

8 years agoStop invalid y/// ranges from leaking
Father Chrysostomos [Mon, 27 Aug 2012 06:46:09 +0000 (23:46 -0700)]
Stop invalid y/// ranges from leaking

8 years agotoke.c: Merge KEY_tr and KEY_y
Father Chrysostomos [Mon, 27 Aug 2012 06:27:45 +0000 (23:27 -0700)]
toke.c: Merge KEY_tr and KEY_y

8 years agoStop unterminated here-docs from leaking memory
Father Chrysostomos [Mon, 27 Aug 2012 06:10:28 +0000 (23:10 -0700)]
Stop unterminated here-docs from leaking memory

8 years ago[perl #114070] Fix lines nums after <<foo
Father Chrysostomos [Mon, 27 Aug 2012 00:51:37 +0000 (17:51 -0700)]
[perl #114070] Fix lines nums after <<foo

The line numbers for operators after a here-doc marker on the same
line were off by the length of the here-doc.

This is because the here-doc parser would artificially increase the
line number as it went, because it was stealing lines out of the
input stream.

Instead, we can record the number of lines in the here-doc, and add it
to the line number the next time we need to increment it.

This also fixes the line numbers after s//<<END/e to the end of the
file, which were off because the line number adjusted by the <<END was
localised to the s///.

Since herelines is visible to inner lexing scopes, the outer lexing
scope can see changes made by the inner one.

The lack of localisation does cause problems with line numbers inside
quote-like operators (but they were off by one already), which will be
addressed in subsequent commits.

8 years agoAdd utility and .h for character's UTF-8
Karl Williamson [Mon, 27 Aug 2012 02:26:37 +0000 (20:26 -0600)]
Add utility and .h for character's UTF-8

This add regen/ takes Unicode characters and generates
utf8_strings.h to contains #defines for macros that translate from the
name to the UTF-8.  This is needed in a few places, where previously
things were manually figured out and hard-coded in.  Doing this instead
makes this easier, and removes EBCDIC dependencies/bugs, as the file
would simply be regen'd on an EBCDIC platform.

8 years agoregen/ Comment out obsolete code
Karl Williamson [Thu, 16 Aug 2012 04:48:47 +0000 (22:48 -0600)]
regen/ Comment out obsolete code

Tricky folds have been removed from the code, so the removed #defines
are obsolete.  I'm leaving this in, in so it can conveniently be
referred to in case we ever need it again.

8 years wrap long pod lines
Father Chrysostomos [Sun, 26 Aug 2012 19:34:43 +0000 (12:34 -0700)] wrap long pod lines

8 years agoIncrease $Opcode::VERSION to 1.24
Father Chrysostomos [Sun, 26 Aug 2012 19:29:07 +0000 (12:29 -0700)]
Increase $Opcode::VERSION to 1.24

8 years agoRemove boolkeys op
Father Chrysostomos [Sun, 26 Aug 2012 19:28:45 +0000 (12:28 -0700)]
Remove boolkeys op

8 years agopp_hot.c: pp_rv2av: Squash repetitive code
Father Chrysostomos [Sun, 26 Aug 2012 18:59:19 +0000 (11:59 -0700)]
pp_hot.c: pp_rv2av: Squash repetitive code

The LVRET that I removed (in the if(SvTYPE(sv) == type) block) actu-
ally never evaluates to true, because that block is only entered for
%hash->{elem} or @array->[elem], in which the parent op is helem or
aelem, not leavesublv or return.  LVRET only returns true if the cur-
rent op is the last op in an lvalue sub.  Likewise, the OPpMAYBE_LVSUB
flag is never set in that case, so checking it now is harmless (the
cases that used to enter the if(SvTyPE(sv)==type) block now fall
through to the OPpMAYBE_LVSUB check).

(Using LVRET in pp_rv2av is actually incorrect, and I corrected most instances in 40c94d11, but this one remained.)

8 years agoCroak for \local %{\%foo}
Father Chrysostomos [Sun, 26 Aug 2012 18:10:18 +0000 (11:10 -0700)]
Croak for \local %{\%foo}

See the previous commit.

When I moved the check for local %$ref earlier, I didn’t move it
early enough.

8 years agoRestore ‘Can’t localize through ref’ to lv subs
Father Chrysostomos [Sun, 26 Aug 2012 18:06:39 +0000 (11:06 -0700)]
Restore ‘Can’t localize through ref’ to lv subs

In commit 40c94d11, I put an if statement inside an if statement,
skipping the else that followed if the outer if was true:

  if (...) {

  else if {


  if (...) {
     if (...) {
  else if {

The result was that ‘Can’t localize through a reference’ no longer
happened if the operator (%{} or @{}) was the last thing in an lvalue
sub, if the lvalue sub was not called in lvalue context.

$ perl5.14.0 -e 'sub foo :lvalue { local %{\%foo} } foo(); print "ok\n"'
Can't localize through a reference at -e line 1.
$ perl5.16.0 -e 'sub foo :lvalue { local %{\%foo} } foo(); print "ok\n"'

If the sub is called in lvalue context, the bug exists there, too, but
is much older (probably 82d039840b9):

$ perl5.6.2 -e 'sub f :lvalue { local %{\%foo} } (f()) =3; print "ok\n"'
Can't localize through a reference at -e line 1.
$ perl5.8.1 -e 'sub f :lvalue { local %{\%foo} } (f()) =3; print "ok\n"'

The simplest solution is to change the order of the conditions.  If
the rv2hv or rv2av op is passed a reference, and has ‘local’ in front
of it (OPf_MOD && OPpLVAL_INTRO), that should die, regardless of
whether it is the last thing in an lvalue sub.

8 years agoUse new Unicode 6.2 beta
Karl Williamson [Sun, 26 Aug 2012 17:49:26 +0000 (11:49 -0600)]
Use new Unicode 6.2 beta

These supposedly are the final data files for 6.2.  Earlier changes
originally proposed for 6.2 have been deferred until a later release.
Thus there is no change in the general category of ASCII characters in
these files from what they were in 6.1 and earlier, unlike what had been

Unlike the previous experimental beta, code is now in place in Perl to
handle the revised definition of \X in 6.2.  The current working draft
of that definition is at

8 years agoPrepare for Unicode 6.2
Karl Williamson [Sun, 26 Aug 2012 17:25:13 +0000 (11:25 -0600)]
Prepare for Unicode 6.2

This changes code to be able to handle Unicode 6.2, while continuing to
handle all prevrious releases.

The major change was a new definition of \X, which adds a property to
its calculation.  Unfortunately \X is hard-coded into regexec.c, and so
has to revised whenever there is a change of this magnitude in Unicode,
which fortunately isn't all that often.  I refactored the code in
mktables to make it easier next time there is a change like this one.

8 years agomktables: Re-order some code, change comments
Karl Williamson [Sun, 26 Aug 2012 15:47:48 +0000 (09:47 -0600)]
mktables: Re-order some code, change comments

Unicode 6.2 is changing some of these things; this re-ordering will make
that more convenient.

8 years agomktables: Correct generated table comment
Karl Williamson [Sun, 26 Aug 2012 15:29:13 +0000 (09:29 -0600)]
mktables: Correct generated table comment

8 years agolib/unicore/README.perl: Make usablea s shell script
Karl Williamson [Sat, 18 Aug 2012 17:44:09 +0000 (11:44 -0600)]
lib/unicore/README.perl: Make usablea s shell script

This adds comment symbols and redirects error messages to /dev/null for
likely things that will fail

8 years agoRevert "Experimentally Use Unicode 6.2 beta"
Karl Williamson [Sat, 18 Aug 2012 16:01:07 +0000 (10:01 -0600)]
Revert "Experimentally Use Unicode 6.2 beta"

This reverts commit 5435c3759c4567a1bb51384f6641c04822ec6391.
A new beta has been released, and so we should use that instead.

8 years agoperldelta for Unicode property performance gains
Karl Williamson [Sun, 26 Aug 2012 17:30:57 +0000 (11:30 -0600)]
perldelta for Unicode property performance gains

8 years agoUpgrade Socket from 2.004 to 2.006
Steve Hay [Sun, 26 Aug 2012 13:34:22 +0000 (14:34 +0100)]
Upgrade Socket from 2.004 to 2.006

8 years agoAdd Configure probe for ip_mreq_source
H.Merijn Brand [Sun, 26 Aug 2012 12:52:26 +0000 (14:52 +0200)]
Add Configure probe for ip_mreq_source

Needed to upgrade Socket from CPAN

8 years agoCorrect typo in flag name
Father Chrysostomos [Sun, 26 Aug 2012 05:27:33 +0000 (22:27 -0700)]
Correct typo in flag name

8 years agoBanish boolkeys
Father Chrysostomos [Sun, 26 Aug 2012 01:48:46 +0000 (18:48 -0700)]
Banish boolkeys

Since 6ea72b3a1, rv2hv and padhv have had the ability to return boo-
leans in scalar context, instead of bucket stats, if flagged the right
way.  sub { %hash || ... } is optimised to take advantage of this.  If
the || is in unknown context at compile time, the %hash is flagged as
being maybe a true boolean.  When flagged that way, it returns a bool-
ean if block_gimme() returns G_VOID.

If rv2hv and padhv can already do this, then we don’t need the
boolkeys op any more.  We can just flag the rv2hv to return a boolean.
In all the cases where boolkeys was used, we know at compile time that
it is true boolean context, so we add a new flag for that.

8 years agoregexec.c: White-space only
Karl Williamson [Tue, 21 Aug 2012 14:17:51 +0000 (08:17 -0600)]
regexec.c: White-space only

Indent inside newly formed block

8 years agoregex: Speed up \X processing
Karl Williamson [Tue, 21 Aug 2012 04:03:22 +0000 (22:03 -0600)]
regex: Speed up \X processing

For most Unicode releases, GCB=prepend matches absolutely nothing.  And
that appears to be the case going forward, as they added things to it,
and removed them later based on field experience.

An earlier commit has improved the performance of this significantly by
using a binary search of an empty array instead of a swash hash.
However, that search requires several layers of function calls to
discover that it is empty, which this commit avoids.

This patch will use whatever swash_init() returns unless it is empty,
preserving backwards compatibility with older Unicode releases.  But if
it is empty, the routine sets things up so that future calls will always
fail without further testing.

8 years agoutf8.c: indent in new block: White space-only
Karl Williamson [Sat, 25 Aug 2012 20:54:10 +0000 (14:54 -0600)]
utf8.c: indent in new block: White space-only

8 years agoutf8.c: Prefer binsearch over swash hash for small swashes
Karl Williamson [Sat, 25 Aug 2012 20:49:47 +0000 (14:49 -0600)]
utf8.c: Prefer binsearch over swash hash for small swashes

A binary swash is a hash of bitmaps used to cache the results of looking
up if a code point matches a Unicode property or regex bracketed
character class.  An inversion list is a data structure that also holds
information about what code points match a Unicode property or character
class.  It is implemented as an SV* to a sorted C array, and hence can
be searched using a binary search.

This patch converts to using a binary search of an  inversion list
instead of a hash look-up for inversion lists that are no more than 512
elements (9 iterations of the search loop).  That number can be easily
adjusted, if necessary.

Theoretically, a hash is faster than a binary lookup over a very long
period.  So this may negatively impact long-running servers.  But in the
short run, where most programs reside, the binary search is
significantly faster.

A swash is filled as necessary as time goes on, caching each new
distinct code point it is called with.  If it is called with  many, many
such code points, its performance can degrade as collisions increase.  A
binary search does not have that drawback.  However, most real-world
scenarios do not have a program being called with huge numbers of
distinct code points.  Mostly, the program will be called with code
points from just one or a few of the world's scripts, so will remain
sparse.  The bitmaps in a swash are each 64 bits long (except for ASCII,
where it is 128).  That means that when the swash is populated, a lookup
of a single code point that hasn't been checked before will have to
lookup the 63 adjoining code points as well, increasing its startup
overhead.  Of course, if one of those 63 code points is later accessed,
no extra populate happens.  This is a typical case where a languages
code points are all near each other.

The bottom line, though, is in the short term, this patch speeds up the
processing of \X regex matching about 35-40%, with modern Korean (which
has uniquely complicated \X processing) closer to 40%, and other scripts
closer to 35%.

The 512 boundary means that over 90% of the official Unicode properties
are handled using binary search.  I settled on that number by
experimenting with several properties besides \X and with various
powers-of-2 limits.  Until I got that high, performance kept improving
when the property went from being a swash to a binary search.  \X
improved even up to 2048, which encompasses 100% of the official Unicode

The implementation changes so that an inversion list instead of a swash
is returned by swash_init() when the input flags allows it to do so, for
all inversion lists shorter than the compiled in constant of 512
(actually <= 512).  The other functions that access swashes have added
intelligence to deal with an object of either type.  Should someone in
CPAN be using the public swash_init() interface, they will not see any
difference, as the option to get an inversion list is not available to

8 years agoutf8.c: Bypass a subroutine wrapper
Karl Williamson [Sat, 25 Aug 2012 20:51:11 +0000 (14:51 -0600)]
utf8.c: Bypass a subroutine wrapper

We might as well call the core swash initialization, since we are the
core here, since the public one merely wraps it.

8 years agoutf8.c: Add comment about speed-up attempt
Karl Williamson [Sat, 25 Aug 2012 19:27:25 +0000 (13:27 -0600)]
utf8.c: Add comment about speed-up attempt

This might keep someone later from attempting the speedup which didn't
actually help, so I didn't commit it

8 years agoutf8.c: Shorten hash key for speed
Karl Williamson [Sat, 25 Aug 2012 17:42:55 +0000 (11:42 -0600)]
utf8.c: Shorten hash key for speed

Experiments have shown that longer hash keys impact performance.  See
the thread at

This patch shortens a key used very frequently.  There are other keys in
this hash which are used frequently in some circumstances, but I expect
to change to use fewer in the future, so am not changing them now

8 years agoutf8.c: collapse a function parameter
Karl Williamson [Sat, 25 Aug 2012 14:58:42 +0000 (08:58 -0600)]
utf8.c: collapse a function parameter

Now that we have a flags parameter, we can get put this parameter as
just another flag, giving a cleaner interface to this internal-only
function.  This also renames the flag parameter to <flag_p> to indicate
it needs to be dereferenced.

8 years agoregexec.c: Reword comment
Karl Williamson [Sat, 25 Aug 2012 14:06:30 +0000 (08:06 -0600)]
regexec.c: Reword comment

This portion of the comment is unnecessary, and doesn't really reflect
the implementation

8 years agoregexec.c: Use get method instead of internals
Karl Williamson [Fri, 24 Aug 2012 20:38:02 +0000 (14:38 -0600)]
regexec.c: Use get method instead of internals

A new get method has been written to access the internals of a swash
it's best to use it.

This also moves the error checking to the method

8 years agoembed.fnc: Turn null wrapper function into macro
Karl Williamson [Fri, 24 Aug 2012 20:20:41 +0000 (14:20 -0600)]
embed.fnc: Turn null wrapper function into macro

This function only does something on EBCDIC platforms.  On ASCII ones
make it a macro, like similar ones to avoid useless function nesting

8 years agoutf8.c: Revise internal API of swash_init()
Karl Williamson [Fri, 24 Aug 2012 20:00:22 +0000 (14:00 -0600)]
utf8.c: Revise internal API of swash_init()

This revises the API for the version of swash_init() that is usable
by core Perl.  The external interface is unaffected.  There is now a
flags parameter to allow for future growth.  And the core internal-only
function that returns if a swash has a user-defined property in it or
not has been removed.  This information is now returned via the new
flags parameter upon initialization, and is unavailable afterwards.
This is to prepare for the flexibility to change the swash that is
needed in future commits.

8 years agoembed.fnc: Mark internal function as "may change"
Karl Williamson [Fri, 24 Aug 2012 17:11:57 +0000 (11:11 -0600)]
embed.fnc: Mark internal function as "may change"

This function is not designed for a public API, and should have been so

8 years agoAdd caching to inversion list searches
Karl Williamson [Thu, 23 Aug 2012 19:47:37 +0000 (13:47 -0600)]
Add caching to inversion list searches

Benchmarking showed some speed-up when the result of the previous
search in an inversion list is cached, thus potentially avoiding a
search in the next call.  This adds a field to each inversion list which
caches its previous search result.

8 years agoregexec.c: Use xor to save a branch
Karl Williamson [Sat, 18 Aug 2012 18:20:42 +0000 (12:20 -0600)]
regexec.c: Use xor to save a branch

Probably this gets optimized this way anyway.

8 years agoComment out unused function
Karl Williamson [Tue, 21 Aug 2012 16:22:00 +0000 (10:22 -0600)]
Comment out unused function

In looking at \X handling, I noticed that this function which is
intended for use in it, actually isn't used.  This function may someday
be useful, so I'm leaving the source in.

8 years agoutf8.c: Speed up \X processing of Korean
Karl Williamson [Tue, 21 Aug 2012 15:30:08 +0000 (09:30 -0600)]
utf8.c: Speed up \X processing of Korean

\X matches according to a complicated pattern that is hard-coded in
regexec.c.  Part of that pattern involves checking if a code point is a
component of a Hangul Syllable or not.  For Korean code points, this
involves checking against multiple tables.  It turns out that two of
those tables are arranged so that the checks for them can be done via an
arithmetic expression; Unicode publishes algorithms for determining
various characteristics based on their very structured ordering.

This patch converts the routines that check these two tables to instead
use the arithmetic expression.

8 years agoregcomp.c: Move functions to inline_invlist.c
Karl Williamson [Thu, 23 Aug 2012 16:36:13 +0000 (10:36 -0600)]
regcomp.c: Move functions to inline_invlist.c

This populates inline_invlist.c with some static inline functions and
macro defines.  These are the ones that are anticipated to be needed in
the near term outside regcomp.c

8 years agoregcomp.c: Rename 2 functions to indicate private nature
Karl Williamson [Thu, 23 Aug 2012 16:19:51 +0000 (10:19 -0600)]
regcomp.c: Rename 2 functions to indicate private nature

These two functions will be moved into a header in a future commit,
where they will be accessible outside regcomp.c  Prefix their names with
an underscore to emphasize that they are private

8 years agoregcomp.c: Silence compiler warning.
Karl Williamson [Thu, 23 Aug 2012 14:37:58 +0000 (08:37 -0600)]
regcomp.c: Silence compiler warning.

The warning that this variable can be used uninitialized is spurious,
but silence it nonetheless.

8 years agoAdd empty inline_invlist.c
Karl Williamson [Thu, 23 Aug 2012 00:30:59 +0000 (18:30 -0600)]
Add empty inline_invlist.c

This will be used for things need to handle inversion lists in the three
files that currently use them.  I'm putting this in a separate hdr,
because inversion lists are very internal-only, so should not be grouped
in with things that there is an external API for.  It is a dot-c file so
that the functions can continue to be declared with embed.fnc, and
porting/args_assert.t will continue to work, as it looks only in .c

8 years agoregcomp.c: Add assertion, comments
Karl Williamson [Tue, 21 Aug 2012 17:24:48 +0000 (11:24 -0600)]
regcomp.c: Add assertion, comments

8 years agoregcomp.c: Allow search to work on empty inversion lists
Karl Williamson [Sat, 18 Aug 2012 20:23:12 +0000 (14:23 -0600)]
regcomp.c: Allow search to work on empty inversion lists

You cannot retrieve the array of an empty inversion list, so the code
has to be reordered to do that after the list is known to be non-empty.
I haven't been able to find a case where this currently fails, but
future commits open up the possibility.

8 years agoregcomp.c: Special case /[UV_MAX]/
Karl Williamson [Sat, 18 Aug 2012 18:19:00 +0000 (12:19 -0600)]
regcomp.c: Special case /[UV_MAX]/

The highest code point representable on the machine has to be special
cased.  Earlier commits for 5.14 did this for ranges ending in this code
point, but it turns out there needs to be a special-special case when
the range contains just it.

8 years agomktables: Fix bug when deleting final range
Karl Williamson [Mon, 20 Aug 2012 19:28:31 +0000 (13:28 -0600)]
mktables: Fix bug when deleting final range

When a Range_List is emptied, there is a bug which causes a runtime
error when trying to refer to a non-existent element.  This avoids that.
A future commit would have run afoul of this bug.

8 years agoIncrease $B::Concise::VERSION to 0.93
Father Chrysostomos [Sat, 25 Aug 2012 21:43:33 +0000 (14:43 -0700)]
Increase $B::Concise::VERSION to 0.93

8 years agoOptimise %hash in sub { %hash || ... }
Father Chrysostomos [Sat, 25 Aug 2012 20:22:46 +0000 (13:22 -0700)]
Optimise %hash in sub { %hash || ... }

In %hash || $foo, the %hash is in scalar context, so it has to iterate
through the buckets to produce statistics on bucket usage.

If the || is in void context, the value returned by hash is only ever
used as a boolean (as || doesn’t have to return it).  We already opti-
mise it by adding a boolkeys op when it is known at compile time that
|| will be in void context.

In sub { %hash || $foo } it is not known at compile time that it will
be in void context, so it wasn’t optimised.

This commit optimises it by flagging the %hash at compile time as
being possibly in ‘true boolean’ context.  When that flag is set,
the rv2hv and padhv ops call block_gimme() to see whether || is in
void context.

This speeds things up signficantly.  Here is what I got after optimis-
ing rv2hv but before doing padhv:

$ time ./miniperl -e '%hash = 1..10000; sub { %hash || 1 }->() for 1..100000'

real 0m0.179s
user 0m0.101s
sys 0m0.005s
$ time ./miniperl -e 'my %hash = 1..10000; sub { %hash || 1 }->() for 1..100000'

real 0m5.446s
user 0m2.419s
sys 0m0.015s

(That example is slightly misleading because of the closure, but the
closure version takes 1 sec. when optimised.)

8 years agoimprove and fix the documentation of the PERL_HASH function
Yves Orton [Sat, 25 Aug 2012 16:35:25 +0000 (18:35 +0200)]
improve and fix the documentation of the PERL_HASH function

8 years agominor doc patches to api stuff
Yves Orton [Sat, 25 Aug 2012 10:28:38 +0000 (12:28 +0200)]
minor doc patches to api stuff

8 years agoApply boolkeys optimisation to %hash?:
Father Chrysostomos [Sat, 25 Aug 2012 07:12:26 +0000 (00:12 -0700)]
Apply boolkeys optimisation to %hash?:

and consequently if(%hash) followed by else.

8 years agoApply boolkeys optimisation to scalar(%hash)
Father Chrysostomos [Sat, 25 Aug 2012 07:07:21 +0000 (00:07 -0700)]
Apply boolkeys optimisation to scalar(%hash)

8 years ago[perl #114576] Optimise if(%hash) in non-void context
Father Chrysostomos [Sat, 25 Aug 2012 06:52:36 +0000 (23:52 -0700)]
[perl #114576] Optimise if(%hash) in non-void context

The boolkeys optimisation (867fa1e2da1) was only applying to an and
(or if) in void context.  If an if occurs as the last thing in a sub-
routine, the void context is not know at compile time so the optimisa-
tion does not apply.

In the case of || (to which the boolkeys optimisation also applies),
we can’t optimise it in non-void context, because someone might be
writing $bucket_info = %hash || '0/0';

In the case of &&, we can optimise it, even in non-void context,
because a true value will always be discarded in %hash && foo.
The false value it returns for an empty hash is always the int-
eger 0.  That would change if we simply applied boolkeys to
my $ret = %hash && foo; because boolkeys return &PL_sv_no (the dualvar
you get from !1).  But since boolkeys’ return value is never directly
visible to perl code, we can safely change that.

8 years agopp.c: pp_boolkeys does not need to pop
Father Chrysostomos [Sat, 25 Aug 2012 06:03:44 +0000 (23:03 -0700)]
pp.c: pp_boolkeys does not need to pop

If it’s going to consume and return exactly one item, it doesn’t need
to decrement and increment the stack pointer.

8 years ago[perl #114572] perl.c: fix locality/rmv redundant nulls in call_sv/eval_sv
Daniel Dragan [Fri, 24 Aug 2012 21:07:59 +0000 (17:07 -0400)]
[perl #114572] perl.c: fix locality/rmv redundant nulls in call_sv/eval_sv

Small tweaks to improve locality/more opportunity for C compiler to
optimize. Also remove redunant nulls, since the OP structs are
null filled a line or 2 before.

8 years agoparser.t: Move a test above ‘Add new tests here’
Father Chrysostomos [Fri, 24 Aug 2012 19:39:40 +0000 (12:39 -0700)]
parser.t: Move a test above ‘Add new tests here’

8 years agopad.h: Rename PadnameSTATE; make it a proper boolean
Father Chrysostomos [Fri, 24 Aug 2012 16:33:51 +0000 (09:33 -0700)]
pad.h: Rename PadnameSTATE; make it a proper boolean

I used PadnameIs* for OUR, because I was copying
PAD_COMPNAME_FLAGS_isOUR.  STATE should be consistent with it.  And it
was missing the double bang, making the docs wrong.

8 years agort #111126 - don't empty a file with copy("foo/bar", "foo/");
Tony Cook [Thu, 1 Mar 2012 10:16:50 +0000 (21:16 +1100)]
rt #111126 - don't empty a file with copy("foo/bar", "foo/");

8 years agort #111126 - TODO test for copy foo/file to foo/
Tony Cook [Wed, 29 Feb 2012 13:11:56 +0000 (00:11 +1100)]
rt #111126 - TODO test for copy foo/file to foo/

8 years agoclose the Peek.t temp file so the END block can unlink it
Tony Cook [Fri, 24 Aug 2012 07:46:14 +0000 (17:46 +1000)]
close the Peek.t temp file so the END block can unlink it

This was leaving detritus on Win32 builds

8 years agooops, left some debugging code
Tony Cook [Fri, 24 Aug 2012 07:42:48 +0000 (17:42 +1000)]
oops, left some debugging code

left from fixing perl #112272

8 years agodon't use PerlHost's getenv after perl_destruct
Daniel Dragan [Wed, 22 Aug 2012 06:19:55 +0000 (02:19 -0400)]
don't use PerlHost's getenv after perl_destruct

On Win32, perl_free calls PerlHost's getenv which calls win32_getenv.
win32_getenv and its children use SVs and mortal stack. After
perl_destruct SVs and mortal stack don't exist but the old Itmps_stack
pointer remains unchanged/un-nulled. Depending on the memory allocator
randomness, previous mortaled SV would be written to allocator freed
but page allocated memory and it silently worked. Recently in 5.17 the
page started to be freed and now this bug segvs. This patch fixes
the problem by using PL_perl_destruct_level and calling getenv earlier.

8 years agoAnnouncement template - Current development track is 5.17
Steve Hay [Thu, 23 Aug 2012 08:20:16 +0000 (09:20 +0100)]
Announcement template - Current development track is 5.17

8 years agoRMG - CPAN /src and /src/README.html are the same
Steve Hay [Thu, 23 Aug 2012 08:05:38 +0000 (09:05 +0100)]
RMG - CPAN /src and /src/README.html are the same

8 years agoRMG - uses HTTP::Tiny, not wget or curl
Steve Hay [Thu, 23 Aug 2012 07:52:00 +0000 (08:52 +0100)]
RMG - uses HTTP::Tiny, not wget or curl

It also fetches files remotely even when using a local CPAN mirror if
the files are missing.

8 years agoRecord the story behind the pack format specifiers H, h, B and b.
Nicholas Clark [Thu, 23 Aug 2012 17:48:14 +0000 (19:48 +0200)]
Record the story behind the pack format specifiers H, h, B and b.

8 years agoIncrease $Module::CoreList::VERSION to 2.73
Father Chrysostomos [Thu, 23 Aug 2012 16:32:03 +0000 (09:32 -0700)]
Increase $Module::CoreList::VERSION to 2.73

Even though cmp_version.t doesn’t mind 2.72, we need a version bump,
as 2.72 is already on CPAN.

8 years agoClean up data for ExtUtils::Miniperl in Module::CoreList
David Leadbeater [Wed, 22 Aug 2012 15:03:43 +0000 (17:03 +0200)]
Clean up data for ExtUtils::Miniperl in Module::CoreList

Some corelist data was constructed without ExtUtils::Miniperl being
present, presumably because perl wasn't fully built at the time.

8 years agoClean up data for Pod::Perldoc::ToTk in Module:CoreList
David Leadbeater [Wed, 22 Aug 2012 14:50:13 +0000 (16:50 +0200)]
Clean up data for Pod::Perldoc::ToTk in Module:CoreList

It was alternating between 'undef' and undef.

8 years agoClean up data for Carp::Heavy in Module::CoreList
David Leadbeater [Wed, 22 Aug 2012 14:41:16 +0000 (16:41 +0200)]
Clean up data for Carp::Heavy in Module::CoreList

It was lagging behind by about one release -- presumably due to it being
based on $Carp::VERSION.

8 years agoFix the version of Scalar::Util in corelist for 5.7.3
David Leadbeater [Wed, 22 Aug 2012 14:27:29 +0000 (16:27 +0200)]
Fix the version of Scalar::Util in corelist for 5.7.3

8 years agopad.h: PadnameSTATE
Father Chrysostomos [Thu, 23 Aug 2012 07:19:55 +0000 (00:19 -0700)]
pad.h: PadnameSTATE

8 years agoUse FooBAR convention for new pad macros
Father Chrysostomos [Thu, 23 Aug 2012 04:48:56 +0000 (21:48 -0700)]
Use FooBAR convention for new pad macros

After a while, I realised that it can be confusing for PAD_ARRAY and
PAD_MAX to take a pad argument, but for PAD_SV to take a number and
PAD_SET_CUR a padlist.

I was copying the HEK_KEY convention, which was probably a bad idea.
This is what we use elsewhere:


Furthermore, heks are not part of the API, so what convention they use
is not so important.

So these:


are now:


8 years agoIncrease $B::Deparse::VERSION to 1.17
Father Chrysostomos [Thu, 23 Aug 2012 01:15:34 +0000 (18:15 -0700)]
Increase $B::Deparse::VERSION to 1.17

8 years agoB::Deparse: Suppress trailing ; in formats
Father Chrysostomos [Thu, 23 Aug 2012 01:15:11 +0000 (18:15 -0700)]
B::Deparse: Suppress trailing ; in formats

While it doesn’t change the behaviour, nobody writes formats that way,
and this makes the output match 5.17.2 and earlier.

8 years agopad.h: Let PADNAME_PV return null
Father Chrysostomos [Thu, 23 Aug 2012 01:11:33 +0000 (18:11 -0700)]
pad.h: Let PADNAME_PV return null

8 years agopad.h: typos in macro definitions
Father Chrysostomos [Wed, 22 Aug 2012 23:48:45 +0000 (16:48 -0700)]
pad.h: typos in macro definitions

It would help to define these macros properly.

8 years agopad.h: PADNAME_SV
Father Chrysostomos [Wed, 22 Aug 2012 23:33:06 +0000 (16:33 -0700)]

If CPAN modules should not assume that pad names are SVs, we need
to provide a better way than newSVpvn(PADNAME_PV(pn),PADNAME_LEN(pn))
to get an SV out of it, as, knowing that pad names are just SVs, the
core can do it more efficiently by simply returning the pad name

8 years agopad.[ch]: PADNAME_OUTER
Father Chrysostomos [Wed, 22 Aug 2012 23:24:37 +0000 (16:24 -0700)]

I think this is the last bit of pad-as-sv stuff that was not
abstracted away in pad-specific macros.

8 years agotoke.c: Extreme paranoia
Father Chrysostomos [Wed, 22 Aug 2012 22:59:23 +0000 (15:59 -0700)]
toke.c: Extreme paranoia

8 years agoPATCH: Devel::Peek doesn't compile under C++
Karl Williamson [Wed, 22 Aug 2012 20:50:43 +0000 (14:50 -0600)]
PATCH: Devel::Peek doesn't compile under C++

Commit c9795579db61c900bacee2790bdceb7bad3dd45d introduced
an error in C++: it's missing a cast.

8 years ago[perl #114040] Fix here-docs in multiline re-evals
Father Chrysostomos [Wed, 22 Aug 2012 21:07:44 +0000 (14:07 -0700)]
[perl #114040] Fix here-docs in multiline re-evals

Commit 5097bf9b8 only partially fixed this, or, rather, did the
groundwork for fixing it.

If we have a pattern like this:

/(?{<<foo . baz

Then PL_linestr contains this while we are parsing the block:

"(?{<<foo . baz\nbar\nfoo\n})"

The code for parsing a here-doc in a multiline PL_linestr buffer
(which applies to here-docs in string evals or in quote-like operat-
ors) likes to modify PL_linestr to contain everything after the
<<heredoc marker except the here-doc body, which has been stolen (but
it oddly includes the last character of the marker, which does not
matter, as PL_bufptr is set to PL_linestart+1):

"o . baz\n})"

The regexp block parsing code expects to be able to extract the entire
block (as a string) from PL_linestr after parsing it.  So it is not
helpful for S_scan_heredoc to go and modify it like that.

Before modifying PL_linestr, we can set aside a copy of the source
code (in PL_sublex_info.re_eval_str) from the beginning of the regexp
block to the end of PL_linestr, so that the regexp block code can
retrieve the original source from there.

We also adjust PL_sublex_info.re_eval_start so that at the end of the
regexp block PL_bufptr - PL_sublex_info.re_eval_start is the length of
the block.

Instead of clobbering PL_linestr, we can copy everything after the
here-doc to when the body begins.  And this for two reasons: it
requires less allocation (I would have made that change in the end
anyway, for efficiency), and it makes it easier to calculate how much
to subtract from re_eval_start.

This fix does not apply to here-docs in quotes in multiline string
evals, which crashes and always has.

8 years agoPeek.t: Test that DeadCode doesn’t crash
Father Chrysostomos [Wed, 22 Aug 2012 19:52:15 +0000 (12:52 -0700)]
Peek.t: Test that DeadCode doesn’t crash

I broke it, but Karl Williamson’s commit (the previous) with my tweaks
fixes it.  This function was not at all exercised by the test suite.

8 years agoDevel::Peek: Fix so compiles under C++
Karl Williamson [Wed, 22 Aug 2012 17:16:55 +0000 (11:16 -0600)]
Devel::Peek: Fix so compiles under C++

Commit 86b9d29366aea0e71ad75b61d04f56f1fe5b0d4d created a new PADLIST
type.  However, this broke the compilation of Devel::Peek with C++.
This commit gets it to compile again, and pass our regression test

[Modified by the committer to use the correct PADLIST_ macros; other-
 wise it will crash.]

8 years agotoke.c: -DT should report forced tokens under -Dmad
Father Chrysostomos [Wed, 22 Aug 2012 16:46:28 +0000 (09:46 -0700)]
toke.c: -DT should report forced tokens under -Dmad

I was wondering why the -DT output was missing things out.
This is why:

#ifdef PERL_MAD
    /* FIXME - can these be merged?  */
    return next_type;
    return REPORT(next_type);

8 years agoheredoc.t: Add a CRLF test
Father Chrysostomos [Wed, 22 Aug 2012 15:43:40 +0000 (08:43 -0700)]
heredoc.t: Add a CRLF test

I nearly broke this in recent bug fixes

8 years ago[Merge] New PADLIST type
Father Chrysostomos [Wed, 22 Aug 2012 01:02:39 +0000 (18:02 -0700)]
[Merge] New PADLIST type

To fix a bug (db4cf31d1d) and to facilitate the lexical subs I’m work-
ing on, I needed to be able to add extra fields to a padlist.  But
padlists are AVs, making that nontrivial.

There is no reason they need to be AVs, and they take less memory when
they are not, so I made a new padlist struct.

This is going to break CPAN modules that manipulate padlists.

To avoid having to patch those modules again later if we change pads
from AVs into their own types, I have added APIs for accessing the
contents of pads.

There is also a new PADNAMELIST type (currently equivalent to AV), in
case the pad holding the names needs to be a different type from a pad
some time in the future.

8 years agopad.c: fix pod link
Father Chrysostomos [Wed, 22 Aug 2012 01:02:10 +0000 (18:02 -0700)]
pad.c: fix pod link