This is a live mirror of the Perl 5 development currently hosted at
10 years agoMerge branch for mostly regen/ into blead
Karl Williamson [Fri, 14 Sep 2012 03:14:54 +0000 (21:14 -0600)]
Merge branch for mostly regen/ into blead

I started this work planning to enhance regen/ to accept
Unicode properties as input so that some small properties used in \X
could be compiled in, instead of having to be read from disk.  In doing
so, I saw some opportunities to move some EBCDIC dependencies down to a
more basic level, thus replacing quite a few existing ones with just a
couple at the lower levels.  This also led to my enhancing the macros
output by to be at least as good (in terms of numbers of
branches, etc) as the hand-coded ones it replaces.

I also spotted a few bugs in existing code that hadn't been triggered

10 years agoutf8.h: Use machine generated IS_UTF8_CHAR()
Karl Williamson [Thu, 6 Sep 2012 02:56:09 +0000 (20:56 -0600)]
utf8.h: Use machine generated IS_UTF8_CHAR()

This takes the output of regen/ for all the 1-4 byte
UTF8-representations of Unicode code points, and replaces the current
hand-rolled definition there.  It does this only for ASCII platforms,
leaving EBCDIC to be machine generated when run on such a platform.

I would rather have both versions to be regenerated each time it is
needed to save an EBCDIC dependency, but it takes more than 10 minutes
on my computer to process the 2 billion code points that have to be
checked for on ASCII platforms, and currently t/porting/regen.t runs
this program every times; and that slow down would be unacceptable.  If
this is ever run under EBCDIC, the macro should be machine computed
(very slowly).  So, even though there is an EBCDIC dependency, it has
essentially been solved.

10 years agoregen/ Add ability to restrict platforms
Karl Williamson [Thu, 6 Sep 2012 02:48:15 +0000 (20:48 -0600)]
regen/ Add ability to restrict platforms

This adds the capability to skip definitions if they are for other than
a desired platform.

10 years agoutf8.h: Remove some EBCDIC dependencies
Karl Williamson [Thu, 6 Sep 2012 02:32:29 +0000 (20:32 -0600)]
utf8.h: Remove some EBCDIC dependencies

regen/ has been enhanced in previous commits so that it
generates as good code as these hand-defined macro definitions for
various UTF-8 constructs.  And, it should be able to generate EBCDIC
ones as well.  By using its definitions, we can remove the EBCDIC
dependencies for them.  It is quite possible that the EBCDIC versions
were wrong, since they have never been tested.  Even if has bugs under EBCDIC, it is easier to find and fix
those in one place, than all the sundry definitions.

10 years agoregen/ Add optimization
Karl Williamson [Wed, 5 Sep 2012 21:18:09 +0000 (15:18 -0600)]
regen/ Add optimization

On UTF-8 input known to be valid, continuation bytes must be in the
range 0x80 .. 0x9F.  Therefore, any tests for being within those bounds
will always be true, and may be omitted.

10 years agoregen/ White-space only
Karl Williamson [Wed, 5 Sep 2012 21:14:59 +0000 (15:14 -0600)]
regen/ White-space only

Indent a newly-formed block

10 years agoregen/ Extend previously added optimization
Karl Williamson [Wed, 5 Sep 2012 21:00:52 +0000 (15:00 -0600)]
regen/ Extend previously added optimization

A previous commit added an optimization to save a branch in the
generated code at the expense of an extra mask when the input class has
certain characteristics.  This extends that to the case where
sub-portions of the class have similar characteristics.  The first
optimization for the entire class is moved to right before the new loop
that checks each range in it.

10 years agoregen/ Rmv always true components from gen'd macro
Karl Williamson [Wed, 5 Sep 2012 15:30:34 +0000 (09:30 -0600)]
regen/ Rmv always true components from gen'd macro

This adds a test and returns 1 from a subroutine if the condition will
always match; and in the caller it adds a check for that, and omits the
condition from the generated macro.

10 years agoregen/ Add an optimization
Karl Williamson [Tue, 4 Sep 2012 20:54:26 +0000 (14:54 -0600)]
regen/ Add an optimization

Branches can be eliminated from the macros that are generated here
by using a mask in cases where applicable.  This adds checking to see if
this optimization is possible, and applies it if so.

10 years agoregen/ Rename a variable
Karl Williamson [Wed, 5 Sep 2012 16:26:22 +0000 (10:26 -0600)]
regen/ Rename a variable

I find it confusing that the array element name is the same as the full array

10 years agoregen/ Pass options deeper into call stack
Karl Williamson [Tue, 4 Sep 2012 20:12:13 +0000 (14:12 -0600)]
regen/ Pass options deeper into call stack

This is to prepare for future commits which will act differently at the
deep level depending on some of the options.

10 years agoUse macro not swash for utf8 quotemeta
Karl Williamson [Mon, 3 Sep 2012 22:59:09 +0000 (16:59 -0600)]
Use macro not swash for utf8 quotemeta

The rules for matching whether an above-Latin1 code point are now saved
in a macro generated from a trie by regen/, and these are
now used by pp.c to test these cases.  This allows removal of a wrapper
subroutine, and also there is no need for dynamic loading at run-time
into a swash.

This macro is about as big as I'm comfortable compiling in, but it
saves the building of a hash that can grow over time, and removes a
subroutine and interpreter variables.  Indeed, performance benchmarks
show that it is about the same speed as a hash, but it does not require
having to load the rules in from disk the first time it is used.

10 years agoregen/ Add new output macro type
Karl Williamson [Mon, 3 Sep 2012 22:54:56 +0000 (16:54 -0600)]
regen/ Add new output macro type

The new type 'high' is used on only above-Latin1 code points.  It is
designed for code that already knows the tested code point is not
Latin1, and avoids unnecessary tests.

10 years agoregen/ Add documentation
Karl Williamson [Mon, 3 Sep 2012 00:29:42 +0000 (18:29 -0600)]
regen/ Add documentation

10 years agoregen/ Error check input better
Karl Williamson [Mon, 3 Sep 2012 00:28:19 +0000 (18:28 -0600)]
regen/ Error check input better

This makes sure that the modifiers specified in the input are known to
the program.

10 years agoregen/ Allow comments in input
Karl Williamson [Sun, 2 Sep 2012 22:48:14 +0000 (16:48 -0600)]
regen/ Allow comments in input

Lines whose first non-blank character is a '#' are now considered to be
comments, and ignored.  This allows the moving of some lines that have
been commented out back to after the __DATA__ where they really belong.

10 years agoregen/ Add name parameter
Karl Williamson [Sun, 2 Sep 2012 21:58:41 +0000 (15:58 -0600)]
regen/ Add name parameter

A future commit will want to use the first surrogate code point's UTF-8
value.  Add this to the generated macros, and give it a name, since
there is no official one.  The program has to be modified to cope with

10 years agoMove 2 functions from utf8.c to regexec.c
Karl Williamson [Sun, 2 Sep 2012 21:29:32 +0000 (15:29 -0600)]
Move 2 functions from utf8.c to regexec.c

One of these functions is currently commented out.  The other is called
only in regexec.c in one place, and was recently revised to no longer
require the static function in utf8.c that it formerly called.  They can
be made static inline.

10 years agoregexec.c: Use new macros instead of swashes
Karl Williamson [Sun, 2 Sep 2012 20:46:38 +0000 (14:46 -0600)]
regexec.c: Use new macros instead of swashes

A previous commit has caused macros to be generated that will match
Unicode code points of interest to the \X algorithm.  This patch uses
them.  This speeds up modern Korean processing by 15%.

Together with recent previous commits, the throughput of modern Korean
under \X has more than doubled, and is now comparable to other
languages (which have increased themselved by 35%)

10 years agoregen/ Generate macros for \X processing
Karl Williamson [Sun, 2 Sep 2012 20:31:59 +0000 (14:31 -0600)]
regen/ Generate macros for \X processing

\X is implemented in regexec.c as a complicated series of property
look-ups.  It turns out that many of those are for just a few code
points, and so can be more efficiently implemented with a macro than a
swash.  This generates those.

10 years agoregen/ Change to work on an empty class
Karl Williamson [Sun, 2 Sep 2012 20:26:20 +0000 (14:26 -0600)]
regen/ Change to work on an empty class

Future commits will add Unicode properties for this to generate macros,
and some of them may be empty in some Unicode releases.  This just
causes such a generated macro to evaluate to 0.

10 years agoregen/ Fix bug for character '0'
Karl Williamson [Fri, 31 Aug 2012 23:04:30 +0000 (17:04 -0600)]
regen/ Fix bug for character '0'

The character '0' could be omitted from some generated macros due to
it's testing the value of a hash entry (getting 0 or false) instead
of if it exists or not.

10 years agoregen/ Work on EBCDIC platforms
Karl Williamson [Fri, 31 Aug 2012 23:00:27 +0000 (17:00 -0600)]
regen/ Work on EBCDIC platforms

This will now automatically generate macros for non-ASCII platforms,
by mapping the Unicode input to native output.

Doing this will allow several cases of EBCDIC dependencies in other code
to be removed, and fixes the bug that this previously had with non-ASCII

10 years agoregen/ Remove Encode:: dependency
Karl Williamson [Mon, 3 Sep 2012 22:22:32 +0000 (16:22 -0600)]
regen/ Remove Encode:: dependency

Newer options to unpack alleviate the need for Encode, and run faster.

10 years agoregen/ Handle ranges, \p{}
Karl Williamson [Fri, 31 Aug 2012 22:39:31 +0000 (16:39 -0600)]
regen/ Handle ranges, \p{}

Instead of having to list all code points in a class, you can now use
\p{} or a range.

This changes some classes to use the \p{}, so that any changes Unicode
makes to the definitions don't have to manually be done here as well.

10 years agoutf8.h: Save a branch in a macro
Karl Williamson [Sun, 2 Sep 2012 19:09:48 +0000 (13:09 -0600)]
utf8.h: Save a branch in a macro

By adding a mask, we can save a branch.  The two expressions match the
exact same code points.

10 years agoutf8.h: White-space only
Karl Williamson [Sun, 2 Sep 2012 19:08:21 +0000 (13:08 -0600)]
utf8.h: White-space only

This reflows some lines to fit into 80 columns

10 years agoutf8.h: Correct improper EBCDIC conversion
Karl Williamson [Sun, 2 Sep 2012 19:01:50 +0000 (13:01 -0600)]
utf8.h: Correct improper EBCDIC conversion

These macros were incorrect for EBCDIC.  The relationships are based on
I8, the intermediate-utf8 defined for UTF-EBCDIC, not the final encoding.
I was the culprit who did this orginally; I was confused by the names of
the conversion macros.  I'm adding names that are clearer to me; which
have already been defined in utfebcdic.h, but weren't defined for
non-EBCDIC platforms.

10 years agoext/B/B.xs: Remove EBCDIC dependency
Karl Williamson [Sun, 2 Sep 2012 16:37:26 +0000 (10:37 -0600)]
ext/B/B.xs: Remove EBCDIC dependency

These are unnecessary EBCDIC dependencies: It uses isPRINT() on EBCDIC,
and an expression on ASCII, but isPRINT() is defined to be precisely
that expression on ASCII platforms.

10 years agoRemove some EBCDIC dependencies
Karl Williamson [Sun, 2 Sep 2012 16:30:32 +0000 (10:30 -0600)]
Remove some EBCDIC dependencies

A new regen'd header file has been created that contains the native
values for certain characters.  By using those macros, we can eliminate
EBCDIC dependencies.

10 years agoRename regen'd hdr to reflect expanded capabilities
Karl Williamson [Sun, 2 Sep 2012 15:58:43 +0000 (09:58 -0600)]
Rename regen'd hdr to reflect expanded capabilities

The recently added utf8_strings.h has been expanded to include more than
just strings.  I'm renaming it to avoid confusion.

10 years agoregen/ Add ability to get native charset
Karl Williamson [Sun, 2 Sep 2012 15:44:22 +0000 (09:44 -0600)]
regen/ Add ability to get native charset

This adds a new capability to this program: to input a Unicode code point and
create a macro that expands to the platform's native value for it.

This will allow removal of a bunch of EBCDIC dependencies in the core.

10 years agoregen/ Allow explicit default on input
Karl Williamson [Sun, 2 Sep 2012 15:28:55 +0000 (09:28 -0600)]
regen/ Allow explicit default on input

An input line without a command is considered to be a request for the
UTF-8 encoded string of the code point.  This allows an explicit
'string' to be used.

10 years agoregen/ Copy empty input lines to output
Karl Williamson [Sun, 2 Sep 2012 15:22:16 +0000 (09:22 -0600)]
regen/ Copy empty input lines to output

This allows the generated .h to look better.

10 years ago/, Add guard to .h
Karl Williamson [Fri, 31 Aug 2012 23:41:14 +0000 (17:41 -0600)]
/, Add guard to .h

Future commits will have other headers #include the headers generated by
these programs.  It is best to guard against the preprocessor from
trying to process these twice

10 years agoUnicode/ Clarify pod
Karl Williamson [Fri, 31 Aug 2012 23:39:04 +0000 (17:39 -0600)]
Unicode/ Clarify pod

10 years agoFix \X handling for Unicode 5.1 - 6.0
Karl Williamson [Tue, 28 Aug 2012 23:41:41 +0000 (17:41 -0600)]
Fix \X handling for Unicode 5.1 - 6.0

Commit 27d4fc33343f0dd4287f0e7b9e6b4ff67c5d8399 neglected to include a
change required for a few Unicode releases where the \X prepend property
is not empty.  This does that, and suppresses a mktables warning for
Unicode releases prior to 6.2

10 years agoregcomp.c: Wrap some long lines
Karl Williamson [Thu, 6 Sep 2012 16:01:38 +0000 (10:01 -0600)]
regcomp.c: Wrap some long lines

10 years agoperldelta for 8700fd3876
Steve Hay [Thu, 13 Sep 2012 22:27:22 +0000 (23:27 +0100)]
perldelta for 8700fd3876

10 years agoDocument how to create and use smoke-me branches
Steve Hay [Thu, 13 Sep 2012 22:09:19 +0000 (23:09 +0100)]
Document how to create and use smoke-me branches

The instructions are based on the following helpful email from Tony Cook:
after I tested them myself in course of commit 8700fd3876.

10 years agoFix a couple of headings in perlgit.pod which look to be the wrong level
Steve Hay [Thu, 13 Sep 2012 21:16:44 +0000 (22:16 +0100)]
Fix a couple of headings in perlgit.pod which look to be the wrong level

10 years agoAvoid POSIX::close when closing files by descriptor in IPC::Open3
Steve Hay [Wed, 12 Sep 2012 22:36:41 +0000 (23:36 +0100)]
Avoid POSIX::close when closing files by descriptor in IPC::Open3

Closing a file descriptor with POSIX::close bypasses PerlIO's ref-counting
of file descriptors and leads to MSVC++'s invalid parameter handler being
triggered when the PerlIO stream is closed later because that attempts to
close the underlying file descriptor again, but it's already closed.

So instead, we effectively fdopen() a new PerlIO stream and then close it
again to effect the closure of the file descriptor.

10 years agowhoops, move this back where it was
Jesse Luehrs [Thu, 13 Sep 2012 00:15:59 +0000 (19:15 -0500)]
whoops, move this back where it was

apparently utf8->SWASHNEW calls "require 'unicore/'" too

10 years agoop.c: Document newGIVENOP(..., 0)
Father Chrysostomos [Wed, 12 Sep 2012 23:19:01 +0000 (16:19 -0700)]
op.c: Document newGIVENOP(..., 0)

Something I missed in b5a648148c.

10 years agoFix listop-hash-infix parsing
Father Chrysostomos [Wed, 12 Sep 2012 21:03:08 +0000 (14:03 -0700)]
Fix listop-hash-infix parsing

With some list operators, this happens:

$ ./miniperl -e 'warn({$_ => 1} + 1) if 0'
syntax error at -e line 1, near "} +"
Execution of -e aborted due to compilation errors.

Putting + before the { or changing warn to print makes the prob-
lem go away.

The lexer is losing track of what token it expects next, so it ends
up interpreting the + as a unary plus, instead of an infix plus.  The
parser doesn’t like that.

It happens because of this logic under case '{' (aka leftbracket:) in

switch (PL_expect) {
case XTERM:
    if (PL_oldoldbufptr == PL_last_lop)
PL_lex_brackstack[PL_lex_brackets++] = XTERM;
PL_lex_brackstack[PL_lex_brackets++] = XOPERATOR;

The value we put on the brackstack is what we expect to find after the
closing brace (case '}' pops it off).

This particular if/else goes all the back to ef6361f9c226 (perl
5.000), or at least that was when it moved inside the XTERM case.
Before that, we had this:

if (oldoldbufptr == last_lop)
    lex_brackstack[lex_brackets++] = XTERM;
    lex_brackstack[lex_brackets++] = XOPERATOR;
if (expect == XTERM)

So it appears that the XTERM/XOPERATOR distinction, based on last_lop
was the ‘old’ (and wrong) way of doing it, but it had to be changed in
perl 5.000 for cases other than XTERM.  That it remained for XTERM was
probably an oversight, which is easy to understand, since I seem to be
the first one to stumble across this after 18 years (what’s the rele-
vant Klortho number?).

Removing this last_lop check causes no tests to fail.  And it makes
sense, since anything coming right after an anonymous hash that could
be either an infix or prefix operator must be infix.

10 years agotoke.c: Under -DT, dump complement properly
Father Chrysostomos [Wed, 12 Sep 2012 20:31:40 +0000 (13:31 -0700)]
toke.c: Under -DT, dump complement properly


$ ./miniperl -DT -e '~foo'
### <== ?? 126


$ ./miniperl -DT -e '~foo'
### <== '~'

10 years agoAdd PL_subname to the save stack
Peter Martini [Sun, 9 Sep 2012 14:45:11 +0000 (10:45 -0400)]
Add PL_subname to the save stack

Otherwise, PL_subname is left as utf8::SWASHNEW after isIDFIRST_lazy_if
(etc) is called in UTF context

10 years agoEradicate race condition in t/op/sigsystem.t (#114562)
Leon Timmermans [Wed, 12 Sep 2012 13:38:44 +0000 (15:38 +0200)]
Eradicate race condition in t/op/sigsystem.t (#114562)

10 years agostop ""-overloaded Regex recursing
David Mitchell [Wed, 12 Sep 2012 11:36:08 +0000 (12:36 +0100)]
stop ""-overloaded Regex recursing

There was code to detect this, but it checked for the returned value being
the same as before, but in this case it was returning a *new* temporary
reference to the same Regexp object; so check for that too.

10 years agoadd test for 6502e08, s/(.)/die/e
David Mitchell [Wed, 12 Sep 2012 11:03:22 +0000 (12:03 +0100)]
add test for 6502e08, s/(.)/die/e

Forgot to add a test along with the commit that fixed this

10 years agoperldelta: add recent regex API changes
David Mitchell [Wed, 12 Sep 2012 10:51:03 +0000 (11:51 +0100)]
perldelta: add recent regex API changes

10 years agoupdate docs for $`, $&, $' changes
David Mitchell [Wed, 12 Sep 2012 10:32:12 +0000 (11:32 +0100)]
update docs for $`, $&, $' changes

mention that they're now detected individually, and mention in reapi
the new RX_BUFF_IDX_* symbolic constants.

10 years agoRefactor to use instead of making TAP by hand. Add test names.
Colin Kuskie [Sun, 9 Sep 2012 20:26:49 +0000 (13:26 -0700)]
Refactor to use instead of making TAP by hand. Add test names.

10 years agoUnify CvDEPTH for formats and subs
Father Chrysostomos [Wed, 12 Sep 2012 03:22:57 +0000 (20:22 -0700)]
Unify CvDEPTH for formats and subs

As Dave Mitchell pointed out, while putting the CvDEPTH field for for-
mats in the SvCUR slot might save memory for formats, it slows down
sub calls because CvDEPTH is used on subs in very hot code paths.
Checking the SvTYPE to determine which field to use should not be

10 years agopad.c: Share pad name lists between clones
Father Chrysostomos [Mon, 3 Sep 2012 05:27:52 +0000 (22:27 -0700)]
pad.c: Share pad name lists between clones

Pad names are immutable once the sub is compiled.  They are shared
between clones.  Instead of creating a new array containing the same
pad name SVs, just share the whole array.

cv_undef does not need to modify the pad name list when removing an
anonymous sub, so we can just delete that code.  That was the only
thing modifying them between compilation and freeing, as far as I
could tell.

10 years agoUpdated Search::Dict to 1.07 as on CPAN
David Golden [Fri, 30 Mar 2012 18:02:37 +0000 (20:02 +0200)]
Updated Search::Dict to 1.07 as on CPAN

10 years agoPerldelta up to 5e96eee9
Florian Ragwitz [Tue, 11 Sep 2012 14:53:37 +0000 (10:53 -0400)]
Perldelta up to 5e96eee9

10 years agoText::Abbrev has been synchronised to CPAN
Florian Ragwitz [Tue, 11 Sep 2012 14:36:31 +0000 (10:36 -0400)]
Text::Abbrev has been synchronised to CPAN

10 years agoTerm::ReadLine has been synchronised to CPAN
Florian Ragwitz [Tue, 11 Sep 2012 14:32:12 +0000 (10:32 -0400)]
Term::ReadLine has been synchronised to CPAN

10 years agoExtUtils::Manifest has been synchronised to CPAN
Florian Ragwitz [Tue, 11 Sep 2012 14:26:29 +0000 (10:26 -0400)]
ExtUtils::Manifest has been synchronised to CPAN

10 years agoDumpvalue has been synchronised to CPAN
Florian Ragwitz [Tue, 11 Sep 2012 14:21:18 +0000 (10:21 -0400)]
Dumpvalue has been synchronised to CPAN

10 years agoSynchronise bignum with CPAN
Florian Ragwitz [Tue, 11 Sep 2012 14:14:46 +0000 (10:14 -0400)]
Synchronise bignum with CPAN

10 years agoAutomatically create core-cpan-diff cache dir
Florian Ragwitz [Tue, 11 Sep 2012 14:06:36 +0000 (10:06 -0400)]
Automatically create core-cpan-diff cache dir

10 years agoB::Lint hsa been synchronised to CPAN
Florian Ragwitz [Tue, 11 Sep 2012 14:02:58 +0000 (10:02 -0400)]
B::Lint hsa been synchronised to CPAN

10 years agoautouse has synchronised to CPAN
Florian Ragwitz [Tue, 11 Sep 2012 13:56:22 +0000 (09:56 -0400)]
autouse has synchronised to CPAN

10 years agoTell about the Storable 2.39 upgrade
Florian Ragwitz [Tue, 11 Sep 2012 13:44:23 +0000 (09:44 -0400)]
Tell about the Storable 2.39 upgrade

10 years agoUpdate perldelta entry for [perl #114496].
Steve Hay [Tue, 11 Sep 2012 07:51:11 +0000 (08:51 +0100)]
Update perldelta entry for [perl #114496].

Improved text by Tony C, from the bug report.

10 years agoSilence invalid parameter messages from win32_signal
Steve Hay [Tue, 11 Sep 2012 07:36:03 +0000 (08:36 +0100)]
Silence invalid parameter messages from win32_signal

This is the first step towards enabling the invalid parameter handler
without it causing undue noise. In this case the invalid parameters are
intentional, so provide a means to silence messages about them.

There is still noise from win32_close() and win32_select() which needs
resolving by some means too before the handler can be switched on without
its output causing test failures.

10 years agoANSIfy output from invalid parameter handler, and write it to stderr
Steve Hay [Tue, 11 Sep 2012 07:32:41 +0000 (08:32 +0100)]
ANSIfy output from invalid parameter handler, and write it to stderr

The function, file and expression are very unlikely to contain anything
requiring UTF-16 output, and the output is less likely to interfere with
anything when written to stderr rather than stdout.

Note that the function doesn't currently do anything without hacking the
makefiles because we don't currently build with _DEBUG and the debug CRT.
I haven't changed that yet (other than locally) because there is actually
some output from it which causes a couple of tests to fail.

10 years agoForward declare static functions in win32/win32.c
Steve Hay [Tue, 11 Sep 2012 07:31:34 +0000 (08:31 +0100)]
Forward declare static functions in win32/win32.c

This makes calling them easier without worrying about the order of

10 years agoIdentify MallocCfg* globals as variables, not functions.
Craig A. Berry [Tue, 11 Sep 2012 01:40:08 +0000 (20:40 -0500)]
Identify MallocCfg* globals as variables, not functions.

Otherwise building on VMS with -Dusemymalloc=y fails because we
enter them as procedures in the linker options file and the linker
knows we're lying and will have none of it.

10 years agoBump version to 2.39 because I botched the 2.38 release
Abhijit Menon-Sen [Tue, 11 Sep 2012 01:34:06 +0000 (07:04 +0530)]
Bump version to 2.39 because I botched the 2.38 release

10 years agoAdd changelog entry for 2.38
Abhijit Menon-Sen [Tue, 11 Sep 2012 01:24:17 +0000 (06:54 +0530)]
Add changelog entry for 2.38

10 years agoAdd more tests, Revert back to C-style for loops
Shlomi Fish [Tue, 11 Sep 2012 01:08:05 +0000 (21:08 -0400)]
Add more tests, Revert back to C-style for loops

This patch to lib/ and lib/perl5db.t adds more tests for the L
and S commands and reverts some changes from C-style for loops to
while+continue loops which were not very popular.

10 years agoRemove some set but unused variables
Florian Ragwitz [Mon, 10 Sep 2012 21:14:59 +0000 (17:14 -0400)]
Remove some set but unused variables

Thanks, gcc, for letting me know.

10 years agoPerldelta up to 9e533305
Florian Ragwitz [Mon, 10 Sep 2012 17:22:10 +0000 (13:22 -0400)]
Perldelta up to 9e533305

10 years agoStop CPAN from indexing mad/
Florian Ragwitz [Sat, 26 May 2012 21:15:43 +0000 (23:15 +0200)]
Stop CPAN from indexing mad/

10 years agoCorrect obvious typos in acknowledgements list
Dominic Hargreaves [Mon, 10 Sep 2012 18:33:00 +0000 (19:33 +0100)]
Correct obvious typos in acknowledgements list

10 years agoFix [perl #114812] Configure not finding isblank().
Andy Dougherty [Mon, 10 Sep 2012 12:35:16 +0000 (08:35 -0400)]
Fix [perl #114812] Configure not finding isblank().

Configure would not find isblank() when run with g++ because
the probe used exit() without including <stdlib.h>.  The simplest fix
is to have the probe use return instead.

10 years agoRefactor t/op/my.t to use instead of making TAP by hand
Colin Kuskie [Sun, 9 Sep 2012 20:33:05 +0000 (13:33 -0700)]
Refactor t/op/my.t to use instead of making TAP by hand

10 years agoRefactor t/op/cond.t to use instead of making TAP by hand
Colin Kuskie (via RT) [Sat, 8 Sep 2012 22:31:53 +0000 (15:31 -0700)]
Refactor t/op/cond.t to use instead of making TAP by hand

10 years agoRefactor t/porting/customized to use instead of making TAP by hand
Colin Kuskie (via RT) [Mon, 10 Sep 2012 00:32:53 +0000 (17:32 -0700)]
Refactor t/porting/customized to use instead of making TAP by hand

10 years agoFix C++, MYMALLOC, sdbm combination.
Craig A. Berry [Mon, 10 Sep 2012 02:27:44 +0000 (21:27 -0500)]
Fix C++, MYMALLOC, sdbm combination.

The prototypes for the home-grown malloc replacements were not
protected with extern "C" declarations, so linking the SDBM_File
extension failed when configuring with -Dusemymalloc=y and building
with C++.

10 years agoOut of memory message should not allocate memory.
Craig A. Berry [Mon, 3 Sep 2012 02:30:55 +0000 (21:30 -0500)]
Out of memory message should not allocate memory.

This fixes [perl #40595].  When Perl_malloc reports an out of
memory error, it should not make calls to PerlIO functions that
may turn around and allocate memory using Perl_malloc.  A simple
write() should be ok, though.  Inspired by S_write_no_mem() from
util.c.  Also replaces the local write2 function, which did the
same thing slightly differently.

Under -DDEBUGGING, there are other calls to PerlIO_printf that are
also likely unsafe, but that problem is not addressed here.

10 years agofix s/(.)/die/e
David Mitchell [Sat, 8 Sep 2012 19:17:42 +0000 (20:17 +0100)]
fix s/(.)/die/e

Commit 6502e08109cd003b2cdf39bc94ef35e52203240b introduced copying just
the part of the regex string that were needed; but piggy-backing on that
commit was a temporary change I made that I forgot to undo, which - it
turns out - causes SEGVs and similar when the replacement part of a
substitution dies.

This commits reverts that change.

Spotted as
    Bleadperl v5.17.3-255-g6502e08 breaks GAAS/URI-1.60.tar.gz
(not assigned an RT ticket number yet)

10 years ago[MERGE] only copy bits of regex match string
David Mitchell [Sat, 8 Sep 2012 14:42:56 +0000 (15:42 +0100)]
[MERGE] only copy bits of regex match string

When making a copy of the string being matched against (so that $1, $&
et al continue to show the correct value even if the original string is
subsequently modified), only copy that substring of the original string
needed for the capture variables, rather than copying the whole string.

This is a big win for code like

    $_ = 'x' x 1_000_000;
    1 while /(.)/;

Also, when pessimizing if the code contains $`, $& or $', record
the presence of each variable separately, so that the determination of the
substring range is based on each variable separately. So performance-wise,

   $&; /x/

is now roughly equivalent to


whereas previously it was like



   $&; $'; /x/

is now roughly equivalent to



Finally, this code (when not in the presence of $& etc)

    $_ = 'x' x 1_000_000;
    1 while /(.)/;

used to skip the buffer copy for performance reasons, but suffered from $1
etc changing if the original string changed. That's now been fixed too.

10 years agofix a bug in handling $+[0] and unicode
David Mitchell [Fri, 7 Sep 2012 12:32:11 +0000 (13:32 +0100)]
fix a bug in handling $+[0] and unicode

The code to decide what substring of a pattern target to copy for the
sake of $1, $& etc, would, in the absence of $&, only copy the minimum
range needed to cover $1,$2,...., which might be a shorter range than
what $& covers. This is fine most of the time, but, when calculating
$+[0] on a unicode string, it needs a copy of the whole part of the string
covered by $&, since it needs to convert the byte offest into a char
So to fix this, always copy as a minimum, the $& range.
I suppose we could be more clever about this: detect the presence
of @+ in the code, only do it for UTF8 etc; but this is simple
and non-fragile.

10 years agom// and s///; don't copy TEMP/AMAGIC strings
David Mitchell [Sat, 1 Sep 2012 10:43:53 +0000 (11:43 +0100)]
m// and s///; don't copy TEMP/AMAGIC strings

Currently pp_match and pp_subst make a copy of the match string if it's
SvTEMP(), and in the case of pp_match, also if it's SvAMAGIC().

This is no longer necessary, as the code will always copy the string
anyway if its actually needed after the match, i.e. if it detects the
presence of $1, $& or //p etc. Until a few commits ago, this wasn't the
case for pp_match: it would sometimes skip copying even in the presence of
$1 et al for efficiency reasons. Now that that's fixed, we can remove the
SvTEMP() and SvAMAGIC() tests.

As to why pp_subst did the SvTEMP test, I don't know: but removing it
didn't make any tests fail!

10 years agotidy up patten match copying code
David Mitchell [Sat, 1 Sep 2012 10:23:58 +0000 (11:23 +0100)]
tidy up patten match copying code

(no functional changes).

1. Remove some dead code from pp_split; it's protected by an assert
that it could never be called.

2. Simplify the flags settings for the call to CALLREGEXEC() in
pp_substcont: on subsequent matches we always set REXEC_NOT_FIRST,
which forces the regex engine not to copy anyway, so passing the
REXEC_COPY_STR is pointless, as is the conditional code to set it.

3. (whitespace change): split a conditional expression over 2 lines
for easier reading.

10 years agostop $foo =~ /(bar)/g skipping copy
David Mitchell [Fri, 24 Aug 2012 15:17:47 +0000 (16:17 +0100)]
stop $foo =~ /(bar)/g skipping copy

Normally in the presence of captures, a successful regex execution
makes a copy of the matched string, so that $1 et al give the right
value even if the original string is changed; i.e.

    $foo =~ /(123)/g;
    $foo = "bar";
    is("$1", "123");

Until now that test would fail, because perl used to skip the copy for
the scalar /(...)/g case (but not the C<$&; //g> case). This was to
avoid a huge slowdown in code like the following:

    $x = 'x' x 1_000_000;
    1 while $x =~ /(.)/g;

which would otherwise end up copying a 1Mb string a million times.

Now that (with the last commit but one) we copy only the required
substring of the original string (a 1-byte substring in the above
example), we can remove this fast-but-incorrect hack.

10 years agorationalise t/re/pat_psycho.t
David Mitchell [Fri, 24 Aug 2012 14:49:21 +0000 (15:49 +0100)]
rationalise t/re/pat_psycho.t

Do some cleanup of this file, without changing its functionality.

Once upon a time, the psycho tests were scattered throughout a single
pat.t file, before being moved into their own file. Now that they're all
in a single file, make the $PERL_SKIP_PSYCHO_TEST test a single "skip_all"
test at the beginning of the file, rather than testing it separately in
each code block.

Also, make some of the test descriptions more useful, and add a bit of
debugging output.

10 years agoDon't copy all of the match string buffer
David Mitchell [Thu, 26 Jul 2012 15:04:09 +0000 (16:04 +0100)]
Don't copy all of the match string buffer

When a pattern matches, and that pattern contains captures (or $`, $&, $'
or /p are present), a copy is made of the whole original string, so
that $1 et al continue to hold the correct value even if the original
string is subsequently modified. This can have severe performance
penalties; for example, this code causes a 1Mb buffer to be allocated,
copied and freed a million times:

    $x = 'x' x 1_000_000;
    1 while $x =~ /(.)/g;

This commit changes this so that, where possible, only the needed
substring of the original string is copied: in the above case, only a
1-byte buffer is copied each time. Also, it now reuses or reallocs the
buffer, rather than freeing and mallocing each time.

Now that PL_sawampersand is a 3-bit flag indicating separately whether
$`, $& and $' have been seen, they each contribute only their own
individual penalty; which ones have been seen will limit the extent to
which we can avoid copying the whole buffer.

Note that the above code *without* the $& is not currently slow, but only
because the copying is artificially disabled to avoid the performance hit.
The next but one commit will remove that hack, meaning that it will still
be fast, but will now be correct in the presence of a modified original

We achieve this by by adding suboffset and subcoffset fields to the
existing subbeg and sublen fields of a regex, to indicate how many bytes
and characters have been skipped from the logical start of the string till
the physical start of the buffer. To avoid copying stuff at the end, we
just reduce sublen. For example, in this:

    "abcdefgh" =~ /(c)d/

subbeg points to a malloced buffer containing "c\0"; sublen == 1,
and suboffset == 2 (as does subcoffset).

while if $& has been seen,

subbeg points to a malloced buffer containing "cd\0"; sublen == 2,
and suboffset == 2.

If in addition $' has been seen, then

subbeg points to a malloced buffer containing "cdefgh\0"; sublen == 6,
and suboffset == 2.

The regex engine won't do this by default; there are two new flag bits,
REXEC_COPY_SKIP_PRE and REXEC_COPY_SKIP_POST, which in conjunction with
REXEC_COPY_STR, request that the engine skip the start or end of the
buffer (it will still copy in the presence of the relevant $`, $&, $',

Only pp_match has been enhanced to use these extra flags; substitution
can't easily benefit, since the usual action of s///g is to copy the
whole string first time round, then perform subsequent matching iterations
against the copy, without further copying. So you still need to copy most
of the buffer.

10 years agoSeparate handling of ${^PREMATCH} from $` etc
David Mitchell [Thu, 26 Jul 2012 14:35:39 +0000 (15:35 +0100)]
Separate handling of ${^PREMATCH} from $` etc

Currently the handling of getting the value, length etc of ${^PREMATCH}
etc is identical to that of $` etc.

Handle them separately, by adding RX_BUFF_IDX_CARET_PREMATCH etc
constants to the existing RX_BUFF_IDX_PREMATCH set.

This allows, when retrieving them, to always return undef if the current
match didn't use //p. Previously the result depended on stuff such
as whether the (non-//p) pattern included captures or not.

The documentation for ${^PREMATCH} etc states that it's only guaranteed to
return a defined value when the last pattern was //p.

As well as making things more consistent, this is a necessary
prerequisite for the following commit, which may not always copy the
whole string during a non-//p match.

10 years agoregexec_flags(): simplify length calculation
David Mitchell [Fri, 22 Jun 2012 15:26:08 +0000 (16:26 +0100)]
regexec_flags(): simplify length calculation

The code to calculate the length of the string to copy was

    PL_regeol - startpos + (stringarg - strbeg);

This is a hangover from the original (perl 3) regexp implementation
that under //i, copied and folded the original buffer: so startpos might
not equal stringarg. These days it always is (except under a match failure
with (*COMMIT), and the code we're interested is only executed on success).

So simplify to just PL_regeol - strbeg.

10 years agoPL_sawampersand: use 3 bit flags rather than bool
David Mitchell [Fri, 22 Jun 2012 11:36:03 +0000 (12:36 +0100)]
PL_sawampersand: use 3 bit flags rather than bool

Set a separate flag for each of $`, $& and $'.
It still works fine in boolean context.

This will allow us to have more refined control over what parts
of a match string to copy (we currently copy the whole string).

10 years agodocument args to regexec_flags and API
David Mitchell [Wed, 20 Jun 2012 13:17:05 +0000 (14:17 +0100)]
document args to regexec_flags and API

Document in the API, and clarify in the source code, what the arguments
to Perl_regexec_flags are.

NB: this info is based on code inspection, not any real knowledge on my

10 years agoUpgrade to threads::shared 1.41
Jerry D. Hedden [Wed, 5 Sep 2012 17:23:00 +0000 (13:23 -0400)]
Upgrade to threads::shared 1.41

10 years agoFix alignment for darwin with -Dusemorebits.
Andy Dougherty [Tue, 4 Sep 2012 21:13:34 +0000 (17:13 -0400)]
Fix alignment for darwin with -Dusemorebits.

By default, the darwin build assumes a "multiarchitecture" build.
Configure has a hardwired default of '8' for alignbytes (and then
proceeds to ignore it with another hard-wired '8' in config.h).
That '8' was supposed to be a safe value, in case perl was built
on one architecture but run on another with a stricter constraint.
With darwin and -Dusemorebits, however, the alignment should be on
16-byte boundaries.  We don't want to penalize all darwin builds for
this unlikely configuration, but we do want to allow it.

This patch causes Configure to compute alignbytes even for multiarch
builds, but if the result is less than 8, it sets it to 8 (which preserves
the previous behavior).  If, however, alignbytes is 16, Configure won't
decrease it.  Then, this patch also fixes config_h.SH so that it uses
the value determined by Configure instead of the previous hardwired value.

10 years agoUpdate Archive-Tar to CPAN version 1.90
Chris 'BinGOs' Williams [Wed, 5 Sep 2012 18:22:27 +0000 (19:22 +0100)]
Update Archive-Tar to CPAN version 1.90


  * important changes in version 1.90 05/09/2012 (Tom Jones)
  - documentation fixes

10 years agoperl5db: more tests
Shlomi Fish [Wed, 5 Sep 2012 02:40:38 +0000 (22:40 -0400)]
perl5db: more tests

This patch adds more tests for lib/ on lib/perl5db.t. One note
is that I'm a bit uncomfortable about the test for ".", which did
not initially work exactly as I expected, due to debugger quirks.

This patch also fixes a bug where the /pattern/ command (and possibly
the ?pattern? command as well) got broken due to the addition of "use
strict;", and adds tests for them.