This is a live mirror of the Perl 5 development currently hosted at
4 years agoutf8.c: Fix bugs with overlongs combined with other malformations.
Karl Williamson [Mon, 19 Jun 2017 18:58:19 +0000 (12:58 -0600)]
utf8.c: Fix bugs with overlongs combined with other malformations.

The code handling the UTF-8 overlong malformation must come after
handling all the other malformations.  This is because it may change the
code point represented to the REPLACEMENT CHARACTER.  The other
malformation code is expecting the code point to be the original one.
This may cause failure to catch and report other malformations, or
report the wrong value of the erroneous code point.

What was needed was simply to move the 'if else' branch for overlongs to
after the branches for the other formations.

4 years agoAPItest/t/ Add some tests
Karl Williamson [Sun, 25 Jun 2017 04:55:10 +0000 (22:55 -0600)]
APItest/t/ Add some tests

This adds testing for having some malformations allowed.  These had not
been checked for, and there were some bugs.  It's easiest to TODO all
ones that might fail, creating many passing TODOs.  The TODO will be
removed in the next commit.

4 years agoAPItest/t/ Move things out of inner loop
Karl Williamson [Sun, 25 Jun 2017 04:42:25 +0000 (22:42 -0600)]
APItest/t/ Move things out of inner loop

The most expensive stuff in this set of nested loops can actually be
done several nests up (even higher for some things, but it's not worth
the trouble).  Given that this test file has been too-long runnning, I
moved things to an outer loop context.

4 years agoAPItest/t/ Reorder loop nesting
Karl Williamson [Sun, 25 Jun 2017 03:32:41 +0000 (21:32 -0600)]
APItest/t/ Reorder loop nesting

This is in preparation for the next commit.  It also changes some of the
loop variables to 1 to indicate truth, rather than a string.  This will
make some things easier later.

4 years agoAPItest/t/ Revamp testing isFOO
Karl Williamson [Wed, 21 Jun 2017 19:38:55 +0000 (13:38 -0600)]
APItest/t/ Revamp testing isFOO

Several commits ago, the loop that handles testing the functions that
convert from/to UTF-8 was revampled.  This commit does a similar thing
for the portion of the code that handles the isFOO functions, and
partial character recognition.

It reorders the nesting of loops so that more tests can be done than
previously in the outer loop.  Among these, it now doesn't skip overflow
and deals with using Perl's extended UTF-8 better.

4 years agoutf8n_to_uvchr: U+ should be for only Unicode code points
Karl Williamson [Mon, 19 Jun 2017 18:56:38 +0000 (12:56 -0600)]
utf8n_to_uvchr: U+ should be for only Unicode code points

For above-Unicode, we should use 0xDEADBEEF instead of U+DEADBEEF.
                                 ^^                    ^^
This is because U+ only applies to Unicode.  This only affects a warning
message for overlongs.

4 years agoAPItest/t/ Add some tests
Karl Williamson [Mon, 19 Jun 2017 17:52:34 +0000 (11:52 -0600)]
APItest/t/ Add some tests

This adds the edges between overflowing and not on 64-bit platforms

4 years agoAPItest/t/ Do test on all platforms
Karl Williamson [Mon, 19 Jun 2017 17:47:54 +0000 (11:47 -0600)]
APItest/t/ Do test on all platforms

This modifies and moves a test so it gets done on all platforms, not
just 32-bit ASCII.  It is an edge case on all platforms, but gives
differing results, overflowing on 32-bit ones.

4 years agoAPItest/t/ Rename and modify test
Karl Williamson [Mon, 19 Jun 2017 17:01:54 +0000 (11:01 -0600)]
APItest/t/ Rename and modify test

This test is testing the first code point that requires 13 UTF-8 bytes
to represent on ASCII platforms.  Change the name from its previous
vague one to one that indicates this.  And don't test for it on EBCDIC
platforms, as it isn't an edge case there.

4 years agoAPItest/t/ Remove obsolete test
Karl Williamson [Mon, 19 Jun 2017 04:55:38 +0000 (22:55 -0600)]
APItest/t/ Remove obsolete test

This was an attempt to test the fact that very high code points are
controlled both by regular above-Unicode warnings, and special,
non-portable warnings.  This test is now done better in the loop in the

4 years agoAPItest/t/ Rename a test
Karl Williamson [Mon, 19 Jun 2017 04:52:06 +0000 (22:52 -0600)]
APItest/t/ Rename a test

The names are now more uniform.

4 years agoAPItest/t/ Move some tests in the file
Karl Williamson [Mon, 19 Jun 2017 04:50:12 +0000 (22:50 -0600)]
APItest/t/ Move some tests in the file

The order had been to mostly test in increasing code point order.  This
sorts the two exceptions to comply.

4 years agoAPItest/t/ Split test into 64 vs 32 bit versions
Karl Williamson [Mon, 19 Jun 2017 04:36:21 +0000 (22:36 -0600)]
APItest/t/ Split test into 64 vs 32 bit versions

It's cleaner to have this test which differs on 32 vs 64 bit platforms
in the appropriate sections that have other tests specific to their

The tests for EBCDIC were arbitrary, just placeholders really, since
these particular tests were added for situations found only on ASCII
platforms.  Therefore, the EBCDIC tests were removed.

4 years agoAPItest/t/ Create block for warnings control
Karl Williamson [Mon, 19 Jun 2017 04:25:39 +0000 (22:25 -0600)]
APItest/t/ Create block for warnings control

This adds a block that turns off warnings in the whole thing, so that
tests can be more easily be modified in future commits, and the interior
warnings control statments can be removed.

4 years agoAPItest/t/ White-space, comments only
Karl Williamson [Sun, 18 Jun 2017 04:31:58 +0000 (22:31 -0600)]
APItest/t/ White-space, comments only

This reflows things after the changes in the previous commits

4 years agoAPItest/t/ Remove hash element
Karl Williamson [Sun, 18 Jun 2017 00:58:54 +0000 (18:58 -0600)]
APItest/t/ Remove hash element

The previous commit has enabled this one to remove another of the hash
elements from the tests data structure.  The value can now be calculated
from the code point.  The element gave the warnings category to used.
But now we use the category based on the code point, with special
handling of the ones that can be true for regular above-Unicode, and
those that are so far above Unicode that they must use Perl's extended

4 years agoAPItest/t/ Remove most tests
Karl Williamson [Sat, 17 Jun 2017 12:43:03 +0000 (06:43 -0600)]
APItest/t/ Remove most tests

In order to test that the various flags passed to utf8n_to_uvchr()
work independently of each other, previously this file tried all
possible combinations.  But, as explained in the comments added in this
commit, by appropriate use of all the flags that don't apply to
something being tested, we can verify that those flags are independent
of that thing, and cut down the combinatorial complexity significantly.

4 years agoutf8n_to_uvchr() Use correct warnings category
Karl Williamson [Thu, 15 Jun 2017 18:06:57 +0000 (12:06 -0600)]
utf8n_to_uvchr() Use correct warnings category

The warning about too large a code point should be under the
'non_unicode' warnings category.

4 years agoAPItest/t/ Revamp loop to/from utf8
Karl Williamson [Sun, 2 Jul 2017 15:11:17 +0000 (09:11 -0600)]
APItest/t/ Revamp loop to/from utf8

This test file had gotten kinda messy as new tasks were shoe horned into
it.  This cleans it up, and positions it to be easier maintain going
forward.  I tried to minimize the number of changes shown per commit,
but this is the minimal I could get, and since it is a revamp, there are
lots of differences.

Some combinatorial explosion has been removed.

A new subroutine is created which compares the expected vs actually
gotten warnings, and is called in two places, removing duplicated code.

This exposed a bug in very large, hence rare, code points.  It will be
fixed in the next commit.  It was far easier to just make all similar
tests TODO here, removing that in the next commit.  This means this
commit has many passing TODOs

4 years agoAPItest/t/ Tighten up tests
Karl Williamson [Fri, 16 Jun 2017 00:53:43 +0000 (18:53 -0600)]
APItest/t/ Tighten up tests

This commit causes the tests to check that messages containing a code
point have the correct exact wording, including the code point.  The
tests are tightened up somewhat for other messages, but more is coming
in a later commit.

4 years agoAPItest/t/ Skip most tests
Karl Williamson [Fri, 16 Jun 2017 00:27:54 +0000 (18:27 -0600)]
APItest/t/ Skip most tests

This test file tests every end-of-Unicode-plane noncharacter, and a
middling surrogate, and a nonchar in the interior of the consecutive
range of them.  But, we don't really have to do more than basic testing
for these  middling cases.  We should test that they are detected as
being in their respective categories, but testing that all combinations
of warning and disallowed flags and return flags shouldn't be necessary.
It's sufficient to test for those for the real edge cases.

This cuts the number of tests in this file to somewhat less than 1/3 of
the original.

4 years agoAPItest/t/ Store warnings sans \n
Karl Williamson [Sat, 17 Jun 2017 12:27:59 +0000 (06:27 -0600)]
APItest/t/ Store warnings sans \n

This will make the output more legible that future commits will create

4 years agoAPItest/t/ Change some test names
Karl Williamson [Thu, 15 Jun 2017 23:35:54 +0000 (17:35 -0600)]
APItest/t/ Change some test names

This omits distracting detail from subsidiary tests, indenting them from
the major one.

4 years agoAPItest/t/ Simplify some calculations
Karl Williamson [Thu, 15 Jun 2017 22:13:12 +0000 (16:13 -0600)]
APItest/t/ Simplify some calculations

This commit pulls some variable setting outside an inner loop.  It's
easily settable there, instead of being calculated.  It allows for
removal of another hash element.

4 years agoAPItest/t/ Do formatting outside loop
Karl Williamson [Thu, 15 Jun 2017 21:45:14 +0000 (15:45 -0600)]
APItest/t/ Do formatting outside loop

To save extra effort

4 years agoAPItest/t/ Improve some more diagnostics
Karl Williamson [Thu, 15 Jun 2017 21:00:08 +0000 (15:00 -0600)]
APItest/t/ Improve some more diagnostics

This changes the diagnostics when testing utf8n_to_uvchr() so they are
more human readable, and aren't generated until failure.

It also corrects things to display $@ on eval failure (previously it
displayed $!)

4 years agoAPItest/t/ Improve some diagnostics
Karl Williamson [Thu, 15 Jun 2017 20:24:05 +0000 (14:24 -0600)]
APItest/t/ Improve some diagnostics

This creates a function that will display in more human-readable form
the eval string used for testing uvchr_to_utf8().  And it calls that
function should there be a failure.  Thus the calculations aren't done
unless necessary.

It also corrects a diagnostic to show $@ after an eval failure instead
of $!

4 years agoAPItest/t/ Display mnemonics on error
Karl Williamson [Thu, 15 Jun 2017 18:49:10 +0000 (12:49 -0600)]
APItest/t/ Display mnemonics on error

Part of the testing for this is that the returned flags for problematic
conditions are correct.  This commit adds a routine that will convert
numeric values of the flags into a mnemonic string like FOO|BAR|BAZ.
This makes debugging easier.  The names are not computed unless there is
an error.

4 years agoAPItest/t/ Rename some variables
Karl Williamson [Wed, 14 Jun 2017 04:48:36 +0000 (22:48 -0600)]
APItest/t/ Rename some variables

The new names more closely indicate the variables' purposes.

4 years agoAPItest/t/ Make hash element optional
Karl Williamson [Fri, 30 Jun 2017 17:55:18 +0000 (11:55 -0600)]
APItest/t/ Make hash element optional

This element of the hash gives how many bytes are needed in an
incomplete sequence in order to classify the full sequence.  In some
cases every code point in the category has this be the same number, and
it can be cleaner to not manually specify the number.

4 years agoAPItest/t/ Remove hash elements
Karl Williamson [Fri, 26 May 2017 03:16:29 +0000 (21:16 -0600)]
APItest/t/ Remove hash elements

These two elements can be calculated from the others

4 years agoAPItest/t/ Remove element from hash
Karl Williamson [Fri, 26 May 2017 03:04:09 +0000 (21:04 -0600)]
APItest/t/ Remove element from hash

The warning message can be figured out from other elements.

4 years agoAPItest/t/ Eliminate hash element
Karl Williamson [Fri, 26 May 2017 02:09:07 +0000 (20:09 -0600)]
APItest/t/ Eliminate hash element

This is leftover from an earlier version of the tests, and can be
calculated instead of having to manually specify it.

4 years agoAPItest/t/ Standardize overflow test detection
Karl Williamson [Wed, 14 Jun 2017 21:24:29 +0000 (15:24 -0600)]
APItest/t/ Standardize overflow test detection

There are two methods currently for detecting if a test is for overflow.
This standardizes on the one where the expected code point is 0, and
uses the already existing variable instead of qr//

4 years agoAPItest/t/utf8.t: Don't test above IV_MAX
Karl Williamson [Mon, 15 May 2017 15:54:40 +0000 (09:54 -0600)]
APItest/t/utf8.t: Don't test above IV_MAX

For 32-bit platforms, this means moving  the tests to the 64-bit only portion of
the file.  And it comments out the tests that are above 64-bit IV_MAX.

This is in preparation for IV_MAX being the upper legal limit for code

4 years agoAPItest/t/utf8.t: Add a test
Karl Williamson [Wed, 5 Jul 2017 17:31:12 +0000 (11:31 -0600)]
APItest/t/utf8.t: Add a test

This test will be important when we convert to limiting code points to
at most IV_MAX.

4 years agoAPItest/t/utf8.t: Comments, white-space only
Karl Williamson [Sun, 14 May 2017 04:58:00 +0000 (22:58 -0600)]
APItest/t/utf8.t: Comments, white-space only

4 years agoAPItest/t/utf8.t: Better handle some platforms
Karl Williamson [Sun, 14 May 2017 04:53:47 +0000 (22:53 -0600)]
APItest/t/utf8.t: Better handle some platforms

A future commit will cause some expected errors to not actually be
errors on some platforms.  This detects and handles these.

4 years agoAPItest/t/utf8.t: Remove unnecessary hash initializations
Karl Williamson [Sun, 14 May 2017 04:51:43 +0000 (22:51 -0600)]
APItest/t/utf8.t: Remove unnecessary hash initializations

4 years agoAPItest/t/utf8.t: Fix some convoluted code
Karl Williamson [Sun, 14 May 2017 04:50:26 +0000 (22:50 -0600)]
APItest/t/utf8.t: Fix some convoluted code

This code got overly complex as time went by, and can be cleaned up.

4 years agoAPItest/t/utf8.t: Rmv useless line
Karl Williamson [Mon, 8 May 2017 15:47:41 +0000 (09:47 -0600)]
APItest/t/utf8.t: Rmv useless line

This entry is overwritten by the next line.

4 years agoAPItest/t: Change some variable names
Karl Williamson [Tue, 27 Jun 2017 04:27:23 +0000 (22:27 -0600)]
APItest/t: Change some variable names

One of these is used in multiple test files in this directory.

The names are ambiguous for the contexts they occur in.  'first' can
mean earliest in the string, but here it means the lowest ordinal value.

4 years agoAPItest/t/ Make sure diagnostics are on separate lines
Karl Williamson [Thu, 15 Jun 2017 18:01:15 +0000 (12:01 -0600)]
APItest/t/ Make sure diagnostics are on separate lines

This changes diagnostic output to guarantee each element of the array
starts on a new line, for easier readability.  The array may or may not
already have terminating \n characters in the elements.

4 years agoAPItest/t/ Split function into two
Karl Williamson [Tue, 30 May 2017 02:58:32 +0000 (20:58 -0600)]
APItest/t/ Split function into two

This function outputs a byte string as hex bytes.  A future commit will
want that output without surrounding quotes, so create a version that
doesn't have them.

4 years agoutf8n_to_uvchr(): Avoid some work
Karl Williamson [Tue, 27 Jun 2017 04:08:01 +0000 (22:08 -0600)]
utf8n_to_uvchr(): Avoid some work

By adding a single mask, we can avoid some unnecessary work, as that
work is not necessary if just the one bit is set.

4 years agoutf8.c: Comments, white-space only
Karl Williamson [Fri, 30 Jun 2017 18:37:15 +0000 (12:37 -0600)]
utf8.c: Comments, white-space only

4 years agoutf8.c: Consolidate duplicated string constants
Karl Williamson [Fri, 30 Jun 2017 18:35:53 +0000 (12:35 -0600)]
utf8.c: Consolidate duplicated string constants

This reduces maintenance costs if they have to be updated.

4 years agoutf8.c: Don't calc code point from overflowing UTF8
Karl Williamson [Wed, 10 May 2017 02:16:13 +0000 (20:16 -0600)]
utf8.c: Don't calc code point from overflowing UTF8

This avoids calculating a code point from UTF-8 that is known to
overflow.  This could give incorrect results (used only in warning
messages), but is done only when there are 3 (or more) malformations:
overflow, overlong, UTF-8 terminated early, so it's unlikely to actually
happen in the field.

I am not adding any tests, as I don't know of any existing failures, and
soon there will be a commit that limits code points to be at most
IV_MAX.  That commit will cause cause existing tests to fail without
this fix, so that is good enough to test it.  I imagine a brute force
generator of UTF-8 would find some string that showed this problem up,
absent the other coming changes, but it's not worth it.

4 years agot/uni/parser.t: Skip some tests on 32-bit platforms
Karl Williamson [Tue, 4 Jul 2017 00:59:50 +0000 (18:59 -0600)]
t/uni/parser.t: Skip some tests on 32-bit platforms

These tests require code points that are too large for 32-bit platforms,
so skip there.

4 years agoMove test from t/opbasic to t/uni
Karl Williamson [Wed, 10 May 2017 02:27:40 +0000 (20:27 -0600)]
Move test from t/opbasic to t/uni

This test is really not very basic, so it doesn't belong in opbasic.  It
is for having a string delimiter be a very large code point, well above
the legal strict Unicode max.  The code point is 2**32 - 1, which is
UV_MAX on 32-bit platforms.

Use of UV_MAX for a delimiter is about to become illegal, and so this
test needs to be skipped on these.  Since this is compile time, there
are a few complications in getting the script to compile on such
systems, even though it is skipped at run time.

The opbasic test file is so basic that it doesn't even use t/,
whereas the one in t/uni does use that, and that has better
infrastructure for handling this issue, including getting it to work on
EBCDIC platforms.

4 years agot/comp/parser.t: Skip test on 32-bit builds
Karl Williamson [Mon, 3 Jul 2017 17:30:52 +0000 (11:30 -0600)]
t/comp/parser.t: Skip test on 32-bit builds

This code point is no longer legal on such builds.  We need to use this
code point to trigger the bug, so can't lower it to work on those

4 years agot/op/index.t: Skip now illegal code points on 32 bit builds
Karl Williamson [Mon, 3 Jul 2017 19:52:31 +0000 (13:52 -0600)]
t/op/index.t: Skip now illegal code points on 32 bit builds

These tests use code points that are now illegal on 32-bit platforms, so
skip them there.  The failures these tests were added for did not happen
except on these now-illegal code points.

4 years agot/op/chop.t: Don't use too large code points
Karl Williamson [Mon, 3 Jul 2017 15:33:09 +0000 (09:33 -0600)]
t/op/chop.t: Don't use too large code points

The bug this was testing for requires a code point that will no longer
be legal on 32-bit machines.  So skip unless we're on a 64-bit platform,
and revise to use chr() in the skipped code instead of "\x{}".  The
latter would try to be compiled even if execution gets skipped, so would
cause it to die, whereas chr() is runtime, so get skipped if
inappropriate.  This also tested the very highest legal code point on
64-bit machines, which is now illegal, so test the new very highest one.

4 years agot/re/pat_advanced.t: Revise some tests
Karl Williamson [Sun, 2 Jul 2017 16:34:12 +0000 (10:34 -0600)]
t/re/pat_advanced.t: Revise some tests

These tests used the highest available code points, but those will soon
be made illegal.  The tests don't need to be for these particular code
points, but there do need to be tests of user-defined properties of high
code points, so this commit changes to use the highest ones that will be
legal after that change.

4 years agoRestore a portion of reverted commits
Karl Williamson [Mon, 3 Jul 2017 19:46:42 +0000 (13:46 -0600)]
Restore a portion of reverted commits

See the previous commit for details.

4 years agoRevert: Restrict code points to <= IV_MAX
Karl Williamson [Mon, 3 Jul 2017 18:26:34 +0000 (12:26 -0600)]
Revert: Restrict code points to <= IV_MAX

This reverts the two related commits
51099b64db323d0e1d871837f619d72bea8ca2f9  (partially)
13f4dd346e6f3b61534a20f246de3a80b3feb743  (entirely)

I was in the middle of a long branch dealing with this and related
issues when these were pushed to blead.  It was far easier for me to
revert these at the beginning of my branch than to try to rebase
unreverted.  And there are changes needed to the approaches taken in the
reverted commits.  A third related commit,
113b8661ce6d987db4dd217e2f90cbb983ce5d00, doesn't cause problems so
isn't reverted.

I reverted the second commit, then the first one, and squashed them
together into this one.  No other changes were done in this commit.
The reason for the squashing is to avoid problems when bisecting on a
32-bit machine.  If the bisect landed between the commits, it could show
failures.  The portion of the first commit that wasn't reverted was the
part that was rendered moot because of the changes in the meantime that
forbid bitwise operations on strings containing code points above

The next commit in this series will reinstate portions of these commits.
I reverted as much as possible here to make this reversion commit

The biggest problem with these commits, is that some Perl applications
are made vulnerable to Denial of Service attacks.  I do believe it is ok
to croak when a program tries, for example, to do chr() of too large a
number, which is what the reverted commit does (and what this branch
will eventually reinstate doing).  But when parsing UTF-8, you can't
just die if you find something too large.  That would be an easy DOS on
any program, such as a web server, that gets its UTF-8 from the public.
Perl already has a means to deal with too-large code points (before
5.26, this was those code points that overflow the word size), and web
servers should have already been written in such a way as to deal with
these.  This branch just adapts the code so that anything above IV_MAX
is considered to be overflowing.  Web servers should not have to change
as a result.

A second issue is that one of the reasons we did the original
deprecation is so that we can use the forbidden code points internally
ourselves, such as Perl 6 does to store Grapheme Normal Form.  The
implementation should not burn bridges, but allow that use to easily
happen when the time comes.  For that reason, some tests should not be
deleted, but commented out, so they can be quickly adapted.

While working on this branch, I found several unlikely-to-occur bugs in
the existing code.  These should be fixed now in the code that handles
up to UV_MAX code points, so that when we do allow internal use of such,
the bugs are already gone.

I also had researched the tests that fail as a result of the IV_MAX
restriction.  Some of the test changes in these reverted commits were

For example, some tests that got changed were for bugs that happen only
on code points that are now illegal on 32-bit builds.  Lowering the code
point in the test to a legal value, as was done in some instances,  no
longer tests for the original bug.  Instead, where I found this, I just
skip the test on 32-bit platforms.

Other tests were simply deleted, where a lower code point would have
worked, and the test is useful with a lower code point.  I retain such
tests, using a lower code point.  In some cases, it was probably ok to
delete the tests on 32-bit platforms, as something was retained for a
64-bit one, but since I had already done the adaptive work, I retain

And still other tests were from files that I extensively revamp, so I
went with the revamp.

The following few commits fix those as far as possible now.  This is so
that the reversion of the tests and my changes are close together in the
final commit series.  Some changes have to wait to later, as for those
where the entire test files are revamped, or when the deprecation
messages finally go away in the final commit of this series.

In cases where the message wording I was contemplating using conflicts
with the reverted commits, I change mine to use that of the reverted

4 years agot/re/pat_advanced.t: Fix test to work on EBCDIC
Karl Williamson [Tue, 11 Jul 2017 02:11:09 +0000 (20:11 -0600)]
t/re/pat_advanced.t: Fix test to work on EBCDIC

4 years agot/op/sprintf2.t: Generalize test to work on EBCDIC
Karl Williamson [Tue, 11 Jul 2017 02:09:25 +0000 (20:09 -0600)]
t/op/sprintf2.t: Generalize test to work on EBCDIC

4 years agoperldelta for 6091bd4ca4a4
Tony Cook [Mon, 10 Jul 2017 06:51:18 +0000 (16:51 +1000)]
perldelta for 6091bd4ca4a4

4 years ago(perl #131597) ensure the GV slot is filled for our [%$@]foo: attr
Tony Cook [Mon, 19 Jun 2017 04:59:53 +0000 (14:59 +1000)]
(perl #131597) ensure the GV slot is filled for our [%$@]foo: attr

4 years agoTest that ref works in tainted statements
Father Chrysostomos [Mon, 10 Jul 2017 05:53:52 +0000 (22:53 -0700)]
Test that ref works in tainted statements

This commit broke Module::Runtime in debugging builds:

commit ba75e9a42bd919d317a4f5deb1e487c13586929d
Author: David Mitchell <>
Date:   Fri Jan 6 14:59:54 2017 +0000

    make OP_REF support boolean context

This commit restored the previous, behaviour:

commit a10e04b588b6b10ac6d059efacd8dec25d14bdb3
Author: David Mitchell <>
Date:   Thu Jun 15 14:29:56 2017 +0100

    pp_ref: do SvSETMAGIC(TARG)

But no test was added to make sure it stays fixed.  Here is a test.

4 years agoperldelta for 67c3640a57440a
Tony Cook [Mon, 10 Jul 2017 05:41:52 +0000 (15:41 +1000)]
perldelta for 67c3640a57440a

4 years ago(perl #131570) don't skip the temps stack entry we just allocated
Tony Cook [Wed, 21 Jun 2017 05:00:56 +0000 (15:00 +1000)]
(perl #131570) don't skip the temps stack entry we just allocated

4 years agoAdd test descriptions for some tests in t/base/translate.t.
Vitali Peil [Mon, 26 Jun 2017 23:03:01 +0000 (19:03 -0400)]
Add test descriptions for some tests in t/base/translate.t.

This partially resolves RT # 131655.

Vitali Peil is now a Perl author.

4 years agoRevert "use symbolic constants for substrs[] indices"
David Mitchell [Wed, 5 Jul 2017 13:02:24 +0000 (14:02 +0100)]
Revert "use symbolic constants for substrs[] indices"

This reverts commit 2ac902efe11ee156653eb2ca1369f0e5f4546c31.

See thread at Message-ID: <>

4 years agoregcomp.c: use symbolic constants for substrs[] indices
Dagfinn Ilmari Mannsåker [Wed, 5 Jul 2017 10:51:29 +0000 (11:51 +0100)]
regcomp.c: use symbolic constants for substrs[] indices

4 years agoperldebug: cross reference to perldebguts
Ricardo Signes [Tue, 4 Jul 2017 18:50:31 +0000 (14:50 -0400)]
perldebug: cross reference to perldebguts

4 years agobump $PerlIO::scalar::VERSION
Tony Cook [Wed, 21 Jun 2017 07:07:17 +0000 (17:07 +1000)]
bump $PerlIO::scalar::VERSION

4 years ago(perl #131546) return a reasonable error code opening a read-only scalar
Tony Cook [Wed, 21 Jun 2017 07:07:02 +0000 (17:07 +1000)]
(perl #131546) return a reasonable error code opening a read-only scalar

4 years ago(perl #131546) some notes on in-memory files for open()
Tony Cook [Mon, 12 Jun 2017 01:03:35 +0000 (11:03 +1000)]
(perl #131546) some notes on in-memory files for open()

4 years agoRemove #ifdef USE_ITHREADS around MUTEX_* calls
Dagfinn Ilmari Mannsåker [Tue, 27 Jun 2017 22:23:45 +0000 (23:23 +0100)]
Remove #ifdef USE_ITHREADS around MUTEX_* calls

These macros are defined as NOOP outside USE_ITHREADS, so there's no
point in guarding them with it.

4 years agoProperly NOOP macros in thread.h
Dagfinn Ilmari Mannsåker [Wed, 28 Jun 2017 13:40:16 +0000 (14:40 +0100)]
Properly NOOP macros in thread.h

4 years agoproperly init si_stack_hwm
David Mitchell [Mon, 3 Jul 2017 13:20:42 +0000 (14:20 +0100)]
properly init si_stack_hwm

It was being initialised when a new stack was pushed, but not for the main
This didn't matter most of the time as runops() would set it anyway,

    perl -e 'INIT {}'

was doing a call_sv() before/outside of any runops loop, so showed up in
valgrind as uninitialised usage.

4 years agosave si_stack_hwm across JMPENV_PUSH
David Mitchell [Mon, 3 Jul 2017 12:43:27 +0000 (13:43 +0100)]
save si_stack_hwm across JMPENV_PUSH

When continuing after an exception (JMPENV_PUSH() returns 3),
restore the value of PL_curstackinfo->si_stack_hwm.

This is a recently added variable on debugging builds that detects
attempts to push stuff on the stack without extending it.
After an exception  its value may be invalid and trigger a false panic.

4 years ago[MERGE] scan_data_t: make fixed/float data array
David Mitchell [Sun, 2 Jul 2017 20:25:35 +0000 (21:25 +0100)]
[MERGE] scan_data_t: make fixed/float data array

While compiling a pattern, rather than storing information about the
current longest fixed and floating substring as individual fields of this
struct - such as minlen_fixed, minlen_float etc - create a 2-element array
to hold fixed and float data. So for example





This mimics the way that substring data is stored in the regex struct
once the pattern has been compiled.

Similarly, move some fixed/float-specific flags from data->flags
into a new per-substr subfield, data->subfield[i].flags.

Also, the fixed substring now has both max and min offset fields, which
are set equal to each other.

This set of commits should make no functional difference apart from
minor changes to debugging output (e.g. fixed offsets displayed as N..N
rather than N).

The various commits in this branch are mainly concerned with harmonising
fixed and float code paths, and finally parameterising them, e.g.

    data->lookbehind_fixed = ...;
    data->lookbehind_float = ...;


    data->substr[0].lookbehind = ...;
    data->substr[1].lookbehind = ...;

and finally becomes

    for (i = 0; i < 2; i++) {
        data->substr[i].lookbehind = ...;

The two big advantages of this approach are;

1) it simplifies and rationalises the code, avoiding two similar blocks of
code in several places;
2) it may allow for future expansion where there isn't necessarily at most
1 fixed and 1 floating substring.

Note that this only affects the regex compile-time code. The run-time
code in re_intuit_start is still a mess and could benefit from a similar
rationalisation (it already has the arrray[2], but doesn't do much

4 years agoregcomp.c: parameterise scan_data_t substrs[]
David Mitchell [Sun, 2 Jul 2017 18:24:07 +0000 (19:24 +0100)]
regcomp.c: parameterise scan_data_t substrs[]

Now that the scan_data_t stores its fixed and floating substring data
as a 2-element array, replace various bits of duplicated code which
separately handled fixed and floating substrings with for (i = 0; i < 2;
i++) loops etc.

This makes the code shorter and simpler, and will make it easier in future
to expand to more than a single each of fixed+float.

There should be no functional changes, except that debugging output
now displays N..N rather than just just N for the fixed substring
start range (i.e. its now just a subset of float where max == min)

4 years agoscan_data_t: rename 'longest' field
David Mitchell [Fri, 30 Jun 2017 11:43:00 +0000 (12:43 +0100)]
scan_data_t: rename 'longest' field

.. to 'cur_is_floating'

It's an index into either the fixed or float substring info; the
information it provides is whether the currently being captured substring
is fixed or floating; it's nothing to do with whether the fixed or the
floating is currently the longest.

4 years agoregcomp.c: remove float_min_offset etc macro use
David Mitchell [Fri, 30 Jun 2017 09:33:37 +0000 (10:33 +0100)]
regcomp.c: remove float_min_offset etc macro use

In this src file, expand all the various macros like

    #define  anchored_offset   substrs->data[0].min_offset
    #define  float_min_offset  substrs->data[1].min_offset

This will later allow parts of the code to be parameterised, e.g.

    for (i=0; i<1; i++) {
        substrs->data[i].min_offset = ...;

4 years agoregcomp.c: S_setup_longest(): simplify args
David Mitchell [Fri, 30 Jun 2017 09:20:11 +0000 (10:20 +0100)]
regcomp.c: S_setup_longest(): simplify args

Rather than passing e.g.


pass the single arg


(float_foo are macros which expand to substrs->data[1].foo)

4 years agoregcomp: set fixed max_offset to min_offset
David Mitchell [Fri, 30 Jun 2017 08:55:32 +0000 (09:55 +0100)]
regcomp: set fixed max_offset to min_offset

previously scan_data_t had the three fields


a few commits ago that was converted into a 2 element array (for fixed
and float), each with the fields


where the max_offset was unused in fixed (substrs[0]) case.

Instead, set it equal to min_offset

This makes the fixed and float code paths more similar.

At the same time expand a few of the 'float_max_offset' type macros
to make it clearer what's going on.

4 years agoS_study_chunk: have per substring flags
David Mitchell [Thu, 29 Jun 2017 20:40:41 +0000 (21:40 +0100)]
S_study_chunk: have per substring flags

Currently the scan_data_t struct has a flags field which contains
SF_ and SCF_ flags. Some of the SF_ flags are general; others are specific
to the fixed or floating substr. For example there are these 3 flags:


This commit adds a flags field to the per-substring substruct and sets
some flags per-substring instead. For example

previously we did:                now we would do:
--------------------------------  --------------------------------------
data->flags |= SF_BEFORE_MEOL     unchanged
data->flags |= SF_FIX_BEFORE_MEOL data->substrs[0].flags |= SF_BEFORE_MEOL
data->flags |= SF_FL_BEFORE_MEOL  data->substrs[1].flags |= SF_BEFORE_MEOL

This allows us to simplify the code (e.g. eliminating some args from
S_setup_longest()) and in future will allow more than one fixed or
floating substring.

4 years agoregcomp.c: DEBUG_PEEP(): invalid flags
David Mitchell [Thu, 29 Jun 2017 21:16:19 +0000 (22:16 +0100)]
regcomp.c: DEBUG_PEEP(): invalid flags

DEBUG_PEEP(..., flags) was  invoked from 3 functions - however in two of
throse functions, the 'flags' local var did *not*  contain SF_ and SCF_
bits, so the flag bits were being incorrectly displayed as SF_ etc.

In those two functions, change it instead to DEBUG_PEEP(...., 0)

4 years agoregcomp.c: convert debugging macros to static fns
David Mitchell [Thu, 29 Jun 2017 19:15:56 +0000 (20:15 +0100)]
regcomp.c: convert debugging macros to static fns

make these 3 macros into thin wrappers around some new static
functions, rather than just being huge macros:


Also, avoid the macros implicitly using local vars: make them into
explicit parameters instead (this is one of my pet peeves).

4 years agomake struct scan_data_t->longest an index val
David Mitchell [Thu, 29 Jun 2017 15:45:39 +0000 (16:45 +0100)]
make struct scan_data_t->longest an index val

In this private data structure used during regex compilation, the
'longest' field was an SV** pointer which was always set to point to
one of these two addresses:


Instead, just make it a U8 with the value 0 or 1.

4 years agoS_setup_longest() pass struct rather than fields
David Mitchell [Thu, 29 Jun 2017 15:24:12 +0000 (16:24 +0100)]
S_setup_longest() pass struct rather than fields

Now that a substring is a separate struct, pass as a single pointer
rather than as 4 separate args.

4 years agostruct scan_data_t: make some fields into an array
David Mitchell [Thu, 29 Jun 2017 14:05:03 +0000 (15:05 +0100)]
struct scan_data_t: make some fields into an array

This private struct is used just within regcomp.c while compiling a
pattern. It has a set of fields for a fixed substring, and similar set for
floating, e.g.

    SV *longest_fixed;
    SV *longest_float;

    SSize_t *minlen_fixed;
    SSize_t *minlen_float;


Instead have a 2 element array, one for fixed, one for float, so e.g.




There are 3 reasons for doing this.

First, it makes the code more regular, and allows a whole substr ptr to be
passed as an arg to a function rather than having to pass every individual

second, it makes the compile-time struct more similar to the runtime
struct, which already has such an arrangement;

third, it allows for a hypothetical future expansion where there aren't
necessarily at most 1 fixed and 1 floating substring.

Note that a side effect of this commit has been to change
lookbehind_fixed from I32 to SSize_t; lookbehind_float was already
SSize_t, so the I32 was probably a bug.

4 years ago[perl #131679] Fix ‘our sub foo::bar’ message
Father Chrysostomos [Sun, 2 Jul 2017 18:35:20 +0000 (11:35 -0700)]
[perl #131679] Fix ‘our sub foo::bar’ message

It should say subroutine, not variable.

4 years agoop.c: Remove unused THX param
Father Chrysostomos [Sun, 2 Jul 2017 18:27:32 +0000 (11:27 -0700)]
op.c: Remove unused THX param

4 years ago[perl #131645] Fix assert fail in pp_sselect
Father Chrysostomos [Sun, 25 Jun 2017 13:37:19 +0000 (06:37 -0700)]
[perl #131645] Fix assert fail in pp_sselect

pp_sselect (4-arg select) process its first three bitfield arguments
first, making sure each one has a valid PV, and then it moves on to
the final, timeout argument.

SvGETMAGIC() on the timeout argument will wipe out any values the SV
holds, so if the same scalar is used as a bitfield argument *and* as
the timeout, it will no longer hold a valid PV.

Assertions later in pp_sselect make sure there is a valid PV.

This commit solves the assertion failure by making a temporary copy of
any gmagical or overloaded argument.  When the temporary copy is made,
the values written to the temporary copies of the bitfield arguments
are then copied back to the original magical arguments.

4 years agopad.c: comment typo
Father Chrysostomos [Mon, 26 Jun 2017 00:26:33 +0000 (17:26 -0700)]
pad.c: comment typo

4 years agopad.c: POD typo
Father Chrysostomos [Mon, 26 Jun 2017 00:21:29 +0000 (17:21 -0700)]
pad.c: POD typo

4 years agoCouple of test file comments
Father Chrysostomos [Sun, 25 Jun 2017 13:12:21 +0000 (06:12 -0700)]
Couple of test file comments

4 years agot/porting/bench.t: add debugging output for a test
David Mitchell [Sun, 2 Jul 2017 17:49:14 +0000 (18:49 +0100)]
t/porting/bench.t: add debugging output for a test

one test is intermittently failing. Add debugging output for when it

4 years agomktables: Don't output anything above IV_MAX
Karl Williamson [Wed, 10 May 2017 14:45:03 +0000 (08:45 -0600)]
mktables: Don't output anything above IV_MAX

This is in preparation for later commits to restrict Unicode code points
to IV_MAX.  No tables are currently output that go this high, so this
change has no current effect.

4 years agoutf8n_to_uvchr(): Don't display too many bytes in msg
Karl Williamson [Sat, 17 Jun 2017 23:56:10 +0000 (17:56 -0600)]
utf8n_to_uvchr(): Don't display too many bytes in msg

When raising a message about malformed UTF-8, we shouldn't display bytes
from the next character, unless those bytes were expected to have been
part of the current one.  Tests for this will be added in future commits
in ext/XS-APItest/t/

4 years ago_byte-dump_string() callable from regcomp, regexec
Karl Williamson [Fri, 16 Jun 2017 20:56:04 +0000 (14:56 -0600)]
_byte-dump_string() callable from regcomp, regexec

This changes the function so it's visible from re_comp, re_exec

4 years agoutf8.c: Move some #defines here, the only file that uses them
Karl Williamson [Fri, 12 May 2017 03:31:58 +0000 (21:31 -0600)]
utf8.c: Move some #defines here, the only file that uses them

These are very specialized #defines to determine if UTF-8 overflows the
word size of the platform.  I think its unwise to make them kinda
generally available.

4 years agoperlapi: Add note about utf8n_to_uvchr_error() return
Karl Williamson [Fri, 30 Jun 2017 16:12:32 +0000 (10:12 -0600)]
perlapi: Add note about utf8n_to_uvchr_error() return

4 years agoAdd epigraphs for 5.22.4-RC1 and 5.24.2-RC1
Steve Hay [Sat, 1 Jul 2017 22:05:27 +0000 (23:05 +0100)]
Add epigraphs for 5.22.4-RC1 and 5.24.2-RC1

4 years ago5.22.4-RC1 and 5.24.2-RC1 today
Steve Hay [Sat, 1 Jul 2017 20:15:43 +0000 (21:15 +0100)]
5.22.4-RC1 and 5.24.2-RC1 today