This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
Change 'semantics' to 'rules'
[perl5.git] / lib / locale.t
index 03c2989..42dde69 100644 (file)
@@ -19,21 +19,30 @@ BEGIN {
        print "1..0\n";
        exit;
     }
+    require './loc_tools.pl';
     $| = 1;
 }
 
 use strict;
 use feature 'fc';
 
+# =1 adds debugging output; =2 increases the verbosity somewhat
 my $debug = $ENV{PERL_DEBUG_FULL_TEST} // 0;
 
 # Certain tests have been shown to be problematical for a few locales.  Don't
 # fail them unless at least this percentage of the tested locales fail.
-# Some Windows machines are defective in every in every locale but the C,
-# calling \t printable; superscripts to be digits, etc.  See
-# http://markmail.org/message/5jwam4xsx4amsdnv
+# Some Windows machines are defective in every locale but the C, calling \t
+# printable; superscripts to be digits, etc.  See
+# http://markmail.org/message/5jwam4xsx4amsdnv.  Also on AIX machines, many
+# locales call a no-break space a graphic.
 # (There aren't 1000 locales currently in existence, so 99.9 works)
-my $acceptable_fold_failure_percentage = $^O eq 'MSWin32' ? 99.9 : 5;
+my $acceptable_fold_failure_percentage = ($^O =~ / ^ ( MSWin32 | AIX ) $ /ix)
+                                         ? 99.9
+                                         : 5;
+
+# The list of test numbers of the problematic tests.
+my @problematical_tests;
+
 
 use Dumpvalue;
 
@@ -49,29 +58,15 @@ sub debug {
   print $dumper->stringify($mess,1), "\n";
 }
 
+sub debug_more {
+  return unless $debug > 1;
+  return debug(@_);
+}
+
 sub debugf {
     printf @_ if $debug;
 }
 
-my $have_setlocale = 0;
-eval {
-    require POSIX;
-    import POSIX ':locale_h';
-    $have_setlocale++;
-};
-
-# Visual C's CRT goes silly on strings of the form "en_US.ISO8859-1"
-# and mingw32 uses said silly CRT
-# This doesn't seem to be an issue any more, at least on Windows XP,
-# so re-enable the tests for Windows XP onwards.
-my $winxp = ($^O eq 'MSWin32' && defined &Win32::GetOSVersion &&
-               join('.', (Win32::GetOSVersion())[1..2]) >= 5.1);
-$have_setlocale = 0 if ((($^O eq 'MSWin32' && !$winxp) || $^O eq 'NetWare') &&
-               $Config{cc} =~ /^(cl|gcc)/i);
-
-# UWIN seems to loop after taint tests, just skip for now
-$have_setlocale = 0 if ($^O =~ /^uwin/);
-
 $a = 'abc %';
 
 my $test_num = 0;
@@ -115,7 +110,7 @@ check_taint_not   $&, "not tainted outside 'use locale'";
 
 use locale;    # engage locale and therefore locale taint.
 
-check_taint_not   $a;
+check_taint_not   $a, "\t\$a";
 
 check_taint       uc($a);
 check_taint       "\U$a";
@@ -138,139 +133,225 @@ $_ = $a;        # untaint $_
 
 $_ = uc($a);   # taint $_
 
-check_taint      $_;
+check_taint      $_, "\t\$_";
 
 /(\w)/;        # taint $&, $`, $', $+, $1.
-check_taint      $&;
-check_taint      $`;
-check_taint      $';
-check_taint      $+;
-check_taint      $1;
-check_taint_not  $2;
+check_taint      $&, "\t/(\\w)/ \$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
 
 /(.)/; # untaint $&, $`, $', $+, $1.
-check_taint_not  $&;
-check_taint_not  $`;
-check_taint_not  $';
-check_taint_not  $+;
-check_taint_not  $1;
-check_taint_not  $2;
+check_taint_not  $&, "\t/(.)/ \$&";
+check_taint_not  $`, "\t\$`";
+check_taint_not  $', "\t\$'";
+check_taint_not  $+, "\t\$+";
+check_taint_not  $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
 
 /(\W)/;        # taint $&, $`, $', $+, $1.
-check_taint      $&;
-check_taint      $`;
-check_taint      $';
-check_taint      $+;
-check_taint      $1;
-check_taint_not  $2;
+check_taint      $&, "\t/(\\W)/ \$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
+
+/(.)/; # untaint $&, $`, $', $+, $1.
+check_taint_not  $&, "\t/(.)/ \$&";
+check_taint_not  $`, "\t\$`";
+check_taint_not  $', "\t\$'";
+check_taint_not  $+, "\t\$+";
+check_taint_not  $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
 
 /(\s)/;        # taint $&, $`, $', $+, $1.
-check_taint      $&;
-check_taint      $`;
-check_taint      $';
-check_taint      $+;
-check_taint      $1;
-check_taint_not  $2;
+check_taint      $&, "\t/(\\s)/ \$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
+
+/(.)/; # untaint $&, $`, $', $+, $1.
+check_taint_not  $&, "\t/(.)/ \$&";
 
 /(\S)/;        # taint $&, $`, $', $+, $1.
-check_taint      $&;
-check_taint      $`;
-check_taint      $';
-check_taint      $+;
-check_taint      $1;
-check_taint_not  $2;
+check_taint      $&, "\t/(\\S)/ \$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
+
+/(.)/; # untaint $&, $`, $', $+, $1.
+check_taint_not  $&, "\t/(.)/ \$&";
+
+"a" =~ /(a)|(\w)/;     # taint $&, $`, $', $+, $1.
+check_taint      $&, "\t/(a)|(\\w)/ \$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+ok($1 eq 'a', ("\t" x 4) . "\$1 is 'a'");
+ok(! defined $2, ("\t" x 4) . "\$2 is undefined");
+check_taint_not  $2, "\t\$2";
+check_taint_not  $3, "\t\$3";
+
+/(.)/; # untaint $&, $`, $', $+, $1.
+check_taint_not  $&, "\t/(.)/ \$&";
+
+"\N{CYRILLIC SMALL LETTER A}" =~ /(\N{CYRILLIC CAPITAL LETTER A})/i;   # no tainting because no locale dependence
+check_taint_not      $&, "\t/(\\N{CYRILLIC CAPITAL LETTER A})/i \$&";
+check_taint_not      $`, "\t\$`";
+check_taint_not      $', "\t\$'";
+check_taint_not      $+, "\t\$+";
+check_taint_not      $1, "\t\$1";
+ok($1 eq "\N{CYRILLIC SMALL LETTER A}", ("\t" x 4) . "\$1 is 'small cyrillic a'");
+check_taint_not      $2, "\t\$2";
+
+/(.)/; # untaint $&, $`, $', $+, $1.
+check_taint_not  $&, "\t/./ \$&";
+
+/(.)/; # untaint $&, $`, $', $+, $1.
+check_taint_not  $&, "\t/(.)/ \$&";
+
+"a:" =~ /(.)\b(.)/;    # taint $&, $`, $', $+, $1.
+check_taint      $&, "\t/(.)\\b(.)/ \$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+check_taint      $2, "\t\$2";
+check_taint_not  $3, "\t\$3";
+
+/(.)/; # untaint $&, $`, $', $+, $1.
+check_taint_not  $&, "\t/./ \$&";
+
+"aa" =~ /(.)\B(.)/;    # taint $&, $`, $', $+, $1.
+check_taint      $&, "\t/(.)\\B(.)/ \$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+check_taint      $2, "\t\$2";
+check_taint_not  $3, "\t\$3";
+
+/(.)/; # untaint $&, $`, $', $+, $1.
+check_taint_not  $&, "\t/./ \$&";
+
+"aaa" =~ /(.).(\1)/i;  # notaint because not locale dependent
+check_taint_not      $&, "\t/(.).(\\1)/ \$&";
+check_taint_not      $`, "\t\$`";
+check_taint_not      $', "\t\$'";
+check_taint_not      $+, "\t\$+";
+check_taint_not      $1, "\t\$1";
+check_taint_not      $2, "\t\$2";
+check_taint_not  $3, "\t\$3";
+
+/(.)/; # untaint $&, $`, $', $+, $1.
+check_taint_not  $&, "\t/./ \$&";
 
 $_ = $a;       # untaint $_
 
-check_taint_not  $_;
+check_taint_not  $_, "\t\$_";
 
 /(b)/;         # this must not taint
-check_taint_not  $&;
-check_taint_not  $`;
-check_taint_not  $';
-check_taint_not  $+;
-check_taint_not  $1;
-check_taint_not  $2;
+check_taint_not  $&, "\t/(b)/ \$&";
+check_taint_not  $`, "\t\$`";
+check_taint_not  $', "\t\$'";
+check_taint_not  $+, "\t\$+";
+check_taint_not  $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
 
 $_ = $a;       # untaint $_
 
-check_taint_not  $_;
+check_taint_not  $_, "\t\$_";
 
 $b = uc($a);   # taint $b
 s/(.+)/$b/;    # this must taint only the $_
 
-check_taint      $_;
-check_taint_not  $&;
-check_taint_not  $`;
-check_taint_not  $';
-check_taint_not  $+;
-check_taint_not  $1;
-check_taint_not  $2;
+check_taint      $_, "\t\$_";
+check_taint_not  $&, "\t\$&";
+check_taint_not  $`, "\t\$`";
+check_taint_not  $', "\t\$'";
+check_taint_not  $+, "\t\$+";
+check_taint_not  $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
 
 $_ = $a;       # untaint $_
 
 s/(.+)/b/;     # this must not taint
-check_taint_not  $_;
-check_taint_not  $&;
-check_taint_not  $`;
-check_taint_not  $';
-check_taint_not  $+;
-check_taint_not  $1;
-check_taint_not  $2;
+check_taint_not  $_, "\t\$_";
+check_taint_not  $&, "\t\$&";
+check_taint_not  $`, "\t\$`";
+check_taint_not  $', "\t\$'";
+check_taint_not  $+, "\t\$+";
+check_taint_not  $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
 
 $b = $a;       # untaint $b
 
 ($b = $a) =~ s/\w/$&/;
-check_taint      $b  # $b should be tainted.
-check_taint_not  $a  # $a should be not.
+check_taint      $b, "\t\$b";  # $b should be tainted.
+check_taint_not  $a, "\t\$a";  # $a should be not.
 
 $_ = $a;       # untaint $_
 
 s/(\w)/\l$1/;  # this must taint
-check_taint      $_;
-check_taint      $&;
-check_taint      $`;
-check_taint      $';
-check_taint      $+;
-check_taint      $1;
-check_taint_not  $2;
+check_taint      $_, "\t\$_";
+check_taint      $&, "\t\$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
 
 $_ = $a;       # untaint $_
 
 s/(\w)/\L$1/;  # this must taint
-check_taint      $_;
-check_taint      $&;
-check_taint      $`;
-check_taint      $';
-check_taint      $+;
-check_taint      $1;
-check_taint_not  $2;
+check_taint      $_, "\t\$_";
+check_taint      $&, "\t\$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
 
 $_ = $a;       # untaint $_
 
 s/(\w)/\u$1/;  # this must taint
-check_taint      $_;
-check_taint      $&;
-check_taint      $`;
-check_taint      $';
-check_taint      $+;
-check_taint      $1;
-check_taint_not  $2;
+check_taint      $_, "\t\$_";
+check_taint      $&, "\t\$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
 
 $_ = $a;       # untaint $_
 
 s/(\w)/\U$1/;  # this must taint
-check_taint      $_;
-check_taint      $&;
-check_taint      $`;
-check_taint      $';
-check_taint      $+;
-check_taint      $1;
-check_taint_not  $2;
+check_taint      $_, "\t\$_";
+check_taint      $&, "\t\$&";
+check_taint      $`, "\t\$`";
+check_taint      $', "\t\$'";
+check_taint      $+, "\t\$+";
+check_taint      $1, "\t\$1";
+check_taint_not  $2, "\t\$2";
 
 # After all this tainting $a should be cool.
 
-check_taint_not  $a;
+check_taint_not  $a, "\t\$a";
+
+"a" =~ /([a-z])/;
+check_taint_not $1, '"a" =~ /([a-z])/';
+"foo.bar_baz" =~ /^(.*)[._](.*?)$/;  # Bug 120675
+check_taint_not $1, '"foo.bar_baz" =~ /^(.*)[._](.*?)$/';
+
+# BE SURE TO COPY ANYTHING YOU ADD to the block below
 
 {   # This is just the previous tests copied here with a different
     # compile-time pragma.
@@ -434,6 +515,11 @@ check_taint_not  $a;
     # After all this tainting $a should be cool.
 
     check_taint_not  $a;
+
+    "a" =~ /([a-z])/;
+    check_taint_not $1, '"a" =~ /([a-z])/';
+    "foo.bar_baz" =~ /^(.*)[._](.*?)$/;  # Bug 120675
+    check_taint_not $1, '"foo.bar_baz" =~ /^(.*)[._](.*?)$/';
 }
 
 # Here are in scope of 'use locale'
@@ -442,11 +528,6 @@ check_taint_not  $a;
 # Let us do some *real* locale work now,
 # unless setlocale() is missing (i.e. minitest).
 
-unless ($have_setlocale) {
-    print "1..$test_num\n";
-    exit;
-}
-
 # The test number before our first setlocale()
 my $final_without_setlocale = $test_num;
 
@@ -454,228 +535,24 @@ my $final_without_setlocale = $test_num;
 
 debug "# Scanning for locales...\n";
 
-# Note that it's okay that some languages have their native names
-# capitalized here even though that's not "right".  They are lowercased
-# anyway later during the scanning process (and besides, some clueless
-# vendor might have them capitalized erroneously anyway).
-
-my $locales = <<EOF;
-Afrikaans:af:za:1 15
-Arabic:ar:dz eg sa:6 arabic8
-Brezhoneg Breton:br:fr:1 15
-Bulgarski Bulgarian:bg:bg:5
-Chinese:zh:cn tw:cn.EUC eucCN eucTW euc.CN euc.TW Big5 GB2312 tw.EUC
-Hrvatski Croatian:hr:hr:2
-Cymraeg Welsh:cy:cy:1 14 15
-Czech:cs:cz:2
-Dansk Danish:da:dk:1 15
-Nederlands Dutch:nl:be nl:1 15
-English American British:en:au ca gb ie nz us uk zw:1 15 cp850
-Esperanto:eo:eo:3
-Eesti Estonian:et:ee:4 6 13
-Suomi Finnish:fi:fi:1 15
-Flamish::fl:1 15
-Deutsch German:de:at be ch de lu:1 15
-Euskaraz Basque:eu:es fr:1 15
-Galego Galician:gl:es:1 15
-Ellada Greek:el:gr:7 g8
-Frysk:fy:nl:1 15
-Greenlandic:kl:gl:4 6
-Hebrew:iw:il:8 hebrew8
-Hungarian:hu:hu:2
-Indonesian:id:id:1 15
-Gaeilge Irish:ga:IE:1 14 15
-Italiano Italian:it:ch it:1 15
-Nihongo Japanese:ja:jp:euc eucJP jp.EUC sjis
-Korean:ko:kr:
-Latine Latin:la:va:1 15
-Latvian:lv:lv:4 6 13
-Lithuanian:lt:lt:4 6 13
-Macedonian:mk:mk:1 15
-Maltese:mt:mt:3
-Moldovan:mo:mo:2
-Norsk Norwegian:no no\@nynorsk nb nn:no:1 15
-Occitan:oc:es:1 15
-Polski Polish:pl:pl:2
-Rumanian:ro:ro:2
-Russki Russian:ru:ru su ua:5 koi8 koi8r KOI8-R koi8u cp1251 cp866
-Serbski Serbian:sr:yu:5
-Slovak:sk:sk:2
-Slovene Slovenian:sl:si:2
-Sqhip Albanian:sq:sq:1 15
-Svenska Swedish:sv:fi se:1 15
-Thai:th:th:11 tis620
-Turkish:tr:tr:9 turkish8
-Yiddish:yi::1 15
-EOF
-
-if ($^O eq 'os390') {
-    # These cause heartburn.  Broken locales?
-    $locales =~ s/Svenska Swedish:sv:fi se:1 15\n//;
-    $locales =~ s/Thai:th:th:11 tis620\n//;
-}
-
-sub in_utf8 () { $^H & 0x08 || (${^OPEN} || "") =~ /:utf8/ }
-
-if (in_utf8) {
-    require "lib/locale/utf8";
-} else {
-    require "lib/locale/latin1";
-}
-
-my @Locale;
-my $Locale;
-my %posixes;
-
-sub trylocale {
-    my $locale = shift;
-    return if grep { $locale eq $_ } @Locale;
-    return unless setlocale(&POSIX::LC_ALL, $locale);
-    my $badutf8;
-    {
-        local $SIG{__WARN__} = sub {
-            $badutf8 = $_[0] =~ /Malformed UTF-8/;
-        };
-        $Locale =~ /UTF-?8/i;
-    }
-
-    if ($badutf8) {
-        ok(0, "Locale name contains malformed utf8");
-        return;
-    }
-    push @Locale, $locale;
-}
+require POSIX; import POSIX ':locale_h';
 
-sub decode_encodings {
-    my @enc;
-
-    foreach (split(/ /, shift)) {
-       if (/^(\d+)$/) {
-           push @enc, "ISO8859-$1";
-           push @enc, "iso8859$1";     # HP
-           if ($1 eq '1') {
-                push @enc, "roman8";   # HP
-           }
-       } else {
-           push @enc, $_;
-           push @enc, "$_.UTF-8";
-       }
-    }
-    if ($^O eq 'os390') {
-       push @enc, qw(IBM-037 IBM-819 IBM-1047);
-    }
+my @Locale = find_locales([ &POSIX::LC_CTYPE, &POSIX::LC_ALL ]);
 
-    return @enc;
+debug "# Locales =\n";
+for ( @Locale ) {
+    debug "# $_\n";
 }
 
-trylocale("C");
-trylocale("POSIX");
-foreach (0..15) {
-    trylocale("ISO8859-$_");
-    trylocale("iso8859$_");
-    trylocale("iso8859-$_");
-    trylocale("iso_8859_$_");
-    trylocale("isolatin$_");
-    trylocale("isolatin-$_");
-    trylocale("iso_latin_$_");
+unless (@Locale) {
+    print "1..$test_num\n";
+    exit;
 }
 
-# Sanitize the environment so that we can run the external 'locale'
-# program without the taint mode getting grumpy.
-
-# $ENV{PATH} is special in VMS.
-delete $ENV{PATH} if $^O ne 'VMS' or $Config{d_setenv};
-
-# Other subversive stuff.
-delete @ENV{qw(IFS CDPATH ENV BASH_ENV)};
-
-if (-x "/usr/bin/locale" && open(LOCALES, "/usr/bin/locale -a 2>/dev/null|")) {
-    while (<LOCALES>) {
-       # It seems that /usr/bin/locale steadfastly outputs 8 bit data, which
-       # ain't great when we're running this testPERL_UNICODE= so that utf8
-       # locales will cause all IO hadles to default to (assume) utf8
-       next unless utf8::valid($_);
-        chomp;
-       trylocale($_);
-    }
-    close(LOCALES);
-} elsif ($^O eq 'VMS' && defined($ENV{'SYS$I18N_LOCALE'}) && -d 'SYS$I18N_LOCALE') {
-# The SYS$I18N_LOCALE logical name search list was not present on
-# VAX VMS V5.5-12, but was on AXP && VAX VMS V6.2 as well as later versions.
-    opendir(LOCALES, "SYS\$I18N_LOCALE:");
-    while ($_ = readdir(LOCALES)) {
-        chomp;
-        trylocale($_);
-    }
-    close(LOCALES);
-} elsif (($^O eq 'openbsd' || $^O eq 'bitrig' ) && -e '/usr/share/locale') {
-
-   # OpenBSD doesn't have a locale executable, so reading /usr/share/locale
-   # is much easier and faster than the last resort method.
-
-    opendir(LOCALES, '/usr/share/locale');
-    while ($_ = readdir(LOCALES)) {
-        chomp;
-        trylocale($_);
-    }
-    close(LOCALES);
-} else {
-
-    # This is going to be slow.
-
-    foreach my $locale (split(/\n/, $locales)) {
-       my ($locale_name, $language_codes, $country_codes, $encodings) =
-           split(/:/, $locale);
-       my @enc = decode_encodings($encodings);
-       foreach my $loc (split(/ /, $locale_name)) {
-           trylocale($loc);
-           foreach my $enc (@enc) {
-               trylocale("$loc.$enc");
-           }
-           $loc = lc $loc;
-           foreach my $enc (@enc) {
-               trylocale("$loc.$enc");
-           }
-       }
-       foreach my $lang (split(/ /, $language_codes)) {
-           trylocale($lang);
-           foreach my $country (split(/ /, $country_codes)) {
-               my $lc = "${lang}_${country}";
-               trylocale($lc);
-               foreach my $enc (@enc) {
-                   trylocale("$lc.$enc");
-               }
-               my $lC = "${lang}_\U${country}";
-               trylocale($lC);
-               foreach my $enc (@enc) {
-                   trylocale("$lC.$enc");
-               }
-           }
-       }
-    }
-}
 
 setlocale(&POSIX::LC_ALL, "C");
 
-if ($^O eq 'darwin') {
-    # Darwin 8/Mac OS X 10.4 and 10.5 have bad Basque locales: perl bug #35895,
-    # Apple bug ID# 4139653. It also has a problem in Byelorussian.
-    (my $v) = $Config{osvers} =~ /^(\d+)/;
-    if ($v >= 8 and $v < 10) {
-       debug "# Skipping eu_ES, be_BY locales -- buggy in Darwin\n";
-       @Locale = grep ! m/^(eu_ES(?:\..*)?|be_BY\.CP1131)$/, @Locale;
-    } elsif ($v < 12) {
-       debug "# Skipping be_BY locales -- buggy in Darwin\n";
-       @Locale = grep ! m/^be_BY\.CP1131$/, @Locale;
-    }
-}
-
-@Locale = sort @Locale;
-
-debug "# Locales =\n";
-for ( @Locale ) {
-    debug "# $_\n";
-}
+my %posixes;
 
 my %Problem;
 my %Okay;
@@ -791,10 +668,9 @@ my $first_locales_test_number = $final_without_setlocale + 1;
 my $locales_test_number;
 my $not_necessarily_a_problem_test_number;
 my $first_casing_test_number;
-my $final_casing_test_number;
 my %setlocale_failed;   # List of locales that setlocale() didn't work on
 
-foreach $Locale (@Locale) {
+foreach my $Locale (@Locale) {
     $locales_test_number = $first_locales_test_number - 1;
     debug "#\n";
     debug "# Locale = $Locale\n";
@@ -804,18 +680,26 @@ foreach $Locale (@Locale) {
        next;
     }
 
-    # We test UTF-8 locales only under ':not_characters'; otherwise they have
-    # documented deficiencies.  Non- UTF-8 locales are tested only under plain
-    # 'use locale', as otherwise we would have to convert everything in them
-    # to Unicode.
-    # The locale name doesn't necessarily have to have "utf8" in it to be a
-    # UTF-8 locale, but it works mostly.
-    my $is_utf8_locale = $Locale =~ /UTF-?8/i;
+    # We test UTF-8 locales only under ':not_characters';  It is easier to
+    # test them in other test files than here.  Non- UTF-8 locales are tested
+    # only under plain 'use locale', as otherwise we would have to convert
+    # everything in them to Unicode.
 
     my %UPPER = ();     # All alpha X for which uc(X) == X and lc(X) != X
     my %lower = ();     # All alpha X for which lc(X) == X and uc(X) != X
     my %BoThCaSe = ();  # All alpha X for which uc(X) == lc(X) == X
 
+    my $is_utf8_locale = is_locale_utf8($Locale);
+
+    debug "# is utf8 locale? = $is_utf8_locale\n";
+
+    my $radix = localeconv()->{decimal_point};
+    if ($radix !~ / ^ [[:ascii:]] + $/x) {
+        use bytes;
+        $radix = disp_chars(split "", $radix);
+    }
+    debug "# radix = $radix\n";
+
     if (! $is_utf8_locale) {
         use locale;
         @{$posixes{'word'}} = grep /\w/, map { chr } 0..255;
@@ -916,14 +800,14 @@ foreach $Locale (@Locale) {
         }
     }
 
-    debug "# UPPER    = ", disp_chars(keys %UPPER), "\n";
-    debug "# lower    = ", disp_chars(keys %lower), "\n";
-    debug "# BoThCaSe = ", disp_chars(keys %BoThCaSe), "\n";
+    debug "# UPPER    = ", disp_chars(sort { ord $a <=> ord $b } keys %UPPER), "\n";
+    debug "# lower    = ", disp_chars(sort { ord $a <=> ord $b } keys %lower), "\n";
+    debug "# BoThCaSe = ", disp_chars(sort { ord $a <=> ord $b } keys %BoThCaSe), "\n";
     debug "# Unassigned = ", disp_chars(sort { ord $a <=> ord $b } keys %Unassigned), "\n";
 
     my @failures;
     my @fold_failures;
-    foreach my $x (sort keys %UPPER) {
+    foreach my $x (sort { ord $a <=> ord $b } keys %UPPER) {
         my $ok;
         my $fold_ok;
         if ($is_utf8_locale) {
@@ -952,7 +836,7 @@ foreach $Locale (@Locale) {
     undef @failures;
     undef @fold_failures;
 
-    foreach my $x (sort keys %lower) {
+    foreach my $x (sort { ord $a <=> ord $b } keys %lower) {
         my $ok;
         my $fold_ok;
         if ($is_utf8_locale) {
@@ -988,7 +872,7 @@ foreach $Locale (@Locale) {
        }
     }
 
-    @Added_alpha = sort @Added_alpha;
+    @Added_alpha = sort { ord $a <=> ord $b } @Added_alpha;
 
     debug "# Added_alpha = ", disp_chars(@Added_alpha), "\n";
 
@@ -1457,7 +1341,10 @@ foreach $Locale (@Locale) {
     }
     report_multi_result($Locale, $locales_test_number, \@f);
 
-    $final_casing_test_number = $locales_test_number;
+    foreach ($first_casing_test_number..$locales_test_number) {
+        push @problematical_tests, $_;
+    }
+
 
     # Test for read-only scalars' locale vs non-locale comparisons.
 
@@ -1846,13 +1733,19 @@ foreach $Locale (@Locale) {
         my @f = ();
         ++$locales_test_number;
         $test_names{$locales_test_number} = 'Verify case insensitive matching works';
-        foreach my $x (sort keys %UPPER) {
+        foreach my $x (sort { ord $a <=> ord $b } keys %UPPER) {
             if (! $is_utf8_locale) {
                 my $y = lc $x;
                 next unless uc $y eq $x;
-                print "# UPPER $x lc $y ",
-                        $x =~ /$y/i ? 1 : 0, " ",
-                        $y =~ /$x/i ? 1 : 0, "\n" if 0;
+                debug_more( "# UPPER=", disp_chars(($x)),
+                            "; lc=", disp_chars(($y)), "; ",
+                            "; fc=", disp_chars((fc $x)), "; ",
+                            disp_chars(($x)), "=~/", disp_chars(($y)), "/i=",
+                            $x =~ /$y/i ? 1 : 0,
+                            "; ",
+                            disp_chars(($y)), "=~/", disp_chars(($x)), "/i=",
+                            $y =~ /$x/i ? 1 : 0,
+                            "\n");
                 #
                 # If $x and $y contain regular expression characters
                 # AND THEY lowercase (/i) to regular expression characters,
@@ -1881,9 +1774,7 @@ foreach $Locale (@Locale) {
                     print "# Regex characters in '$x' or '$y', skipping test $locales_test_number for locale '$Locale'\n";
                     next;
                 }
-                # With utf8 both will fail since the locale concept
-                # of upper/lower does not work well in Unicode.
-                push @f, $x unless $x =~ /$y/i == $y =~ /$x/i;
+                push @f, $x unless $x =~ /$y/i && $y =~ /$x/i;
 
                 # fc is not a locale concept, so Perl uses lc for it.
                 push @f, $x unless lc $x eq fc $x;
@@ -1892,12 +1783,16 @@ foreach $Locale (@Locale) {
                 use locale ':not_characters';
                 my $y = lc $x;
                 next unless uc $y eq $x;
-                print "# UPPER $x lc $y ",
-                        $x =~ /$y/i ? 1 : 0, " ",
-                        $y =~ /$x/i ? 1 : 0, "\n" if 0;
+                debug_more( "# UPPER=", disp_chars(($x)),
+                            "; lc=", disp_chars(($y)), "; ",
+                            "; fc=", disp_chars((fc $x)), "; ",
+                            disp_chars(($x)), "=~/", disp_chars(($y)), "/i=",
+                            $x =~ /$y/i ? 1 : 0,
+                            "; ",
+                            disp_chars(($y)), "=~/", disp_chars(($x)), "/i=",
+                            $y =~ /$x/i ? 1 : 0,
+                            "\n");
 
-                # Here, we can fully test things, unlike plain 'use locale',
-                # because this form does work well with Unicode
                 push @f, $x unless $x =~ /$y/i && $y =~ /$x/i;
 
                 # The places where Unicode's lc is different from fc are
@@ -1906,20 +1801,24 @@ foreach $Locale (@Locale) {
             }
         }
 
-       foreach my $x (sort keys %lower) {
+       foreach my $x (sort { ord $a <=> ord $b } keys %lower) {
             if (! $is_utf8_locale) {
                 my $y = uc $x;
                 next unless lc $y eq $x;
-                print "# lower $x uc $y ",
-                    $x =~ /$y/i ? 1 : 0, " ",
-                    $y =~ /$x/i ? 1 : 0, "\n" if 0;
+                debug_more( "# lower=", disp_chars(($x)),
+                            "; uc=", disp_chars(($y)), "; ",
+                            "; fc=", disp_chars((fc $x)), "; ",
+                            disp_chars(($x)), "=~/", disp_chars(($y)), "/i=",
+                            $x =~ /$y/i ? 1 : 0,
+                            "; ",
+                            disp_chars(($y)), "=~/", disp_chars(($x)), "/i=",
+                            $y =~ /$x/i ? 1 : 0,
+                            "\n");
                 if ($x =~ $re || $y =~ $re) { # See above.
                     print "# Regex characters in '$x' or '$y', skipping test $locales_test_number for locale '$Locale'\n";
                     next;
                 }
-                # With utf8 both will fail since the locale concept
-                # of upper/lower does not work well in Unicode.
-                push @f, $x unless $x =~ /$y/i == $y =~ /$x/i;
+                push @f, $x unless $x =~ /$y/i && $y =~ /$x/i;
 
                 push @f, $x unless lc $x eq fc $x;
             }
@@ -1927,15 +1826,22 @@ foreach $Locale (@Locale) {
                 use locale ':not_characters';
                 my $y = uc $x;
                 next unless lc $y eq $x;
-                print "# lower $x uc $y ",
-                        $x =~ /$y/i ? 1 : 0, " ",
-                        $y =~ /$x/i ? 1 : 0, "\n" if 0;
+                debug_more( "# lower=", disp_chars(($x)),
+                            "; uc=", disp_chars(($y)), "; ",
+                            "; fc=", disp_chars((fc $x)), "; ",
+                            disp_chars(($x)), "=~/", disp_chars(($y)), "/i=",
+                            $x =~ /$y/i ? 1 : 0,
+                            "; ",
+                            disp_chars(($y)), "=~/", disp_chars(($x)), "/i=",
+                            $y =~ /$x/i ? 1 : 0,
+                            "\n");
                 push @f, $x unless $x =~ /$y/i && $y =~ /$x/i;
 
                 push @f, $x unless lc $x eq fc $x;
             }
        }
        report_multi_result($Locale, $locales_test_number, \@f);
+        push @problematical_tests, $locales_test_number;
     }
 
     # [perl #109318]
@@ -1976,28 +1882,27 @@ my $final_locales_test_number = $locales_test_number;
 
 # Recount the errors.
 
-foreach ($first_locales_test_number..$final_locales_test_number) {
+foreach $test_num ($first_locales_test_number..$final_locales_test_number) {
     if (%setlocale_failed) {
         print "not ";
     }
-    elsif ($Problem{$_} || !defined $Okay{$_} || !@{$Okay{$_}}) {
+    elsif ($Problem{$test_num} || !defined $Okay{$test_num} || !@{$Okay{$test_num}}) {
        if (defined $not_necessarily_a_problem_test_number
-            && $_ == $not_necessarily_a_problem_test_number)
+            && $test_num == $not_necessarily_a_problem_test_number)
         {
            print "# The failure of test $not_necessarily_a_problem_test_number is not necessarily fatal.\n";
            print "# It usually indicates a problem in the environment,\n";
            print "# not in Perl itself.\n";
        }
-        if ($Okay{$_} && ($_ >= $first_casing_test_number
-                          && $_ <= $final_casing_test_number))
-        {
+        if ($Okay{$test_num} && grep { $_ == $test_num } @problematical_tests) {
+            no warnings 'experimental::autoderef';
             # Round to nearest .1%
-            my $percent_fail = (int(.5 + (1000 * scalar(keys $Problem{$_})
+            my $percent_fail = (int(.5 + (1000 * scalar(keys $Problem{$test_num})
                                           / scalar(@Locale))))
                                / 10;
             if (! $debug && $percent_fail < $acceptable_fold_failure_percentage)
             {
-                $test_names{$_} .= 'TODO';
+                $test_names{$test_num} .= 'TODO';
                 print "# ", 100 - $percent_fail, "% of locales pass the following test, so it is likely that the failures\n";
                 print "# are errors in the locale definitions.  The test is marked TODO, as the\n";
                 print "# problem is not likely to be Perl's\n";
@@ -2006,19 +1911,19 @@ foreach ($first_locales_test_number..$final_locales_test_number) {
         print "#\n";
         if ($debug) {
             print "# The code points that had this failure are given above.  Look for lines\n";
-            print "# that match 'failed $_'\n";
+            print "# that match 'failed $test_num'\n";
         }
         else {
             print "# For more details, rerun, with environment variable PERL_DEBUG_FULL_TEST=1.\n";
-            print "# Then look at that output for lines that match 'failed $_'\n";
+            print "# Then look at that output for lines that match 'failed $test_num'\n";
         }
        print "not ";
     }
-    print "ok $_";
-    if (defined $test_names{$_}) {
+    print "ok $test_num";
+    if (defined $test_names{$test_num}) {
         # If TODO is in the test name, make it thus
-        my $todo = $test_names{$_} =~ s/TODO\s*//;
-        print " $test_names{$_}";
+        my $todo = $test_names{$test_num} =~ s/TODO\s*//;
+        print " $test_names{$test_num}";
         print " # TODO" if $todo;
     }
     print "\n";
@@ -2026,7 +1931,7 @@ foreach ($first_locales_test_number..$final_locales_test_number) {
 
 $test_num = $final_locales_test_number;
 
-unless ( $^O eq 'dragonfly' ) {
+unless ( $^O =~ m!^(dragonfly|openbsd|bitrig|mirbsd)$! ) {
     # perl #115808
     use warnings;
     my $warned = 0;
@@ -2056,17 +1961,19 @@ setlocale(&POSIX::LC_ALL, "C");
         my $above_latin1_case_change_delta; # Same for the specific ords > 255
                                             # that we use
 
-        # We test an ASCII character, which should change case and be tainted;
+        # We test an ASCII character, which should change case;
         # a Latin1 character, which shouldn't change case under this C locale,
-        #   and is tainted.
         # an above-Latin1 character that when the case is changed would cross
-        #   the 255/256 boundary, so doesn't change case and isn't tainted
-        # (the \x{149} is one of these, but changes into 2 characters, the
+        #   the 255/256 boundary, so doesn't change case
+        #   (the \x{149} is one of these, but changes into 2 characters, the
         #   first one of which doesn't cross the boundary.
         # the final one in each list is an above-Latin1 character whose case
-        #   does change, and shouldn't be tainted.  The code below uses its
-        #   position in its list as a marker to indicate that it, unlike the
-        #   other code points above ASCII, has a successful case change
+        #   does change.  The code below uses its position in its list as a
+        #   marker to indicate that it, unlike the other code points above
+        #   ASCII, has a successful case change
+        #
+        # All casing operations under locale (but not :not_characters) should
+        # taint
         if ($function =~ /^u/) {
             @list = ("", "a", "\xe0", "\xff", "\x{fb00}", "\x{149}", "\x{101}");
             $ascii_case_change_delta = -32;
@@ -2140,9 +2047,9 @@ setlocale(&POSIX::LC_ALL, "C");
                             : "; not encoded in utf8)")
                         . " should be \"$should_be\", got \"$changed\"");
 
-                    # Tainting shouldn't happen for utf8 locales, empty
-                    # strings, or those characters above 255.
-                    (! $is_utf8_locale && length($char) > 0 && ord($char) < 256)
+                    # Tainting shouldn't happen for use locale :not_character
+                    # (a utf8 locale)
+                    (! $is_utf8_locale)
                     ? check_taint($changed)
                     : check_taint_not($changed);
 
@@ -2221,11 +2128,19 @@ if ($didwarn) {
         my $F = join(" ", @F);
         $F =~ s/(.{50,60}) /$1\n#\t/g;
 
+        my $details = "";
+        unless ($debug) {
+            $details = "# For more details, rerun, with environment variable PERL_DEBUG_FULL_TEST=1.\n";
+        }
+        elsif ($debug == 1) {
+            $details = "# For even more details, rerun, with environment variable PERL_DEBUG_FULL_TEST=2.\n";
+        }
+
         warn
           "# The following locales\n#\n",
           "#\t", $F, "\n#\n",
           "# had problems.\n#\n",
-          "# For more details, rerun, with environment variable PERL_DEBUG_FULL_TEST=1.\n";
+          $details;
     } else {
         warn "# None of your locales were broken.\n";
     }