Docs for new Turkic UTF-8 locale support
authorKarl Williamson <khw@cpan.org>
Tue, 5 Feb 2019 18:30:05 +0000 (11:30 -0700)
committerKarl Williamson <khw@cpan.org>
Tue, 5 Feb 2019 18:44:29 +0000 (11:44 -0700)
pod/perldelta.pod
pod/perllocale.pod

index 36f0652..8d33af6 100644 (file)
@@ -27,6 +27,16 @@ here, but most should go in the L</Performance Enhancements> section.
 
 [ List each enhancement as a =head2 entry ]
 
+=head2 Turkic UTF-8 locales are now seamlessly supported
+
+Turkic languages have different casing rules than other languages for
+the characters C<"i"> and C<"I">.  The uppercase of C<"i"> is LATIN
+CAPITAL LETTER I WITH DOT ABOVE (U+0130); and the lowercase of C<"I"> is LATIN
+SMALL LETTER DOTLESS I (U+0131).  Unicode furnishes alternate casing
+rules for use with Turkic languages.  Previously, Perl ignored these,
+but now, it uses them when it detects that it is operating under a
+Turkic UTF-8 locale.
+
 =head1 Security
 
 XXX Any security-related notices go here.  In particular, any security
index 63f8947..e2a73e8 100644 (file)
@@ -40,9 +40,14 @@ Unicode, encoded in UTF-8.  Starting in v5.20, Perl fully supports
 UTF-8 locales, except for sorting and string comparisons like C<lt> and
 C<ge>.  Starting in v5.26, Perl can handle these reasonably as well,
 depending on the platform's implementation.  However, for earlier
-releases or for better control, use L<Unicode::Collate>.  Perl continues to
-support the old non UTF-8 locales as well.  There are currently no UTF-8
-locales for EBCDIC platforms.
+releases or for better control, use L<Unicode::Collate>.  There are
+actually two slightly different types of UTF-8 locales: one for Turkic
+languages and one for everything else.  Starting in Perl v5.30, Perl
+seamlessly handles both types; previously only the non-Turkic one was
+supported.
+
+Perl continues to support the old non UTF-8 locales as well.  There are
+currently no UTF-8 locales for EBCDIC platforms.
 
 (Unicode is also creating C<CLDR>, the "Common Locale Data Repository",
 L<http://cldr.unicode.org/> which includes more types of information than