This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
perlapi use 'UTF-8' instead of variants of that
[perl5.git] / utf8.c
1 /*    utf8.c
2  *
3  *    Copyright (C) 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008
4  *    by Larry Wall and others
5  *
6  *    You may distribute under the terms of either the GNU General Public
7  *    License or the Artistic License, as specified in the README file.
8  *
9  */
10
11 /*
12  * 'What a fix!' said Sam.  'That's the one place in all the lands we've ever
13  *  heard of that we don't want to see any closer; and that's the one place
14  *  we're trying to get to!  And that's just where we can't get, nohow.'
15  *
16  *     [p.603 of _The Lord of the Rings_, IV/I: "The Taming of Sméagol"]
17  *
18  * 'Well do I understand your speech,' he answered in the same language;
19  * 'yet few strangers do so.  Why then do you not speak in the Common Tongue,
20  *  as is the custom in the West, if you wish to be answered?'
21  *                           --Gandalf, addressing Théoden's door wardens
22  *
23  *     [p.508 of _The Lord of the Rings_, III/vi: "The King of the Golden Hall"]
24  *
25  * ...the travellers perceived that the floor was paved with stones of many
26  * hues; branching runes and strange devices intertwined beneath their feet.
27  *
28  *     [p.512 of _The Lord of the Rings_, III/vi: "The King of the Golden Hall"]
29  */
30
31 #include "EXTERN.h"
32 #define PERL_IN_UTF8_C
33 #include "perl.h"
34 #include "invlist_inline.h"
35
36 static const char unees[] =
37     "Malformed UTF-8 character (unexpected end of string)";
38
39 /*
40 =head1 Unicode Support
41 These are various utility functions for manipulating UTF8-encoded
42 strings.  For the uninitiated, this is a method of representing arbitrary
43 Unicode characters as a variable number of bytes, in such a way that
44 characters in the ASCII range are unmodified, and a zero byte never appears
45 within non-zero characters.
46
47 =cut
48 */
49
50 /*
51 =for apidoc is_invariant_string
52
53 Returns true iff the first C<len> bytes of the string C<s> are the same
54 regardless of the UTF-8 encoding of the string (or UTF-EBCDIC encoding on
55 EBCDIC machines).  That is, if they are UTF-8 invariant.  On ASCII-ish
56 machines, all the ASCII characters and only the ASCII characters fit this
57 definition.  On EBCDIC machines, the ASCII-range characters are invariant, but
58 so also are the C1 controls and C<\c?> (which isn't in the ASCII range on
59 EBCDIC).
60
61 If C<len> is 0, it will be calculated using C<strlen(s)>, (which means if you
62 use this option, that C<s> can't have embedded C<NUL> characters and has to
63 have a terminating C<NUL> byte).
64
65 See also L</is_utf8_string>(), L</is_utf8_string_loclen>(), and L</is_utf8_string_loc>().
66
67 =cut
68 */
69
70 bool
71 Perl_is_invariant_string(const U8 *s, STRLEN len)
72 {
73     const U8* const send = s + (len ? len : strlen((const char *)s));
74     const U8* x = s;
75
76     PERL_ARGS_ASSERT_IS_INVARIANT_STRING;
77
78     for (; x < send; ++x) {
79         if (!UTF8_IS_INVARIANT(*x))
80             break;
81     }
82
83     return x == send;
84 }
85
86 /*
87 =for apidoc uvoffuni_to_utf8_flags
88
89 THIS FUNCTION SHOULD BE USED IN ONLY VERY SPECIALIZED CIRCUMSTANCES.
90 Instead, B<Almost all code should use L</uvchr_to_utf8> or
91 L</uvchr_to_utf8_flags>>.
92
93 This function is like them, but the input is a strict Unicode
94 (as opposed to native) code point.  Only in very rare circumstances should code
95 not be using the native code point.
96
97 For details, see the description for L</uvchr_to_utf8_flags>.
98
99 =cut
100 */
101
102 U8 *
103 Perl_uvoffuni_to_utf8_flags(pTHX_ U8 *d, UV uv, UV flags)
104 {
105     PERL_ARGS_ASSERT_UVOFFUNI_TO_UTF8_FLAGS;
106
107     if (UNI_IS_INVARIANT(uv)) {
108         *d++ = (U8) LATIN1_TO_NATIVE(uv);
109         return d;
110     }
111
112 #ifdef EBCDIC
113     /* Not representable in UTF-EBCDIC */
114     flags |= UNICODE_DISALLOW_FE_FF;
115 #endif
116
117     /* The first problematic code point is the first surrogate */
118     if (uv >= UNICODE_SURROGATE_FIRST
119         && ckWARN3_d(WARN_SURROGATE, WARN_NON_UNICODE, WARN_NONCHAR))
120     {
121         if (UNICODE_IS_SURROGATE(uv)) {
122             if (flags & UNICODE_WARN_SURROGATE) {
123                 Perl_ck_warner_d(aTHX_ packWARN(WARN_SURROGATE),
124                                             "UTF-16 surrogate U+%04"UVXf, uv);
125             }
126             if (flags & UNICODE_DISALLOW_SURROGATE) {
127                 return NULL;
128             }
129         }
130         else if (UNICODE_IS_SUPER(uv)) {
131             if (flags & UNICODE_WARN_SUPER
132                 || (UNICODE_IS_FE_FF(uv) && (flags & UNICODE_WARN_FE_FF)))
133             {
134                 Perl_ck_warner_d(aTHX_ packWARN(WARN_NON_UNICODE),
135                           "Code point 0x%04"UVXf" is not Unicode, may not be portable", uv);
136             }
137             if (flags & UNICODE_DISALLOW_SUPER
138                 || (UNICODE_IS_FE_FF(uv) && (flags & UNICODE_DISALLOW_FE_FF)))
139             {
140 #ifdef EBCDIC
141                 Perl_die(aTHX_ "Can't represent character for Ox%"UVXf" on this platform", uv);
142                 NOT_REACHED; /* NOTREACHED */
143 #endif
144                 return NULL;
145             }
146         }
147         else if (UNICODE_IS_NONCHAR(uv)) {
148             if (flags & UNICODE_WARN_NONCHAR) {
149                 Perl_ck_warner_d(aTHX_ packWARN(WARN_NONCHAR),
150                  "Unicode non-character U+%04"UVXf" is not recommended for open interchange",
151                  uv);
152             }
153             if (flags & UNICODE_DISALLOW_NONCHAR) {
154                 return NULL;
155             }
156         }
157     }
158
159 #if defined(EBCDIC)
160     {
161         STRLEN len  = OFFUNISKIP(uv);
162         U8 *p = d+len-1;
163         while (p > d) {
164             *p-- = (U8) I8_TO_NATIVE_UTF8((uv & UTF_CONTINUATION_MASK) | UTF_CONTINUATION_MARK);
165             uv >>= UTF_ACCUMULATION_SHIFT;
166         }
167         *p = (U8) I8_TO_NATIVE_UTF8((uv & UTF_START_MASK(len)) | UTF_START_MARK(len));
168         return d+len;
169     }
170 #else /* Non loop style */
171     if (uv < 0x800) {
172         *d++ = (U8)(( uv >>  6)         | 0xc0);
173         *d++ = (U8)(( uv        & 0x3f) | 0x80);
174         return d;
175     }
176     if (uv < 0x10000) {
177         *d++ = (U8)(( uv >> 12)         | 0xe0);
178         *d++ = (U8)(((uv >>  6) & 0x3f) | 0x80);
179         *d++ = (U8)(( uv        & 0x3f) | 0x80);
180         return d;
181     }
182     if (uv < 0x200000) {
183         *d++ = (U8)(( uv >> 18)         | 0xf0);
184         *d++ = (U8)(((uv >> 12) & 0x3f) | 0x80);
185         *d++ = (U8)(((uv >>  6) & 0x3f) | 0x80);
186         *d++ = (U8)(( uv        & 0x3f) | 0x80);
187         return d;
188     }
189     if (uv < 0x4000000) {
190         *d++ = (U8)(( uv >> 24)         | 0xf8);
191         *d++ = (U8)(((uv >> 18) & 0x3f) | 0x80);
192         *d++ = (U8)(((uv >> 12) & 0x3f) | 0x80);
193         *d++ = (U8)(((uv >>  6) & 0x3f) | 0x80);
194         *d++ = (U8)(( uv        & 0x3f) | 0x80);
195         return d;
196     }
197     if (uv < 0x80000000) {
198         *d++ = (U8)(( uv >> 30)         | 0xfc);
199         *d++ = (U8)(((uv >> 24) & 0x3f) | 0x80);
200         *d++ = (U8)(((uv >> 18) & 0x3f) | 0x80);
201         *d++ = (U8)(((uv >> 12) & 0x3f) | 0x80);
202         *d++ = (U8)(((uv >>  6) & 0x3f) | 0x80);
203         *d++ = (U8)(( uv        & 0x3f) | 0x80);
204         return d;
205     }
206 #ifdef UTF8_QUAD_MAX
207     if (uv < UTF8_QUAD_MAX)
208 #endif
209     {
210         *d++ =                            0xfe; /* Can't match U+FEFF! */
211         *d++ = (U8)(((uv >> 30) & 0x3f) | 0x80);
212         *d++ = (U8)(((uv >> 24) & 0x3f) | 0x80);
213         *d++ = (U8)(((uv >> 18) & 0x3f) | 0x80);
214         *d++ = (U8)(((uv >> 12) & 0x3f) | 0x80);
215         *d++ = (U8)(((uv >>  6) & 0x3f) | 0x80);
216         *d++ = (U8)(( uv        & 0x3f) | 0x80);
217         return d;
218     }
219 #ifdef UTF8_QUAD_MAX
220     {
221         *d++ =                            0xff;         /* Can't match U+FFFE! */
222         *d++ =                            0x80;         /* 6 Reserved bits */
223         *d++ = (U8)(((uv >> 60) & 0x0f) | 0x80);        /* 2 Reserved bits */
224         *d++ = (U8)(((uv >> 54) & 0x3f) | 0x80);
225         *d++ = (U8)(((uv >> 48) & 0x3f) | 0x80);
226         *d++ = (U8)(((uv >> 42) & 0x3f) | 0x80);
227         *d++ = (U8)(((uv >> 36) & 0x3f) | 0x80);
228         *d++ = (U8)(((uv >> 30) & 0x3f) | 0x80);
229         *d++ = (U8)(((uv >> 24) & 0x3f) | 0x80);
230         *d++ = (U8)(((uv >> 18) & 0x3f) | 0x80);
231         *d++ = (U8)(((uv >> 12) & 0x3f) | 0x80);
232         *d++ = (U8)(((uv >>  6) & 0x3f) | 0x80);
233         *d++ = (U8)(( uv        & 0x3f) | 0x80);
234         return d;
235     }
236 #endif
237 #endif /* Non loop style */
238 }
239 /*
240 =for apidoc uvchr_to_utf8
241
242 Adds the UTF-8 representation of the native code point C<uv> to the end
243 of the string C<d>; C<d> should have at least C<UVCHR_SKIP(uv)+1> (up to
244 C<UTF8_MAXBYTES+1>) free bytes available.  The return value is the pointer to
245 the byte after the end of the new character.  In other words,
246
247     d = uvchr_to_utf8(d, uv);
248
249 is the recommended wide native character-aware way of saying
250
251     *(d++) = uv;
252
253 This function accepts any UV as input.  To forbid or warn on non-Unicode code
254 points, or those that may be problematic, see L</uvchr_to_utf8_flags>.
255
256 =cut
257 */
258
259 /* This is also a macro */
260 PERL_CALLCONV U8*       Perl_uvchr_to_utf8(pTHX_ U8 *d, UV uv);
261
262 U8 *
263 Perl_uvchr_to_utf8(pTHX_ U8 *d, UV uv)
264 {
265     return uvchr_to_utf8(d, uv);
266 }
267
268 /*
269 =for apidoc uvchr_to_utf8_flags
270
271 Adds the UTF-8 representation of the native code point C<uv> to the end
272 of the string C<d>; C<d> should have at least C<UVCHR_SKIP(uv)+1> (up to
273 C<UTF8_MAXBYTES+1>) free bytes available.  The return value is the pointer to
274 the byte after the end of the new character.  In other words,
275
276     d = uvchr_to_utf8_flags(d, uv, flags);
277
278 or, in most cases,
279
280     d = uvchr_to_utf8_flags(d, uv, 0);
281
282 This is the Unicode-aware way of saying
283
284     *(d++) = uv;
285
286 This function will convert to UTF-8 (and not warn) even code points that aren't
287 legal Unicode or are problematic, unless C<flags> contains one or more of the
288 following flags:
289
290 If C<uv> is a Unicode surrogate code point and C<UNICODE_WARN_SURROGATE> is set,
291 the function will raise a warning, provided UTF8 warnings are enabled.  If instead
292 C<UNICODE_DISALLOW_SURROGATE> is set, the function will fail and return NULL.
293 If both flags are set, the function will both warn and return NULL.
294
295 The C<UNICODE_WARN_NONCHAR> and C<UNICODE_DISALLOW_NONCHAR> flags
296 affect how the function handles a Unicode non-character.  And likewise, the
297 C<UNICODE_WARN_SUPER> and C<UNICODE_DISALLOW_SUPER> flags affect the handling of
298 code points that are
299 above the Unicode maximum of 0x10FFFF.  Code points above 0x7FFF_FFFF (which are
300 even less portable) can be warned and/or disallowed even if other above-Unicode
301 code points are accepted, by the C<UNICODE_WARN_FE_FF> and
302 C<UNICODE_DISALLOW_FE_FF> flags.
303
304 And finally, the flag C<UNICODE_WARN_ILLEGAL_INTERCHANGE> selects all four of
305 the above WARN flags; and C<UNICODE_DISALLOW_ILLEGAL_INTERCHANGE> selects all
306 four DISALLOW flags.
307
308 =cut
309 */
310
311 /* This is also a macro */
312 PERL_CALLCONV U8*       Perl_uvchr_to_utf8_flags(pTHX_ U8 *d, UV uv, UV flags);
313
314 U8 *
315 Perl_uvchr_to_utf8_flags(pTHX_ U8 *d, UV uv, UV flags)
316 {
317     return uvchr_to_utf8_flags(d, uv, flags);
318 }
319
320 /*
321 =for apidoc is_utf8_string
322
323 Returns true if the first C<len> bytes of string C<s> form a valid
324 UTF-8 string, false otherwise.  If C<len> is 0, it will be calculated
325 using C<strlen(s)> (which means if you use this option, that C<s> can't have
326 embedded C<NUL> characters and has to have a terminating C<NUL> byte).  Note
327 that all characters being ASCII constitute 'a valid UTF-8 string'.
328
329 See also L</is_invariant_string>(), L</is_utf8_string_loclen>(), and L</is_utf8_string_loc>().
330
331 =cut
332 */
333
334 bool
335 Perl_is_utf8_string(const U8 *s, STRLEN len)
336 {
337     const U8* const send = s + (len ? len : strlen((const char *)s));
338     const U8* x = s;
339
340     PERL_ARGS_ASSERT_IS_UTF8_STRING;
341
342     while (x < send) {
343         STRLEN len = isUTF8_CHAR(x, send);
344         if (UNLIKELY(! len)) {
345             return FALSE;
346         }
347         x += len;
348     }
349
350     return TRUE;
351 }
352
353 /*
354 Implemented as a macro in utf8.h
355
356 =for apidoc is_utf8_string_loc
357
358 Like L</is_utf8_string> but stores the location of the failure (in the
359 case of "utf8ness failure") or the location C<s>+C<len> (in the case of
360 "utf8ness success") in the C<ep>.
361
362 See also L</is_utf8_string_loclen>() and L</is_utf8_string>().
363
364 =for apidoc is_utf8_string_loclen
365
366 Like L</is_utf8_string>() but stores the location of the failure (in the
367 case of "utf8ness failure") or the location C<s>+C<len> (in the case of
368 "utf8ness success") in the C<ep>, and the number of UTF-8
369 encoded characters in the C<el>.
370
371 See also L</is_utf8_string_loc>() and L</is_utf8_string>().
372
373 =cut
374 */
375
376 bool
377 Perl_is_utf8_string_loclen(const U8 *s, STRLEN len, const U8 **ep, STRLEN *el)
378 {
379     const U8* const send = s + (len ? len : strlen((const char *)s));
380     const U8* x = s;
381     STRLEN outlen = 0;
382
383     PERL_ARGS_ASSERT_IS_UTF8_STRING_LOCLEN;
384
385     while (x < send) {
386         STRLEN len = isUTF8_CHAR(x, send);
387         if (UNLIKELY(! len)) {
388             goto out;
389         }
390         x += len;
391         outlen++;
392     }
393
394  out:
395     if (el)
396         *el = outlen;
397
398     if (ep)
399         *ep = x;
400     return (x == send);
401 }
402
403 /*
404
405 =for apidoc utf8n_to_uvchr
406
407 THIS FUNCTION SHOULD BE USED IN ONLY VERY SPECIALIZED CIRCUMSTANCES.
408 Most code should use L</utf8_to_uvchr_buf>() rather than call this directly.
409
410 Bottom level UTF-8 decode routine.
411 Returns the native code point value of the first character in the string C<s>,
412 which is assumed to be in UTF-8 (or UTF-EBCDIC) encoding, and no longer than
413 C<curlen> bytes; C<*retlen> (if C<retlen> isn't NULL) will be set to
414 the length, in bytes, of that character.
415
416 The value of C<flags> determines the behavior when C<s> does not point to a
417 well-formed UTF-8 character.  If C<flags> is 0, when a malformation is found,
418 zero is returned and C<*retlen> is set so that (S<C<s> + C<*retlen>>) is the
419 next possible position in C<s> that could begin a non-malformed character.
420 Also, if UTF-8 warnings haven't been lexically disabled, a warning is raised.
421
422 Various ALLOW flags can be set in C<flags> to allow (and not warn on)
423 individual types of malformations, such as the sequence being overlong (that
424 is, when there is a shorter sequence that can express the same code point;
425 overlong sequences are expressly forbidden in the UTF-8 standard due to
426 potential security issues).  Another malformation example is the first byte of
427 a character not being a legal first byte.  See F<utf8.h> for the list of such
428 flags.  For allowed 0 length strings, this function returns 0; for allowed
429 overlong sequences, the computed code point is returned; for all other allowed
430 malformations, the Unicode REPLACEMENT CHARACTER is returned, as these have no
431 determinable reasonable value.
432
433 The C<UTF8_CHECK_ONLY> flag overrides the behavior when a non-allowed (by other
434 flags) malformation is found.  If this flag is set, the routine assumes that
435 the caller will raise a warning, and this function will silently just set
436 C<retlen> to C<-1> (cast to C<STRLEN>) and return zero.
437
438 Note that this API requires disambiguation between successful decoding a C<NUL>
439 character, and an error return (unless the C<UTF8_CHECK_ONLY> flag is set), as
440 in both cases, 0 is returned.  To disambiguate, upon a zero return, see if the
441 first byte of C<s> is 0 as well.  If so, the input was a C<NUL>; if not, the
442 input had an error.
443
444 Certain code points are considered problematic.  These are Unicode surrogates,
445 Unicode non-characters, and code points above the Unicode maximum of 0x10FFFF.
446 By default these are considered regular code points, but certain situations
447 warrant special handling for them.  If C<flags> contains
448 C<UTF8_DISALLOW_ILLEGAL_INTERCHANGE>, all three classes are treated as
449 malformations and handled as such.  The flags C<UTF8_DISALLOW_SURROGATE>,
450 C<UTF8_DISALLOW_NONCHAR>, and C<UTF8_DISALLOW_SUPER> (meaning above the legal
451 Unicode maximum) can be set to disallow these categories individually.
452
453 The flags C<UTF8_WARN_ILLEGAL_INTERCHANGE>, C<UTF8_WARN_SURROGATE>,
454 C<UTF8_WARN_NONCHAR>, and C<UTF8_WARN_SUPER> will cause warning messages to be
455 raised for their respective categories, but otherwise the code points are
456 considered valid (not malformations).  To get a category to both be treated as
457 a malformation and raise a warning, specify both the WARN and DISALLOW flags.
458 (But note that warnings are not raised if lexically disabled nor if
459 C<UTF8_CHECK_ONLY> is also specified.)
460
461 Very large code points (above 0x7FFF_FFFF) are considered more problematic than
462 the others that are above the Unicode legal maximum.  There are several
463 reasons: they requre at least 32 bits to represent them on ASCII platforms, are
464 not representable at all on EBCDIC platforms, and the original UTF-8
465 specification never went above this number (the current 0x10FFFF limit was
466 imposed later).  (The smaller ones, those that fit into 32 bits, are
467 representable by a UV on ASCII platforms, but not by an IV, which means that
468 the number of operations that can be performed on them is quite restricted.)
469 The UTF-8 encoding on ASCII platforms for these large code points begins with a
470 byte containing 0xFE or 0xFF.  The C<UTF8_DISALLOW_FE_FF> flag will cause them to
471 be treated as malformations, while allowing smaller above-Unicode code points.
472 (Of course C<UTF8_DISALLOW_SUPER> will treat all above-Unicode code points,
473 including these, as malformations.)
474 Similarly, C<UTF8_WARN_FE_FF> acts just like
475 the other WARN flags, but applies just to these code points.
476
477 All other code points corresponding to Unicode characters, including private
478 use and those yet to be assigned, are never considered malformed and never
479 warn.
480
481 =cut
482 */
483
484 UV
485 Perl_utf8n_to_uvchr(pTHX_ const U8 *s, STRLEN curlen, STRLEN *retlen, U32 flags)
486 {
487     const U8 * const s0 = s;
488     U8 overflow_byte = '\0';    /* Save byte in case of overflow */
489     U8 * send;
490     UV uv = *s;
491     STRLEN expectlen;
492     SV* sv = NULL;
493     UV outlier_ret = 0; /* return value when input is in error or problematic
494                          */
495     UV pack_warn = 0;   /* Save result of packWARN() for later */
496     bool unexpected_non_continuation = FALSE;
497     bool overflowed = FALSE;
498     bool do_overlong_test = TRUE;   /* May have to skip this test */
499
500     const char* const malformed_text = "Malformed UTF-8 character";
501
502     PERL_ARGS_ASSERT_UTF8N_TO_UVCHR;
503
504     /* The order of malformation tests here is important.  We should consume as
505      * few bytes as possible in order to not skip any valid character.  This is
506      * required by the Unicode Standard (section 3.9 of Unicode 6.0); see also
507      * http://unicode.org/reports/tr36 for more discussion as to why.  For
508      * example, once we've done a UTF8SKIP, we can tell the expected number of
509      * bytes, and could fail right off the bat if the input parameters indicate
510      * that there are too few available.  But it could be that just that first
511      * byte is garbled, and the intended character occupies fewer bytes.  If we
512      * blindly assumed that the first byte is correct, and skipped based on
513      * that number, we could skip over a valid input character.  So instead, we
514      * always examine the sequence byte-by-byte.
515      *
516      * We also should not consume too few bytes, otherwise someone could inject
517      * things.  For example, an input could be deliberately designed to
518      * overflow, and if this code bailed out immediately upon discovering that,
519      * returning to the caller C<*retlen> pointing to the very next byte (one
520      * which is actually part of of the overflowing sequence), that could look
521      * legitimate to the caller, which could discard the initial partial
522      * sequence and process the rest, inappropriately */
523
524     /* Zero length strings, if allowed, of necessity are zero */
525     if (UNLIKELY(curlen == 0)) {
526         if (retlen) {
527             *retlen = 0;
528         }
529
530         if (flags & UTF8_ALLOW_EMPTY) {
531             return 0;
532         }
533         if (! (flags & UTF8_CHECK_ONLY)) {
534             sv = sv_2mortal(Perl_newSVpvf(aTHX_ "%s (empty string)", malformed_text));
535         }
536         goto malformed;
537     }
538
539     expectlen = UTF8SKIP(s);
540
541     /* A well-formed UTF-8 character, as the vast majority of calls to this
542      * function will be for, has this expected length.  For efficiency, set
543      * things up here to return it.  It will be overriden only in those rare
544      * cases where a malformation is found */
545     if (retlen) {
546         *retlen = expectlen;
547     }
548
549     /* An invariant is trivially well-formed */
550     if (UTF8_IS_INVARIANT(uv)) {
551         return uv;
552     }
553
554     /* A continuation character can't start a valid sequence */
555     if (UNLIKELY(UTF8_IS_CONTINUATION(uv))) {
556         if (flags & UTF8_ALLOW_CONTINUATION) {
557             if (retlen) {
558                 *retlen = 1;
559             }
560             return UNICODE_REPLACEMENT;
561         }
562
563         if (! (flags & UTF8_CHECK_ONLY)) {
564             sv = sv_2mortal(Perl_newSVpvf(aTHX_ "%s (unexpected continuation byte 0x%02x, with no preceding start byte)", malformed_text, *s0));
565         }
566         curlen = 1;
567         goto malformed;
568     }
569
570     /* Here is not a continuation byte, nor an invariant.  The only thing left
571      * is a start byte (possibly for an overlong) */
572
573 #ifdef EBCDIC
574     uv = NATIVE_UTF8_TO_I8(uv);
575 #endif
576
577     /* Remove the leading bits that indicate the number of bytes in the
578      * character's whole UTF-8 sequence, leaving just the bits that are part of
579      * the value */
580     uv &= UTF_START_MASK(expectlen);
581
582     /* Now, loop through the remaining bytes in the character's sequence,
583      * accumulating each into the working value as we go.  Be sure to not look
584      * past the end of the input string */
585     send =  (U8*) s0 + ((expectlen <= curlen) ? expectlen : curlen);
586
587     for (s = s0 + 1; s < send; s++) {
588         if (LIKELY(UTF8_IS_CONTINUATION(*s))) {
589 #ifndef EBCDIC  /* Can't overflow in EBCDIC */
590             if (uv & UTF_ACCUMULATION_OVERFLOW_MASK) {
591
592                 /* The original implementors viewed this malformation as more
593                  * serious than the others (though I, khw, don't understand
594                  * why, since other malformations also give very very wrong
595                  * results), so there is no way to turn off checking for it.
596                  * Set a flag, but keep going in the loop, so that we absorb
597                  * the rest of the bytes that comprise the character. */
598                 overflowed = TRUE;
599                 overflow_byte = *s; /* Save for warning message's use */
600             }
601 #endif
602             uv = UTF8_ACCUMULATE(uv, *s);
603         }
604         else {
605             /* Here, found a non-continuation before processing all expected
606              * bytes.  This byte begins a new character, so quit, even if
607              * allowing this malformation. */
608             unexpected_non_continuation = TRUE;
609             break;
610         }
611     } /* End of loop through the character's bytes */
612
613     /* Save how many bytes were actually in the character */
614     curlen = s - s0;
615
616     /* The loop above finds two types of malformations: non-continuation and/or
617      * overflow.  The non-continuation malformation is really a too-short
618      * malformation, as it means that the current character ended before it was
619      * expected to (being terminated prematurely by the beginning of the next
620      * character, whereas in the too-short malformation there just are too few
621      * bytes available to hold the character.  In both cases, the check below
622      * that we have found the expected number of bytes would fail if executed.)
623      * Thus the non-continuation malformation is really unnecessary, being a
624      * subset of the too-short malformation.  But there may be existing
625      * applications that are expecting the non-continuation type, so we retain
626      * it, and return it in preference to the too-short malformation.  (If this
627      * code were being written from scratch, the two types might be collapsed
628      * into one.)  I, khw, am also giving priority to returning the
629      * non-continuation and too-short malformations over overflow when multiple
630      * ones are present.  I don't know of any real reason to prefer one over
631      * the other, except that it seems to me that multiple-byte errors trumps
632      * errors from a single byte */
633     if (UNLIKELY(unexpected_non_continuation)) {
634         if (!(flags & UTF8_ALLOW_NON_CONTINUATION)) {
635             if (! (flags & UTF8_CHECK_ONLY)) {
636                 if (curlen == 1) {
637                     sv = sv_2mortal(Perl_newSVpvf(aTHX_ "%s (unexpected non-continuation byte 0x%02x, immediately after start byte 0x%02x)", malformed_text, *s, *s0));
638                 }
639                 else {
640                     sv = sv_2mortal(Perl_newSVpvf(aTHX_ "%s (unexpected non-continuation byte 0x%02x, %d bytes after start byte 0x%02x, expected %d bytes)", malformed_text, *s, (int) curlen, *s0, (int)expectlen));
641                 }
642             }
643             goto malformed;
644         }
645         uv = UNICODE_REPLACEMENT;
646
647         /* Skip testing for overlongs, as the REPLACEMENT may not be the same
648          * as what the original expectations were. */
649         do_overlong_test = FALSE;
650         if (retlen) {
651             *retlen = curlen;
652         }
653     }
654     else if (UNLIKELY(curlen < expectlen)) {
655         if (! (flags & UTF8_ALLOW_SHORT)) {
656             if (! (flags & UTF8_CHECK_ONLY)) {
657                 sv = sv_2mortal(Perl_newSVpvf(aTHX_ "%s (%d byte%s, need %d, after start byte 0x%02x)", malformed_text, (int)curlen, curlen == 1 ? "" : "s", (int)expectlen, *s0));
658             }
659             goto malformed;
660         }
661         uv = UNICODE_REPLACEMENT;
662         do_overlong_test = FALSE;
663         if (retlen) {
664             *retlen = curlen;
665         }
666     }
667
668 #ifndef EBCDIC  /* EBCDIC can't overflow */
669     if (UNLIKELY(overflowed)) {
670         sv = sv_2mortal(Perl_newSVpvf(aTHX_ "%s (overflow at byte 0x%02x, after start byte 0x%02x)", malformed_text, overflow_byte, *s0));
671         goto malformed;
672     }
673 #endif
674
675     if (do_overlong_test
676         && expectlen > (STRLEN) OFFUNISKIP(uv)
677         && ! (flags & UTF8_ALLOW_LONG))
678     {
679         /* The overlong malformation has lower precedence than the others.
680          * Note that if this malformation is allowed, we return the actual
681          * value, instead of the replacement character.  This is because this
682          * value is actually well-defined. */
683         if (! (flags & UTF8_CHECK_ONLY)) {
684             sv = sv_2mortal(Perl_newSVpvf(aTHX_ "%s (%d byte%s, need %d, after start byte 0x%02x)", malformed_text, (int)expectlen, expectlen == 1 ? "": "s", OFFUNISKIP(uv), *s0));
685         }
686         goto malformed;
687     }
688
689     /* Here, the input is considered to be well-formed, but it still could be a
690      * problematic code point that is not allowed by the input parameters. */
691     if (uv >= UNICODE_SURROGATE_FIRST /* isn't problematic if < this */
692         && (flags & (UTF8_DISALLOW_ILLEGAL_INTERCHANGE
693                      |UTF8_WARN_ILLEGAL_INTERCHANGE)))
694     {
695         if (UNICODE_IS_SURROGATE(uv)) {
696
697             /* By adding UTF8_CHECK_ONLY to the test, we avoid unnecessary
698              * generation of the sv, since no warnings are raised under CHECK */
699             if ((flags & (UTF8_WARN_SURROGATE|UTF8_CHECK_ONLY)) == UTF8_WARN_SURROGATE
700                 && ckWARN_d(WARN_SURROGATE))
701             {
702                 sv = sv_2mortal(Perl_newSVpvf(aTHX_ "UTF-16 surrogate U+%04"UVXf"", uv));
703                 pack_warn = packWARN(WARN_SURROGATE);
704             }
705             if (flags & UTF8_DISALLOW_SURROGATE) {
706                 goto disallowed;
707             }
708         }
709         else if ((uv > PERL_UNICODE_MAX)) {
710             if ((flags & (UTF8_WARN_SUPER|UTF8_CHECK_ONLY)) == UTF8_WARN_SUPER
711                 && ckWARN_d(WARN_NON_UNICODE))
712             {
713                 sv = sv_2mortal(Perl_newSVpvf(aTHX_ "Code point 0x%04"UVXf" is not Unicode, may not be portable", uv));
714                 pack_warn = packWARN(WARN_NON_UNICODE);
715             }
716 #ifndef EBCDIC  /* EBCDIC always allows FE, FF */
717
718             /* The first byte being 0xFE or 0xFF is a subset of the SUPER code
719              * points.  We test for these after the regular SUPER ones, and
720              * before possibly bailing out, so that the more dire warning
721              * overrides the regular one, if applicable */
722             if ((*s0 & 0xFE) == 0xFE    /* matches both FE, FF */
723                 && (flags & (UTF8_WARN_FE_FF|UTF8_DISALLOW_FE_FF)))
724             {
725                 if ((flags & (UTF8_WARN_FE_FF|UTF8_CHECK_ONLY))
726                                                             == UTF8_WARN_FE_FF
727                     && ckWARN_d(WARN_UTF8))
728                 {
729                     sv = sv_2mortal(Perl_newSVpvf(aTHX_ "Code point 0x%"UVXf" is not Unicode, and not portable", uv));
730                     pack_warn = packWARN(WARN_UTF8);
731                 }
732                 if (flags & UTF8_DISALLOW_FE_FF) {
733                     goto disallowed;
734                 }
735             }
736 #endif
737             if (flags & UTF8_DISALLOW_SUPER) {
738                 goto disallowed;
739             }
740         }
741         else if (UNICODE_IS_NONCHAR(uv)) {
742             if ((flags & (UTF8_WARN_NONCHAR|UTF8_CHECK_ONLY)) == UTF8_WARN_NONCHAR
743                 && ckWARN_d(WARN_NONCHAR))
744             {
745                 sv = sv_2mortal(Perl_newSVpvf(aTHX_ "Unicode non-character U+%04"UVXf" is not recommended for open interchange", uv));
746                 pack_warn = packWARN(WARN_NONCHAR);
747             }
748             if (flags & UTF8_DISALLOW_NONCHAR) {
749                 goto disallowed;
750             }
751         }
752
753         if (sv) {
754             outlier_ret = uv;   /* Note we don't bother to convert to native,
755                                    as all the outlier code points are the same
756                                    in both ASCII and EBCDIC */
757             goto do_warn;
758         }
759
760         /* Here, this is not considered a malformed character, so drop through
761          * to return it */
762     }
763
764     return UNI_TO_NATIVE(uv);
765
766     /* There are three cases which get to beyond this point.  In all 3 cases:
767      * <sv>         if not null points to a string to print as a warning.
768      * <curlen>     is what <*retlen> should be set to if UTF8_CHECK_ONLY isn't
769      *              set.
770      * <outlier_ret> is what return value to use if UTF8_CHECK_ONLY isn't set.
771      *              This is done by initializing it to 0, and changing it only
772      *              for case 1).
773      * The 3 cases are:
774      * 1)   The input is valid but problematic, and to be warned about.  The
775      *      return value is the resultant code point; <*retlen> is set to
776      *      <curlen>, the number of bytes that comprise the code point.
777      *      <pack_warn> contains the result of packWARN() for the warning
778      *      types.  The entry point for this case is the label <do_warn>;
779      * 2)   The input is a valid code point but disallowed by the parameters to
780      *      this function.  The return value is 0.  If UTF8_CHECK_ONLY is set,
781      *      <*relen> is -1; otherwise it is <curlen>, the number of bytes that
782      *      comprise the code point.  <pack_warn> contains the result of
783      *      packWARN() for the warning types.  The entry point for this case is
784      *      the label <disallowed>.
785      * 3)   The input is malformed.  The return value is 0.  If UTF8_CHECK_ONLY
786      *      is set, <*relen> is -1; otherwise it is <curlen>, the number of
787      *      bytes that comprise the malformation.  All such malformations are
788      *      assumed to be warning type <utf8>.  The entry point for this case
789      *      is the label <malformed>.
790      */
791
792   malformed:
793
794     if (sv && ckWARN_d(WARN_UTF8)) {
795         pack_warn = packWARN(WARN_UTF8);
796     }
797
798   disallowed:
799
800     if (flags & UTF8_CHECK_ONLY) {
801         if (retlen)
802             *retlen = ((STRLEN) -1);
803         return 0;
804     }
805
806   do_warn:
807
808     if (pack_warn) {    /* <pack_warn> was initialized to 0, and changed only
809                            if warnings are to be raised. */
810         const char * const string = SvPVX_const(sv);
811
812         if (PL_op)
813             Perl_warner(aTHX_ pack_warn, "%s in %s", string,  OP_DESC(PL_op));
814         else
815             Perl_warner(aTHX_ pack_warn, "%s", string);
816     }
817
818     if (retlen) {
819         *retlen = curlen;
820     }
821
822     return outlier_ret;
823 }
824
825 /*
826 =for apidoc utf8_to_uvchr_buf
827
828 Returns the native code point of the first character in the string C<s> which
829 is assumed to be in UTF-8 encoding; C<send> points to 1 beyond the end of C<s>.
830 C<*retlen> will be set to the length, in bytes, of that character.
831
832 If C<s> does not point to a well-formed UTF-8 character and UTF8 warnings are
833 enabled, zero is returned and C<*retlen> is set (if C<retlen> isn't
834 C<NULL>) to -1.  If those warnings are off, the computed value, if well-defined
835 (or the Unicode REPLACEMENT CHARACTER if not), is silently returned, and
836 C<*retlen> is set (if C<retlen> isn't C<NULL>) so that (S<C<s> + C<*retlen>>) is
837 the next possible position in C<s> that could begin a non-malformed character.
838 See L</utf8n_to_uvchr> for details on when the REPLACEMENT CHARACTER is
839 returned.
840
841 =cut
842 */
843
844
845 UV
846 Perl_utf8_to_uvchr_buf(pTHX_ const U8 *s, const U8 *send, STRLEN *retlen)
847 {
848     assert(s < send);
849
850     return utf8n_to_uvchr(s, send - s, retlen,
851                           ckWARN_d(WARN_UTF8) ? 0 : UTF8_ALLOW_ANY);
852 }
853
854 /* Like L</utf8_to_uvchr_buf>(), but should only be called when it is known that
855  * there are no malformations in the input UTF-8 string C<s>.  surrogates,
856  * non-character code points, and non-Unicode code points are allowed. */
857
858 UV
859 Perl_valid_utf8_to_uvchr(pTHX_ const U8 *s, STRLEN *retlen)
860 {
861     UV expectlen = UTF8SKIP(s);
862     const U8* send = s + expectlen;
863     UV uv = *s;
864
865     PERL_ARGS_ASSERT_VALID_UTF8_TO_UVCHR;
866     PERL_UNUSED_CONTEXT;
867
868     if (retlen) {
869         *retlen = expectlen;
870     }
871
872     /* An invariant is trivially returned */
873     if (expectlen == 1) {
874         return uv;
875     }
876
877 #ifdef EBCDIC
878     uv = NATIVE_UTF8_TO_I8(uv);
879 #endif
880
881     /* Remove the leading bits that indicate the number of bytes, leaving just
882      * the bits that are part of the value */
883     uv &= UTF_START_MASK(expectlen);
884
885     /* Now, loop through the remaining bytes, accumulating each into the
886      * working total as we go.  (I khw tried unrolling the loop for up to 4
887      * bytes, but there was no performance improvement) */
888     for (++s; s < send; s++) {
889         uv = UTF8_ACCUMULATE(uv, *s);
890     }
891
892     return UNI_TO_NATIVE(uv);
893
894 }
895
896 /*
897 =for apidoc utf8_to_uvuni_buf
898
899 Only in very rare circumstances should code need to be dealing in Unicode
900 (as opposed to native) code points.  In those few cases, use
901 C<L<NATIVE_TO_UNI(utf8_to_uvchr_buf(...))|/utf8_to_uvchr_buf>> instead.
902
903 Returns the Unicode (not-native) code point of the first character in the
904 string C<s> which
905 is assumed to be in UTF-8 encoding; C<send> points to 1 beyond the end of C<s>.
906 C<retlen> will be set to the length, in bytes, of that character.
907
908 If C<s> does not point to a well-formed UTF-8 character and UTF8 warnings are
909 enabled, zero is returned and C<*retlen> is set (if C<retlen> isn't
910 NULL) to -1.  If those warnings are off, the computed value if well-defined (or
911 the Unicode REPLACEMENT CHARACTER, if not) is silently returned, and C<*retlen>
912 is set (if C<retlen> isn't NULL) so that (S<C<s> + C<*retlen>>) is the
913 next possible position in C<s> that could begin a non-malformed character.
914 See L</utf8n_to_uvchr> for details on when the REPLACEMENT CHARACTER is returned.
915
916 =cut
917 */
918
919 UV
920 Perl_utf8_to_uvuni_buf(pTHX_ const U8 *s, const U8 *send, STRLEN *retlen)
921 {
922     PERL_ARGS_ASSERT_UTF8_TO_UVUNI_BUF;
923
924     assert(send > s);
925
926     /* Call the low level routine asking for checks */
927     return NATIVE_TO_UNI(Perl_utf8n_to_uvchr(aTHX_ s, send -s, retlen,
928                                ckWARN_d(WARN_UTF8) ? 0 : UTF8_ALLOW_ANY));
929 }
930
931 /*
932 =for apidoc utf8_length
933
934 Return the length of the UTF-8 char encoded string C<s> in characters.
935 Stops at C<e> (inclusive).  If C<e E<lt> s> or if the scan would end
936 up past C<e>, croaks.
937
938 =cut
939 */
940
941 STRLEN
942 Perl_utf8_length(pTHX_ const U8 *s, const U8 *e)
943 {
944     STRLEN len = 0;
945
946     PERL_ARGS_ASSERT_UTF8_LENGTH;
947
948     /* Note: cannot use UTF8_IS_...() too eagerly here since e.g.
949      * the bitops (especially ~) can create illegal UTF-8.
950      * In other words: in Perl UTF-8 is not just for Unicode. */
951
952     if (e < s)
953         goto warn_and_return;
954     while (s < e) {
955         s += UTF8SKIP(s);
956         len++;
957     }
958
959     if (e != s) {
960         len--;
961         warn_and_return:
962         if (PL_op)
963             Perl_ck_warner_d(aTHX_ packWARN(WARN_UTF8),
964                              "%s in %s", unees, OP_DESC(PL_op));
965         else
966             Perl_ck_warner_d(aTHX_ packWARN(WARN_UTF8), "%s", unees);
967     }
968
969     return len;
970 }
971
972 /*
973 =for apidoc utf8_distance
974
975 Returns the number of UTF-8 characters between the UTF-8 pointers C<a>
976 and C<b>.
977
978 WARNING: use only if you *know* that the pointers point inside the
979 same UTF-8 buffer.
980
981 =cut
982 */
983
984 IV
985 Perl_utf8_distance(pTHX_ const U8 *a, const U8 *b)
986 {
987     PERL_ARGS_ASSERT_UTF8_DISTANCE;
988
989     return (a < b) ? -1 * (IV) utf8_length(a, b) : (IV) utf8_length(b, a);
990 }
991
992 /*
993 =for apidoc utf8_hop
994
995 Return the UTF-8 pointer C<s> displaced by C<off> characters, either
996 forward or backward.
997
998 WARNING: do not use the following unless you *know* C<off> is within
999 the UTF-8 data pointed to by C<s> *and* that on entry C<s> is aligned
1000 on the first byte of character or just after the last byte of a character.
1001
1002 =cut
1003 */
1004
1005 U8 *
1006 Perl_utf8_hop(const U8 *s, I32 off)
1007 {
1008     PERL_ARGS_ASSERT_UTF8_HOP;
1009
1010     /* Note: cannot use UTF8_IS_...() too eagerly here since e.g
1011      * the bitops (especially ~) can create illegal UTF-8.
1012      * In other words: in Perl UTF-8 is not just for Unicode. */
1013
1014     if (off >= 0) {
1015         while (off--)
1016             s += UTF8SKIP(s);
1017     }
1018     else {
1019         while (off++) {
1020             s--;
1021             while (UTF8_IS_CONTINUATION(*s))
1022                 s--;
1023         }
1024     }
1025     return (U8 *)s;
1026 }
1027
1028 /*
1029 =for apidoc bytes_cmp_utf8
1030
1031 Compares the sequence of characters (stored as octets) in C<b>, C<blen> with the
1032 sequence of characters (stored as UTF-8)
1033 in C<u>, C<ulen>.  Returns 0 if they are
1034 equal, -1 or -2 if the first string is less than the second string, +1 or +2
1035 if the first string is greater than the second string.
1036
1037 -1 or +1 is returned if the shorter string was identical to the start of the
1038 longer string.  -2 or +2 is returned if
1039 there was a difference between characters
1040 within the strings.
1041
1042 =cut
1043 */
1044
1045 int
1046 Perl_bytes_cmp_utf8(pTHX_ const U8 *b, STRLEN blen, const U8 *u, STRLEN ulen)
1047 {
1048     const U8 *const bend = b + blen;
1049     const U8 *const uend = u + ulen;
1050
1051     PERL_ARGS_ASSERT_BYTES_CMP_UTF8;
1052
1053     while (b < bend && u < uend) {
1054         U8 c = *u++;
1055         if (!UTF8_IS_INVARIANT(c)) {
1056             if (UTF8_IS_DOWNGRADEABLE_START(c)) {
1057                 if (u < uend) {
1058                     U8 c1 = *u++;
1059                     if (UTF8_IS_CONTINUATION(c1)) {
1060                         c = TWO_BYTE_UTF8_TO_NATIVE(c, c1);
1061                     } else {
1062                         Perl_ck_warner_d(aTHX_ packWARN(WARN_UTF8),
1063                                          "Malformed UTF-8 character "
1064                                          "(unexpected non-continuation byte 0x%02x"
1065                                          ", immediately after start byte 0x%02x)"
1066                                          /* Dear diag.t, it's in the pod.  */
1067                                          "%s%s", c1, c,
1068                                          PL_op ? " in " : "",
1069                                          PL_op ? OP_DESC(PL_op) : "");
1070                         return -2;
1071                     }
1072                 } else {
1073                     if (PL_op)
1074                         Perl_ck_warner_d(aTHX_ packWARN(WARN_UTF8),
1075                                          "%s in %s", unees, OP_DESC(PL_op));
1076                     else
1077                         Perl_ck_warner_d(aTHX_ packWARN(WARN_UTF8), "%s", unees);
1078                     return -2; /* Really want to return undef :-)  */
1079                 }
1080             } else {
1081                 return -2;
1082             }
1083         }
1084         if (*b != c) {
1085             return *b < c ? -2 : +2;
1086         }
1087         ++b;
1088     }
1089
1090     if (b == bend && u == uend)
1091         return 0;
1092
1093     return b < bend ? +1 : -1;
1094 }
1095
1096 /*
1097 =for apidoc utf8_to_bytes
1098
1099 Converts a string C<s> of length C<len> from UTF-8 into native byte encoding.
1100 Unlike L</bytes_to_utf8>, this over-writes the original string, and
1101 updates C<len> to contain the new length.
1102 Returns zero on failure, setting C<len> to -1.
1103
1104 If you need a copy of the string, see L</bytes_from_utf8>.
1105
1106 =cut
1107 */
1108
1109 U8 *
1110 Perl_utf8_to_bytes(pTHX_ U8 *s, STRLEN *len)
1111 {
1112     U8 * const save = s;
1113     U8 * const send = s + *len;
1114     U8 *d;
1115
1116     PERL_ARGS_ASSERT_UTF8_TO_BYTES;
1117     PERL_UNUSED_CONTEXT;
1118
1119     /* ensure valid UTF-8 and chars < 256 before updating string */
1120     while (s < send) {
1121         if (! UTF8_IS_INVARIANT(*s)) {
1122             if (! UTF8_IS_NEXT_CHAR_DOWNGRADEABLE(s, send)) {
1123                 *len = ((STRLEN) -1);
1124                 return 0;
1125             }
1126             s++;
1127         }
1128         s++;
1129     }
1130
1131     d = s = save;
1132     while (s < send) {
1133         U8 c = *s++;
1134         if (! UTF8_IS_INVARIANT(c)) {
1135             /* Then it is two-byte encoded */
1136             c = TWO_BYTE_UTF8_TO_NATIVE(c, *s);
1137             s++;
1138         }
1139         *d++ = c;
1140     }
1141     *d = '\0';
1142     *len = d - save;
1143     return save;
1144 }
1145
1146 /*
1147 =for apidoc bytes_from_utf8
1148
1149 Converts a string C<s> of length C<len> from UTF-8 into native byte encoding.
1150 Unlike L</utf8_to_bytes> but like L</bytes_to_utf8>, returns a pointer to
1151 the newly-created string, and updates C<len> to contain the new
1152 length.  Returns the original string if no conversion occurs, C<len>
1153 is unchanged.  Do nothing if C<is_utf8> points to 0.  Sets C<is_utf8> to
1154 0 if C<s> is converted or consisted entirely of characters that are invariant
1155 in UTF-8 (i.e., US-ASCII on non-EBCDIC machines).
1156
1157 =cut
1158 */
1159
1160 U8 *
1161 Perl_bytes_from_utf8(pTHX_ const U8 *s, STRLEN *len, bool *is_utf8)
1162 {
1163     U8 *d;
1164     const U8 *start = s;
1165     const U8 *send;
1166     I32 count = 0;
1167
1168     PERL_ARGS_ASSERT_BYTES_FROM_UTF8;
1169     PERL_UNUSED_CONTEXT;
1170     if (!*is_utf8)
1171         return (U8 *)start;
1172
1173     /* ensure valid UTF-8 and chars < 256 before converting string */
1174     for (send = s + *len; s < send;) {
1175         if (! UTF8_IS_INVARIANT(*s)) {
1176             if (! UTF8_IS_NEXT_CHAR_DOWNGRADEABLE(s, send)) {
1177                 return (U8 *)start;
1178             }
1179             count++;
1180             s++;
1181         }
1182         s++;
1183     }
1184
1185     *is_utf8 = FALSE;
1186
1187     Newx(d, (*len) - count + 1, U8);
1188     s = start; start = d;
1189     while (s < send) {
1190         U8 c = *s++;
1191         if (! UTF8_IS_INVARIANT(c)) {
1192             /* Then it is two-byte encoded */
1193             c = TWO_BYTE_UTF8_TO_NATIVE(c, *s);
1194             s++;
1195         }
1196         *d++ = c;
1197     }
1198     *d = '\0';
1199     *len = d - start;
1200     return (U8 *)start;
1201 }
1202
1203 /*
1204 =for apidoc bytes_to_utf8
1205
1206 Converts a string C<s> of length C<len> bytes from the native encoding into
1207 UTF-8.
1208 Returns a pointer to the newly-created string, and sets C<len> to
1209 reflect the new length in bytes.
1210
1211 A C<NUL> character will be written after the end of the string.
1212
1213 If you want to convert to UTF-8 from encodings other than
1214 the native (Latin1 or EBCDIC),
1215 see L</sv_recode_to_utf8>().
1216
1217 =cut
1218 */
1219
1220 /* This logic is duplicated in sv_catpvn_flags, so any bug fixes will
1221    likewise need duplication. */
1222
1223 U8*
1224 Perl_bytes_to_utf8(pTHX_ const U8 *s, STRLEN *len)
1225 {
1226     const U8 * const send = s + (*len);
1227     U8 *d;
1228     U8 *dst;
1229
1230     PERL_ARGS_ASSERT_BYTES_TO_UTF8;
1231     PERL_UNUSED_CONTEXT;
1232
1233     Newx(d, (*len) * 2 + 1, U8);
1234     dst = d;
1235
1236     while (s < send) {
1237         append_utf8_from_native_byte(*s, &d);
1238         s++;
1239     }
1240     *d = '\0';
1241     *len = d-dst;
1242     return dst;
1243 }
1244
1245 /*
1246  * Convert native (big-endian) or reversed (little-endian) UTF-16 to UTF-8.
1247  *
1248  * Destination must be pre-extended to 3/2 source.  Do not use in-place.
1249  * We optimize for native, for obvious reasons. */
1250
1251 U8*
1252 Perl_utf16_to_utf8(pTHX_ U8* p, U8* d, I32 bytelen, I32 *newlen)
1253 {
1254     U8* pend;
1255     U8* dstart = d;
1256
1257     PERL_ARGS_ASSERT_UTF16_TO_UTF8;
1258
1259     if (bytelen & 1)
1260         Perl_croak(aTHX_ "panic: utf16_to_utf8: odd bytelen %"UVuf, (UV)bytelen);
1261
1262     pend = p + bytelen;
1263
1264     while (p < pend) {
1265         UV uv = (p[0] << 8) + p[1]; /* UTF-16BE */
1266         p += 2;
1267         if (UNI_IS_INVARIANT(uv)) {
1268             *d++ = LATIN1_TO_NATIVE((U8) uv);
1269             continue;
1270         }
1271         if (uv <= MAX_UTF8_TWO_BYTE) {
1272             *d++ = UTF8_TWO_BYTE_HI(UNI_TO_NATIVE(uv));
1273             *d++ = UTF8_TWO_BYTE_LO(UNI_TO_NATIVE(uv));
1274             continue;
1275         }
1276 #define FIRST_HIGH_SURROGATE UNICODE_SURROGATE_FIRST
1277 #define LAST_HIGH_SURROGATE  0xDBFF
1278 #define FIRST_LOW_SURROGATE  0xDC00
1279 #define LAST_LOW_SURROGATE   UNICODE_SURROGATE_LAST
1280
1281         /* This assumes that most uses will be in the first Unicode plane, not
1282          * needing surrogates */
1283         if (UNLIKELY(uv >= UNICODE_SURROGATE_FIRST
1284                   && uv <= UNICODE_SURROGATE_LAST))
1285         {
1286             if (UNLIKELY(p >= pend) || UNLIKELY(uv > LAST_HIGH_SURROGATE)) {
1287                 Perl_croak(aTHX_ "Malformed UTF-16 surrogate");
1288             }
1289             else {
1290                 UV low = (p[0] << 8) + p[1];
1291                 if (   UNLIKELY(low < FIRST_LOW_SURROGATE)
1292                     || UNLIKELY(low > LAST_LOW_SURROGATE))
1293                 {
1294                     Perl_croak(aTHX_ "Malformed UTF-16 surrogate");
1295                 }
1296                 p += 2;
1297                 uv = ((uv - FIRST_HIGH_SURROGATE) << 10)
1298                                        + (low - FIRST_LOW_SURROGATE) + 0x10000;
1299             }
1300         }
1301 #ifdef EBCDIC
1302         d = uvoffuni_to_utf8_flags(d, uv, 0);
1303 #else
1304         if (uv < 0x10000) {
1305             *d++ = (U8)(( uv >> 12)         | 0xe0);
1306             *d++ = (U8)(((uv >>  6) & 0x3f) | 0x80);
1307             *d++ = (U8)(( uv        & 0x3f) | 0x80);
1308             continue;
1309         }
1310         else {
1311             *d++ = (U8)(( uv >> 18)         | 0xf0);
1312             *d++ = (U8)(((uv >> 12) & 0x3f) | 0x80);
1313             *d++ = (U8)(((uv >>  6) & 0x3f) | 0x80);
1314             *d++ = (U8)(( uv        & 0x3f) | 0x80);
1315             continue;
1316         }
1317 #endif
1318     }
1319     *newlen = d - dstart;
1320     return d;
1321 }
1322
1323 /* Note: this one is slightly destructive of the source. */
1324
1325 U8*
1326 Perl_utf16_to_utf8_reversed(pTHX_ U8* p, U8* d, I32 bytelen, I32 *newlen)
1327 {
1328     U8* s = (U8*)p;
1329     U8* const send = s + bytelen;
1330
1331     PERL_ARGS_ASSERT_UTF16_TO_UTF8_REVERSED;
1332
1333     if (bytelen & 1)
1334         Perl_croak(aTHX_ "panic: utf16_to_utf8_reversed: odd bytelen %"UVuf,
1335                    (UV)bytelen);
1336
1337     while (s < send) {
1338         const U8 tmp = s[0];
1339         s[0] = s[1];
1340         s[1] = tmp;
1341         s += 2;
1342     }
1343     return utf16_to_utf8(p, d, bytelen, newlen);
1344 }
1345
1346 bool
1347 Perl__is_uni_FOO(pTHX_ const U8 classnum, const UV c)
1348 {
1349     U8 tmpbuf[UTF8_MAXBYTES+1];
1350     uvchr_to_utf8(tmpbuf, c);
1351     return _is_utf8_FOO(classnum, tmpbuf);
1352 }
1353
1354 /* Internal function so we can deprecate the external one, and call
1355    this one from other deprecated functions in this file */
1356
1357 bool
1358 Perl__is_utf8_idstart(pTHX_ const U8 *p)
1359 {
1360     PERL_ARGS_ASSERT__IS_UTF8_IDSTART;
1361
1362     if (*p == '_')
1363         return TRUE;
1364     return is_utf8_common(p, &PL_utf8_idstart, "IdStart", NULL);
1365 }
1366
1367 bool
1368 Perl__is_uni_perl_idcont(pTHX_ UV c)
1369 {
1370     U8 tmpbuf[UTF8_MAXBYTES+1];
1371     uvchr_to_utf8(tmpbuf, c);
1372     return _is_utf8_perl_idcont(tmpbuf);
1373 }
1374
1375 bool
1376 Perl__is_uni_perl_idstart(pTHX_ UV c)
1377 {
1378     U8 tmpbuf[UTF8_MAXBYTES+1];
1379     uvchr_to_utf8(tmpbuf, c);
1380     return _is_utf8_perl_idstart(tmpbuf);
1381 }
1382
1383 UV
1384 Perl__to_upper_title_latin1(pTHX_ const U8 c, U8* p, STRLEN *lenp, const char S_or_s)
1385 {
1386     /* We have the latin1-range values compiled into the core, so just use
1387      * those, converting the result to UTF-8.  The only difference between upper
1388      * and title case in this range is that LATIN_SMALL_LETTER_SHARP_S is
1389      * either "SS" or "Ss".  Which one to use is passed into the routine in
1390      * 'S_or_s' to avoid a test */
1391
1392     UV converted = toUPPER_LATIN1_MOD(c);
1393
1394     PERL_ARGS_ASSERT__TO_UPPER_TITLE_LATIN1;
1395
1396     assert(S_or_s == 'S' || S_or_s == 's');
1397
1398     if (UVCHR_IS_INVARIANT(converted)) { /* No difference between the two for
1399                                              characters in this range */
1400         *p = (U8) converted;
1401         *lenp = 1;
1402         return converted;
1403     }
1404
1405     /* toUPPER_LATIN1_MOD gives the correct results except for three outliers,
1406      * which it maps to one of them, so as to only have to have one check for
1407      * it in the main case */
1408     if (UNLIKELY(converted == LATIN_SMALL_LETTER_Y_WITH_DIAERESIS)) {
1409         switch (c) {
1410             case LATIN_SMALL_LETTER_Y_WITH_DIAERESIS:
1411                 converted = LATIN_CAPITAL_LETTER_Y_WITH_DIAERESIS;
1412                 break;
1413             case MICRO_SIGN:
1414                 converted = GREEK_CAPITAL_LETTER_MU;
1415                 break;
1416 #if    UNICODE_MAJOR_VERSION > 2                                        \
1417    || (UNICODE_MAJOR_VERSION == 2 && UNICODE_DOT_VERSION >= 1           \
1418                                   && UNICODE_DOT_DOT_VERSION >= 8)
1419             case LATIN_SMALL_LETTER_SHARP_S:
1420                 *(p)++ = 'S';
1421                 *p = S_or_s;
1422                 *lenp = 2;
1423                 return 'S';
1424 #endif
1425             default:
1426                 Perl_croak(aTHX_ "panic: to_upper_title_latin1 did not expect '%c' to map to '%c'", c, LATIN_SMALL_LETTER_Y_WITH_DIAERESIS);
1427                 NOT_REACHED; /* NOTREACHED */
1428         }
1429     }
1430
1431     *(p)++ = UTF8_TWO_BYTE_HI(converted);
1432     *p = UTF8_TWO_BYTE_LO(converted);
1433     *lenp = 2;
1434
1435     return converted;
1436 }
1437
1438 /* Call the function to convert a UTF-8 encoded character to the specified case.
1439  * Note that there may be more than one character in the result.
1440  * INP is a pointer to the first byte of the input character
1441  * OUTP will be set to the first byte of the string of changed characters.  It
1442  *      needs to have space for UTF8_MAXBYTES_CASE+1 bytes
1443  * LENP will be set to the length in bytes of the string of changed characters
1444  *
1445  * The functions return the ordinal of the first character in the string of OUTP */
1446 #define CALL_UPPER_CASE(INP, OUTP, LENP) Perl_to_utf8_case(aTHX_ INP, OUTP, LENP, &PL_utf8_toupper, "ToUc", "")
1447 #define CALL_TITLE_CASE(INP, OUTP, LENP) Perl_to_utf8_case(aTHX_ INP, OUTP, LENP, &PL_utf8_totitle, "ToTc", "")
1448 #define CALL_LOWER_CASE(INP, OUTP, LENP) Perl_to_utf8_case(aTHX_ INP, OUTP, LENP, &PL_utf8_tolower, "ToLc", "")
1449
1450 /* This additionally has the input parameter SPECIALS, which if non-zero will
1451  * cause this to use the SPECIALS hash for folding (meaning get full case
1452  * folding); otherwise, when zero, this implies a simple case fold */
1453 #define CALL_FOLD_CASE(INP, OUTP, LENP, SPECIALS) Perl_to_utf8_case(aTHX_ INP, OUTP, LENP, &PL_utf8_tofold, "ToCf", (SPECIALS) ? "" : NULL)
1454
1455 UV
1456 Perl_to_uni_upper(pTHX_ UV c, U8* p, STRLEN *lenp)
1457 {
1458     /* Convert the Unicode character whose ordinal is <c> to its uppercase
1459      * version and store that in UTF-8 in <p> and its length in bytes in <lenp>.
1460      * Note that the <p> needs to be at least UTF8_MAXBYTES_CASE+1 bytes since
1461      * the changed version may be longer than the original character.
1462      *
1463      * The ordinal of the first character of the changed version is returned
1464      * (but note, as explained above, that there may be more.) */
1465
1466     PERL_ARGS_ASSERT_TO_UNI_UPPER;
1467
1468     if (c < 256) {
1469         return _to_upper_title_latin1((U8) c, p, lenp, 'S');
1470     }
1471
1472     uvchr_to_utf8(p, c);
1473     return CALL_UPPER_CASE(p, p, lenp);
1474 }
1475
1476 UV
1477 Perl_to_uni_title(pTHX_ UV c, U8* p, STRLEN *lenp)
1478 {
1479     PERL_ARGS_ASSERT_TO_UNI_TITLE;
1480
1481     if (c < 256) {
1482         return _to_upper_title_latin1((U8) c, p, lenp, 's');
1483     }
1484
1485     uvchr_to_utf8(p, c);
1486     return CALL_TITLE_CASE(p, p, lenp);
1487 }
1488
1489 STATIC U8
1490 S_to_lower_latin1(const U8 c, U8* p, STRLEN *lenp)
1491 {
1492     /* We have the latin1-range values compiled into the core, so just use
1493      * those, converting the result to UTF-8.  Since the result is always just
1494      * one character, we allow <p> to be NULL */
1495
1496     U8 converted = toLOWER_LATIN1(c);
1497
1498     if (p != NULL) {
1499         if (NATIVE_BYTE_IS_INVARIANT(converted)) {
1500             *p = converted;
1501             *lenp = 1;
1502         }
1503         else {
1504             /* Result is known to always be < 256, so can use the EIGHT_BIT
1505              * macros */
1506             *p = UTF8_EIGHT_BIT_HI(converted);
1507             *(p+1) = UTF8_EIGHT_BIT_LO(converted);
1508             *lenp = 2;
1509         }
1510     }
1511     return converted;
1512 }
1513
1514 UV
1515 Perl_to_uni_lower(pTHX_ UV c, U8* p, STRLEN *lenp)
1516 {
1517     PERL_ARGS_ASSERT_TO_UNI_LOWER;
1518
1519     if (c < 256) {
1520         return to_lower_latin1((U8) c, p, lenp);
1521     }
1522
1523     uvchr_to_utf8(p, c);
1524     return CALL_LOWER_CASE(p, p, lenp);
1525 }
1526
1527 UV
1528 Perl__to_fold_latin1(pTHX_ const U8 c, U8* p, STRLEN *lenp, const unsigned int flags)
1529 {
1530     /* Corresponds to to_lower_latin1(); <flags> bits meanings:
1531      *      FOLD_FLAGS_NOMIX_ASCII iff non-ASCII to ASCII folds are prohibited
1532      *      FOLD_FLAGS_FULL  iff full folding is to be used;
1533      *
1534      *  Not to be used for locale folds
1535      */
1536
1537     UV converted;
1538
1539     PERL_ARGS_ASSERT__TO_FOLD_LATIN1;
1540     PERL_UNUSED_CONTEXT;
1541
1542     assert (! (flags & FOLD_FLAGS_LOCALE));
1543
1544     if (c == MICRO_SIGN) {
1545         converted = GREEK_SMALL_LETTER_MU;
1546     }
1547 #if    UNICODE_MAJOR_VERSION > 3 /* no multifolds in early Unicode */   \
1548    || (UNICODE_MAJOR_VERSION == 3 && (   UNICODE_DOT_VERSION > 0)       \
1549                                       || UNICODE_DOT_DOT_VERSION > 0)
1550     else if ((flags & FOLD_FLAGS_FULL) && c == LATIN_SMALL_LETTER_SHARP_S) {
1551
1552         /* If can't cross 127/128 boundary, can't return "ss"; instead return
1553          * two U+017F characters, as fc("\df") should eq fc("\x{17f}\x{17f}")
1554          * under those circumstances. */
1555         if (flags & FOLD_FLAGS_NOMIX_ASCII) {
1556             *lenp = 2 * sizeof(LATIN_SMALL_LETTER_LONG_S_UTF8) - 2;
1557             Copy(LATIN_SMALL_LETTER_LONG_S_UTF8 LATIN_SMALL_LETTER_LONG_S_UTF8,
1558                  p, *lenp, U8);
1559             return LATIN_SMALL_LETTER_LONG_S;
1560         }
1561         else {
1562             *(p)++ = 's';
1563             *p = 's';
1564             *lenp = 2;
1565             return 's';
1566         }
1567     }
1568 #endif
1569     else { /* In this range the fold of all other characters is their lower
1570               case */
1571         converted = toLOWER_LATIN1(c);
1572     }
1573
1574     if (UVCHR_IS_INVARIANT(converted)) {
1575         *p = (U8) converted;
1576         *lenp = 1;
1577     }
1578     else {
1579         *(p)++ = UTF8_TWO_BYTE_HI(converted);
1580         *p = UTF8_TWO_BYTE_LO(converted);
1581         *lenp = 2;
1582     }
1583
1584     return converted;
1585 }
1586
1587 UV
1588 Perl__to_uni_fold_flags(pTHX_ UV c, U8* p, STRLEN *lenp, U8 flags)
1589 {
1590
1591     /* Not currently externally documented, and subject to change
1592      *  <flags> bits meanings:
1593      *      FOLD_FLAGS_FULL  iff full folding is to be used;
1594      *      FOLD_FLAGS_LOCALE is set iff the rules from the current underlying
1595      *                        locale are to be used.
1596      *      FOLD_FLAGS_NOMIX_ASCII iff non-ASCII to ASCII folds are prohibited
1597      */
1598
1599     PERL_ARGS_ASSERT__TO_UNI_FOLD_FLAGS;
1600
1601     if (flags & FOLD_FLAGS_LOCALE) {
1602         /* Treat a UTF-8 locale as not being in locale at all */
1603         if (IN_UTF8_CTYPE_LOCALE) {
1604             flags &= ~FOLD_FLAGS_LOCALE;
1605         }
1606         else {
1607             _CHECK_AND_WARN_PROBLEMATIC_LOCALE;
1608             goto needs_full_generality;
1609         }
1610     }
1611
1612     if (c < 256) {
1613         return _to_fold_latin1((U8) c, p, lenp,
1614                             flags & (FOLD_FLAGS_FULL | FOLD_FLAGS_NOMIX_ASCII));
1615     }
1616
1617     /* Here, above 255.  If no special needs, just use the macro */
1618     if ( ! (flags & (FOLD_FLAGS_LOCALE|FOLD_FLAGS_NOMIX_ASCII))) {
1619         uvchr_to_utf8(p, c);
1620         return CALL_FOLD_CASE(p, p, lenp, flags & FOLD_FLAGS_FULL);
1621     }
1622     else {  /* Otherwise, _to_utf8_fold_flags has the intelligence to deal with
1623                the special flags. */
1624         U8 utf8_c[UTF8_MAXBYTES + 1];
1625
1626       needs_full_generality:
1627         uvchr_to_utf8(utf8_c, c);
1628         return _to_utf8_fold_flags(utf8_c, p, lenp, flags);
1629     }
1630 }
1631
1632 PERL_STATIC_INLINE bool
1633 S_is_utf8_common(pTHX_ const U8 *const p, SV **swash,
1634                  const char *const swashname, SV* const invlist)
1635 {
1636     /* returns a boolean giving whether or not the UTF8-encoded character that
1637      * starts at <p> is in the swash indicated by <swashname>.  <swash>
1638      * contains a pointer to where the swash indicated by <swashname>
1639      * is to be stored; which this routine will do, so that future calls will
1640      * look at <*swash> and only generate a swash if it is not null.  <invlist>
1641      * is NULL or an inversion list that defines the swash.  If not null, it
1642      * saves time during initialization of the swash.
1643      *
1644      * Note that it is assumed that the buffer length of <p> is enough to
1645      * contain all the bytes that comprise the character.  Thus, <*p> should
1646      * have been checked before this call for mal-formedness enough to assure
1647      * that. */
1648
1649     PERL_ARGS_ASSERT_IS_UTF8_COMMON;
1650
1651     /* The API should have included a length for the UTF-8 character in <p>,
1652      * but it doesn't.  We therefore assume that p has been validated at least
1653      * as far as there being enough bytes available in it to accommodate the
1654      * character without reading beyond the end, and pass that number on to the
1655      * validating routine */
1656     if (! isUTF8_CHAR(p, p + UTF8SKIP(p))) {
1657         if (ckWARN_d(WARN_UTF8)) {
1658             Perl_warner(aTHX_ packWARN2(WARN_DEPRECATED,WARN_UTF8),
1659                     "Passing malformed UTF-8 to \"%s\" is deprecated", swashname);
1660             if (ckWARN(WARN_UTF8)) {    /* This will output details as to the
1661                                            what the malformation is */
1662                 utf8_to_uvchr_buf(p, p + UTF8SKIP(p), NULL);
1663             }
1664         }
1665         return FALSE;
1666     }
1667     if (!*swash) {
1668         U8 flags = _CORE_SWASH_INIT_ACCEPT_INVLIST;
1669         *swash = _core_swash_init("utf8",
1670
1671                                   /* Only use the name if there is no inversion
1672                                    * list; otherwise will go out to disk */
1673                                   (invlist) ? "" : swashname,
1674
1675                                   &PL_sv_undef, 1, 0, invlist, &flags);
1676     }
1677
1678     return swash_fetch(*swash, p, TRUE) != 0;
1679 }
1680
1681 bool
1682 Perl__is_utf8_FOO(pTHX_ const U8 classnum, const U8 *p)
1683 {
1684     PERL_ARGS_ASSERT__IS_UTF8_FOO;
1685
1686     assert(classnum < _FIRST_NON_SWASH_CC);
1687
1688     return is_utf8_common(p,
1689                           &PL_utf8_swash_ptrs[classnum],
1690                           swash_property_names[classnum],
1691                           PL_XPosix_ptrs[classnum]);
1692 }
1693
1694 bool
1695 Perl__is_utf8_perl_idstart(pTHX_ const U8 *p)
1696 {
1697     SV* invlist = NULL;
1698
1699     PERL_ARGS_ASSERT__IS_UTF8_PERL_IDSTART;
1700
1701     if (! PL_utf8_perl_idstart) {
1702         invlist = _new_invlist_C_array(_Perl_IDStart_invlist);
1703     }
1704     return is_utf8_common(p, &PL_utf8_perl_idstart, "_Perl_IDStart", invlist);
1705 }
1706
1707 bool
1708 Perl__is_utf8_xidstart(pTHX_ const U8 *p)
1709 {
1710     PERL_ARGS_ASSERT__IS_UTF8_XIDSTART;
1711
1712     if (*p == '_')
1713         return TRUE;
1714     return is_utf8_common(p, &PL_utf8_xidstart, "XIdStart", NULL);
1715 }
1716
1717 bool
1718 Perl__is_utf8_perl_idcont(pTHX_ const U8 *p)
1719 {
1720     SV* invlist = NULL;
1721
1722     PERL_ARGS_ASSERT__IS_UTF8_PERL_IDCONT;
1723
1724     if (! PL_utf8_perl_idcont) {
1725         invlist = _new_invlist_C_array(_Perl_IDCont_invlist);
1726     }
1727     return is_utf8_common(p, &PL_utf8_perl_idcont, "_Perl_IDCont", invlist);
1728 }
1729
1730 bool
1731 Perl__is_utf8_idcont(pTHX_ const U8 *p)
1732 {
1733     PERL_ARGS_ASSERT__IS_UTF8_IDCONT;
1734
1735     return is_utf8_common(p, &PL_utf8_idcont, "IdContinue", NULL);
1736 }
1737
1738 bool
1739 Perl__is_utf8_xidcont(pTHX_ const U8 *p)
1740 {
1741     PERL_ARGS_ASSERT__IS_UTF8_XIDCONT;
1742
1743     return is_utf8_common(p, &PL_utf8_idcont, "XIdContinue", NULL);
1744 }
1745
1746 bool
1747 Perl__is_utf8_mark(pTHX_ const U8 *p)
1748 {
1749     PERL_ARGS_ASSERT__IS_UTF8_MARK;
1750
1751     return is_utf8_common(p, &PL_utf8_mark, "IsM", NULL);
1752 }
1753
1754 /*
1755 =for apidoc to_utf8_case
1756
1757 C<p> contains the pointer to the UTF-8 string encoding
1758 the character that is being converted.  This routine assumes that the character
1759 at C<p> is well-formed.
1760
1761 C<ustrp> is a pointer to the character buffer to put the
1762 conversion result to.  C<lenp> is a pointer to the length
1763 of the result.
1764
1765 C<swashp> is a pointer to the swash to use.
1766
1767 Both the special and normal mappings are stored in F<lib/unicore/To/Foo.pl>,
1768 and loaded by C<SWASHNEW>, using F<lib/utf8_heavy.pl>.  C<special> (usually,
1769 but not always, a multicharacter mapping), is tried first.
1770
1771 C<special> is a string, normally C<NULL> or C<"">.  C<NULL> means to not use
1772 any special mappings; C<""> means to use the special mappings.  Values other
1773 than these two are treated as the name of the hash containing the special
1774 mappings, like C<"utf8::ToSpecLower">.
1775
1776 C<normal> is a string like C<"ToLower"> which means the swash
1777 C<%utf8::ToLower>.
1778
1779 =cut */
1780
1781 UV
1782 Perl_to_utf8_case(pTHX_ const U8 *p, U8* ustrp, STRLEN *lenp,
1783                         SV **swashp, const char *normal, const char *special)
1784 {
1785     STRLEN len = 0;
1786     const UV uv1 = valid_utf8_to_uvchr(p, NULL);
1787
1788     PERL_ARGS_ASSERT_TO_UTF8_CASE;
1789
1790     /* Note that swash_fetch() doesn't output warnings for these because it
1791      * assumes we will */
1792     if (uv1 >= UNICODE_SURROGATE_FIRST) {
1793         if (uv1 <= UNICODE_SURROGATE_LAST) {
1794             if (ckWARN_d(WARN_SURROGATE)) {
1795                 const char* desc = (PL_op) ? OP_DESC(PL_op) : normal;
1796                 Perl_warner(aTHX_ packWARN(WARN_SURROGATE),
1797                     "Operation \"%s\" returns its argument for UTF-16 surrogate U+%04"UVXf"", desc, uv1);
1798             }
1799         }
1800         else if (UNICODE_IS_SUPER(uv1)) {
1801             if (ckWARN_d(WARN_NON_UNICODE)) {
1802                 const char* desc = (PL_op) ? OP_DESC(PL_op) : normal;
1803                 Perl_warner(aTHX_ packWARN(WARN_NON_UNICODE),
1804                     "Operation \"%s\" returns its argument for non-Unicode code point 0x%04"UVXf"", desc, uv1);
1805             }
1806         }
1807
1808         /* Note that non-characters are perfectly legal, so no warning should
1809          * be given */
1810     }
1811
1812     if (!*swashp) /* load on-demand */
1813          *swashp = _core_swash_init("utf8", normal, &PL_sv_undef, 4, 0, NULL, NULL);
1814
1815     if (special) {
1816          /* It might be "special" (sometimes, but not always,
1817           * a multicharacter mapping) */
1818          HV *hv = NULL;
1819          SV **svp;
1820
1821          /* If passed in the specials name, use that; otherwise use any
1822           * given in the swash */
1823          if (*special != '\0') {
1824             hv = get_hv(special, 0);
1825         }
1826         else {
1827             svp = hv_fetchs(MUTABLE_HV(SvRV(*swashp)), "SPECIALS", 0);
1828             if (svp) {
1829                 hv = MUTABLE_HV(SvRV(*svp));
1830             }
1831         }
1832
1833          if (hv
1834              && (svp = hv_fetch(hv, (const char*)p, UNISKIP(uv1), FALSE))
1835              && (*svp))
1836          {
1837              const char *s;
1838
1839               s = SvPV_const(*svp, len);
1840               if (len == 1)
1841                   /* EIGHTBIT */
1842                    len = uvchr_to_utf8(ustrp, *(U8*)s) - ustrp;
1843               else {
1844                    Copy(s, ustrp, len, U8);
1845               }
1846          }
1847     }
1848
1849     if (!len && *swashp) {
1850         const UV uv2 = swash_fetch(*swashp, p, TRUE /* => is UTF-8 */);
1851
1852          if (uv2) {
1853               /* It was "normal" (a single character mapping). */
1854               len = uvchr_to_utf8(ustrp, uv2) - ustrp;
1855          }
1856     }
1857
1858     if (len) {
1859         if (lenp) {
1860             *lenp = len;
1861         }
1862         return valid_utf8_to_uvchr(ustrp, 0);
1863     }
1864
1865     /* Here, there was no mapping defined, which means that the code point maps
1866      * to itself.  Return the inputs */
1867     len = UTF8SKIP(p);
1868     if (p != ustrp) {   /* Don't copy onto itself */
1869         Copy(p, ustrp, len, U8);
1870     }
1871
1872     if (lenp)
1873          *lenp = len;
1874
1875     return uv1;
1876
1877 }
1878
1879 STATIC UV
1880 S_check_locale_boundary_crossing(pTHX_ const U8* const p, const UV result, U8* const ustrp, STRLEN *lenp)
1881 {
1882     /* This is called when changing the case of a UTF-8-encoded character above
1883      * the Latin1 range, and the operation is in a non-UTF-8 locale.  If the
1884      * result contains a character that crosses the 255/256 boundary, disallow
1885      * the change, and return the original code point.  See L<perlfunc/lc> for
1886      * why;
1887      *
1888      * p        points to the original string whose case was changed; assumed
1889      *          by this routine to be well-formed
1890      * result   the code point of the first character in the changed-case string
1891      * ustrp    points to the changed-case string (<result> represents its first char)
1892      * lenp     points to the length of <ustrp> */
1893
1894     UV original;    /* To store the first code point of <p> */
1895
1896     PERL_ARGS_ASSERT_CHECK_LOCALE_BOUNDARY_CROSSING;
1897
1898     assert(UTF8_IS_ABOVE_LATIN1(*p));
1899
1900     /* We know immediately if the first character in the string crosses the
1901      * boundary, so can skip */
1902     if (result > 255) {
1903
1904         /* Look at every character in the result; if any cross the
1905         * boundary, the whole thing is disallowed */
1906         U8* s = ustrp + UTF8SKIP(ustrp);
1907         U8* e = ustrp + *lenp;
1908         while (s < e) {
1909             if (! UTF8_IS_ABOVE_LATIN1(*s)) {
1910                 goto bad_crossing;
1911             }
1912             s += UTF8SKIP(s);
1913         }
1914
1915         /* Here, no characters crossed, result is ok as-is, but we warn. */
1916         _CHECK_AND_OUTPUT_WIDE_LOCALE_UTF8_MSG(p, p + UTF8SKIP(p));
1917         return result;
1918     }
1919
1920   bad_crossing:
1921
1922     /* Failed, have to return the original */
1923     original = valid_utf8_to_uvchr(p, lenp);
1924
1925     /* diag_listed_as: Can't do %s("%s") on non-UTF-8 locale; resolved to "%s". */
1926     Perl_ck_warner(aTHX_ packWARN(WARN_LOCALE),
1927                            "Can't do %s(\"\\x{%"UVXf"}\") on non-UTF-8 locale; "
1928                            "resolved to \"\\x{%"UVXf"}\".",
1929                            OP_DESC(PL_op),
1930                            original,
1931                            original);
1932     Copy(p, ustrp, *lenp, char);
1933     return original;
1934 }
1935
1936 /*
1937 =for apidoc to_utf8_upper
1938
1939 Instead use L</toUPPER_utf8>.
1940
1941 =cut */
1942
1943 /* Not currently externally documented, and subject to change:
1944  * <flags> is set iff iff the rules from the current underlying locale are to
1945  *         be used. */
1946
1947 UV
1948 Perl__to_utf8_upper_flags(pTHX_ const U8 *p, U8* ustrp, STRLEN *lenp, bool flags)
1949 {
1950     UV result;
1951
1952     PERL_ARGS_ASSERT__TO_UTF8_UPPER_FLAGS;
1953
1954     if (flags) {
1955         /* Treat a UTF-8 locale as not being in locale at all */
1956         if (IN_UTF8_CTYPE_LOCALE) {
1957             flags = FALSE;
1958         }
1959         else {
1960             _CHECK_AND_WARN_PROBLEMATIC_LOCALE;
1961         }
1962     }
1963
1964     if (UTF8_IS_INVARIANT(*p)) {
1965         if (flags) {
1966             result = toUPPER_LC(*p);
1967         }
1968         else {
1969             return _to_upper_title_latin1(*p, ustrp, lenp, 'S');
1970         }
1971     }
1972     else if UTF8_IS_DOWNGRADEABLE_START(*p) {
1973         if (flags) {
1974             U8 c = TWO_BYTE_UTF8_TO_NATIVE(*p, *(p+1));
1975             result = toUPPER_LC(c);
1976         }
1977         else {
1978             return _to_upper_title_latin1(TWO_BYTE_UTF8_TO_NATIVE(*p, *(p+1)),
1979                                           ustrp, lenp, 'S');
1980         }
1981     }
1982     else {  /* UTF-8, ord above 255 */
1983         result = CALL_UPPER_CASE(p, ustrp, lenp);
1984
1985         if (flags) {
1986             result = check_locale_boundary_crossing(p, result, ustrp, lenp);
1987         }
1988         return result;
1989     }
1990
1991     /* Here, used locale rules.  Convert back to UTF-8 */
1992     if (UTF8_IS_INVARIANT(result)) {
1993         *ustrp = (U8) result;
1994         *lenp = 1;
1995     }
1996     else {
1997         *ustrp = UTF8_EIGHT_BIT_HI((U8) result);
1998         *(ustrp + 1) = UTF8_EIGHT_BIT_LO((U8) result);
1999         *lenp = 2;
2000     }
2001
2002     return result;
2003 }
2004
2005 /*
2006 =for apidoc to_utf8_title
2007
2008 Instead use L</toTITLE_utf8>.
2009
2010 =cut */
2011
2012 /* Not currently externally documented, and subject to change:
2013  * <flags> is set iff the rules from the current underlying locale are to be
2014  *         used.  Since titlecase is not defined in POSIX, for other than a
2015  *         UTF-8 locale, uppercase is used instead for code points < 256.
2016  */
2017
2018 UV
2019 Perl__to_utf8_title_flags(pTHX_ const U8 *p, U8* ustrp, STRLEN *lenp, bool flags)
2020 {
2021     UV result;
2022
2023     PERL_ARGS_ASSERT__TO_UTF8_TITLE_FLAGS;
2024
2025     if (flags) {
2026         /* Treat a UTF-8 locale as not being in locale at all */
2027         if (IN_UTF8_CTYPE_LOCALE) {
2028             flags = FALSE;
2029         }
2030         else {
2031             _CHECK_AND_WARN_PROBLEMATIC_LOCALE;
2032         }
2033     }
2034
2035     if (UTF8_IS_INVARIANT(*p)) {
2036         if (flags) {
2037             result = toUPPER_LC(*p);
2038         }
2039         else {
2040             return _to_upper_title_latin1(*p, ustrp, lenp, 's');
2041         }
2042     }
2043     else if UTF8_IS_DOWNGRADEABLE_START(*p) {
2044         if (flags) {
2045             U8 c = TWO_BYTE_UTF8_TO_NATIVE(*p, *(p+1));
2046             result = toUPPER_LC(c);
2047         }
2048         else {
2049             return _to_upper_title_latin1(TWO_BYTE_UTF8_TO_NATIVE(*p, *(p+1)),
2050                                           ustrp, lenp, 's');
2051         }
2052     }
2053     else {  /* UTF-8, ord above 255 */
2054         result = CALL_TITLE_CASE(p, ustrp, lenp);
2055
2056         if (flags) {
2057             result = check_locale_boundary_crossing(p, result, ustrp, lenp);
2058         }
2059         return result;
2060     }
2061
2062     /* Here, used locale rules.  Convert back to UTF-8 */
2063     if (UTF8_IS_INVARIANT(result)) {
2064         *ustrp = (U8) result;
2065         *lenp = 1;
2066     }
2067     else {
2068         *ustrp = UTF8_EIGHT_BIT_HI((U8) result);
2069         *(ustrp + 1) = UTF8_EIGHT_BIT_LO((U8) result);
2070         *lenp = 2;
2071     }
2072
2073     return result;
2074 }
2075
2076 /*
2077 =for apidoc to_utf8_lower
2078
2079 Instead use L</toLOWER_utf8>.
2080
2081 =cut */
2082
2083 /* Not currently externally documented, and subject to change:
2084  * <flags> is set iff iff the rules from the current underlying locale are to
2085  *         be used.
2086  */
2087
2088 UV
2089 Perl__to_utf8_lower_flags(pTHX_ const U8 *p, U8* ustrp, STRLEN *lenp, bool flags)
2090 {
2091     UV result;
2092
2093     PERL_ARGS_ASSERT__TO_UTF8_LOWER_FLAGS;
2094
2095     if (flags) {
2096         /* Treat a UTF-8 locale as not being in locale at all */
2097         if (IN_UTF8_CTYPE_LOCALE) {
2098             flags = FALSE;
2099         }
2100         else {
2101             _CHECK_AND_WARN_PROBLEMATIC_LOCALE;
2102         }
2103     }
2104
2105     if (UTF8_IS_INVARIANT(*p)) {
2106         if (flags) {
2107             result = toLOWER_LC(*p);
2108         }
2109         else {
2110             return to_lower_latin1(*p, ustrp, lenp);
2111         }
2112     }
2113     else if UTF8_IS_DOWNGRADEABLE_START(*p) {
2114         if (flags) {
2115             U8 c = TWO_BYTE_UTF8_TO_NATIVE(*p, *(p+1));
2116             result = toLOWER_LC(c);
2117         }
2118         else {
2119             return to_lower_latin1(TWO_BYTE_UTF8_TO_NATIVE(*p, *(p+1)),
2120                                    ustrp, lenp);
2121         }
2122     }
2123     else {  /* UTF-8, ord above 255 */
2124         result = CALL_LOWER_CASE(p, ustrp, lenp);
2125
2126         if (flags) {
2127             result = check_locale_boundary_crossing(p, result, ustrp, lenp);
2128         }
2129
2130         return result;
2131     }
2132
2133     /* Here, used locale rules.  Convert back to UTF-8 */
2134     if (UTF8_IS_INVARIANT(result)) {
2135         *ustrp = (U8) result;
2136         *lenp = 1;
2137     }
2138     else {
2139         *ustrp = UTF8_EIGHT_BIT_HI((U8) result);
2140         *(ustrp + 1) = UTF8_EIGHT_BIT_LO((U8) result);
2141         *lenp = 2;
2142     }
2143
2144     return result;
2145 }
2146
2147 /*
2148 =for apidoc to_utf8_fold
2149
2150 Instead use L</toFOLD_utf8>.
2151
2152 =cut */
2153
2154 /* Not currently externally documented, and subject to change,
2155  * in <flags>
2156  *      bit FOLD_FLAGS_LOCALE is set iff the rules from the current underlying
2157  *                            locale are to be used.
2158  *      bit FOLD_FLAGS_FULL   is set iff full case folds are to be used;
2159  *                            otherwise simple folds
2160  *      bit FOLD_FLAGS_NOMIX_ASCII is set iff folds of non-ASCII to ASCII are
2161  *                            prohibited
2162  */
2163
2164 UV
2165 Perl__to_utf8_fold_flags(pTHX_ const U8 *p, U8* ustrp, STRLEN *lenp, U8 flags)
2166 {
2167     UV result;
2168
2169     PERL_ARGS_ASSERT__TO_UTF8_FOLD_FLAGS;
2170
2171     /* These are mutually exclusive */
2172     assert (! ((flags & FOLD_FLAGS_LOCALE) && (flags & FOLD_FLAGS_NOMIX_ASCII)));
2173
2174     assert(p != ustrp); /* Otherwise overwrites */
2175
2176     if (flags & FOLD_FLAGS_LOCALE) {
2177         /* Treat a UTF-8 locale as not being in locale at all */
2178         if (IN_UTF8_CTYPE_LOCALE) {
2179             flags &= ~FOLD_FLAGS_LOCALE;
2180         }
2181         else {
2182             _CHECK_AND_WARN_PROBLEMATIC_LOCALE;
2183         }
2184     }
2185
2186     if (UTF8_IS_INVARIANT(*p)) {
2187         if (flags & FOLD_FLAGS_LOCALE) {
2188             result = toFOLD_LC(*p);
2189         }
2190         else {
2191             return _to_fold_latin1(*p, ustrp, lenp,
2192                             flags & (FOLD_FLAGS_FULL | FOLD_FLAGS_NOMIX_ASCII));
2193         }
2194     }
2195     else if UTF8_IS_DOWNGRADEABLE_START(*p) {
2196         if (flags & FOLD_FLAGS_LOCALE) {
2197             U8 c = TWO_BYTE_UTF8_TO_NATIVE(*p, *(p+1));
2198             result = toFOLD_LC(c);
2199         }
2200         else {
2201             return _to_fold_latin1(TWO_BYTE_UTF8_TO_NATIVE(*p, *(p+1)),
2202                             ustrp, lenp,
2203                             flags & (FOLD_FLAGS_FULL | FOLD_FLAGS_NOMIX_ASCII));
2204         }
2205     }
2206     else {  /* UTF-8, ord above 255 */
2207         result = CALL_FOLD_CASE(p, ustrp, lenp, flags & FOLD_FLAGS_FULL);
2208
2209         if (flags & FOLD_FLAGS_LOCALE) {
2210
2211 #           define LONG_S_T      LATIN_SMALL_LIGATURE_LONG_S_T_UTF8
2212             const unsigned int long_s_t_len    = sizeof(LONG_S_T) - 1;
2213
2214 #         ifdef LATIN_CAPITAL_LETTER_SHARP_S_UTF8
2215 #           define CAP_SHARP_S   LATIN_CAPITAL_LETTER_SHARP_S_UTF8
2216
2217             const unsigned int cap_sharp_s_len = sizeof(CAP_SHARP_S) - 1;
2218
2219             /* Special case these two characters, as what normally gets
2220              * returned under locale doesn't work */
2221             if (UTF8SKIP(p) == cap_sharp_s_len
2222                 && memEQ((char *) p, CAP_SHARP_S, cap_sharp_s_len))
2223             {
2224                 /* diag_listed_as: Can't do %s("%s") on non-UTF-8 locale; resolved to "%s". */
2225                 Perl_ck_warner(aTHX_ packWARN(WARN_LOCALE),
2226                               "Can't do fc(\"\\x{1E9E}\") on non-UTF-8 locale; "
2227                               "resolved to \"\\x{17F}\\x{17F}\".");
2228                 goto return_long_s;
2229             }
2230             else
2231 #endif
2232                  if (UTF8SKIP(p) == long_s_t_len
2233                      && memEQ((char *) p, LONG_S_T, long_s_t_len))
2234             {
2235                 /* diag_listed_as: Can't do %s("%s") on non-UTF-8 locale; resolved to "%s". */
2236                 Perl_ck_warner(aTHX_ packWARN(WARN_LOCALE),
2237                               "Can't do fc(\"\\x{FB05}\") on non-UTF-8 locale; "
2238                               "resolved to \"\\x{FB06}\".");
2239                 goto return_ligature_st;
2240             }
2241
2242 #if    UNICODE_MAJOR_VERSION   == 3         \
2243     && UNICODE_DOT_VERSION     == 0         \
2244     && UNICODE_DOT_DOT_VERSION == 1
2245 #           define DOTTED_I   LATIN_CAPITAL_LETTER_I_WITH_DOT_ABOVE_UTF8
2246
2247             /* And special case this on this Unicode version only, for the same
2248              * reaons the other two are special cased.  They would cross the
2249              * 255/256 boundary which is forbidden under /l, and so the code
2250              * wouldn't catch that they are equivalent (which they are only in
2251              * this release) */
2252             else if (UTF8SKIP(p) == sizeof(DOTTED_I) - 1
2253                      && memEQ((char *) p, DOTTED_I, sizeof(DOTTED_I) - 1))
2254             {
2255                 /* diag_listed_as: Can't do %s("%s") on non-UTF-8 locale; resolved to "%s". */
2256                 Perl_ck_warner(aTHX_ packWARN(WARN_LOCALE),
2257                               "Can't do fc(\"\\x{0130}\") on non-UTF-8 locale; "
2258                               "resolved to \"\\x{0131}\".");
2259                 goto return_dotless_i;
2260             }
2261 #endif
2262
2263             return check_locale_boundary_crossing(p, result, ustrp, lenp);
2264         }
2265         else if (! (flags & FOLD_FLAGS_NOMIX_ASCII)) {
2266             return result;
2267         }
2268         else {
2269             /* This is called when changing the case of a UTF-8-encoded
2270              * character above the ASCII range, and the result should not
2271              * contain an ASCII character. */
2272
2273             UV original;    /* To store the first code point of <p> */
2274
2275             /* Look at every character in the result; if any cross the
2276             * boundary, the whole thing is disallowed */
2277             U8* s = ustrp;
2278             U8* e = ustrp + *lenp;
2279             while (s < e) {
2280                 if (isASCII(*s)) {
2281                     /* Crossed, have to return the original */
2282                     original = valid_utf8_to_uvchr(p, lenp);
2283
2284                     /* But in these instances, there is an alternative we can
2285                      * return that is valid */
2286                     if (original == LATIN_SMALL_LETTER_SHARP_S
2287 #ifdef LATIN_CAPITAL_LETTER_SHARP_S /* not defined in early Unicode releases */
2288                         || original == LATIN_CAPITAL_LETTER_SHARP_S
2289 #endif
2290                     ) {
2291                         goto return_long_s;
2292                     }
2293                     else if (original == LATIN_SMALL_LIGATURE_LONG_S_T) {
2294                         goto return_ligature_st;
2295                     }
2296 #if    UNICODE_MAJOR_VERSION   == 3         \
2297     && UNICODE_DOT_VERSION     == 0         \
2298     && UNICODE_DOT_DOT_VERSION == 1
2299
2300                     else if (original == LATIN_CAPITAL_LETTER_I_WITH_DOT_ABOVE) {
2301                         goto return_dotless_i;
2302                     }
2303 #endif
2304                     Copy(p, ustrp, *lenp, char);
2305                     return original;
2306                 }
2307                 s += UTF8SKIP(s);
2308             }
2309
2310             /* Here, no characters crossed, result is ok as-is */
2311             return result;
2312         }
2313     }
2314
2315     /* Here, used locale rules.  Convert back to UTF-8 */
2316     if (UTF8_IS_INVARIANT(result)) {
2317         *ustrp = (U8) result;
2318         *lenp = 1;
2319     }
2320     else {
2321         *ustrp = UTF8_EIGHT_BIT_HI((U8) result);
2322         *(ustrp + 1) = UTF8_EIGHT_BIT_LO((U8) result);
2323         *lenp = 2;
2324     }
2325
2326     return result;
2327
2328   return_long_s:
2329     /* Certain folds to 'ss' are prohibited by the options, but they do allow
2330      * folds to a string of two of these characters.  By returning this
2331      * instead, then, e.g.,
2332      *      fc("\x{1E9E}") eq fc("\x{17F}\x{17F}")
2333      * works. */
2334
2335     *lenp = 2 * sizeof(LATIN_SMALL_LETTER_LONG_S_UTF8) - 2;
2336     Copy(LATIN_SMALL_LETTER_LONG_S_UTF8 LATIN_SMALL_LETTER_LONG_S_UTF8,
2337         ustrp, *lenp, U8);
2338     return LATIN_SMALL_LETTER_LONG_S;
2339
2340   return_ligature_st:
2341     /* Two folds to 'st' are prohibited by the options; instead we pick one and
2342      * have the other one fold to it */
2343
2344     *lenp = sizeof(LATIN_SMALL_LIGATURE_ST_UTF8) - 1;
2345     Copy(LATIN_SMALL_LIGATURE_ST_UTF8, ustrp, *lenp, U8);
2346     return LATIN_SMALL_LIGATURE_ST;
2347
2348 #if    UNICODE_MAJOR_VERSION   == 3         \
2349     && UNICODE_DOT_VERSION     == 0         \
2350     && UNICODE_DOT_DOT_VERSION == 1
2351
2352   return_dotless_i:
2353     *lenp = sizeof(LATIN_SMALL_LETTER_DOTLESS_I_UTF8) - 1;
2354     Copy(LATIN_SMALL_LETTER_DOTLESS_I_UTF8, ustrp, *lenp, U8);
2355     return LATIN_SMALL_LETTER_DOTLESS_I;
2356
2357 #endif
2358
2359 }
2360
2361 /* Note:
2362  * Returns a "swash" which is a hash described in utf8.c:Perl_swash_fetch().
2363  * C<pkg> is a pointer to a package name for SWASHNEW, should be "utf8".
2364  * For other parameters, see utf8::SWASHNEW in lib/utf8_heavy.pl.
2365  */
2366
2367 SV*
2368 Perl_swash_init(pTHX_ const char* pkg, const char* name, SV *listsv, I32 minbits, I32 none)
2369 {
2370     PERL_ARGS_ASSERT_SWASH_INIT;
2371
2372     /* Returns a copy of a swash initiated by the called function.  This is the
2373      * public interface, and returning a copy prevents others from doing
2374      * mischief on the original */
2375
2376     return newSVsv(_core_swash_init(pkg, name, listsv, minbits, none, NULL, NULL));
2377 }
2378
2379 SV*
2380 Perl__core_swash_init(pTHX_ const char* pkg, const char* name, SV *listsv, I32 minbits, I32 none, SV* invlist, U8* const flags_p)
2381 {
2382
2383     /*NOTE NOTE NOTE - If you want to use "return" in this routine you MUST
2384      * use the following define */
2385
2386 #define CORE_SWASH_INIT_RETURN(x)   \
2387     PL_curpm= old_PL_curpm;         \
2388     return x
2389
2390     /* Initialize and return a swash, creating it if necessary.  It does this
2391      * by calling utf8_heavy.pl in the general case.  The returned value may be
2392      * the swash's inversion list instead if the input parameters allow it.
2393      * Which is returned should be immaterial to callers, as the only
2394      * operations permitted on a swash, swash_fetch(), _get_swash_invlist(),
2395      * and swash_to_invlist() handle both these transparently.
2396      *
2397      * This interface should only be used by functions that won't destroy or
2398      * adversely change the swash, as doing so affects all other uses of the
2399      * swash in the program; the general public should use 'Perl_swash_init'
2400      * instead.
2401      *
2402      * pkg  is the name of the package that <name> should be in.
2403      * name is the name of the swash to find.  Typically it is a Unicode
2404      *      property name, including user-defined ones
2405      * listsv is a string to initialize the swash with.  It must be of the form
2406      *      documented as the subroutine return value in
2407      *      L<perlunicode/User-Defined Character Properties>
2408      * minbits is the number of bits required to represent each data element.
2409      *      It is '1' for binary properties.
2410      * none I (khw) do not understand this one, but it is used only in tr///.
2411      * invlist is an inversion list to initialize the swash with (or NULL)
2412      * flags_p if non-NULL is the address of various input and output flag bits
2413      *      to the routine, as follows:  ('I' means is input to the routine;
2414      *      'O' means output from the routine.  Only flags marked O are
2415      *      meaningful on return.)
2416      *  _CORE_SWASH_INIT_USER_DEFINED_PROPERTY indicates if the swash
2417      *      came from a user-defined property.  (I O)
2418      *  _CORE_SWASH_INIT_RETURN_IF_UNDEF indicates that instead of croaking
2419      *      when the swash cannot be located, to simply return NULL. (I)
2420      *  _CORE_SWASH_INIT_ACCEPT_INVLIST indicates that the caller will accept a
2421      *      return of an inversion list instead of a swash hash if this routine
2422      *      thinks that would result in faster execution of swash_fetch() later
2423      *      on. (I)
2424      *
2425      * Thus there are three possible inputs to find the swash: <name>,
2426      * <listsv>, and <invlist>.  At least one must be specified.  The result
2427      * will be the union of the specified ones, although <listsv>'s various
2428      * actions can intersect, etc. what <name> gives.  To avoid going out to
2429      * disk at all, <invlist> should specify completely what the swash should
2430      * have, and <listsv> should be &PL_sv_undef and <name> should be "".
2431      *
2432      * <invlist> is only valid for binary properties */
2433
2434     PMOP *old_PL_curpm= PL_curpm; /* save away the old PL_curpm */
2435
2436     SV* retval = &PL_sv_undef;
2437     HV* swash_hv = NULL;
2438     const int invlist_swash_boundary =
2439         (flags_p && *flags_p & _CORE_SWASH_INIT_ACCEPT_INVLIST)
2440         ? 512    /* Based on some benchmarking, but not extensive, see commit
2441                     message */
2442         : -1;   /* Never return just an inversion list */
2443
2444     assert(listsv != &PL_sv_undef || strNE(name, "") || invlist);
2445     assert(! invlist || minbits == 1);
2446
2447     PL_curpm= NULL; /* reset PL_curpm so that we dont get confused between the regex
2448                        that triggered the swash init and the swash init perl logic itself.
2449                        See perl #122747 */
2450
2451     /* If data was passed in to go out to utf8_heavy to find the swash of, do
2452      * so */
2453     if (listsv != &PL_sv_undef || strNE(name, "")) {
2454         dSP;
2455         const size_t pkg_len = strlen(pkg);
2456         const size_t name_len = strlen(name);
2457         HV * const stash = gv_stashpvn(pkg, pkg_len, 0);
2458         SV* errsv_save;
2459         GV *method;
2460
2461         PERL_ARGS_ASSERT__CORE_SWASH_INIT;
2462
2463         PUSHSTACKi(PERLSI_MAGIC);
2464         ENTER;
2465         SAVEHINTS();
2466         save_re_context();
2467         /* We might get here via a subroutine signature which uses a utf8
2468          * parameter name, at which point PL_subname will have been set
2469          * but not yet used. */
2470         save_item(PL_subname);
2471         if (PL_parser && PL_parser->error_count)
2472             SAVEI8(PL_parser->error_count), PL_parser->error_count = 0;
2473         method = gv_fetchmeth(stash, "SWASHNEW", 8, -1);
2474         if (!method) {  /* demand load UTF-8 */
2475             ENTER;
2476             if ((errsv_save = GvSV(PL_errgv))) SAVEFREESV(errsv_save);
2477             GvSV(PL_errgv) = NULL;
2478 #ifndef NO_TAINT_SUPPORT
2479             /* It is assumed that callers of this routine are not passing in
2480              * any user derived data.  */
2481             /* Need to do this after save_re_context() as it will set
2482              * PL_tainted to 1 while saving $1 etc (see the code after getrx:
2483              * in Perl_magic_get).  Even line to create errsv_save can turn on
2484              * PL_tainted.  */
2485             SAVEBOOL(TAINT_get);
2486             TAINT_NOT;
2487 #endif
2488             Perl_load_module(aTHX_ PERL_LOADMOD_NOIMPORT, newSVpvn(pkg,pkg_len),
2489                              NULL);
2490             {
2491                 /* Not ERRSV, as there is no need to vivify a scalar we are
2492                    about to discard. */
2493                 SV * const errsv = GvSV(PL_errgv);
2494                 if (!SvTRUE(errsv)) {
2495                     GvSV(PL_errgv) = SvREFCNT_inc_simple(errsv_save);
2496                     SvREFCNT_dec(errsv);
2497                 }
2498             }
2499             LEAVE;
2500         }
2501         SPAGAIN;
2502         PUSHMARK(SP);
2503         EXTEND(SP,5);
2504         mPUSHp(pkg, pkg_len);
2505         mPUSHp(name, name_len);
2506         PUSHs(listsv);
2507         mPUSHi(minbits);
2508         mPUSHi(none);
2509         PUTBACK;
2510         if ((errsv_save = GvSV(PL_errgv))) SAVEFREESV(errsv_save);
2511         GvSV(PL_errgv) = NULL;
2512         /* If we already have a pointer to the method, no need to use
2513          * call_method() to repeat the lookup.  */
2514         if (method
2515             ? call_sv(MUTABLE_SV(method), G_SCALAR)
2516             : call_sv(newSVpvs_flags("SWASHNEW", SVs_TEMP), G_SCALAR | G_METHOD))
2517         {
2518             retval = *PL_stack_sp--;
2519             SvREFCNT_inc(retval);
2520         }
2521         {
2522             /* Not ERRSV.  See above. */
2523             SV * const errsv = GvSV(PL_errgv);
2524             if (!SvTRUE(errsv)) {
2525                 GvSV(PL_errgv) = SvREFCNT_inc_simple(errsv_save);
2526                 SvREFCNT_dec(errsv);
2527             }
2528         }
2529         LEAVE;
2530         POPSTACK;
2531         if (IN_PERL_COMPILETIME) {
2532             CopHINTS_set(PL_curcop, PL_hints);
2533         }
2534         if (!SvROK(retval) || SvTYPE(SvRV(retval)) != SVt_PVHV) {
2535             if (SvPOK(retval))
2536
2537                 /* If caller wants to handle missing properties, let them */
2538                 if (flags_p && *flags_p & _CORE_SWASH_INIT_RETURN_IF_UNDEF) {
2539                     CORE_SWASH_INIT_RETURN(NULL);
2540                 }
2541                 Perl_croak(aTHX_
2542                            "Can't find Unicode property definition \"%"SVf"\"",
2543                            SVfARG(retval));
2544                 NOT_REACHED; /* NOTREACHED */
2545         }
2546     } /* End of calling the module to find the swash */
2547
2548     /* If this operation fetched a swash, and we will need it later, get it */
2549     if (retval != &PL_sv_undef
2550         && (minbits == 1 || (flags_p
2551                             && ! (*flags_p
2552                                   & _CORE_SWASH_INIT_USER_DEFINED_PROPERTY))))
2553     {
2554         swash_hv = MUTABLE_HV(SvRV(retval));
2555
2556         /* If we don't already know that there is a user-defined component to
2557          * this swash, and the user has indicated they wish to know if there is
2558          * one (by passing <flags_p>), find out */
2559         if (flags_p && ! (*flags_p & _CORE_SWASH_INIT_USER_DEFINED_PROPERTY)) {
2560             SV** user_defined = hv_fetchs(swash_hv, "USER_DEFINED", FALSE);
2561             if (user_defined && SvUV(*user_defined)) {
2562                 *flags_p |= _CORE_SWASH_INIT_USER_DEFINED_PROPERTY;
2563             }
2564         }
2565     }
2566
2567     /* Make sure there is an inversion list for binary properties */
2568     if (minbits == 1) {
2569         SV** swash_invlistsvp = NULL;
2570         SV* swash_invlist = NULL;
2571         bool invlist_in_swash_is_valid = FALSE;
2572         bool swash_invlist_unclaimed = FALSE; /* whether swash_invlist has
2573                                             an unclaimed reference count */
2574
2575         /* If this operation fetched a swash, get its already existing
2576          * inversion list, or create one for it */
2577
2578         if (swash_hv) {
2579             swash_invlistsvp = hv_fetchs(swash_hv, "V", FALSE);
2580             if (swash_invlistsvp) {
2581                 swash_invlist = *swash_invlistsvp;
2582                 invlist_in_swash_is_valid = TRUE;
2583             }
2584             else {
2585                 swash_invlist = _swash_to_invlist(retval);
2586                 swash_invlist_unclaimed = TRUE;
2587             }
2588         }
2589
2590         /* If an inversion list was passed in, have to include it */
2591         if (invlist) {
2592
2593             /* Any fetched swash will by now have an inversion list in it;
2594              * otherwise <swash_invlist>  will be NULL, indicating that we
2595              * didn't fetch a swash */
2596             if (swash_invlist) {
2597
2598                 /* Add the passed-in inversion list, which invalidates the one
2599                  * already stored in the swash */
2600                 invlist_in_swash_is_valid = FALSE;
2601                 _invlist_union(invlist, swash_invlist, &swash_invlist);
2602             }
2603             else {
2604
2605                 /* Here, there is no swash already.  Set up a minimal one, if
2606                  * we are going to return a swash */
2607                 if ((int) _invlist_len(invlist) > invlist_swash_boundary) {
2608                     swash_hv = newHV();
2609                     retval = newRV_noinc(MUTABLE_SV(swash_hv));
2610                 }
2611                 swash_invlist = invlist;
2612             }
2613         }
2614
2615         /* Here, we have computed the union of all the passed-in data.  It may
2616          * be that there was an inversion list in the swash which didn't get
2617          * touched; otherwise save the computed one */
2618         if (! invlist_in_swash_is_valid
2619             && (int) _invlist_len(swash_invlist) > invlist_swash_boundary)
2620         {
2621             if (! hv_stores(MUTABLE_HV(SvRV(retval)), "V", swash_invlist))
2622             {
2623                 Perl_croak(aTHX_ "panic: hv_store() unexpectedly failed");
2624             }
2625             /* We just stole a reference count. */
2626             if (swash_invlist_unclaimed) swash_invlist_unclaimed = FALSE;
2627             else SvREFCNT_inc_simple_void_NN(swash_invlist);
2628         }
2629
2630         SvREADONLY_on(swash_invlist);
2631
2632         /* Use the inversion list stand-alone if small enough */
2633         if ((int) _invlist_len(swash_invlist) <= invlist_swash_boundary) {
2634             SvREFCNT_dec(retval);
2635             if (!swash_invlist_unclaimed)
2636                 SvREFCNT_inc_simple_void_NN(swash_invlist);
2637             retval = newRV_noinc(swash_invlist);
2638         }
2639     }
2640
2641     CORE_SWASH_INIT_RETURN(retval);
2642 #undef CORE_SWASH_INIT_RETURN
2643 }
2644
2645
2646 /* This API is wrong for special case conversions since we may need to
2647  * return several Unicode characters for a single Unicode character
2648  * (see lib/unicore/SpecCase.txt) The SWASHGET in lib/utf8_heavy.pl is
2649  * the lower-level routine, and it is similarly broken for returning
2650  * multiple values.  --jhi
2651  * For those, you should use to_utf8_case() instead */
2652 /* Now SWASHGET is recasted into S_swatch_get in this file. */
2653
2654 /* Note:
2655  * Returns the value of property/mapping C<swash> for the first character
2656  * of the string C<ptr>. If C<do_utf8> is true, the string C<ptr> is
2657  * assumed to be in well-formed UTF-8. If C<do_utf8> is false, the string C<ptr>
2658  * is assumed to be in native 8-bit encoding. Caches the swatch in C<swash>.
2659  *
2660  * A "swash" is a hash which contains initially the keys/values set up by
2661  * SWASHNEW.  The purpose is to be able to completely represent a Unicode
2662  * property for all possible code points.  Things are stored in a compact form
2663  * (see utf8_heavy.pl) so that calculation is required to find the actual
2664  * property value for a given code point.  As code points are looked up, new
2665  * key/value pairs are added to the hash, so that the calculation doesn't have
2666  * to ever be re-done.  Further, each calculation is done, not just for the
2667  * desired one, but for a whole block of code points adjacent to that one.
2668  * For binary properties on ASCII machines, the block is usually for 64 code
2669  * points, starting with a code point evenly divisible by 64.  Thus if the
2670  * property value for code point 257 is requested, the code goes out and
2671  * calculates the property values for all 64 code points between 256 and 319,
2672  * and stores these as a single 64-bit long bit vector, called a "swatch",
2673  * under the key for code point 256.  The key is the UTF-8 encoding for code
2674  * point 256, minus the final byte.  Thus, if the length of the UTF-8 encoding
2675  * for a code point is 13 bytes, the key will be 12 bytes long.  If the value
2676  * for code point 258 is then requested, this code realizes that it would be
2677  * stored under the key for 256, and would find that value and extract the
2678  * relevant bit, offset from 256.
2679  *
2680  * Non-binary properties are stored in as many bits as necessary to represent
2681  * their values (32 currently, though the code is more general than that), not
2682  * as single bits, but the principal is the same: the value for each key is a
2683  * vector that encompasses the property values for all code points whose UTF-8
2684  * representations are represented by the key.  That is, for all code points
2685  * whose UTF-8 representations are length N bytes, and the key is the first N-1
2686  * bytes of that.
2687  */
2688 UV
2689 Perl_swash_fetch(pTHX_ SV *swash, const U8 *ptr, bool do_utf8)
2690 {
2691     HV *const hv = MUTABLE_HV(SvRV(swash));
2692     U32 klen;
2693     U32 off;
2694     STRLEN slen = 0;
2695     STRLEN needents;
2696     const U8 *tmps = NULL;
2697     SV *swatch;
2698     const U8 c = *ptr;
2699
2700     PERL_ARGS_ASSERT_SWASH_FETCH;
2701
2702     /* If it really isn't a hash, it isn't really swash; must be an inversion
2703      * list */
2704     if (SvTYPE(hv) != SVt_PVHV) {
2705         return _invlist_contains_cp((SV*)hv,
2706                                     (do_utf8)
2707                                      ? valid_utf8_to_uvchr(ptr, NULL)
2708                                      : c);
2709     }
2710
2711     /* We store the values in a "swatch" which is a vec() value in a swash
2712      * hash.  Code points 0-255 are a single vec() stored with key length
2713      * (klen) 0.  All other code points have a UTF-8 representation
2714      * 0xAA..0xYY,0xZZ.  A vec() is constructed containing all of them which
2715      * share 0xAA..0xYY, which is the key in the hash to that vec.  So the key
2716      * length for them is the length of the encoded char - 1.  ptr[klen] is the
2717      * final byte in the sequence representing the character */
2718     if (!do_utf8 || UTF8_IS_INVARIANT(c)) {
2719         klen = 0;
2720         needents = 256;
2721         off = c;
2722     }
2723     else if (UTF8_IS_DOWNGRADEABLE_START(c)) {
2724         klen = 0;
2725         needents = 256;
2726         off = TWO_BYTE_UTF8_TO_NATIVE(c, *(ptr + 1));
2727     }
2728     else {
2729         klen = UTF8SKIP(ptr) - 1;
2730
2731         /* Each vec() stores 2**UTF_ACCUMULATION_SHIFT values.  The offset into
2732          * the vec is the final byte in the sequence.  (In EBCDIC this is
2733          * converted to I8 to get consecutive values.)  To help you visualize
2734          * all this:
2735          *                       Straight 1047   After final byte
2736          *             UTF-8      UTF-EBCDIC     I8 transform
2737          *  U+0400:  \xD0\x80    \xB8\x41\x41    \xB8\x41\xA0
2738          *  U+0401:  \xD0\x81    \xB8\x41\x42    \xB8\x41\xA1
2739          *    ...
2740          *  U+0409:  \xD0\x89    \xB8\x41\x4A    \xB8\x41\xA9
2741          *  U+040A:  \xD0\x8A    \xB8\x41\x51    \xB8\x41\xAA
2742          *    ...
2743          *  U+0412:  \xD0\x92    \xB8\x41\x59    \xB8\x41\xB2
2744          *  U+0413:  \xD0\x93    \xB8\x41\x62    \xB8\x41\xB3
2745          *    ...
2746          *  U+041B:  \xD0\x9B    \xB8\x41\x6A    \xB8\x41\xBB
2747          *  U+041C:  \xD0\x9C    \xB8\x41\x70    \xB8\x41\xBC
2748          *    ...
2749          *  U+041F:  \xD0\x9F    \xB8\x41\x73    \xB8\x41\xBF
2750          *  U+0420:  \xD0\xA0    \xB8\x42\x41    \xB8\x42\x41
2751          *
2752          * (There are no discontinuities in the elided (...) entries.)
2753          * The UTF-8 key for these 33 code points is '\xD0' (which also is the
2754          * key for the next 31, up through U+043F, whose UTF-8 final byte is
2755          * \xBF).  Thus in UTF-8, each key is for a vec() for 64 code points.
2756          * The final UTF-8 byte, which ranges between \x80 and \xBF, is an
2757          * index into the vec() swatch (after subtracting 0x80, which we
2758          * actually do with an '&').
2759          * In UTF-EBCDIC, each key is for a 32 code point vec().  The first 32
2760          * code points above have key '\xB8\x41'. The final UTF-EBCDIC byte has
2761          * dicontinuities which go away by transforming it into I8, and we
2762          * effectively subtract 0xA0 to get the index. */
2763         needents = (1 << UTF_ACCUMULATION_SHIFT);
2764         off      = NATIVE_UTF8_TO_I8(ptr[klen]) & UTF_CONTINUATION_MASK;
2765     }
2766
2767     /*
2768      * This single-entry cache saves about 1/3 of the UTF-8 overhead in test
2769      * suite.  (That is, only 7-8% overall over just a hash cache.  Still,
2770      * it's nothing to sniff at.)  Pity we usually come through at least
2771      * two function calls to get here...
2772      *
2773      * NB: this code assumes that swatches are never modified, once generated!
2774      */
2775
2776     if (hv   == PL_last_swash_hv &&
2777         klen == PL_last_swash_klen &&
2778         (!klen || memEQ((char *)ptr, (char *)PL_last_swash_key, klen)) )
2779     {
2780         tmps = PL_last_swash_tmps;
2781         slen = PL_last_swash_slen;
2782     }
2783     else {
2784         /* Try our second-level swatch cache, kept in a hash. */
2785         SV** svp = hv_fetch(hv, (const char*)ptr, klen, FALSE);
2786
2787         /* If not cached, generate it via swatch_get */
2788         if (!svp || !SvPOK(*svp)
2789                  || !(tmps = (const U8*)SvPV_const(*svp, slen)))
2790         {
2791             if (klen) {
2792                 const UV code_point = valid_utf8_to_uvchr(ptr, NULL);
2793                 swatch = swatch_get(swash,
2794                                     code_point & ~((UV)needents - 1),
2795                                     needents);
2796             }
2797             else {  /* For the first 256 code points, the swatch has a key of
2798                        length 0 */
2799                 swatch = swatch_get(swash, 0, needents);
2800             }
2801
2802             if (IN_PERL_COMPILETIME)
2803                 CopHINTS_set(PL_curcop, PL_hints);
2804
2805             svp = hv_store(hv, (const char *)ptr, klen, swatch, 0);
2806
2807             if (!svp || !(tmps = (U8*)SvPV(*svp, slen))
2808                      || (slen << 3) < needents)
2809                 Perl_croak(aTHX_ "panic: swash_fetch got improper swatch, "
2810                            "svp=%p, tmps=%p, slen=%"UVuf", needents=%"UVuf,
2811                            svp, tmps, (UV)slen, (UV)needents);
2812         }
2813
2814         PL_last_swash_hv = hv;
2815         assert(klen <= sizeof(PL_last_swash_key));
2816         PL_last_swash_klen = (U8)klen;
2817         /* FIXME change interpvar.h?  */
2818         PL_last_swash_tmps = (U8 *) tmps;
2819         PL_last_swash_slen = slen;
2820         if (klen)
2821             Copy(ptr, PL_last_swash_key, klen, U8);
2822     }
2823
2824     switch ((int)((slen << 3) / needents)) {
2825     case 1:
2826         return ((UV) tmps[off >> 3] & (1 << (off & 7))) != 0;
2827     case 8:
2828         return ((UV) tmps[off]);
2829     case 16:
2830         off <<= 1;
2831         return
2832             ((UV) tmps[off    ] << 8) +
2833             ((UV) tmps[off + 1]);
2834     case 32:
2835         off <<= 2;
2836         return
2837             ((UV) tmps[off    ] << 24) +
2838             ((UV) tmps[off + 1] << 16) +
2839             ((UV) tmps[off + 2] <<  8) +
2840             ((UV) tmps[off + 3]);
2841     }
2842     Perl_croak(aTHX_ "panic: swash_fetch got swatch of unexpected bit width, "
2843                "slen=%"UVuf", needents=%"UVuf, (UV)slen, (UV)needents);
2844     NORETURN_FUNCTION_END;
2845 }
2846
2847 /* Read a single line of the main body of the swash input text.  These are of
2848  * the form:
2849  * 0053 0056    0073
2850  * where each number is hex.  The first two numbers form the minimum and
2851  * maximum of a range, and the third is the value associated with the range.
2852  * Not all swashes should have a third number
2853  *
2854  * On input: l    points to the beginning of the line to be examined; it points
2855  *                to somewhere in the string of the whole input text, and is
2856  *                terminated by a \n or the null string terminator.
2857  *           lend   points to the null terminator of that string
2858  *           wants_value    is non-zero if the swash expects a third number
2859  *           typestr is the name of the swash's mapping, like 'ToLower'
2860  * On output: *min, *max, and *val are set to the values read from the line.
2861  *            returns a pointer just beyond the line examined.  If there was no
2862  *            valid min number on the line, returns lend+1
2863  */
2864
2865 STATIC U8*
2866 S_swash_scan_list_line(pTHX_ U8* l, U8* const lend, UV* min, UV* max, UV* val,
2867                              const bool wants_value, const U8* const typestr)
2868 {
2869     const int  typeto  = typestr[0] == 'T' && typestr[1] == 'o';
2870     STRLEN numlen;          /* Length of the number */
2871     I32 flags = PERL_SCAN_SILENT_ILLDIGIT
2872                 | PERL_SCAN_DISALLOW_PREFIX
2873                 | PERL_SCAN_SILENT_NON_PORTABLE;
2874
2875     /* nl points to the next \n in the scan */
2876     U8* const nl = (U8*)memchr(l, '\n', lend - l);
2877
2878     PERL_ARGS_ASSERT_SWASH_SCAN_LIST_LINE;
2879
2880     /* Get the first number on the line: the range minimum */
2881     numlen = lend - l;
2882     *min = grok_hex((char *)l, &numlen, &flags, NULL);
2883     *max = *min;    /* So can never return without setting max */
2884     if (numlen)     /* If found a hex number, position past it */
2885         l += numlen;
2886     else if (nl) {          /* Else, go handle next line, if any */
2887         return nl + 1;  /* 1 is length of "\n" */
2888     }
2889     else {              /* Else, no next line */
2890         return lend + 1;        /* to LIST's end at which \n is not found */
2891     }
2892
2893     /* The max range value follows, separated by a BLANK */
2894     if (isBLANK(*l)) {
2895         ++l;
2896         flags = PERL_SCAN_SILENT_ILLDIGIT
2897                 | PERL_SCAN_DISALLOW_PREFIX
2898                 | PERL_SCAN_SILENT_NON_PORTABLE;
2899         numlen = lend - l;
2900         *max = grok_hex((char *)l, &numlen, &flags, NULL);
2901         if (numlen)
2902             l += numlen;
2903         else    /* If no value here, it is a single element range */
2904             *max = *min;
2905
2906         /* Non-binary tables have a third entry: what the first element of the
2907          * range maps to.  The map for those currently read here is in hex */
2908         if (wants_value) {
2909             if (isBLANK(*l)) {
2910                 ++l;
2911                 flags = PERL_SCAN_SILENT_ILLDIGIT
2912                     | PERL_SCAN_DISALLOW_PREFIX
2913                     | PERL_SCAN_SILENT_NON_PORTABLE;
2914                 numlen = lend - l;
2915                 *val = grok_hex((char *)l, &numlen, &flags, NULL);
2916                 if (numlen)
2917                     l += numlen;
2918                 else
2919                     *val = 0;
2920             }
2921             else {
2922                 *val = 0;
2923                 if (typeto) {
2924                     /* diag_listed_as: To%s: illegal mapping '%s' */
2925                     Perl_croak(aTHX_ "%s: illegal mapping '%s'",
2926                                      typestr, l);
2927                 }
2928             }
2929         }
2930         else
2931             *val = 0; /* bits == 1, then any val should be ignored */
2932     }
2933     else { /* Nothing following range min, should be single element with no
2934               mapping expected */
2935         if (wants_value) {
2936             *val = 0;
2937             if (typeto) {
2938                 /* diag_listed_as: To%s: illegal mapping '%s' */
2939                 Perl_croak(aTHX_ "%s: illegal mapping '%s'", typestr, l);
2940             }
2941         }
2942         else
2943             *val = 0; /* bits == 1, then val should be ignored */
2944     }
2945
2946     /* Position to next line if any, or EOF */
2947     if (nl)
2948         l = nl + 1;
2949     else
2950         l = lend;
2951
2952     return l;
2953 }
2954
2955 /* Note:
2956  * Returns a swatch (a bit vector string) for a code point sequence
2957  * that starts from the value C<start> and comprises the number C<span>.
2958  * A C<swash> must be an object created by SWASHNEW (see lib/utf8_heavy.pl).
2959  * Should be used via swash_fetch, which will cache the swatch in C<swash>.
2960  */
2961 STATIC SV*
2962 S_swatch_get(pTHX_ SV* swash, UV start, UV span)
2963 {
2964     SV *swatch;
2965     U8 *l, *lend, *x, *xend, *s, *send;
2966     STRLEN lcur, xcur, scur;
2967     HV *const hv = MUTABLE_HV(SvRV(swash));
2968     SV** const invlistsvp = hv_fetchs(hv, "V", FALSE);
2969
2970     SV** listsvp = NULL; /* The string containing the main body of the table */
2971     SV** extssvp = NULL;
2972     SV** invert_it_svp = NULL;
2973     U8* typestr = NULL;
2974     STRLEN bits;
2975     STRLEN octets; /* if bits == 1, then octets == 0 */
2976     UV  none;
2977     UV  end = start + span;
2978
2979     if (invlistsvp == NULL) {
2980         SV** const bitssvp = hv_fetchs(hv, "BITS", FALSE);
2981         SV** const nonesvp = hv_fetchs(hv, "NONE", FALSE);
2982         SV** const typesvp = hv_fetchs(hv, "TYPE", FALSE);
2983         extssvp = hv_fetchs(hv, "EXTRAS", FALSE);
2984         listsvp = hv_fetchs(hv, "LIST", FALSE);
2985         invert_it_svp = hv_fetchs(hv, "INVERT_IT", FALSE);
2986
2987         bits  = SvUV(*bitssvp);
2988         none  = SvUV(*nonesvp);
2989         typestr = (U8*)SvPV_nolen(*typesvp);
2990     }
2991     else {
2992         bits = 1;
2993         none = 0;
2994     }
2995     octets = bits >> 3; /* if bits == 1, then octets == 0 */
2996
2997     PERL_ARGS_ASSERT_SWATCH_GET;
2998
2999     if (bits != 1 && bits != 8 && bits != 16 && bits != 32) {
3000         Perl_croak(aTHX_ "panic: swatch_get doesn't expect bits %"UVuf,
3001                                                  (UV)bits);
3002     }
3003
3004     /* If overflowed, use the max possible */
3005     if (end < start) {
3006         end = UV_MAX;
3007         span = end - start;
3008     }
3009
3010     /* create and initialize $swatch */
3011     scur   = octets ? (span * octets) : (span + 7) / 8;
3012     swatch = newSV(scur);
3013     SvPOK_on(swatch);
3014     s = (U8*)SvPVX(swatch);
3015     if (octets && none) {
3016         const U8* const e = s + scur;
3017         while (s < e) {
3018             if (bits == 8)
3019                 *s++ = (U8)(none & 0xff);
3020             else if (bits == 16) {
3021                 *s++ = (U8)((none >>  8) & 0xff);
3022                 *s++ = (U8)( none        & 0xff);
3023             }
3024             else if (bits == 32) {
3025                 *s++ = (U8)((none >> 24) & 0xff);
3026                 *s++ = (U8)((none >> 16) & 0xff);
3027                 *s++ = (U8)((none >>  8) & 0xff);
3028                 *s++ = (U8)( none        & 0xff);
3029             }
3030         }
3031         *s = '\0';
3032     }
3033     else {
3034         (void)memzero((U8*)s, scur + 1);
3035     }
3036     SvCUR_set(swatch, scur);
3037     s = (U8*)SvPVX(swatch);
3038
3039     if (invlistsvp) {   /* If has an inversion list set up use that */
3040         _invlist_populate_swatch(*invlistsvp, start, end, s);
3041         return swatch;
3042     }
3043
3044     /* read $swash->{LIST} */
3045     l = (U8*)SvPV(*listsvp, lcur);
3046     lend = l + lcur;
3047     while (l < lend) {
3048         UV min, max, val, upper;
3049         l = swash_scan_list_line(l, lend, &min, &max, &val,
3050                                                         cBOOL(octets), typestr);
3051         if (l > lend) {
3052             break;
3053         }
3054
3055         /* If looking for something beyond this range, go try the next one */
3056         if (max < start)
3057             continue;
3058
3059         /* <end> is generally 1 beyond where we want to set things, but at the
3060          * platform's infinity, where we can't go any higher, we want to
3061          * include the code point at <end> */
3062         upper = (max < end)
3063                 ? max
3064                 : (max != UV_MAX || end != UV_MAX)
3065                   ? end - 1
3066                   : end;
3067
3068         if (octets) {
3069             UV key;
3070             if (min < start) {
3071                 if (!none || val < none) {
3072                     val += start - min;
3073                 }
3074                 min = start;
3075             }
3076             for (key = min; key <= upper; key++) {
3077                 STRLEN offset;
3078                 /* offset must be non-negative (start <= min <= key < end) */
3079                 offset = octets * (key - start);
3080                 if (bits == 8)
3081                     s[offset] = (U8)(val & 0xff);
3082                 else if (bits == 16) {
3083                     s[offset    ] = (U8)((val >>  8) & 0xff);
3084                     s[offset + 1] = (U8)( val        & 0xff);
3085                 }
3086                 else if (bits == 32) {
3087                     s[offset    ] = (U8)((val >> 24) & 0xff);
3088                     s[offset + 1] = (U8)((val >> 16) & 0xff);
3089                     s[offset + 2] = (U8)((val >>  8) & 0xff);
3090                     s[offset + 3] = (U8)( val        & 0xff);
3091                 }
3092
3093                 if (!none || val < none)
3094                     ++val;
3095             }
3096         }
3097         else { /* bits == 1, then val should be ignored */
3098             UV key;
3099             if (min < start)
3100                 min = start;
3101
3102             for (key = min; key <= upper; key++) {
3103                 const STRLEN offset = (STRLEN)(key - start);
3104                 s[offset >> 3] |= 1 << (offset & 7);
3105             }
3106         }
3107     } /* while */
3108
3109     /* Invert if the data says it should be.  Assumes that bits == 1 */
3110     if (invert_it_svp && SvUV(*invert_it_svp)) {
3111
3112         /* Unicode properties should come with all bits above PERL_UNICODE_MAX
3113          * be 0, and their inversion should also be 0, as we don't succeed any
3114          * Unicode property matches for non-Unicode code points */
3115         if (start <= PERL_UNICODE_MAX) {
3116
3117             /* The code below assumes that we never cross the
3118              * Unicode/above-Unicode boundary in a range, as otherwise we would
3119              * have to figure out where to stop flipping the bits.  Since this
3120              * boundary is divisible by a large power of 2, and swatches comes
3121              * in small powers of 2, this should be a valid assumption */
3122             assert(start + span - 1 <= PERL_UNICODE_MAX);
3123
3124             send = s + scur;
3125             while (s < send) {
3126                 *s = ~(*s);
3127                 s++;
3128             }
3129         }
3130     }
3131
3132     /* read $swash->{EXTRAS}
3133      * This code also copied to swash_to_invlist() below */
3134     x = (U8*)SvPV(*extssvp, xcur);
3135     xend = x + xcur;
3136     while (x < xend) {
3137         STRLEN namelen;
3138         U8 *namestr;
3139         SV** othersvp;
3140         HV* otherhv;
3141         STRLEN otherbits;
3142         SV **otherbitssvp, *other;
3143         U8 *s, *o, *nl;
3144         STRLEN slen, olen;
3145
3146         const U8 opc = *x++;
3147         if (opc == '\n')
3148             continue;
3149
3150         nl = (U8*)memchr(x, '\n', xend - x);
3151
3152         if (opc != '-' && opc != '+' && opc != '!' && opc != '&') {
3153             if (nl) {
3154                 x = nl + 1; /* 1 is length of "\n" */
3155                 continue;
3156             }
3157             else {
3158                 x = xend; /* to EXTRAS' end at which \n is not found */
3159                 break;
3160             }
3161         }
3162
3163         namestr = x;
3164         if (nl) {
3165             namelen = nl - namestr;
3166             x = nl + 1;
3167         }
3168         else {
3169             namelen = xend - namestr;
3170             x = xend;
3171         }
3172
3173         othersvp = hv_fetch(hv, (char *)namestr, namelen, FALSE);
3174         otherhv = MUTABLE_HV(SvRV(*othersvp));
3175         otherbitssvp = hv_fetchs(otherhv, "BITS", FALSE);
3176         otherbits = (STRLEN)SvUV(*otherbitssvp);
3177         if (bits < otherbits)
3178             Perl_croak(aTHX_ "panic: swatch_get found swatch size mismatch, "
3179                        "bits=%"UVuf", otherbits=%"UVuf, (UV)bits, (UV)otherbits);
3180
3181         /* The "other" swatch must be destroyed after. */
3182         other = swatch_get(*othersvp, start, span);
3183         o = (U8*)SvPV(other, olen);
3184
3185         if (!olen)
3186             Perl_croak(aTHX_ "panic: swatch_get got improper swatch");
3187
3188         s = (U8*)SvPV(swatch, slen);
3189         if (bits == 1 && otherbits == 1) {
3190             if (slen != olen)
3191                 Perl_croak(aTHX_ "panic: swatch_get found swatch length "
3192                            "mismatch, slen=%"UVuf", olen=%"UVuf,
3193                            (UV)slen, (UV)olen);
3194
3195             switch (opc) {
3196             case '+':
3197                 while (slen--)
3198                     *s++ |= *o++;
3199                 break;
3200             case '!':
3201                 while (slen--)
3202                     *s++ |= ~*o++;
3203                 break;
3204             case '-':
3205                 while (slen--)
3206                     *s++ &= ~*o++;
3207                 break;
3208             case '&':
3209                 while (slen--)
3210                     *s++ &= *o++;
3211                 break;
3212             default:
3213                 break;
3214             }
3215         }
3216         else {
3217             STRLEN otheroctets = otherbits >> 3;
3218             STRLEN offset = 0;
3219             U8* const send = s + slen;
3220
3221             while (s < send) {
3222                 UV otherval = 0;
3223
3224                 if (otherbits == 1) {
3225                     otherval = (o[offset >> 3] >> (offset & 7)) & 1;
3226                     ++offset;
3227                 }
3228                 else {
3229                     STRLEN vlen = otheroctets;
3230                     otherval = *o++;
3231                     while (--vlen) {
3232                         otherval <<= 8;
3233                         otherval |= *o++;
3234                     }
3235                 }
3236
3237                 if (opc == '+' && otherval)
3238                     NOOP;   /* replace with otherval */
3239                 else if (opc == '!' && !otherval)
3240                     otherval = 1;
3241                 else if (opc == '-' && otherval)
3242                     otherval = 0;
3243                 else if (opc == '&' && !otherval)
3244                     otherval = 0;
3245                 else {
3246                     s += octets; /* no replacement */
3247                     continue;
3248                 }
3249
3250                 if (bits == 8)
3251                     *s++ = (U8)( otherval & 0xff);
3252                 else if (bits == 16) {
3253                     *s++ = (U8)((otherval >>  8) & 0xff);
3254                     *s++ = (U8)( otherval        & 0xff);
3255                 }
3256                 else if (bits == 32) {
3257                     *s++ = (U8)((otherval >> 24) & 0xff);
3258                     *s++ = (U8)((otherval >> 16) & 0xff);
3259                     *s++ = (U8)((otherval >>  8) & 0xff);
3260                     *s++ = (U8)( otherval        & 0xff);
3261                 }
3262             }
3263         }
3264         sv_free(other); /* through with it! */
3265     } /* while */
3266     return swatch;
3267 }
3268
3269 HV*
3270 Perl__swash_inversion_hash(pTHX_ SV* const swash)
3271 {
3272
3273    /* Subject to change or removal.  For use only in regcomp.c and regexec.c
3274     * Can't be used on a property that is subject to user override, as it
3275     * relies on the value of SPECIALS in the swash which would be set by
3276     * utf8_heavy.pl to the hash in the non-overriden file, and hence is not set
3277     * for overridden properties
3278     *
3279     * Returns a hash which is the inversion and closure of a swash mapping.
3280     * For example, consider the input lines:
3281     * 004B              006B
3282     * 004C              006C
3283     * 212A              006B
3284     *
3285     * The returned hash would have two keys, the UTF-8 for 006B and the UTF-8 for
3286     * 006C.  The value for each key is an array.  For 006C, the array would
3287     * have two elements, the UTF-8 for itself, and for 004C.  For 006B, there
3288     * would be three elements in its array, the UTF-8 for 006B, 004B and 212A.
3289     *
3290     * Note that there are no elements in the hash for 004B, 004C, 212A.  The
3291     * keys are only code points that are folded-to, so it isn't a full closure.
3292     *
3293     * Essentially, for any code point, it gives all the code points that map to
3294     * it, or the list of 'froms' for that point.
3295     *
3296     * Currently it ignores any additions or deletions from other swashes,
3297     * looking at just the main body of the swash, and if there are SPECIALS
3298     * in the swash, at that hash
3299     *
3300     * The specials hash can be extra code points, and most likely consists of
3301     * maps from single code points to multiple ones (each expressed as a string
3302     * of UTF-8 characters).   This function currently returns only 1-1 mappings.
3303     * However consider this possible input in the specials hash:
3304     * "\xEF\xAC\x85" => "\x{0073}\x{0074}",         # U+FB05 => 0073 0074
3305     * "\xEF\xAC\x86" => "\x{0073}\x{0074}",         # U+FB06 => 0073 0074
3306     *
3307     * Both FB05 and FB06 map to the same multi-char sequence, which we don't
3308     * currently handle.  But it also means that FB05 and FB06 are equivalent in
3309     * a 1-1 mapping which we should handle, and this relationship may not be in
3310     * the main table.  Therefore this function examines all the multi-char
3311     * sequences and adds the 1-1 mappings that come out of that.
3312     *
3313     * XXX This function was originally intended to be multipurpose, but its
3314     * only use is quite likely to remain for constructing the inversion of
3315     * the CaseFolding (//i) property.  If it were more general purpose for
3316     * regex patterns, it would have to do the FB05/FB06 game for simple folds,
3317     * because certain folds are prohibited under /iaa and /il.  As an example,
3318     * in Unicode 3.0.1 both U+0130 and U+0131 fold to 'i', and hence are both
3319     * equivalent under /i.  But under /iaa and /il, the folds to 'i' are
3320     * prohibited, so we would not figure out that they fold to each other.
3321     * Code could be written to automatically figure this out, similar to the
3322     * code that does this for multi-character folds, but this is the only case
3323     * where something like this is ever likely to happen, as all the single
3324     * char folds to The 0-255 range are now quite settled.  Instead there is a
3325     * little special code that is compiled only for this Unicode version.  This
3326     * is smaller and didn't require much coding time to do.  But this makes
3327     * this routine strongly tied to being used just for CaseFolding.  If ever
3328     * it should be generalized, this would have to be fixed */
3329
3330     U8 *l, *lend;
3331     STRLEN lcur;
3332     HV *const hv = MUTABLE_HV(SvRV(swash));
3333
3334     /* The string containing the main body of the table.  This will have its
3335      * assertion fail if the swash has been converted to its inversion list */
3336     SV** const listsvp = hv_fetchs(hv, "LIST", FALSE);
3337
3338     SV** const typesvp = hv_fetchs(hv, "TYPE", FALSE);
3339     SV** const bitssvp = hv_fetchs(hv, "BITS", FALSE);
3340     SV** const nonesvp = hv_fetchs(hv, "NONE", FALSE);
3341     /*SV** const extssvp = hv_fetchs(hv, "EXTRAS", FALSE);*/
3342     const U8* const typestr = (U8*)SvPV_nolen(*typesvp);
3343     const STRLEN bits  = SvUV(*bitssvp);
3344     const STRLEN octets = bits >> 3; /* if bits == 1, then octets == 0 */
3345     const UV     none  = SvUV(*nonesvp);
3346     SV **specials_p = hv_fetchs(hv, "SPECIALS", 0);
3347
3348     HV* ret = newHV();
3349
3350     PERL_ARGS_ASSERT__SWASH_INVERSION_HASH;
3351
3352     /* Must have at least 8 bits to get the mappings */
3353     if (bits != 8 && bits != 16 && bits != 32) {
3354         Perl_croak(aTHX_ "panic: swash_inversion_hash doesn't expect bits %"UVuf,
3355                                                  (UV)bits);
3356     }
3357
3358     if (specials_p) { /* It might be "special" (sometimes, but not always, a
3359                         mapping to more than one character */
3360
3361         /* Construct an inverse mapping hash for the specials */
3362         HV * const specials_hv = MUTABLE_HV(SvRV(*specials_p));
3363         HV * specials_inverse = newHV();
3364         char *char_from; /* the lhs of the map */
3365         I32 from_len;   /* its byte length */
3366         char *char_to;  /* the rhs of the map */
3367         I32 to_len;     /* its byte length */
3368         SV *sv_to;      /* and in a sv */
3369         AV* from_list;  /* list of things that map to each 'to' */
3370
3371         hv_iterinit(specials_hv);
3372
3373         /* The keys are the characters (in UTF-8) that map to the corresponding
3374          * UTF-8 string value.  Iterate through the list creating the inverse
3375          * list. */
3376         while ((sv_to = hv_iternextsv(specials_hv, &char_from, &from_len))) {
3377             SV** listp;
3378             if (! SvPOK(sv_to)) {
3379                 Perl_croak(aTHX_ "panic: value returned from hv_iternextsv() "
3380                            "unexpectedly is not a string, flags=%lu",
3381                            (unsigned long)SvFLAGS(sv_to));
3382             }
3383             /*DEBUG_U(PerlIO_printf(Perl_debug_log, "Found mapping from %"UVXf", First char of to is %"UVXf"\n", valid_utf8_to_uvchr((U8*) char_from, 0), valid_utf8_to_uvchr((U8*) SvPVX(sv_to), 0)));*/
3384
3385             /* Each key in the inverse list is a mapped-to value, and the key's
3386              * hash value is a list of the strings (each in UTF-8) that map to
3387              * it.  Those strings are all one character long */
3388             if ((listp = hv_fetch(specials_inverse,
3389                                     SvPVX(sv_to),
3390                                     SvCUR(sv_to), 0)))
3391             {
3392                 from_list = (AV*) *listp;
3393             }
3394             else { /* No entry yet for it: create one */
3395                 from_list = newAV();
3396                 if (! hv_store(specials_inverse,
3397                                 SvPVX(sv_to),
3398                                 SvCUR(sv_to),
3399                                 (SV*) from_list, 0))
3400                 {
3401                     Perl_croak(aTHX_ "panic: hv_store() unexpectedly failed");
3402                 }
3403             }
3404
3405             /* Here have the list associated with this 'to' (perhaps newly
3406              * created and empty).  Just add to it.  Note that we ASSUME that
3407              * the input is guaranteed to not have duplications, so we don't
3408              * check for that.  Duplications just slow down execution time. */
3409             av_push(from_list, newSVpvn_utf8(char_from, from_len, TRUE));
3410         }
3411
3412         /* Here, 'specials_inverse' contains the inverse mapping.  Go through
3413          * it looking for cases like the FB05/FB06 examples above.  There would
3414          * be an entry in the hash like
3415         *       'st' => [ FB05, FB06 ]
3416         * In this example we will create two lists that get stored in the
3417         * returned hash, 'ret':
3418         *       FB05 => [ FB05, FB06 ]
3419         *       FB06 => [ FB05, FB06 ]
3420         *
3421         * Note that there is nothing to do if the array only has one element.
3422         * (In the normal 1-1 case handled below, we don't have to worry about
3423         * two lists, as everything gets tied to the single list that is
3424         * generated for the single character 'to'.  But here, we are omitting
3425         * that list, ('st' in the example), so must have multiple lists.) */
3426         while ((from_list = (AV *) hv_iternextsv(specials_inverse,
3427                                                  &char_to, &to_len)))
3428         {
3429             if (av_tindex(from_list) > 0) {
3430                 SSize_t i;
3431
3432                 /* We iterate over all combinations of i,j to place each code
3433                  * point on each list */
3434                 for (i = 0; i <= av_tindex(from_list); i++) {
3435                     SSize_t j;
3436                     AV* i_list = newAV();
3437                     SV** entryp = av_fetch(from_list, i, FALSE);
3438                     if (entryp == NULL) {
3439                         Perl_croak(aTHX_ "panic: av_fetch() unexpectedly failed");
3440                     }
3441                     if (hv_fetch(ret, SvPVX(*entryp), SvCUR(*entryp), FALSE)) {
3442                         Perl_croak(aTHX_ "panic: unexpected entry for %s", SvPVX(*entryp));
3443                     }
3444                     if (! hv_store(ret, SvPVX(*entryp), SvCUR(*entryp),
3445                                    (SV*) i_list, FALSE))
3446                     {
3447                         Perl_croak(aTHX_ "panic: hv_store() unexpectedly failed");
3448                     }
3449
3450                     /* For DEBUG_U: UV u = valid_utf8_to_uvchr((U8*) SvPVX(*entryp), 0);*/
3451                     for (j = 0; j <= av_tindex(from_list); j++) {
3452                         entryp = av_fetch(from_list, j, FALSE);
3453                         if (entryp == NULL) {
3454                             Perl_croak(aTHX_ "panic: av_fetch() unexpectedly failed");
3455                         }
3456
3457                         /* When i==j this adds itself to the list */
3458                         av_push(i_list, newSVuv(utf8_to_uvchr_buf(
3459                                         (U8*) SvPVX(*entryp),
3460                                         (U8*) SvPVX(*entryp) + SvCUR(*entryp),
3461                                         0)));
3462                         /*DEBUG_U(PerlIO_printf(Perl_debug_log, "%s: %d: Adding %"UVXf" to list for %"UVXf"\n", __FILE__, __LINE__, valid_utf8_to_uvchr((U8*) SvPVX(*entryp), 0), u));*/
3463                     }
3464                 }
3465             }
3466         }
3467         SvREFCNT_dec(specials_inverse); /* done with it */
3468     } /* End of specials */
3469
3470     /* read $swash->{LIST} */
3471
3472 #if    UNICODE_MAJOR_VERSION   == 3         \
3473     && UNICODE_DOT_VERSION     == 0         \
3474     && UNICODE_DOT_DOT_VERSION == 1
3475
3476     /* For this version only U+130 and U+131 are equivalent under qr//i.  Add a
3477      * rule so that things work under /iaa and /il */
3478
3479     SV * mod_listsv = sv_mortalcopy(*listsvp);
3480     sv_catpv(mod_listsv, "130\t130\t131\n");
3481     l = (U8*)SvPV(mod_listsv, lcur);
3482
3483 #else
3484
3485     l = (U8*)SvPV(*listsvp, lcur);
3486
3487 #endif
3488
3489     lend = l + lcur;
3490
3491     /* Go through each input line */
3492     while (l < lend) {
3493         UV min, max, val;
3494         UV inverse;
3495         l = swash_scan_list_line(l, lend, &min, &max, &val,
3496                                                      cBOOL(octets), typestr);
3497         if (l > lend) {
3498             break;
3499         }
3500
3501         /* Each element in the range is to be inverted */
3502         for (inverse = min; inverse <= max; inverse++) {
3503             AV* list;
3504             SV** listp;
3505             IV i;
3506             bool found_key = FALSE;
3507             bool found_inverse = FALSE;
3508
3509             /* The key is the inverse mapping */
3510             char key[UTF8_MAXBYTES+1];
3511             char* key_end = (char *) uvchr_to_utf8((U8*) key, val);
3512             STRLEN key_len = key_end - key;
3513
3514             /* Get the list for the map */
3515             if ((listp = hv_fetch(ret, key, key_len, FALSE))) {
3516                 list = (AV*) *listp;
3517             }
3518             else { /* No entry yet for it: create one */
3519                 list = newAV();
3520                 if (! hv_store(ret, key, key_len, (SV*) list, FALSE)) {
3521                     Perl_croak(aTHX_ "panic: hv_store() unexpectedly failed");
3522                 }
3523             }
3524
3525             /* Look through list to see if this inverse mapping already is
3526              * listed, or if there is a mapping to itself already */
3527             for (i = 0; i <= av_tindex(list); i++) {
3528                 SV** entryp = av_fetch(list, i, FALSE);
3529                 SV* entry;
3530                 UV uv;
3531                 if (entryp == NULL) {
3532                     Perl_croak(aTHX_ "panic: av_fetch() unexpectedly failed");
3533                 }
3534                 entry = *entryp;
3535                 uv = SvUV(entry);
3536                 /*DEBUG_U(PerlIO_printf(Perl_debug_log, "list for %"UVXf" contains %"UVXf"\n", val, uv));*/
3537                 if (uv == val) {
3538                     found_key = TRUE;
3539                 }
3540                 if (uv == inverse) {
3541                     found_inverse = TRUE;
3542                 }
3543
3544                 /* No need to continue searching if found everything we are
3545                  * looking for */
3546                 if (found_key && found_inverse) {
3547                     break;
3548                 }
3549             }
3550
3551             /* Make sure there is a mapping to itself on the list */
3552             if (! found_key) {
3553                 av_push(list, newSVuv(val));
3554                 /*DEBUG_U(PerlIO_printf(Perl_debug_log, "%s: %d: Adding %"UVXf" to list for %"UVXf"\n", __FILE__, __LINE__, val, val));*/
3555             }
3556
3557
3558             /* Simply add the value to the list */
3559             if (! found_inverse) {
3560                 av_push(list, newSVuv(inverse));
3561                 /*DEBUG_U(PerlIO_printf(Perl_debug_log, "%s: %d: Adding %"UVXf" to list for %"UVXf"\n", __FILE__, __LINE__, inverse, val));*/
3562             }
3563
3564             /* swatch_get() increments the value of val for each element in the
3565              * range.  That makes more compact tables possible.  You can
3566              * express the capitalization, for example, of all consecutive
3567              * letters with a single line: 0061\t007A\t0041 This maps 0061 to
3568              * 0041, 0062 to 0042, etc.  I (khw) have never understood 'none',
3569              * and it's not documented; it appears to be used only in
3570              * implementing tr//; I copied the semantics from swatch_get(), just
3571              * in case */
3572             if (!none || val < none) {
3573                 ++val;
3574             }
3575         }
3576     }
3577
3578     return ret;
3579 }
3580
3581 SV*
3582 Perl__swash_to_invlist(pTHX_ SV* const swash)
3583 {
3584
3585    /* Subject to change or removal.  For use only in one place in regcomp.c.
3586     * Ownership is given to one reference count in the returned SV* */
3587
3588     U8 *l, *lend;
3589     char *loc;
3590     STRLEN lcur;
3591     HV *const hv = MUTABLE_HV(SvRV(swash));
3592     UV elements = 0;    /* Number of elements in the inversion list */
3593     U8 empty[] = "";
3594     SV** listsvp;
3595     SV** typesvp;
3596     SV** bitssvp;
3597     SV** extssvp;
3598     SV** invert_it_svp;
3599
3600     U8* typestr;
3601     STRLEN bits;
3602     STRLEN octets; /* if bits == 1, then octets == 0 */
3603     U8 *x, *xend;
3604     STRLEN xcur;
3605
3606     SV* invlist;
3607
3608     PERL_ARGS_ASSERT__SWASH_TO_INVLIST;
3609
3610     /* If not a hash, it must be the swash's inversion list instead */
3611     if (SvTYPE(hv) != SVt_PVHV) {
3612         return SvREFCNT_inc_simple_NN((SV*) hv);
3613     }
3614
3615     /* The string containing the main body of the table */
3616     listsvp = hv_fetchs(hv, "LIST", FALSE);
3617     typesvp = hv_fetchs(hv, "TYPE", FALSE);
3618     bitssvp = hv_fetchs(hv, "BITS", FALSE);
3619     extssvp = hv_fetchs(hv, "EXTRAS", FALSE);
3620     invert_it_svp = hv_fetchs(hv, "INVERT_IT", FALSE);
3621
3622     typestr = (U8*)SvPV_nolen(*typesvp);
3623     bits  = SvUV(*bitssvp);
3624     octets = bits >> 3; /* if bits == 1, then octets == 0 */
3625
3626     /* read $swash->{LIST} */
3627     if (SvPOK(*listsvp)) {
3628         l = (U8*)SvPV(*listsvp, lcur);
3629     }
3630     else {
3631         /* LIST legitimately doesn't contain a string during compilation phases
3632          * of Perl itself, before the Unicode tables are generated.  In this
3633          * case, just fake things up by creating an empty list */
3634         l = empty;
3635         lcur = 0;
3636     }
3637     loc = (char *) l;
3638     lend = l + lcur;
3639
3640     if (*l == 'V') {    /*  Inversion list format */
3641         const char *after_atou = (char *) lend;
3642         UV element0;
3643         UV* other_elements_ptr;
3644
3645         /* The first number is a count of the rest */
3646         l++;
3647         if (!grok_atoUV((const char *)l, &elements, &after_atou)) {
3648             Perl_croak(aTHX_ "panic: Expecting a valid count of elements at start of inversion list");
3649         }
3650         if (elements == 0) {
3651             invlist = _new_invlist(0);
3652         }
3653         else {
3654             while (isSPACE(*l)) l++;
3655             l = (U8 *) after_atou;
3656
3657             /* Get the 0th element, which is needed to setup the inversion list */
3658             while (isSPACE(*l)) l++;
3659             if (!grok_atoUV((const char *)l, &element0, &after_atou)) {
3660                 Perl_croak(aTHX_ "panic: Expecting a valid 0th element for inversion list");
3661             }
3662             l = (U8 *) after_atou;
3663             invlist = _setup_canned_invlist(elements, element0, &other_elements_ptr);
3664             elements--;
3665
3666             /* Then just populate the rest of the input */
3667             while (elements-- > 0) {
3668                 if (l > lend) {
3669                     Perl_croak(aTHX_ "panic: Expecting %"UVuf" more elements than available", elements);
3670                 }
3671                 while (isSPACE(*l)) l++;
3672                 if (!grok_atoUV((const char *)l, other_elements_ptr++, &after_atou)) {
3673                     Perl_croak(aTHX_ "panic: Expecting a valid element in inversion list");
3674                 }
3675                 l = (U8 *) after_atou;
3676             }
3677         }
3678     }
3679     else {
3680
3681         /* Scan the input to count the number of lines to preallocate array
3682          * size based on worst possible case, which is each line in the input
3683          * creates 2 elements in the inversion list: 1) the beginning of a
3684          * range in the list; 2) the beginning of a range not in the list.  */
3685         while ((loc = (strchr(loc, '\n'))) != NULL) {
3686             elements += 2;
3687             loc++;
3688         }
3689
3690         /* If the ending is somehow corrupt and isn't a new line, add another
3691          * element for the final range that isn't in the inversion list */
3692         if (! (*lend == '\n'
3693             || (*lend == '\0' && (lcur == 0 || *(lend - 1) == '\n'))))
3694         {
3695             elements++;
3696         }
3697
3698         invlist = _new_invlist(elements);
3699
3700         /* Now go through the input again, adding each range to the list */
3701         while (l < lend) {
3702             UV start, end;
3703             UV val;             /* Not used by this function */
3704
3705             l = swash_scan_list_line(l, lend, &start, &end, &val,
3706                                                         cBOOL(octets), typestr);
3707
3708             if (l > lend) {
3709                 break;
3710             }
3711
3712             invlist = _add_range_to_invlist(invlist, start, end);
3713         }
3714     }
3715
3716     /* Invert if the data says it should be */
3717     if (invert_it_svp && SvUV(*invert_it_svp)) {
3718         _invlist_invert(invlist);
3719     }
3720
3721     /* This code is copied from swatch_get()
3722      * read $swash->{EXTRAS} */
3723     x = (U8*)SvPV(*extssvp, xcur);
3724     xend = x + xcur;
3725     while (x < xend) {
3726         STRLEN namelen;
3727         U8 *namestr;
3728         SV** othersvp;
3729         HV* otherhv;
3730         STRLEN otherbits;
3731         SV **otherbitssvp, *other;
3732         U8 *nl;
3733
3734         const U8 opc = *x++;
3735         if (opc == '\n')
3736             continue;
3737
3738         nl = (U8*)memchr(x, '\n', xend - x);
3739
3740         if (opc != '-' && opc != '+' && opc != '!' && opc != '&') {
3741             if (nl) {
3742                 x = nl + 1; /* 1 is length of "\n" */
3743                 continue;
3744             }
3745             else {
3746                 x = xend; /* to EXTRAS' end at which \n is not found */
3747                 break;
3748             }
3749         }
3750
3751         namestr = x;
3752         if (nl) {
3753             namelen = nl - namestr;
3754             x = nl + 1;
3755         }
3756         else {
3757             namelen = xend - namestr;
3758             x = xend;
3759         }
3760
3761         othersvp = hv_fetch(hv, (char *)namestr, namelen, FALSE);
3762         otherhv = MUTABLE_HV(SvRV(*othersvp));
3763         otherbitssvp = hv_fetchs(otherhv, "BITS", FALSE);
3764         otherbits = (STRLEN)SvUV(*otherbitssvp);
3765
3766         if (bits != otherbits || bits != 1) {
3767             Perl_croak(aTHX_ "panic: _swash_to_invlist only operates on boolean "
3768                        "properties, bits=%"UVuf", otherbits=%"UVuf,
3769                        (UV)bits, (UV)otherbits);
3770         }
3771
3772         /* The "other" swatch must be destroyed after. */
3773         other = _swash_to_invlist((SV *)*othersvp);
3774
3775         /* End of code copied from swatch_get() */
3776         switch (opc) {
3777         case '+':
3778             _invlist_union(invlist, other, &invlist);
3779             break;
3780         case '!':
3781             _invlist_union_maybe_complement_2nd(invlist, other, TRUE, &invlist);
3782             break;
3783         case '-':
3784             _invlist_subtract(invlist, other, &invlist);
3785             break;
3786         case '&':
3787             _invlist_intersection(invlist, other, &invlist);
3788             break;
3789         default:
3790             break;
3791         }
3792         sv_free(other); /* through with it! */
3793     }
3794
3795     SvREADONLY_on(invlist);
3796     return invlist;
3797 }
3798
3799 SV*
3800 Perl__get_swash_invlist(pTHX_ SV* const swash)
3801 {
3802     SV** ptr;
3803
3804     PERL_ARGS_ASSERT__GET_SWASH_INVLIST;
3805
3806     if (! SvROK(swash)) {
3807         return NULL;
3808     }
3809
3810     /* If it really isn't a hash, it isn't really swash; must be an inversion
3811      * list */
3812     if (SvTYPE(SvRV(swash)) != SVt_PVHV) {
3813         return SvRV(swash);
3814     }
3815
3816     ptr = hv_fetchs(MUTABLE_HV(SvRV(swash)), "V", FALSE);
3817     if (! ptr) {
3818         return NULL;
3819     }
3820
3821     return *ptr;
3822 }
3823
3824 bool
3825 Perl_check_utf8_print(pTHX_ const U8* s, const STRLEN len)
3826 {
3827     /* May change: warns if surrogates, non-character code points, or
3828      * non-Unicode code points are in s which has length len bytes.  Returns
3829      * TRUE if none found; FALSE otherwise.  The only other validity check is
3830      * to make sure that this won't exceed the string's length */
3831
3832     const U8* const e = s + len;
3833     bool ok = TRUE;
3834
3835     PERL_ARGS_ASSERT_CHECK_UTF8_PRINT;
3836
3837     while (s < e) {
3838         if (UTF8SKIP(s) > len) {
3839             Perl_ck_warner_d(aTHX_ packWARN(WARN_UTF8),
3840                            "%s in %s", unees, PL_op ? OP_DESC(PL_op) : "print");
3841             return FALSE;
3842         }
3843         if (UNLIKELY(*s >= UTF8_FIRST_PROBLEMATIC_CODE_POINT_FIRST_BYTE)) {
3844             STRLEN char_len;
3845             if (UTF8_IS_SUPER(s, e)) {
3846                 if (ckWARN_d(WARN_NON_UNICODE)) {
3847                     UV uv = utf8_to_uvchr_buf(s, e, &char_len);
3848                     Perl_warner(aTHX_ packWARN(WARN_NON_UNICODE),
3849                         "Code point 0x%04"UVXf" is not Unicode, may not be portable", uv);
3850                     ok = FALSE;
3851                 }
3852             }
3853             else if (UTF8_IS_SURROGATE(s, e)) {
3854                 if (ckWARN_d(WARN_SURROGATE)) {
3855                     UV uv = utf8_to_uvchr_buf(s, e, &char_len);
3856                     Perl_warner(aTHX_ packWARN(WARN_SURROGATE),
3857                         "Unicode surrogate U+%04"UVXf" is illegal in UTF-8", uv);
3858                     ok = FALSE;
3859                 }
3860             }
3861             else if ((UTF8_IS_NONCHAR(s, e)) && (ckWARN_d(WARN_NONCHAR))) {
3862                 UV uv = utf8_to_uvchr_buf(s, e, &char_len);
3863                 Perl_warner(aTHX_ packWARN(WARN_NONCHAR),
3864                     "Unicode non-character U+%04"UVXf" is not recommended for open interchange", uv);
3865                 ok = FALSE;
3866             }
3867         }
3868         s += UTF8SKIP(s);
3869     }
3870
3871     return ok;
3872 }
3873
3874 /*
3875 =for apidoc pv_uni_display
3876
3877 Build to the scalar C<dsv> a displayable version of the string C<spv>,
3878 length C<len>, the displayable version being at most C<pvlim> bytes long
3879 (if longer, the rest is truncated and C<"..."> will be appended).
3880
3881 The C<flags> argument can have C<UNI_DISPLAY_ISPRINT> set to display
3882 C<isPRINT()>able characters as themselves, C<UNI_DISPLAY_BACKSLASH>
3883 to display the C<\\[nrfta\\]> as the backslashed versions (like C<"\n">)
3884 (C<UNI_DISPLAY_BACKSLASH> is preferred over C<UNI_DISPLAY_ISPRINT> for C<"\\">).
3885 C<UNI_DISPLAY_QQ> (and its alias C<UNI_DISPLAY_REGEX>) have both
3886 C<UNI_DISPLAY_BACKSLASH> and C<UNI_DISPLAY_ISPRINT> turned on.
3887
3888 The pointer to the PV of the C<dsv> is returned.
3889
3890 See also L</sv_uni_display>.
3891
3892 =cut */
3893 char *
3894 Perl_pv_uni_display(pTHX_ SV *dsv, const U8 *spv, STRLEN len, STRLEN pvlim, UV flags)
3895 {
3896     int truncated = 0;
3897     const char *s, *e;
3898
3899     PERL_ARGS_ASSERT_PV_UNI_DISPLAY;
3900
3901     sv_setpvs(dsv, "");
3902     SvUTF8_off(dsv);
3903     for (s = (const char *)spv, e = s + len; s < e; s += UTF8SKIP(s)) {
3904          UV u;
3905           /* This serves double duty as a flag and a character to print after
3906              a \ when flags & UNI_DISPLAY_BACKSLASH is true.
3907           */
3908          char ok = 0;
3909
3910          if (pvlim && SvCUR(dsv) >= pvlim) {
3911               truncated++;
3912               break;
3913          }
3914          u = utf8_to_uvchr_buf((U8*)s, (U8*)e, 0);
3915          if (u < 256) {
3916              const unsigned char c = (unsigned char)u & 0xFF;
3917              if (flags & UNI_DISPLAY_BACKSLASH) {
3918                  switch (c) {
3919                  case '\n':
3920                      ok = 'n'; break;
3921                  case '\r':
3922                      ok = 'r'; break;
3923                  case '\t':
3924                      ok = 't'; break;
3925                  case '\f':
3926                      ok = 'f'; break;
3927                  case '\a':
3928                      ok = 'a'; break;
3929                  case '\\':
3930                      ok = '\\'; break;
3931                  default: break;
3932                  }
3933                  if (ok) {
3934                      const char string = ok;
3935                      sv_catpvs(dsv, "\\");
3936                      sv_catpvn(dsv, &string, 1);
3937                  }
3938              }
3939              /* isPRINT() is the locale-blind version. */
3940              if (!ok && (flags & UNI_DISPLAY_ISPRINT) && isPRINT(c)) {
3941                  const char string = c;
3942                  sv_catpvn(dsv, &string, 1);
3943                  ok = 1;
3944              }
3945          }
3946          if (!ok)
3947              Perl_sv_catpvf(aTHX_ dsv, "\\x{%"UVxf"}", u);
3948     }
3949     if (truncated)
3950          sv_catpvs(dsv, "...");
3951
3952     return SvPVX(dsv);
3953 }
3954
3955 /*
3956 =for apidoc sv_uni_display
3957
3958 Build to the scalar C<dsv> a displayable version of the scalar C<sv>,
3959 the displayable version being at most C<pvlim> bytes long
3960 (if longer, the rest is truncated and "..." will be appended).
3961
3962 The C<flags> argument is as in L</pv_uni_display>().
3963
3964 The pointer to the PV of the C<dsv> is returned.
3965
3966 =cut
3967 */
3968 char *
3969 Perl_sv_uni_display(pTHX_ SV *dsv, SV *ssv, STRLEN pvlim, UV flags)
3970 {
3971     const char * const ptr =
3972         isREGEXP(ssv) ? RX_WRAPPED((REGEXP*)ssv) : SvPVX_const(ssv);
3973
3974     PERL_ARGS_ASSERT_SV_UNI_DISPLAY;
3975
3976     return Perl_pv_uni_display(aTHX_ dsv, (const U8*)ptr,
3977                                 SvCUR(ssv), pvlim, flags);
3978 }
3979
3980 /*
3981 =for apidoc foldEQ_utf8
3982
3983 Returns true if the leading portions of the strings C<s1> and C<s2> (either or both
3984 of which may be in UTF-8) are the same case-insensitively; false otherwise.
3985 How far into the strings to compare is determined by other input parameters.
3986
3987 If C<u1> is true, the string C<s1> is assumed to be in UTF-8-encoded Unicode;
3988 otherwise it is assumed to be in native 8-bit encoding.  Correspondingly for C<u2>
3989 with respect to C<s2>.
3990
3991 If the byte length C<l1> is non-zero, it says how far into C<s1> to check for fold
3992 equality.  In other words, C<s1>+C<l1> will be used as a goal to reach.  The
3993 scan will not be considered to be a match unless the goal is reached, and
3994 scanning won't continue past that goal.  Correspondingly for C<l2> with respect to
3995 C<s2>.
3996
3997 If C<pe1> is non-C<NULL> and the pointer it points to is not C<NULL>, that pointer is
3998 considered an end pointer to the position 1 byte past the maximum point
3999 in C<s1> beyond which scanning will not continue under any circumstances.
4000 (This routine assumes that UTF-8 encoded input strings are not malformed;
4001 malformed input can cause it to read past C<pe1>).
4002 This means that if both C<l1> and C<pe1> are specified, and C<pe1>
4003 is less than C<s1>+C<l1>, the match will never be successful because it can
4004 never
4005 get as far as its goal (and in fact is asserted against).  Correspondingly for
4006 C<pe2> with respect to C<s2>.
4007
4008 At least one of C<s1> and C<s2> must have a goal (at least one of C<l1> and
4009 C<l2> must be non-zero), and if both do, both have to be
4010 reached for a successful match.   Also, if the fold of a character is multiple
4011 characters, all of them must be matched (see tr21 reference below for
4012 'folding').
4013
4014 Upon a successful match, if C<pe1> is non-C<NULL>,
4015 it will be set to point to the beginning of the I<next> character of C<s1>
4016 beyond what was matched.  Correspondingly for C<pe2> and C<s2>.
4017
4018 For case-insensitiveness, the "casefolding" of Unicode is used
4019 instead of upper/lowercasing both the characters, see
4020 L<http://www.unicode.org/unicode/reports/tr21/> (Case Mappings).
4021
4022 =cut */
4023
4024 /* A flags parameter has been added which may change, and hence isn't
4025  * externally documented.  Currently it is:
4026  *  0 for as-documented above
4027  *  FOLDEQ_UTF8_NOMIX_ASCII meaning that if a non-ASCII character folds to an
4028                             ASCII one, to not match
4029  *  FOLDEQ_LOCALE           is set iff the rules from the current underlying
4030  *                          locale are to be used.
4031  *  FOLDEQ_S1_ALREADY_FOLDED  s1 has already been folded before calling this
4032  *                          routine.  This allows that step to be skipped.
4033  *                          Currently, this requires s1 to be encoded as UTF-8
4034  *                          (u1 must be true), which is asserted for.
4035  *  FOLDEQ_S1_FOLDS_SANE    With either NOMIX_ASCII or LOCALE, no folds may
4036  *                          cross certain boundaries.  Hence, the caller should
4037  *                          let this function do the folding instead of
4038  *                          pre-folding.  This code contains an assertion to
4039  *                          that effect.  However, if the caller knows what
4040  *                          it's doing, it can pass this flag to indicate that,
4041  *                          and the assertion is skipped.
4042  *  FOLDEQ_S2_ALREADY_FOLDED  Similarly.
4043  *  FOLDEQ_S2_FOLDS_SANE
4044  */
4045 I32
4046 Perl_foldEQ_utf8_flags(pTHX_ const char *s1, char **pe1, UV l1, bool u1, const char *s2, char **pe2, UV l2, bool u2, U32 flags)
4047 {
4048     const U8 *p1  = (const U8*)s1; /* Point to current char */
4049     const U8 *p2  = (const U8*)s2;
4050     const U8 *g1 = NULL;       /* goal for s1 */
4051     const U8 *g2 = NULL;
4052     const U8 *e1 = NULL;       /* Don't scan s1 past this */
4053     U8 *f1 = NULL;             /* Point to current folded */
4054     const U8 *e2 = NULL;
4055     U8 *f2 = NULL;
4056     STRLEN n1 = 0, n2 = 0;              /* Number of bytes in current char */
4057     U8 foldbuf1[UTF8_MAXBYTES_CASE+1];
4058     U8 foldbuf2[UTF8_MAXBYTES_CASE+1];
4059     U8 flags_for_folder = FOLD_FLAGS_FULL;
4060
4061     PERL_ARGS_ASSERT_FOLDEQ_UTF8_FLAGS;
4062
4063     assert( ! ((flags & (FOLDEQ_UTF8_NOMIX_ASCII | FOLDEQ_LOCALE))
4064                && (((flags & FOLDEQ_S1_ALREADY_FOLDED)
4065                      && !(flags & FOLDEQ_S1_FOLDS_SANE))
4066                    || ((flags & FOLDEQ_S2_ALREADY_FOLDED)
4067                        && !(flags & FOLDEQ_S2_FOLDS_SANE)))));
4068     /* The algorithm is to trial the folds without regard to the flags on
4069      * the first line of the above assert(), and then see if the result
4070      * violates them.  This means that the inputs can't be pre-folded to a
4071      * violating result, hence the assert.  This could be changed, with the
4072      * addition of extra tests here for the already-folded case, which would
4073      * slow it down.  That cost is more than any possible gain for when these
4074      * flags are specified, as the flags indicate /il or /iaa matching which
4075      * is less common than /iu, and I (khw) also believe that real-world /il
4076      * and /iaa matches are most likely to involve code points 0-255, and this
4077      * function only under rare conditions gets called for 0-255. */
4078
4079     if (flags & FOLDEQ_LOCALE) {
4080         if (IN_UTF8_CTYPE_LOCALE) {
4081             flags &= ~FOLDEQ_LOCALE;
4082         }
4083         else {
4084             flags_for_folder |= FOLD_FLAGS_LOCALE;
4085         }
4086     }
4087
4088     if (pe1) {
4089         e1 = *(U8**)pe1;
4090     }
4091
4092     if (l1) {
4093         g1 = (const U8*)s1 + l1;
4094     }
4095
4096     if (pe2) {
4097         e2 = *(U8**)pe2;
4098     }
4099
4100     if (l2) {
4101         g2 = (const U8*)s2 + l2;
4102     }
4103
4104     /* Must have at least one goal */
4105     assert(g1 || g2);
4106
4107     if (g1) {
4108
4109         /* Will never match if goal is out-of-bounds */
4110         assert(! e1  || e1 >= g1);
4111
4112         /* Here, there isn't an end pointer, or it is beyond the goal.  We
4113         * only go as far as the goal */
4114         e1 = g1;
4115     }
4116     else {
4117         assert(e1);    /* Must have an end for looking at s1 */
4118     }
4119
4120     /* Same for goal for s2 */
4121     if (g2) {
4122         assert(! e2  || e2 >= g2);
4123         e2 = g2;
4124     }
4125     else {
4126         assert(e2);
4127     }
4128
4129     /* If both operands are already folded, we could just do a memEQ on the
4130      * whole strings at once, but it would be better if the caller realized
4131      * this and didn't even call us */
4132
4133     /* Look through both strings, a character at a time */
4134     while (p1 < e1 && p2 < e2) {
4135
4136         /* If at the beginning of a new character in s1, get its fold to use
4137          * and the length of the fold. */
4138         if (n1 == 0) {
4139             if (flags & FOLDEQ_S1_ALREADY_FOLDED) {
4140                 f1 = (U8 *) p1;
4141                 assert(u1);
4142                 n1 = UTF8SKIP(f1);
4143             }
4144             else {
4145                 if (isASCII(*p1) && ! (flags & FOLDEQ_LOCALE)) {
4146
4147                     /* We have to forbid mixing ASCII with non-ASCII if the
4148                      * flags so indicate.  And, we can short circuit having to
4149                      * call the general functions for this common ASCII case,
4150                      * all of whose non-locale folds are also ASCII, and hence
4151                      * UTF-8 invariants, so the UTF8ness of the strings is not
4152                      * relevant. */
4153                     if ((flags & FOLDEQ_UTF8_NOMIX_ASCII) && ! isASCII(*p2)) {
4154                         return 0;
4155                     }
4156                     n1 = 1;
4157                     *foldbuf1 = toFOLD(*p1);
4158                 }
4159                 else if (u1) {
4160                     _to_utf8_fold_flags(p1, foldbuf1, &n1, flags_for_folder);
4161                 }
4162                 else {  /* Not UTF-8, get UTF-8 fold */
4163                     _to_uni_fold_flags(*p1, foldbuf1, &n1, flags_for_folder);
4164                 }
4165                 f1 = foldbuf1;
4166             }
4167         }
4168
4169         if (n2 == 0) {    /* Same for s2 */
4170             if (flags & FOLDEQ_S2_ALREADY_FOLDED) {
4171                 f2 = (U8 *) p2;
4172                 assert(u2);
4173                 n2 = UTF8SKIP(f2);
4174             }
4175             else {
4176                 if (isASCII(*p2) && ! (flags & FOLDEQ_LOCALE)) {
4177                     if ((flags & FOLDEQ_UTF8_NOMIX_ASCII) && ! isASCII(*p1)) {
4178                         return 0;
4179                     }
4180                     n2 = 1;
4181                     *foldbuf2 = toFOLD(*p2);
4182                 }
4183                 else if (u2) {
4184                     _to_utf8_fold_flags(p2, foldbuf2, &n2, flags_for_folder);
4185                 }
4186                 else {
4187                     _to_uni_fold_flags(*p2, foldbuf2, &n2, flags_for_folder);
4188                 }
4189                 f2 = foldbuf2;
4190             }
4191         }
4192
4193         /* Here f1 and f2 point to the beginning of the strings to compare.
4194          * These strings are the folds of the next character from each input
4195          * string, stored in UTF-8. */
4196
4197         /* While there is more to look for in both folds, see if they
4198         * continue to match */
4199         while (n1 && n2) {
4200             U8 fold_length = UTF8SKIP(f1);
4201             if (fold_length != UTF8SKIP(f2)
4202                 || (fold_length == 1 && *f1 != *f2) /* Short circuit memNE
4203                                                        function call for single
4204                                                        byte */
4205                 || memNE((char*)f1, (char*)f2, fold_length))
4206             {
4207                 return 0; /* mismatch */
4208             }
4209
4210             /* Here, they matched, advance past them */
4211             n1 -= fold_length;
4212             f1 += fold_length;
4213             n2 -= fold_length;
4214             f2 += fold_length;
4215         }
4216
4217         /* When reach the end of any fold, advance the input past it */
4218         if (n1 == 0) {
4219             p1 += u1 ? UTF8SKIP(p1) : 1;
4220         }
4221         if (n2 == 0) {
4222             p2 += u2 ? UTF8SKIP(p2) : 1;
4223         }
4224     } /* End of loop through both strings */
4225
4226     /* A match is defined by each scan that specified an explicit length
4227     * reaching its final goal, and the other not having matched a partial
4228     * character (which can happen when the fold of a character is more than one
4229     * character). */
4230     if (! ((g1 == 0 || p1 == g1) && (g2 == 0 || p2 == g2)) || n1 || n2) {
4231         return 0;
4232     }
4233
4234     /* Successful match.  Set output pointers */
4235     if (pe1) {
4236         *pe1 = (char*)p1;
4237     }
4238     if (pe2) {
4239         *pe2 = (char*)p2;
4240     }
4241     return 1;
4242 }
4243
4244 /* XXX The next two functions should likely be moved to mathoms.c once all
4245  * occurrences of them are removed from the core; some cpan-upstream modules
4246  * still use them */
4247
4248 U8 *
4249 Perl_uvuni_to_utf8(pTHX_ U8 *d, UV uv)
4250 {
4251     PERL_ARGS_ASSERT_UVUNI_TO_UTF8;
4252
4253     return Perl_uvoffuni_to_utf8_flags(aTHX_ d, uv, 0);
4254 }
4255
4256 /*
4257 =for apidoc utf8n_to_uvuni
4258
4259 Instead use L</utf8_to_uvchr_buf>, or rarely, L</utf8n_to_uvchr>.
4260
4261 This function was useful for code that wanted to handle both EBCDIC and
4262 ASCII platforms with Unicode properties, but starting in Perl v5.20, the
4263 distinctions between the platforms have mostly been made invisible to most
4264 code, so this function is quite unlikely to be what you want.  If you do need
4265 this precise functionality, use instead
4266 C<L<NATIVE_TO_UNI(utf8_to_uvchr_buf(...))|/utf8_to_uvchr_buf>>
4267 or C<L<NATIVE_TO_UNI(utf8n_to_uvchr(...))|/utf8n_to_uvchr>>.
4268
4269 =cut
4270 */
4271
4272 UV
4273 Perl_utf8n_to_uvuni(pTHX_ const U8 *s, STRLEN curlen, STRLEN *retlen, U32 flags)
4274 {
4275     PERL_ARGS_ASSERT_UTF8N_TO_UVUNI;
4276
4277     return NATIVE_TO_UNI(utf8n_to_uvchr(s, curlen, retlen, flags));
4278 }
4279
4280 /*
4281 =for apidoc uvuni_to_utf8_flags
4282
4283 Instead you almost certainly want to use L</uvchr_to_utf8> or
4284 L</uvchr_to_utf8_flags>.
4285
4286 This function is a deprecated synonym for L</uvoffuni_to_utf8_flags>,
4287 which itself, while not deprecated, should be used only in isolated
4288 circumstances.  These functions were useful for code that wanted to handle
4289 both EBCDIC and ASCII platforms with Unicode properties, but starting in Perl
4290 v5.20, the distinctions between the platforms have mostly been made invisible
4291 to most code, so this function is quite unlikely to be what you want.
4292
4293 =cut
4294 */
4295
4296 U8 *
4297 Perl_uvuni_to_utf8_flags(pTHX_ U8 *d, UV uv, UV flags)
4298 {
4299     PERL_ARGS_ASSERT_UVUNI_TO_UTF8_FLAGS;
4300
4301     return uvoffuni_to_utf8_flags(d, uv, flags);
4302 }
4303
4304 /*
4305  * ex: set ts=8 sts=4 sw=4 et:
4306  */