Upgrade experimental from version 0.17 to 0.18

[perl5.git] / inline.h
diff --git a/inline.h b/inline.h

index aa8798e..98d9edc 100644 (file)
--- a/inline.h
+++ b/inline.h
@@ -400,7 +400,7 @@ S_is_utf8_invariant_string_loc(const U8* const s, STRLEN len, const U8 ** ep)
  #    define PERL_VARIANTS_WORD_MASK 0x80808080
  #    define PERL_WORD_BOUNDARY_MASK 0x3
  #  elif PERL_WORDSIZE == 8
-#    define PERL_VARIANTS_WORD_MASK 0x8080808080808080
+#    define PERL_VARIANTS_WORD_MASK UINT64_C(0x8080808080808080)
  #    define PERL_WORD_BOUNDARY_MASK 0x7
  #  else
  #    error Unexpected word size
@@ -486,6 +486,51 @@ C<L</is_utf8_fixed_width_buf_loclen_flags>>,
  
  #define is_utf8_string(s, len)  is_utf8_string_loclen(s, len, NULL, NULL)
  
+#if defined(PERL_CORE) || defined (PERL_EXT)
+
+/*
+=for apidoc is_utf8_non_invariant_string
+
+Returns TRUE if L<perlapi/is_utf8_invariant_string> returns FALSE for the first
+C<len> bytes of the string C<s>, but they are, nonetheless, legal Perl-extended
+UTF-8; otherwise returns FALSE.
+
+A TRUE return means that at least one code point represented by the sequence
+either is a wide character not representable as a single byte, or the
+representation differs depending on whether the sequence is encoded in UTF-8 or
+not.
+
+See also
+C<L<perlapi/is_utf8_invariant_string>>,
+C<L<perlapi/is_utf8_string>>
+
+=cut
+
+This is commonly used to determine if a SV's UTF-8 flag should be turned on.
+It needn't be if its string is entirely UTF-8 invariant, and it shouldn't be if
+it otherwise contains invalid UTF-8.
+
+It is an internal function because khw thinks that XS code shouldn't be working
+at this low a level.  A valid use case could change that.
+
+*/
+
+PERL_STATIC_INLINE bool
+S_is_utf8_non_invariant_string(const U8* const s, STRLEN len)
+{
+    const U8 * first_variant;
+
+    PERL_ARGS_ASSERT_IS_UTF8_NON_INVARIANT_STRING;
+
+    if (is_utf8_invariant_string_loc(s, len, &first_variant)) {
+        return FALSE;
+    }
+
+    return is_utf8_string(first_variant, len - (first_variant - s));
+}
+
+#endif
+
  /*
  =for apidoc is_strict_utf8_string
  
@@ -607,8 +652,7 @@ C<L</is_c9strict_utf8_string_loclen>>.
  PERL_STATIC_INLINE bool
  S_is_utf8_string_flags(const U8 *s, STRLEN len, const U32 flags)
  {
-    const U8* send;
-    const U8* x = s;
+    const U8 * first_variant;
  
      PERL_ARGS_ASSERT_IS_UTF8_STRING_FLAGS;
      assert(0 == (flags & ~(UTF8_DISALLOW_ILLEGAL_INTERCHANGE
@@ -634,13 +678,17 @@ S_is_utf8_string_flags(const U8 *s, STRLEN len, const U32 flags)
          return is_c9strict_utf8_string(s, len);
      }
  
-    send = s + len;
-    while (x < send) {
-        STRLEN cur_len = isUTF8_CHAR_flags(x, send, flags);
-        if (UNLIKELY(! cur_len)) {
-            return FALSE;
+    if (! is_utf8_invariant_string_loc(s, len, &first_variant)) {
+        const U8* const send = s + len;
+        const U8* x = first_variant;
+
+        while (x < send) {
+            STRLEN cur_len = isUTF8_CHAR_flags(x, send, flags);
+            if (UNLIKELY(! cur_len)) {
+                return FALSE;
+            }
+            x += cur_len;
          }
-        x += cur_len;
      }
  
      return TRUE;
@@ -676,31 +724,50 @@ See also C<L</is_utf8_string_loc>>.
  */
  
  PERL_STATIC_INLINE bool
-Perl_is_utf8_string_loclen(const U8 *s, const STRLEN len, const U8 **ep, STRLEN *el)
+Perl_is_utf8_string_loclen(const U8 *s, STRLEN len, const U8 **ep, STRLEN *el)
  {
-    const U8* const send = s + (len ? len : strlen((const char *)s));
-    const U8* x = s;
-    STRLEN outlen = 0;
+    const U8 * first_variant;
  
      PERL_ARGS_ASSERT_IS_UTF8_STRING_LOCLEN;
  
-    while (x < send) {
-        const STRLEN cur_len = isUTF8_CHAR(x, send);
-        if (UNLIKELY(! cur_len)) {
-            break;
-        }
-        x += cur_len;
-        outlen++;
+    if (len == 0) {
+        len = strlen((const char *) s);
      }
  
-    if (el)
-        *el = outlen;
+    if (is_utf8_invariant_string_loc(s, len, &first_variant)) {
+        if (el)
+            *el = len;
+
+        if (ep) {
+            *ep = s + len;
+        }
  
-    if (ep) {
-        *ep = x;
+        return TRUE;
      }
  
-    return (x == send);
+    {
+        const U8* const send = s + len;
+        const U8* x = first_variant;
+        STRLEN outlen = first_variant - s;
+
+        while (x < send) {
+            const STRLEN cur_len = isUTF8_CHAR(x, send);
+            if (UNLIKELY(! cur_len)) {
+                break;
+            }
+            x += cur_len;
+            outlen++;
+        }
+
+        if (el)
+            *el = outlen;
+
+        if (ep) {
+            *ep = x;
+        }
+
+        return (x == send);
+    }
  }
  
  /*
@@ -734,31 +801,50 @@ See also C<L</is_strict_utf8_string_loc>>.
  */
  
  PERL_STATIC_INLINE bool
-S_is_strict_utf8_string_loclen(const U8 *s, const STRLEN len, const U8 **ep, STRLEN *el)
+S_is_strict_utf8_string_loclen(const U8 *s, STRLEN len, const U8 **ep, STRLEN *el)
  {
-    const U8* const send = s + (len ? len : strlen((const char *)s));
-    const U8* x = s;
-    STRLEN outlen = 0;
+    const U8 * first_variant;
  
      PERL_ARGS_ASSERT_IS_STRICT_UTF8_STRING_LOCLEN;
  
-    while (x < send) {
-        const STRLEN cur_len = isSTRICT_UTF8_CHAR(x, send);
-        if (UNLIKELY(! cur_len)) {
-            break;
-        }
-        x += cur_len;
-        outlen++;
+    if (len == 0) {
+        len = strlen((const char *) s);
      }
  
-    if (el)
-        *el = outlen;
+    if (is_utf8_invariant_string_loc(s, len, &first_variant)) {
+        if (el)
+            *el = len;
  
-    if (ep) {
-        *ep = x;
+        if (ep) {
+            *ep = s + len;
+        }
+
+        return TRUE;
      }
  
-    return (x == send);
+    {
+        const U8* const send = s + len;
+        const U8* x = first_variant;
+        STRLEN outlen = first_variant - s;
+
+        while (x < send) {
+            const STRLEN cur_len = isSTRICT_UTF8_CHAR(x, send);
+            if (UNLIKELY(! cur_len)) {
+                break;
+            }
+            x += cur_len;
+            outlen++;
+        }
+
+        if (el)
+            *el = outlen;
+
+        if (ep) {
+            *ep = x;
+        }
+
+        return (x == send);
+    }
  }
  
  /*
@@ -792,31 +878,50 @@ See also C<L</is_c9strict_utf8_string_loc>>.
  */
  
  PERL_STATIC_INLINE bool
-S_is_c9strict_utf8_string_loclen(const U8 *s, const STRLEN len, const U8 **ep, STRLEN *el)
+S_is_c9strict_utf8_string_loclen(const U8 *s, STRLEN len, const U8 **ep, STRLEN *el)
  {
-    const U8* const send = s + (len ? len : strlen((const char *)s));
-    const U8* x = s;
-    STRLEN outlen = 0;
+    const U8 * first_variant;
  
      PERL_ARGS_ASSERT_IS_C9STRICT_UTF8_STRING_LOCLEN;
  
-    while (x < send) {
-        const STRLEN cur_len = isC9_STRICT_UTF8_CHAR(x, send);
-        if (UNLIKELY(! cur_len)) {
-            break;
-        }
-        x += cur_len;
-        outlen++;
+    if (len == 0) {
+        len = strlen((const char *) s);
      }
  
-    if (el)
-        *el = outlen;
+    if (is_utf8_invariant_string_loc(s, len, &first_variant)) {
+        if (el)
+            *el = len;
+
+        if (ep) {
+            *ep = s + len;
+        }
  
-    if (ep) {
-        *ep = x;
+        return TRUE;
      }
  
-    return (x == send);
+    {
+        const U8* const send = s + len;
+        const U8* x = first_variant;
+        STRLEN outlen = first_variant - s;
+
+        while (x < send) {
+            const STRLEN cur_len = isC9_STRICT_UTF8_CHAR(x, send);
+            if (UNLIKELY(! cur_len)) {
+                break;
+            }
+            x += cur_len;
+            outlen++;
+        }
+
+        if (el)
+            *el = outlen;
+
+        if (ep) {
+            *ep = x;
+        }
+
+        return (x == send);
+    }
  }
  
  /*
@@ -857,16 +962,14 @@ See also C<L</is_utf8_string_loc_flags>>.
  PERL_STATIC_INLINE bool
  S_is_utf8_string_loclen_flags(const U8 *s, STRLEN len, const U8 **ep, STRLEN *el, const U32 flags)
  {
-    const U8* send;
-    const U8* x = s;
-    STRLEN outlen = 0;
+    const U8 * first_variant;
  
      PERL_ARGS_ASSERT_IS_UTF8_STRING_LOCLEN_FLAGS;
      assert(0 == (flags & ~(UTF8_DISALLOW_ILLEGAL_INTERCHANGE
                            |UTF8_DISALLOW_PERL_EXTENDED)));
  
      if (len == 0) {
-        len = strlen((const char *)s);
+        len = strlen((const char *) s);
      }
  
      if (flags == 0) {
@@ -885,24 +988,40 @@ S_is_utf8_string_loclen_flags(const U8 *s, STRLEN len, const U8 **ep, STRLEN *el
          return is_c9strict_utf8_string_loclen(s, len, ep, el);
      }
  
-    send = s + len;
-    while (x < send) {
-        const STRLEN cur_len = isUTF8_CHAR_flags(x, send, flags);
-        if (UNLIKELY(! cur_len)) {
-            break;
+    if (is_utf8_invariant_string_loc(s, len, &first_variant)) {
+        if (el)
+            *el = len;
+
+        if (ep) {
+            *ep = s + len;
          }
-        x += cur_len;
-        outlen++;
+
+        return TRUE;
      }
  
-    if (el)
-        *el = outlen;
+    {
+        const U8* send = s + len;
+        const U8* x = first_variant;
+        STRLEN outlen = first_variant - s;
+
+        while (x < send) {
+            const STRLEN cur_len = isUTF8_CHAR_flags(x, send, flags);
+            if (UNLIKELY(! cur_len)) {
+                break;
+            }
+            x += cur_len;
+            outlen++;
+        }
  
-    if (ep) {
-        *ep = x;
-    }
+        if (el)
+            *el = outlen;
  
-    return (x == send);
+        if (ep) {
+            *ep = x;
+        }
+
+        return (x == send);
+    }
  }
  
  /*
@@ -1200,7 +1319,7 @@ complete, valid characters found in the C<el> pointer.
  
  PERL_STATIC_INLINE bool
  S_is_utf8_fixed_width_buf_loclen_flags(const U8 * const s,
-                                       const STRLEN len,
+                                       STRLEN len,
                                         const U8 **ep,
                                         STRLEN *el,
                                         const U32 flags)