This is a live mirror of the Perl 5 development currently hosted at https://github.com/perl/perl5
Big slowdown in 5.10 @_ parameter passing
[perl5.git] / lib / File / Find.pm
index 49fa48a..c41c4dc 100644 (file)
@@ -3,7 +3,7 @@ use 5.006;
 use strict;
 use warnings;
 use warnings::register;
-our $VERSION = '1.07';
+our $VERSION = '1.12';
 require Exporter;
 require Cwd;
 
@@ -56,7 +56,7 @@ C<&wanted> function on each file or subdirectory in the directory.
   finddepth(\&wanted,  @directories);
   finddepth(\%options, @directories);
 
-C<finddepth()> works just like C<find()> except that is invokes the
+C<finddepth()> works just like C<find()> except that it invokes the
 C<&wanted> function for a directory I<after> invoking it for the
 directory's contents.  It does a postorder traversal instead of a
 preorder traversal, working from the bottom of the directory tree up
@@ -88,23 +88,23 @@ specifying C<<{ bydepth => 1 }>> in the first argument of C<find()>.
 
 =item C<preprocess>
 
-The value should be a code reference. This code reference is used to 
-preprocess the current directory. The name of the currently processed 
+The value should be a code reference. This code reference is used to
+preprocess the current directory. The name of the currently processed
 directory is in C<$File::Find::dir>. Your preprocessing function is
 called after C<readdir()>, but before the loop that calls the C<wanted()>
-function. It is called with a list of strings (actually file/directory 
-names) and is expected to return a list of strings. The code can be 
-used to sort the file/directory names alphabetically, numerically, 
-or to filter out directory entries based on their name alone. When 
+function. It is called with a list of strings (actually file/directory
+names) and is expected to return a list of strings. The code can be
+used to sort the file/directory names alphabetically, numerically,
+or to filter out directory entries based on their name alone. When
 I<follow> or I<follow_fast> are in effect, C<preprocess> is a no-op.
 
 =item C<postprocess>
 
-The value should be a code reference. It is invoked just before leaving 
-the currently processed directory. It is called in void context with no 
-arguments. The name of the current directory is in C<$File::Find::dir>. This 
-hook is handy for summarizing a directory, such as calculating its disk 
-usage. When I<follow> or I<follow_fast> are in effect, C<postprocess> is a 
+The value should be a code reference. It is invoked just before leaving
+the currently processed directory. It is called in void context with no
+arguments. The name of the current directory is in C<$File::Find::dir>. This
+hook is handy for summarizing a directory, such as calculating its disk
+usage. When I<follow> or I<follow_fast> are in effect, C<postprocess> is a
 no-op.
 
 =item C<follow>
@@ -121,15 +121,20 @@ If either I<follow> or I<follow_fast> is in effect:
 =item *
 
 It is guaranteed that an I<lstat> has been called before the user's
-C<wanted()> function is called. This enables fast file checks involving S< _>.
+C<wanted()> function is called. This enables fast file checks involving S<_>.
+Note that this guarantee no longer holds if I<follow> or I<follow_fast>
+are not set.
 
 =item *
 
 There is a variable C<$File::Find::fullname> which holds the absolute
-pathname of the file with all symbolic links resolved
+pathname of the file with all symbolic links resolved.  If the link is
+a dangling symbolic link, then fullname will be set to C<undef>.
 
 =back
 
+This is a no-op on Win32.
+
 =item C<follow_fast>
 
 This is similar to I<follow> except that it may report some files more
@@ -138,11 +143,13 @@ have to be hashed, this is much cheaper both in space and time.  If
 processing a file more than once (by the user's C<wanted()> function)
 is worse than just taking time, the option I<follow> should be used.
 
+This is also a no-op on Win32.
+
 =item C<follow_skip>
 
 C<follow_skip==1>, which is the default, causes all files which are
 neither directories nor symbolic links to be ignored if they are about
-to be processed a second time. If a directory or a symbolic link 
+to be processed a second time. If a directory or a symbolic link
 are about to be processed a second time, File::Find dies.
 
 C<follow_skip==0> causes File::Find to die if any file is about to be
@@ -170,19 +177,19 @@ C<$_> will be the same as C<$File::Find::name>.
 If find is used in taint-mode (-T command line switch or if EUID != UID
 or if EGID != GID) then internally directory names have to be untainted
 before they can be chdir'ed to. Therefore they are checked against a regular
-expression I<untaint_pattern>.  Note that all names passed to the user's 
-I<wanted()> function are still tainted. If this option is used while 
+expression I<untaint_pattern>.  Note that all names passed to the user's
+I<wanted()> function are still tainted. If this option is used while
 not in taint-mode, C<untaint> is a no-op.
 
 =item C<untaint_pattern>
 
 See above. This should be set using the C<qr> quoting operator.
-The default is set to  C<qr|^([-+@\w./]+)$|>. 
+The default is set to  C<qr|^([-+@\w./]+)$|>.
 Note that the parentheses are vital.
 
 =item C<untaint_skip>
 
-If set, a directory which fails the I<untaint_pattern> is skipped, 
+If set, a directory which fails the I<untaint_pattern> is skipped,
 including all its sub-directories. The default is to 'die' in such a case.
 
 =back
@@ -208,7 +215,8 @@ through a collection of variables.
 
 =back
 
-Don't modify these variables.
+The above variables have all been localized and may be changed without
+effecting data outside of the wanted function.
 
 For example, when examining the file F</some/path/foo.ext> you will have:
 
@@ -216,7 +224,7 @@ For example, when examining the file F</some/path/foo.ext> you will have:
     $_                = foo.ext
     $File::Find::name = /some/path/foo.ext
 
-You are chdir()'d toC<$File::Find::dir> when the function is called,
+You are chdir()'d to C<$File::Find::dir> when the function is called,
 unless C<no_chdir> was specified. Note that when changing to
 directories is in effect the root directory (F</>) is a somewhat
 special case inasmuch as the concatenation of C<$File::Find::dir>,
@@ -308,7 +316,7 @@ If you do set C<$File::Find::dont_use_nlink> to 1, you will notice slow-downs.
 Be aware that the option to follow symbolic links can be dangerous.
 Depending on the structure of the directory tree (including symbolic
 links to directories) you might traverse a given (physical) directory
-more than once (only if C<follow_fast> is in effect). 
+more than once (only if C<follow_fast> is in effect).
 Furthermore, deleting or changing files in a symbolically linked directory
 might cause very unpleasant surprises, since you delete or change files
 in an unknown directory.
@@ -325,46 +333,46 @@ Mac OS (Classic) users should note a few differences:
 
 =over 4
 
-=item *   
+=item *
 
-The path separator is ':', not '/', and the current directory is denoted 
-as ':', not '.'. You should be careful about specifying relative pathnames. 
-While a full path always begins with a volume name, a relative pathname 
-should always begin with a ':'.  If specifying a volume name only, a 
+The path separator is ':', not '/', and the current directory is denoted
+as ':', not '.'. You should be careful about specifying relative pathnames.
+While a full path always begins with a volume name, a relative pathname
+should always begin with a ':'.  If specifying a volume name only, a
 trailing ':' is required.
 
-=item *   
+=item *
 
-C<$File::Find::dir> is guaranteed to end with a ':'. If C<$_> 
-contains the name of a directory, that name may or may not end with a 
-':'. Likewise, C<$File::Find::name>, which contains the complete 
-pathname to that directory, and C<$File::Find::fullname>, which holds 
+C<$File::Find::dir> is guaranteed to end with a ':'. If C<$_>
+contains the name of a directory, that name may or may not end with a
+':'. Likewise, C<$File::Find::name>, which contains the complete
+pathname to that directory, and C<$File::Find::fullname>, which holds
 the absolute pathname of that directory with all symbolic links resolved,
 may or may not end with a ':'.
 
-=item *   
+=item *
 
-The default C<untaint_pattern> (see above) on Mac OS is set to  
+The default C<untaint_pattern> (see above) on Mac OS is set to
 C<qr|^(.+)$|>. Note that the parentheses are vital.
 
-=item *   
+=item *
 
-The invisible system file "Icon\015" is ignored. While this file may 
-appear in every directory, there are some more invisible system files 
-on every volume, which are all located at the volume root level (i.e. 
-"MacintoshHD:"). These system files are B<not> excluded automatically. 
-Your filter may use the following code to recognize invisible files or 
+The invisible system file "Icon\015" is ignored. While this file may
+appear in every directory, there are some more invisible system files
+on every volume, which are all located at the volume root level (i.e.
+"MacintoshHD:"). These system files are B<not> excluded automatically.
+Your filter may use the following code to recognize invisible files or
 directories (requires Mac::Files):
 
  use Mac::Files;
 
- # invisible() --  returns 1 if file/directory is invisible,  
+ # invisible() --  returns 1 if file/directory is invisible,
  # 0 if it's visible or undef if an error occurred
 
- sub invisible($) { 
+ sub invisible($) {
    my $file = shift;
-   my ($fileCat, $fileInfo); 
-   my $invisible_flag =  1 << 14; 
+   my ($fileCat, $fileInfo);
+   my $invisible_flag =  1 << 14;
 
    if ( $fileCat = FSpGetCatInfo($file) ) {
      if ($fileInfo = $fileCat->ioFlFndrInfo() ) {
@@ -374,16 +382,16 @@ directories (requires Mac::Files):
    return undef;
  }
 
-Generally, invisible files are system files, unless an odd application 
-decides to use invisible files for its own purposes. To distinguish 
-such files from system files, you have to look at the B<type> and B<creator> 
-file attributes. The MacPerl built-in functions C<GetFileInfo(FILE)> and 
-C<SetFileInfo(CREATOR, TYPE, FILES)> offer access to these attributes 
+Generally, invisible files are system files, unless an odd application
+decides to use invisible files for its own purposes. To distinguish
+such files from system files, you have to look at the B<type> and B<creator>
+file attributes. The MacPerl built-in functions C<GetFileInfo(FILE)> and
+C<SetFileInfo(CREATOR, TYPE, FILES)> offer access to these attributes
 (see MacPerl.pm for details).
 
 Files that appear on the desktop actually reside in an (hidden) directory
 named "Desktop Folder" on the particular disk volume. Note that, although
-all desktop files appear to be on the same "virtual" desktop, each disk 
+all desktop files appear to be on the same "virtual" desktop, each disk
 volume actually maintains its own "Desktop Folder" directory.
 
 =back
@@ -443,7 +451,7 @@ sub contract_name {
 
 # return the absolute name of a directory or file
 sub contract_name_Mac {
-    my ($cdir,$fn) = @_; 
+    my ($cdir,$fn) = @_;
     my $abs_name;
 
     if ($fn =~ /^(:+)(.*)$/) { # valid pathname starting with a ':'
@@ -453,8 +461,8 @@ sub contract_name_Mac {
            $abs_name = $cdir . $2;
            return $abs_name;
        }
-       else { 
-           # need to move up the tree, but 
+       else {
+           # need to move up the tree, but
            # only if it's not a volume name
            for (my $i=1; $i<$colon_count; $i++) {
                unless ($cdir =~ /^[^:]+:$/) { # volume name
@@ -482,7 +490,7 @@ sub contract_name_Mac {
                return $abs_name;
            }
        }
-       else { # argh!, $fn is not a valid directory/file 
+       else { # argh!, $fn is not a valid directory/file
             return undef;
        }
     }
@@ -495,7 +503,7 @@ sub PathCombine($$) {
     if ($Is_MacOS) {
        # $Name is the resolved symlink (always a full path on MacOS),
        # i.e. there's no need to call contract_name_Mac()
-       $AbsName = $Name; 
+       $AbsName = $Name;
 
        # (simple) check for recursion
        if ( ( $Base =~ /^$AbsName/) && (-d $AbsName) ) { # recursion
@@ -578,7 +586,7 @@ sub is_tainted_pp {
     local $@;
     eval { eval "# $nada" };
     return length($@) != 0;
-} 
+}
 
 sub _find_opt {
     my $wanted = shift;
@@ -595,6 +603,20 @@ sub _find_opt {
     local *_ = \my $a;
 
     my $cwd            = $wanted->{bydepth} ? Cwd::fastcwd() : Cwd::getcwd();
+    if ($Is_VMS) {
+       # VMS returns this by default in VMS format which just doesn't
+       # work for the rest of this module.
+       $cwd = VMS::Filespec::unixpath($cwd);
+
+       # Apparently this is not expected to have a trailing space.
+       # To attempt to make VMS/UNIX conversions mostly reversable,
+       # a trailing slash is needed.  The run-time functions ignore the
+       # resulting double slash, but it causes the perl tests to fail.
+        $cwd =~ s#/\z##;
+
+       # This comes up in upper case now, but should be lower.
+       # In the future this could be exact case, no need to change.
+    }
     my $cwd_untainted  = $cwd;
     my $check_t_cwd    = 1;
     $wanted_callback   = $wanted->{wanted};
@@ -602,8 +624,9 @@ sub _find_opt {
     $pre_process       = $wanted->{preprocess};
     $post_process      = $wanted->{postprocess};
     $no_chdir          = $wanted->{no_chdir};
-    $full_check        = $wanted->{follow};
-    $follow            = $full_check || $wanted->{follow_fast};
+    $full_check        = $^O eq 'MSWin32' ? 0 : $wanted->{follow};
+    $follow            = $^O eq 'MSWin32' ? 0 :
+                             $full_check || $wanted->{follow_fast};
     $follow_skip       = $wanted->{follow_skip};
     $untaint           = $wanted->{untaint};
     $untaint_pat       = $wanted->{untaint_pattern};
@@ -615,21 +638,23 @@ sub _find_opt {
 
     # a symbolic link to a directory doesn't increase the link count
     $avoid_nlink      = $follow || $File::Find::dont_use_nlink;
-    
+
     my ($abs_dir, $Is_Dir);
 
     Proc_Top_Item:
     foreach my $TOP (@_) {
        my $top_item = $TOP;
 
+       ($topdev,$topino,$topmode,$topnlink) = $follow ? stat $top_item : lstat $top_item;
+
        if ($Is_MacOS) {
-           ($topdev,$topino,$topmode,$topnlink) = $follow ? stat $top_item : lstat $top_item;
            $top_item = ":$top_item"
                if ( (-d _) && ( $top_item !~ /:/ ) );
+       } elsif ($^O eq 'MSWin32') {
+           $top_item =~ s|/\z|| unless $top_item =~ m|\w:/$|;
        }
        else {
            $top_item =~ s|/\z|| unless $top_item eq '/';
-           ($topdev,$topino,$topmode,$topnlink) = $follow ? stat $top_item : lstat $top_item;
        }
 
        $Is_Dir= 0;
@@ -659,6 +684,7 @@ sub _find_opt {
                    $abs_dir = $cwd;
                }
                else {  # care about any  ../
+                   $top_item =~ s/\.dir\z//i if $Is_VMS;
                    $abs_dir = contract_name("$cwd/",$top_item);
                }
            }
@@ -675,6 +701,7 @@ sub _find_opt {
            }
 
            if (-d _) {
+               $top_item =~ s/\.dir\z//i if $Is_VMS;
                _find_dir_symlnk($wanted, $abs_dir, $top_item);
                $Is_Dir= 1;
            }
@@ -767,6 +794,18 @@ sub _find_dir($$$) {
 
     if ($Is_MacOS) {
        $dir_pref= ($p_dir =~ /:$/) ? $p_dir : "$p_dir:"; # preface
+    } elsif ($^O eq 'MSWin32') {
+       $dir_pref = ($p_dir =~ m|\w:/$| ? $p_dir : "$p_dir/" );
+    } elsif ($^O eq 'VMS') {
+
+       #       VMS is returning trailing .dir on directories
+       #       and trailing . on files and symbolic links
+       #       in UNIX syntax.
+       #
+
+       $p_dir =~ s/\.(dir)?$//i unless $p_dir eq '.';
+
+       $dir_pref = ($p_dir =~ m/[\]>]+$/ ? $p_dir : "$p_dir/" );
     }
     else {
        $dir_pref= ( $p_dir eq '/' ? '/' : "$p_dir/" );
@@ -802,8 +841,8 @@ sub _find_dir($$$) {
 
     while (defined $SE) {
        unless ($bydepth) {
-           $dir= $p_dir; # $File::Find::dir 
-           $name= $dir_name; # $File::Find::name 
+           $dir= $p_dir; # $File::Find::dir
+           $name= $dir_name; # $File::Find::name
            $_= ($no_chdir ? $dir_name : $dir_rel ); # $_
            # prune may happen here
            $prune= 0;
@@ -825,7 +864,7 @@ sub _find_dir($$$) {
                            die "directory (" . ($p_dir ne '/' ? $p_dir : '') . "/) $dir_rel is still tainted";
                        }
                    } else { # $untaint_skip == 1
-                       next; 
+                       next;
                    }
                }
            }
@@ -846,7 +885,7 @@ sub _find_dir($$$) {
            $dir_name = "$dir_name:" unless ($dir_name =~ /:$/);
        }
 
-       $dir= $dir_name; # $File::Find::dir 
+       $dir= $dir_name; # $File::Find::dir
 
        # Get the list of files in the current directory.
        unless (opendir DIR, ($no_chdir ? $dir_name : $File::Find::current_dir)) {
@@ -867,6 +906,14 @@ sub _find_dir($$$) {
        if ($nlink == 2 && !$no_nlink) {
            # This dir has no subdirectories.
            for my $FN (@filenames) {
+               if ($Is_VMS) {
+               # Big hammer here - Compensate for VMS trailing . and .dir
+               # No win situation until this is changed, but this
+               # will handle the majority of the cases with breaking the fewest
+
+                   $FN =~ s/\.dir\z//i;
+                   $FN =~ s#\.$## if ($FN ne '.');
+               }
                next if $FN =~ $File::Find::skip_pattern;
                
                $name = $dir_pref . $FN; # $File::Find::name
@@ -922,10 +969,13 @@ sub _find_dir($$$) {
                if ($Is_MacOS) {
                    $tmp = (':' x ($CdLvl-$Level)) . ':';
                }
+               elsif ($Is_VMS) {
+                   $tmp = '[' . ('-' x ($CdLvl-$Level)) . ']';
+               }
                else {
                    $tmp = join('/',('..') x ($CdLvl-$Level));
                }
-               die "Can't cd to $dir_name" . $tmp
+               die "Can't cd to $tmp from $dir_name"
                    unless chdir ($tmp);
                $CdLvl = $Level;
            }
@@ -936,6 +986,21 @@ sub _find_dir($$$) {
                $dir_name = "$p_dir$dir_rel";
                $dir_pref = "$dir_name:";
            }
+           elsif ($^O eq 'MSWin32') {
+               $dir_name = ($p_dir =~ m|\w:/$| ? "$p_dir$dir_rel" : "$p_dir/$dir_rel");
+               $dir_pref = "$dir_name/";
+           }
+           elsif ($^O eq 'VMS') {
+                if ($p_dir =~ m/[\]>]+$/) {
+                    $dir_name = $p_dir;
+                    $dir_name =~ s/([\]>]+)$/.$dir_rel$1/;
+                    $dir_pref = $dir_name;
+                }
+                else {
+                    $dir_name = "$p_dir/$dir_rel";
+                    $dir_pref = "$dir_name/";
+                }
+           }
            else {
                $dir_name = ($p_dir eq '/' ? "/$dir_rel" : "$p_dir/$dir_rel");
                $dir_pref = "$dir_name/";
@@ -1014,8 +1079,8 @@ sub _find_dir_symlnk($$$) {
        if (( $untaint ) && (is_tainted($dir_loc) )) {
            ( $updir_loc ) = $dir_loc =~ m|$untaint_pat|; # parent dir, now untainted
             # once untainted, $updir_loc is pushed on the stack (as parent directory);
-           # hence, we don't need to untaint the parent directory every time we chdir 
-           # to it later 
+           # hence, we don't need to untaint the parent directory every time we chdir
+           # to it later
            unless (defined $updir_loc) {
                if ($untaint_skip == 0) {
                    die "directory $dir_loc is still tainted";
@@ -1063,7 +1128,7 @@ sub _find_dir_symlnk($$$) {
        unless ($no_chdir || ($dir_rel eq $File::Find::current_dir)) {
            $updir_loc = $dir_loc;
            if ( ($untaint) && (($tainted) || ($tainted = is_tainted($dir_loc) )) ) {
-               # untaint $dir_loc, what will be pushed on the stack as (untainted) parent dir 
+               # untaint $dir_loc, what will be pushed on the stack as (untainted) parent dir
                ( $updir_loc ) = $dir_loc =~ m|$untaint_pat|;
                unless (defined $updir_loc) {
                    if ($untaint_skip == 0) {
@@ -1095,19 +1160,47 @@ sub _find_dir_symlnk($$$) {
        closedir(DIR);
 
        for my $FN (@filenames) {
+           if ($Is_VMS) {
+           # Big hammer here - Compensate for VMS trailing . and .dir
+           # No win situation until this is changed, but this
+           # will handle the majority of the cases with breaking the fewest.
+
+               $FN =~ s/\.dir\z//i;
+               $FN =~ s#\.$## if ($FN ne '.');
+           }
            next if $FN =~ $File::Find::skip_pattern;
 
            # follow symbolic links / do an lstat
            $new_loc = Follow_SymLink($loc_pref.$FN);
 
            # ignore if invalid symlink
-           next unless defined $new_loc;
+           unless (defined $new_loc) {
+               if (!defined -l _ && $dangling_symlinks) {
+                   if (ref $dangling_symlinks eq 'CODE') {
+                       $dangling_symlinks->($FN, $dir_pref);
+                   } else {
+                       warnings::warnif "$dir_pref$FN is a dangling symbolic link\n";
+                   }
+               }
+
+               $fullname = undef;
+               $name = $dir_pref . $FN;
+               $_ = ($no_chdir ? $name : $FN);
+               { $wanted_callback->() };
+               next;
+           }
 
            if (-d _) {
+               if ($Is_VMS) {
+                   $FN =~ s/\.dir\z//i;
+                   $FN =~ s#\.$## if ($FN ne '.');
+                   $new_loc =~ s/\.dir\z//i;
+                   $new_loc =~ s#\.$## if ($new_loc ne '.');
+               }
                push @Stack,[$new_loc,$updir_loc,$dir_name,$FN,1];
            }
            else {
-               $fullname = $new_loc; # $File::Find::fullname 
+               $fullname = $new_loc; # $File::Find::fullname
                $name = $dir_pref . $FN; # $File::Find::name
                $_ = ($no_chdir ? $name : $FN); # $_
                { $wanted_callback->() }; # protect against wild "next"
@@ -1132,7 +1225,7 @@ sub _find_dir_symlnk($$$) {
            }
            if ( $byd_flag < 0 ) {  # must be finddepth, report dirname now
                unless ($no_chdir || ($dir_rel eq $File::Find::current_dir)) {
-                   unless (chdir $updir_loc) { # $updir_loc (parent dir) is always untainted 
+                   unless (chdir $updir_loc) { # $updir_loc (parent dir) is always untainted
                        warnings::warnif "Can't cd to $updir_loc: $!\n";
                        next;
                    }
@@ -1177,7 +1270,7 @@ sub wrap_wanted {
            $wanted->{follow_skip} = 1 unless defined $wanted->{follow_skip};
        }
        if ( $wanted->{untaint} ) {
-           $wanted->{untaint_pattern} = $File::Find::untaint_pattern  
+           $wanted->{untaint_pattern} = $File::Find::untaint_pattern
                unless defined $wanted->{untaint_pattern};
            $wanted->{untaint_skip} = 0 unless defined $wanted->{untaint_skip};
        }
@@ -1221,7 +1314,7 @@ $File::Find::current_dir = File::Spec->curdir || '.';
 
 $File::Find::dont_use_nlink = 1
     if $^O eq 'os2' || $^O eq 'dos' || $^O eq 'amigaos' || $^O eq 'MSWin32' ||
-       $^O eq 'cygwin' || $^O eq 'epoc' || $^O eq 'qnx' ||
+       $^O eq 'interix' || $^O eq 'cygwin' || $^O eq 'epoc' || $^O eq 'qnx' ||
           $^O eq 'nto';
 
 # Set dont_use_nlink in your hint file if your system's stat doesn't
@@ -1233,8 +1326,8 @@ unless ($File::Find::dont_use_nlink) {
     $File::Find::dont_use_nlink = 1 if ($Config::Config{'dont_use_nlink'});
 }
 
-# We need a function that checks if a scalar is tainted. Either use the 
-# Scalar::Util module's tainted() function or our (slower) pure Perl 
+# We need a function that checks if a scalar is tainted. Either use the
+# Scalar::Util module's tainted() function or our (slower) pure Perl
 # fallback is_tainted_pp()
 {
     local $@;