Bash：计算几个按字母顺序排列的文件中的 N 个字符

Question

我建议使用zsh代替bash，这将更容易获得自以来新文件的排序递归列表aab.md。

#! /bin/zsh -
last_file=aab.md offset_in_last_file=3036 n=500000
new_files=(**/*.(md|org)(N))
new_files=($new_files[(Re)$last_file,-1])

(($#new_files)) && perl -Ci -sne '
   $l = length; $go += $l; $o += $l;
   if ($go >= $n) {
     printf qq(file="%s", line=%d, char-offset=%d\n), $ARGV, $., $o + $n - $go;
     exit;
   }
   $o = 0 if eof' -- -go=-$offset_in_last_file -n=$n ./$^new_files

对于字素簇数而不是字符数，请替换$l = length为$l = () = /\X/g。例如é，写为U+0065U+03011 个字素簇，用 2 个字符（UTF-8 中为 3 个字节）表示，而写为 U+00E9 时，为 1 个字素簇和 1 个字符（2 个字节）。

使用 bash 4.4+ 和 GNU awk，您可以执行类似的操作来构造$new_files数组

shopt -s nullglob extglob globstar
readarray -td '' new_files < <(
    printf '%s\0' **/*.@(md|org) |
      L=$last_file awk -v RS='\0' -v ORS='\0' '$0 == ENVIRON["L"], 0'
  )

对于bash，您还需要替换./$^new_files为"${new_files[@]/#/.\/}"。（我们添加前缀以避免以或、、、空格开头./的文件名出现问题...-|<>

Answer 1

我建议使用zsh代替bash，这将更容易获得自以来新文件的排序递归列表aab.md。

#! /bin/zsh -
last_file=aab.md offset_in_last_file=3036 n=500000
new_files=(**/*.(md|org)(N))
new_files=($new_files[(Re)$last_file,-1])

(($#new_files)) && perl -Ci -sne '
   $l = length; $go += $l; $o += $l;
   if ($go >= $n) {
     printf qq(file="%s", line=%d, char-offset=%d\n), $ARGV, $., $o + $n - $go;
     exit;
   }
   $o = 0 if eof' -- -go=-$offset_in_last_file -n=$n ./$^new_files

对于字素簇数而不是字符数，请替换$l = length为$l = () = /\X/g。例如é，写为U+0065U+03011 个字素簇，用 2 个字符（UTF-8 中为 3 个字节）表示，而写为 U+00E9 时，为 1 个字素簇和 1 个字符（2 个字节）。

使用 bash 4.4+ 和 GNU awk，您可以执行类似的操作来构造$new_files数组

shopt -s nullglob extglob globstar
readarray -td '' new_files < <(
    printf '%s\0' **/*.@(md|org) |
      L=$last_file awk -v RS='\0' -v ORS='\0' '$0 == ENVIRON["L"], 0'
  )

对于bash，您还需要替换./$^new_files为"${new_files[@]/#/.\/}"。（我们添加前缀以避免以或、、、空格开头./的文件名出现问题...-|<>

Bash：计算几个按字母顺序排列的文件中的 N 个字符

答案1

相关内容