查找没有文本的 PDF

Question

是的，使用pdfgrep听起来是个好主意。就像是：

find . -name '*.[Pp][Dd][Ff]' -type f \
  ! -exec pdfgrep -q '\w' {} ';' -print

pdfgrep将报告找不到任何单词字符（数字或下划线）的 pdf 文件列表。

（对于某些find实现，您可以使用-iname '*.pdf'而不是-name '*.[Pp][Dd][Ff]'上面的内容。请注意，它假设文件名是当前语言环境中的有效文本）

要查找少于 1000 个单词字符的文件：

find . -name '*.[Pp][Dd][Ff]' -type f -exec sh -c '
  for file do
    [ "$(pdfgrep -c "\w" "$file")" -lt 1000 ] &&
      printf "%s\n" "$file"
  done' sh {} +

Answer 1

是的，使用pdfgrep听起来是个好主意。就像是：

find . -name '*.[Pp][Dd][Ff]' -type f \
  ! -exec pdfgrep -q '\w' {} ';' -print

pdfgrep将报告找不到任何单词字符（数字或下划线）的 pdf 文件列表。

（对于某些find实现，您可以使用-iname '*.pdf'而不是-name '*.[Pp][Dd][Ff]'上面的内容。请注意，它假设文件名是当前语言环境中的有效文本）

要查找少于 1000 个单词字符的文件：

find . -name '*.[Pp][Dd][Ff]' -type f -exec sh -c '
  for file do
    [ "$(pdfgrep -c "\w" "$file")" -lt 1000 ] &&
      printf "%s\n" "$file"
  done' sh {} +

查找没有文本的 PDF

答案1

相关内容