Bash，从 pdf 中获取链接

Question 1

您可以尝试手动提取/URI(...)PDF 指令，也许在删除压缩（如果有）之后使用pdftk：

pdftk file.pdf output - uncompress | grep -aPo '/URI *\(\K[^)]*'

Answer

您可以尝试手动提取/URI(...)PDF 指令，也许在删除压缩（如果有）之后使用pdftk：

pdftk file.pdf output - uncompress | grep -aPo '/URI *\(\K[^)]*'

Question 2

使用pdf文件并过滤以以下开头的所有行- http：

pdfx -v file.pdf | sed -n 's/^- \(http\)/\1/p'

Answer

使用pdf文件并过滤以以下开头的所有行- http：

pdfx -v file.pdf | sed -n 's/^- \(http\)/\1/p'

Question 3

测试一下：

pdftotext -raw "filename.pdf" && file=`ls -tr | tail -1`; grep -E "https?://.*" "${file}" && rm "${file}"

Answer

测试一下：

pdftotext -raw "filename.pdf" && file=`ls -tr | tail -1`; grep -E "https?://.*" "${file}" && rm "${file}"

Question 4

首先，您需要检查您的pdf是否经过压缩，请参阅：

如果是压缩的，则需要将其解压。

然后，您可以使用grep和提取链接sed：

strings uncompressed.pdf | grep -Eo '/URI \(.*\)' | sed 's/^\/URI (//g; s/)$//g'

Answer

首先，您需要检查您的pdf是否经过压缩，请参阅：

如果是压缩的，则需要将其解压。

然后，您可以使用grep和提取链接sed：

strings uncompressed.pdf | grep -Eo '/URI \(.*\)' | sed 's/^\/URI (//g; s/)$//g'

相关内容