从存档网站提取并打印所有链接（不是下载内容）

Question 1

您可以使用镜像网站wget，但您也可以告诉它充当网络蜘蛛，这样它就不会下载任何内容。

所以你可以这样做，但请确保保存日志：

wget --no-directories --mirror --spider "$url" 2>&1 | tee "$log"

就我而言，在日志中我发现了类似这样的内容：

Spider mode enabled. Check if remote file exists.
--2017-12-19 07:19:23--  URL

然后我用来grep检索 URL：

grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' "$log"

例子：

$ wget --no-directories --mirror --spider https://utw.me/file/scripts/ 2>&1 | tee log.txt
...
$ grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' log.txt
...
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2001.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2002.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2003.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2004.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2005.ass
...

Answer

您可以使用镜像网站wget，但您也可以告诉它充当网络蜘蛛，这样它就不会下载任何内容。

所以你可以这样做，但请确保保存日志：

wget --no-directories --mirror --spider "$url" 2>&1 | tee "$log"

就我而言，在日志中我发现了类似这样的内容：

Spider mode enabled. Check if remote file exists.
--2017-12-19 07:19:23--  URL

然后我用来grep检索 URL：

grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' "$log"

例子：

$ wget --no-directories --mirror --spider https://utw.me/file/scripts/ 2>&1 | tee log.txt
...
$ grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' log.txt
...
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2001.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2002.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2003.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2004.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2005.ass
...

Question 2

我认为你在寻找过程中陷入了困境https://www.asite.com/Books/（从https://www.asite.com/）和https://www.asite.com/（来自它的子目录之一）。

wget，curl并且lynx可以在多种条件下选择向下/获取项目（不要离开初始站点、最大深度为 X、使用 ftp 等）。

附注：

你没有显示完整的代码。
你print_directory_items用一个参数来调用，但没有抓住它（它在本地被称为$1）
优于$( )反引号

Answer

我认为你在寻找过程中陷入了困境https://www.asite.com/Books/（从https://www.asite.com/）和https://www.asite.com/（来自它的子目录之一）。

wget，curl并且lynx可以在多种条件下选择向下/获取项目（不要离开初始站点、最大深度为 X、使用 ftp 等）。

附注：

你没有显示完整的代码。
你print_directory_items用一个参数来调用，但没有抓住它（它在本地被称为$1）
优于$( )反引号

从存档网站提取并打印所有链接（不是下载内容）

答案1

答案2

相关内容