如何使用 wget 爬取网站直到保存 300 个 html 页面

Question

您可以尝试这样的事情：

将命令置于后台wget并记录其 PID ( $!)
inotifywatch在接收目录上设置一个来计数文件
wget当计数超过阈值时终止进程

为了说明起见，使用 shell 函数来模拟递归wget：

#!/bin/bash

local_dir=tmp

wgetcmd() {
  local i=0

  while :
  do 
    # simulate page download
    echo "Downloading... $((++i))"
    touch "$local_dir/file${i}.html"
    sleep 2
  done
}

wgetcmd & pid=$!

j=1
while kill -s 0 $pid && read path action file
do
  if (( ++j >= 30 )); then
    echo "Reached page limit"
    kill $pid
    break;
  fi
done < <(inotifywait -m "$local_dir" -e close_write)

Answer 1

您可以尝试这样的事情：

将命令置于后台wget并记录其 PID ( $!)
inotifywatch在接收目录上设置一个来计数文件
wget当计数超过阈值时终止进程

为了说明起见，使用 shell 函数来模拟递归wget：

#!/bin/bash

local_dir=tmp

wgetcmd() {
  local i=0

  while :
  do 
    # simulate page download
    echo "Downloading... $((++i))"
    touch "$local_dir/file${i}.html"
    sleep 2
  done
}

wgetcmd & pid=$!

j=1
while kill -s 0 $pid && read path action file
do
  if (( ++j >= 30 )); then
    echo "Reached page limit"
    kill $pid
    break;
  fi
done < <(inotifywait -m "$local_dir" -e close_write)

如何使用 wget 爬取网站直到保存 300 个 html 页面

答案1

相关内容