防止重复脚本同时运行

Question 1

更好的方法是使用包装脚本，它将调用主脚本。它看起来如下：

#!/bin/bash
# This is /home/user/bin/wrapper.sh file
pkill -f 'main_script.sh'
exec bash ./main_script.sh

当然，包装器必须以不同的方式命名。这样，pkill就可以只搜索您的主脚本。这样您的主脚本就简化为：

#!/bin/sh
cd /home/user/spiders/goods
PATH=$PATH:/usr/local/bin
export PATH
scrapy crawl good

请注意，在我的示例中，我使用的是./因为脚本位于我当前的工作目录中。使用脚本的完整路径可获得最佳效果

我已经用一个简单的主脚本测试了这种方法，该脚本只运行无限的 while 循环和包装器脚本。如您在屏幕截图中看到的那样，启动包装器的第二个实例会杀死前一个

你的脚本

这只是一个例子。请记住，我无法访问 scrapy 来实际测试这一点，因此请根据您的情况进行调整。

你的 cron 条目看起来应该像这样：

0,30 * * * * /home/us/jobs/scrapy_wrapper.sh

内容scrapy_wrapper.sh

#!/bin/bash
pkill -f 'run_scrapy.sh'
exec sh /home/us/jobs/run_scrapy.sh

内容run_scrapy.sh

#!/bin/bash
cd /home/user/spiders/goods
PATH=$PATH:/usr/local/bin
export PATH
# sleep delay now is not necessary
# but uncomment if you think it is
# sleep 2
scrapy crawl good

Answer

更好的方法是使用包装脚本，它将调用主脚本。它看起来如下：

#!/bin/bash
# This is /home/user/bin/wrapper.sh file
pkill -f 'main_script.sh'
exec bash ./main_script.sh

当然，包装器必须以不同的方式命名。这样，pkill就可以只搜索您的主脚本。这样您的主脚本就简化为：

#!/bin/sh
cd /home/user/spiders/goods
PATH=$PATH:/usr/local/bin
export PATH
scrapy crawl good

请注意，在我的示例中，我使用的是./因为脚本位于我当前的工作目录中。使用脚本的完整路径可获得最佳效果

我已经用一个简单的主脚本测试了这种方法，该脚本只运行无限的 while 循环和包装器脚本。如您在屏幕截图中看到的那样，启动包装器的第二个实例会杀死前一个

你的脚本

这只是一个例子。请记住，我无法访问 scrapy 来实际测试这一点，因此请根据您的情况进行调整。

你的 cron 条目看起来应该像这样：

0,30 * * * * /home/us/jobs/scrapy_wrapper.sh

内容scrapy_wrapper.sh

#!/bin/bash
pkill -f 'run_scrapy.sh'
exec sh /home/us/jobs/run_scrapy.sh

内容run_scrapy.sh

#!/bin/bash
cd /home/user/spiders/goods
PATH=$PATH:/usr/local/bin
export PATH
# sleep delay now is not necessary
# but uncomment if you think it is
# sleep 2
scrapy crawl good

Question 2

如果我理解正确的话，您希望每 30 分钟调用一次进程（通过 cron）。但是，当您通过 cron 启动新进程时，您是否想终止仍在运行的任何现有版本？

您可以使用“timeout”命令来确保如果 scrappy 在 30 分钟后仍在运行则强制终止。

这将使你的脚本看起来像这样：

#!/bin/sh
cd ~/spiders/goods
PATH=$PATH:/usr/local/bin
export PATH
timeout 30m scrapy crawl good

注意最后一行添加的超时

我已将持续时间设置为“30m”（30 分钟）。您可能希望选择稍短的时间（例如 29m），以确保在下一个作业开始之前该过程已终止。

请注意，如果你更改了 crontab 中的生成间隔，则还必须编辑脚本

Answer

如果我理解正确的话，您希望每 30 分钟调用一次进程（通过 cron）。但是，当您通过 cron 启动新进程时，您是否想终止仍在运行的任何现有版本？

您可以使用“timeout”命令来确保如果 scrappy 在 30 分钟后仍在运行则强制终止。

这将使你的脚本看起来像这样：

#!/bin/sh
cd ~/spiders/goods
PATH=$PATH:/usr/local/bin
export PATH
timeout 30m scrapy crawl good

注意最后一行添加的超时

我已将持续时间设置为“30m”（30 分钟）。您可能希望选择稍短的时间（例如 29m），以确保在下一个作业开始之前该过程已终止。

请注意，如果你更改了 crontab 中的生成间隔，则还必须编辑脚本

Question 3

太棒了。稍作更新，脚本就可以自行确定自己的文件名，而无需硬编码：

#!/bin/bash 
# runchecker.sh
#this script obtains the name of the script and then
#checks if the script is already running or not
#if scripts already runs it exits

filename=$(basename $0)
echo running now $filename

pids=($(pidof -x $filename))

if [ ${#pids[@]} -gt 1 ] ; then 
                echo "Script already running by pid ${pids[1]}" 
                exit 
fi

echo "Starting service "
sleep 1000

    enter code here

Answer

太棒了。稍作更新，脚本就可以自行确定自己的文件名，而无需硬编码：

#!/bin/bash 
# runchecker.sh
#this script obtains the name of the script and then
#checks if the script is already running or not
#if scripts already runs it exits

filename=$(basename $0)
echo running now $filename

pids=($(pidof -x $filename))

if [ ${#pids[@]} -gt 1 ] ; then 
                echo "Script already running by pid ${pids[1]}" 
                exit 
fi

echo "Starting service "
sleep 1000

    enter code here

Question 4

由于pkill仅终止指定的进程，我们应该使用-P选项终止其子进程。因此修改后的脚本将如下所示：

#!/bin/sh

cd /home/USERNAME/spiders/goods
PATH=$PATH:/usr/local/bin
export PATH
PID=$(pgrep -o run_scrapy.sh)
if [ $$ -ne $PID ] ; then pkill -P $PID ; sleep 2s ; fi
scrapy crawl good

trapEXIT在事件（即run_scrapy.sh终止时）上运行定义的命令（在双引号中）。还有其他事件，您可以在中找到它们help trap。
pgrep -o查找具有定义名称的进程的最旧实例。

附言您的想法grep -v $$很好，但它不会返回其他实例的 PID run_scrapy.sh，因为$$这将是子进程的 PID $(pgrep run_scrapy.sh | grep -v $$)，而不是启动它的 PID run_scrapy.sh。这就是我使用另一种方法的原因。
聚苯硫醚你会发现在 Bash 中终止子进程的其他一些方法这里。

Answer

由于pkill仅终止指定的进程，我们应该使用-P选项终止其子进程。因此修改后的脚本将如下所示：

#!/bin/sh

cd /home/USERNAME/spiders/goods
PATH=$PATH:/usr/local/bin
export PATH
PID=$(pgrep -o run_scrapy.sh)
if [ $$ -ne $PID ] ; then pkill -P $PID ; sleep 2s ; fi
scrapy crawl good

trapEXIT在事件（即run_scrapy.sh终止时）上运行定义的命令（在双引号中）。还有其他事件，您可以在中找到它们help trap。
pgrep -o查找具有定义名称的进程的最旧实例。

附言您的想法grep -v $$很好，但它不会返回其他实例的 PID run_scrapy.sh，因为$$这将是子进程的 PID $(pgrep run_scrapy.sh | grep -v $$)，而不是启动它的 PID run_scrapy.sh。这就是我使用另一种方法的原因。
聚苯硫醚你会发现在 Bash 中终止子进程的其他一些方法这里。

防止重复脚本同时运行

答案1

答案2

答案3

答案4

相关内容