我正在尝试编写一个 shell 脚本,使用 for 循环在一个包含数百万行的大文件中查找重复单词后存储的值。找到重复单词后,我如何让脚本在文件中的当前行后开始搜索,这样当循环迭代时,它就不会从文件开头开始搜索。
简单地说如何在文件中找到当前行以及如何在循环重新迭代时从该行开始搜索,而不是从头开始搜索。
我可以运行多少个并行 crone,是否有任何限制,或者我们只需要根据我们的 CPU 和 RAM 利用率来运行。
答案1
我使用它在日志文件中查找程序是否启动成功。
要查找当前文件大小,您可以使用:
current_pos=$(stat -c "%s" file)
然后使用输出
tail -c +$current_pos file
从记住的位置开始搜索。
但是,当您读取文件大小时(以及当您进行搜索时),最后一行可能不完整。这取决于写入文件的程序。