我正在参与一个为期一年的 Twitter 研究项目,并通过 Twitters API 和 Twarc 收集推文。
简而言之,这会将一条新推文作为新行写入一个指定的文件,晚上大约每秒一条,白天更多。
我想每天使用 cron 复制此文件的内容,同时“清空”主文件,以便第二天基本上会有一个新鲜的文件。我不想触碰写入文件的管道。
对于这样的企业来说,它是否mv currently_written_file.txt daily-xx-xx-xx.txt & mv empty.file currently_written_file.txt
足够快和稳定?虽然currently_written_file.txt可以随时访问(并且通常为100MB或更大),但它是否保证成功?我不确定。
我想知道像 logrotate 这样的程序是否可以保证这一点,但似乎 logrotate 不能设置为不是旋转此类文件;)