我有一个包含大约 2000 万个句子的文件,如何从中提取 200 万个句子?我考虑过使用像“split -l 2000000 sub2016”这样的 split 命令,但它会创建一系列文本,而我只需要一个。那么我该如何指定呢?谢谢你!
答案1
如果您想要前 200 万行:
head -n 2000000 sub2016
如果您想要在文件中随机获取 200 万行的块:
tail -n +$((RANDOM * RANDOM % 18000000)) sub2016 | head -n 2000000
这会选择 0 到 32767 之间的两个随机数,将它们相乘,将范围缩小到 1800 万(2000 万减 200 万),跳过那么多行并输出 200 万行。