如何随机对文件进行子集化，然后从多个文件中选择相同的行号

Question 1

您可以首先从 3494 中提取 100 个随机数，然后从每个文件中提取这些行号，例如

seq 3494 | shuf -n 100 | awk 'NR==FNR{ z[$0]++;next}
{if (FNR in z){ print >FILENAME"_random"}}' - ./*.txt

这将从每个文件中提取相同的行号并将它们保存到FILENAME"_random"

Answer

您可以首先从 3494 中提取 100 个随机数，然后从每个文件中提取这些行号，例如

seq 3494 | shuf -n 100 | awk 'NR==FNR{ z[$0]++;next}
{if (FNR in z){ print >FILENAME"_random"}}' - ./*.txt

这将从每个文件中提取相同的行号并将它们保存到FILENAME"_random"

Question 2

您可以创建一个简单的sed脚本文件来打印特定索引处的行，例如

printf '%dp\n' $(shuf -i 1-3494 -n 100) > indexfile

然后像这样使用它

sed -nf indexfile File1
sed -nf indexfile File2
.
.

等等。如果您有 GNU sed，-s, --separate您可以使用以下命令从多个文件中顺序选择相同的行

sed -snf indexfile File1 File2 File3

（File1 File2 File3如果您愿意，可以用 shell glob 替换）。

如果您想要一个每次调用都选择不同随机子集的单行代码，那么您可以执行类似的操作

printf '%dp\n' $(shuf -i 1-3494 -n 100) | sed -snf - File1 File2 File3

Answer