合并 2 个匹配多个列的大文件并保留顺序（打印匹配和不匹配的值） - 从 awk 扩展

Question 1

问题不在于将该文件保留在内存中，而是扫描查找表以查找数据文件的每一行。您的代码没有显示它，但在幕后您执行了 3'000'000 次 323'000'000/2 = 几乎半千万亿字符串比较，在内存总线上移动了数千 TB。即使对于 200 GBit/s 的快速内存，这也需要几个小时。

所以问题的关键是如何存储查找表。我建议使用二叉树来成倍减少执行时间。您可以使用perl或C或其他某种语言来执行此操作，但此时此刻它会变得偏离主题。

unix 命令工具集无法帮助您解决此问题。

Answer

问题不在于将该文件保留在内存中，而是扫描查找表以查找数据文件的每一行。您的代码没有显示它，但在幕后您执行了 3'000'000 次 323'000'000/2 = 几乎半千万亿字符串比较，在内存总线上移动了数千 TB。即使对于 200 GBit/s 的快速内存，这也需要几个小时。

所以问题的关键是如何存储查找表。我建议使用二叉树来成倍减少执行时间。您可以使用perl或C或其他某种语言来执行此操作，但此时此刻它会变得偏离主题。

unix 命令工具集无法帮助您解决此问题。

Question 2

如果我的假设是正确的，那么两个文件都按染色体、碱基对位置、rs 编号（仅查找表）和最后的等位基因排序 - 至少显示的部分遵循此模式。在这种情况下，您不需要将整个查找表保留在内存中。相反，您只需要浏览每个文件一次，内存需求可以忽略不计：

依次遍历数据文件中的每个标记，然后在查找文件中搜索，直到找到匹配项或超出候选位置并确定没有匹配项。如果找到匹配项，则从查找表中提取相应的 rs 编号，否则仅使用数据表中的当前 chr:bp 组合。

使用下面的脚本我得到了您想要的输出。保存脚本，然后像这样使用它：

gawk -f scriptname datafile lookuptable outputfile

一些小的补充：为了获得有关处理的数据量的最小反馈，使用“#”和“.”。分别是数据表和查找表中每 10,000 行的输出。

#!/usr/bin/gawk -f 
BEGIN {
    OFS = "\t"
    step = 10000
    while (1==1) {
        if ((getline indata < ARGV[1]) < 1)
            break
        if (!(na++ % step))
            printf "\n#"
        split(indata,a)
        allequal = 0
        while (1==1) {
            if (!overrun) {
                if ((getline inlookup < ARGV[2]) < 1)
                    break
                if (!(nb++ % step))
                    printf "."
            } else {
                overrun=0
            }
            split(inlookup,b)
            if (b[1]>a[1] || b[2]>a[5]) {
                overrun=1
                break
            }
            if (a[1]==b[1] && a[5]==b[2] && ((a[6]==b[4] && a[7]==b[5]) || (a[7]==b[4] && a[6]==b[5]))) {
                allequal=1
                break
            }   
        }
        if (allequal) {
            print a[1],b[3],a[4],a[5],a[6],a[7],b[4],b[5] > ARGV[3]
        } else {
            print a[1],a[3],a[4],a[5],a[6],a[7],a[6],a[7] > ARGV[3]
        }   
    }
}

Answer

如果我的假设是正确的，那么两个文件都按染色体、碱基对位置、rs 编号（仅查找表）和最后的等位基因排序 - 至少显示的部分遵循此模式。在这种情况下，您不需要将整个查找表保留在内存中。相反，您只需要浏览每个文件一次，内存需求可以忽略不计：

依次遍历数据文件中的每个标记，然后在查找文件中搜索，直到找到匹配项或超出候选位置并确定没有匹配项。如果找到匹配项，则从查找表中提取相应的 rs 编号，否则仅使用数据表中的当前 chr:bp 组合。

使用下面的脚本我得到了您想要的输出。保存脚本，然后像这样使用它：

gawk -f scriptname datafile lookuptable outputfile

一些小的补充：为了获得有关处理的数据量的最小反馈，使用“#”和“.”。分别是数据表和查找表中每 10,000 行的输出。

#!/usr/bin/gawk -f 
BEGIN {
    OFS = "\t"
    step = 10000
    while (1==1) {
        if ((getline indata < ARGV[1]) < 1)
            break
        if (!(na++ % step))
            printf "\n#"
        split(indata,a)
        allequal = 0
        while (1==1) {
            if (!overrun) {
                if ((getline inlookup < ARGV[2]) < 1)
                    break
                if (!(nb++ % step))
                    printf "."
            } else {
                overrun=0
            }
            split(inlookup,b)
            if (b[1]>a[1] || b[2]>a[5]) {
                overrun=1
                break
            }
            if (a[1]==b[1] && a[5]==b[2] && ((a[6]==b[4] && a[7]==b[5]) || (a[7]==b[4] && a[6]==b[5]))) {
                allequal=1
                break
            }   
        }
        if (allequal) {
            print a[1],b[3],a[4],a[5],a[6],a[7],b[4],b[5] > ARGV[3]
        } else {
            print a[1],a[3],a[4],a[5],a[6],a[7],a[6],a[7] > ARGV[3]
        }   
    }
}

合并 2 个匹配多个列的大文件并保留顺序（打印匹配和不匹配的值） - 从 awk 扩展

答案1

答案2

相关内容