bioinformatics

使用第二个文件中的列名称获取第一个文件中的子集列
bioinformatics

使用第二个文件中的列名称获取第一个文件中的子集列

我有两个文本文件:第一个文件是制表符分隔的文件,如下所示: chrom pos ref alt a1 a2 a3 a4 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 第二个文件如...

Admin

使用 awk 将新行替换为空格
bioinformatics

使用 awk 将新行替换为空格

我有一个由目录中所有文件生成的文本文件。我想使用此文件作为我拥有的脚本的输入,但我需要以特定方式格式化文本文件才能正确解析。 目前,文本文件(文件名列表)的格式如下: A1_R1.fastq.gz A1_R2.fastq.gz A2_R1.fastq.gz A2_R2.fastq.gz A3_R1.fastq.gz A3_R2.fastq.gz 我需要每个样本的配对读取(具有相同名称但不同值的文件RN)位于同一行,并用制表符分隔: A1_R1.fastq.gz A1_R2.fastq.gz A2_R1.fastq.gz A2_R2.fastq.gz A3_...

Admin

sed 命令用于替换遵循模式的行中的单词
bioinformatics

sed 命令用于替换遵循模式的行中的单词

我正在处理如下所示的文件,其中包含超过 50,000 行基因 ID 及其序列: gene_A:3342234 CTCTTTCTTTTACGCCT gene_A:1244-5205 CTCTTTCTTTTACGCCT gene_A:1838438 CTCTTTCTTTTACGCCT gene_B:1848584 CTCTTTCTTTTACGCCT gene_B:1029-4920 CTCTTTCTTTTACGCCT gene_C:3849029 CTCTTTCTTTTACGCCT 它们都有基因 ID,后跟冒号,然后是 7-9 位数字的参考号和(有些包括破折号...

Admin

如何拆分文本文件中给定列的字符串值
bioinformatics

如何拆分文本文件中给定列的字符串值

我在 Linux 机器上有一个包含两列的文本文件: 第1列 = id_no(大部分为5位,有的为6位); 第 2 列 = Genetic_markers(全部长度为 50674 位); 12345 0102010205 54322 2221110051 123456 1122011510 我想将文件更改为如下所示: 12345 0 1 0 2 0 1 0 2 0 5 54322 2 2 2 1 1 1 0 0 5 1 123456 1 1 2 2 0 1 1 5 1 0 如何更改第一列,使其向右对齐(如数字所示)? 有人可以帮我用最可靠的方法...

Admin

删除第三列中的所有内容,但只保留特定文本
bioinformatics

删除第三列中的所有内容,但只保留特定文本

我有一个包含三列的数据集: https://drive.google.com/file/d/1gtCssfAXHxRjGfX8uTAaimGPWCA2cnci/view?usp=sharing 以下是前几行: ID transcript_id go_description MA_10000213g0010 MA_10000213g0010 MA_10000405g0010 MA_10000405g0010 GO:0006468-protein phosphorylation;GO:0030246-carbohydrate bi...

Admin

检索制表符分隔文件的第一列和第五列,将第五列中的空格转换为制表符
bioinformatics

检索制表符分隔文件的第一列和第五列,将第五列中的空格转换为制表符

我有一个tsv包含制表符分隔列的文件。我想获取第五列,其中有空格分隔的值。将空格分隔转换为制表符分隔并另存为新文件。 试图: cut -d"\t" -f"4" input.tsv awk -v OFS="\t" '$1=$1' input.tsv > output.tsv 输入: Composite_Element_REF Gene_Symbol Chromosome Genomic_Coordinate TCGA-KL-8323-01A-21D-2312-05 TCGA-KL-8324-01A-11D-2312-05...

Admin

当不同列中的连续单元格相等时,如何使用 shell 脚本计算列中的单词数!
bioinformatics

当不同列中的连续单元格相等时,如何使用 shell 脚本计算列中的单词数!

当第 2 列、第 3 列和第 1 列中的连续单元格相同时,我尝试计算第 9 列中C_R和的数量。S_R该文件采用床格式(制表符分隔格式)。原始文件很大,第一列定义了染色体编号。文件的前几行看起来像这样, chr1 10200 10300 8 10000 10214 100 214 S_R chr1 10200 10300 8 10009 10233 100 224 S_R chr1 10200 10300 8 10014 10220 100 206 S_R chr1 1020...

Admin

将一行的一部分复制到另一部分
bioinformatics

将一行的一部分复制到另一部分

我想复制第一部分(IxoscaEVm****t1_,没有'.p[数字]') 以 ">" 开头的行,并在同一行的最后一个 ":" 之前粘贴 a。 输入: >IxoscaEVm2293881t1.p1 type:complete len:255 gc:Universal :13-219(+) MFLRQLGAPRFYYARLFLRFIAVTIGPFLKSFPEKMLFLTYFPFYFWQRFSNINKRRKLLPATFLTLG >IxoscaEVm2798449t1.p1 type:partial5 len:345 gc:Universal :...

Admin

计算 grep 搜索之间的字符数
bioinformatics

计算 grep 搜索之间的字符数

有没有办法可以将 grep 命令与一系列其他命令结合使用来查找字符序列(即 fasta 文件中的“GAATTC”)并计算每次匹配之间有多少个字符? ...

Admin

awk 不会将列添加到 tab delim 文件
bioinformatics

awk 不会将列添加到 tab delim 文件

我使用以下代码根据其他现有列的计算将两个新列(15 和 16)添加到 tab delim txt 文件中。 问题:新列数据显示在终端中,但文件未随列更新。当发送到另一个文件 ( code ... > Sample.....2.txt) 时,列会存在,但分隔符从制表符更改为空格。 需要:根据制表符分隔文件中现有列的计算,在一行代码中添加第 15 列和第 16 列。 文件:Sample1_RVDB_sort_unique.txt 代码: awk '{$15 = ($4/$13)*100; $16 = ($4/$14)*100; print}' Sample...

Admin

AWK:如果文件之间的两个键列匹配,则将一个文件的第 16 列添加到另一个文件的匹配行,同时保留不匹配的行
bioinformatics

AWK:如果文件之间的两个键列匹配,则将一个文件的第 16 列添加到另一个文件的匹配行,同时保留不匹配的行

我有两个制表符分隔的文件(FileA.tsv 和 FileB.tsv)。 文件A.tsv ID 图形 圆圈 几列... 长度 196-0 196 0 ---- 12874 195-1 195 1 ---- 12874 56-0 56 0 ---- 3349 115-1 115 1 ---- 5297 文件 A 有数百行和 12 列,此处未全部描述。 2 和 3 的每个值都不是唯一的,但它们的特定组合是唯一的。因此,event_id 是一个唯一标识符,由 2 和 3 中的值连接而成。 文件B.tsv 第 1 栏 第 ...

Admin

如何将csv文件中除“0”和前两个字段之外的所有文本转换为1?
bioinformatics

如何将csv文件中除“0”和前两个字段之外的所有文本转换为1?

我有几个大的 .csv 文件,我想将它们转换为二进制(1 和 0)格式。其中,除前两个字段外,所有包含文本的单元格都将变为 1,0 将保持为 0。 head Test.csv Iss1,1,0,0,Hsapiens-I34,0,0,0,Mmusculus-H01,0,0 Iss1,11,0,Scerevisiae-U09,Hsapiens-I05,0,0,0,0,0,0 Iss1,21,0,0,Hsapiens-I05,0,0,0,Hsapiens-I31,0,0 Iss1,31,0,0,Mmusculus-H13,0,0,0,0,0,Hsapiens-I3...

Admin

合并 1022 个打开的文件 太多打开的文件错误?
bioinformatics

合并 1022 个打开的文件 太多打开的文件错误?

我使用 samtools 对 bam 文件进行坐标排序。该命令在运行时会创建大量文件。我运行以下命令 samtools sort -o sorted.bam genomic_dataset.bam 但它给出以下结果 [bam_sort_core] 合并 1022 个文件...打开:打开的文件太多 我搜索了一下,发现打开文件的数量有限制。输出为ulimit -n1024。数据集约为560 GB,运行时间约为15小时。因此,在排序时需要创建大量的文件。说到我的问题,我怎样才能摆脱这个限制?我是一个远程 Linux 服务器 ...

Admin

使用额外的空格更改不规则标题
bioinformatics

使用额外的空格更改不规则标题

我正在处理数据这种晦涩的文件格式: SNP A1 A2 F1 I1 F2 I2 F3 I3 rs0001 A C 0.02 0.00 1.99 (注意前三个字段周围的空格) 标题很长(500k 条目),我想将其转换为如下内容: SNP A1 A2 F1_I1 F2_I2 F3_I3 rs0001 A C 0.02 0.00 1.99 ...这样无论是否删除不规则的空白,都更容易使用。作为参考,这也是可以接受的,只要它是一致的: SNP A1 A2 F1_I1 F2_I2 F3_I3 rs0001 A C...

Admin

使用 sed 从文本文件中删除特定字符串,不更改输出文件?
bioinformatics

使用 sed 从文本文件中删除特定字符串,不更改输出文件?

编辑:添加块引用文本 我有一个制表符分隔的文本文件 ( acc.paired.txt),其中包含照明样本名称 ( head): SRR10598163_R1.fastq.gz SRR8916417_R2.fastq.gz SRR10598049_R1.fastq.gz SRR10598163_R2.fastq.gz SRR8916418_R1.fastq.gz SRR10598049_R2.fastq.gz SRR10598164_R1.fastq.gz SRR8916418_R2.fastq.gz SRR10598050_R1.fastq.gz ...

Admin