bioinformatics

使用第二个文件中的列名称获取第一个文件中的子集列

我有两个文本文件：第一个文件是制表符分隔的文件，如下所示： chrom pos ref alt a1 a2 a3 a4 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 10 12345 C T aa bb cc dd 第二个文件如...

Admin 2024-6-20

bioinformatics

使用 awk 将新行替换为空格

我有一个由目录中所有文件生成的文本文件。我想使用此文件作为我拥有的脚本的输入，但我需要以特定方式格式化文本文件才能正确解析。目前，文本文件（文件名列表）的格式如下： A1_R1.fastq.gz A1_R2.fastq.gz A2_R1.fastq.gz A2_R2.fastq.gz A3_R1.fastq.gz A3_R2.fastq.gz 我需要每个样本的配对读取（具有相同名称但不同值的文件RN）位于同一行，并用制表符分隔： A1_R1.fastq.gz A1_R2.fastq.gz A2_R1.fastq.gz A2_R2.fastq.gz A3_...

Admin 2024-6-20

bioinformatics

sed 命令用于替换遵循模式的行中的单词

我正在处理如下所示的文件，其中包含超过 50,000 行基因 ID 及其序列： gene_A:3342234 CTCTTTCTTTTACGCCT gene_A:1244-5205 CTCTTTCTTTTACGCCT gene_A:1838438 CTCTTTCTTTTACGCCT gene_B:1848584 CTCTTTCTTTTACGCCT gene_B:1029-4920 CTCTTTCTTTTACGCCT gene_C:3849029 CTCTTTCTTTTACGCCT 它们都有基因 ID，后跟冒号，然后是 7-9 位数字的参考号和（有些包括破折号...

Admin 2024-6-20

bioinformatics

如何拆分文本文件中给定列的字符串值

我在 Linux 机器上有一个包含两列的文本文件：第1列 = id_no（大部分为5位，有的为6位）；第 2 列 = Genetic_markers（全部长度为 50674 位）； 12345 0102010205 54322 2221110051 123456 1122011510 我想将文件更改为如下所示： 12345 0 1 0 2 0 1 0 2 0 5 54322 2 2 2 1 1 1 0 0 5 1 123456 1 1 2 2 0 1 1 5 1 0 如何更改第一列，使其向右对齐（如数字所示）？有人可以帮我用最可靠的方法...

Admin 2024-6-20

bioinformatics

删除第三列中的所有内容，但只保留特定文本

我有一个包含三列的数据集： https://drive.google.com/file/d/1gtCssfAXHxRjGfX8uTAaimGPWCA2cnci/view?usp=sharing 以下是前几行： ID transcript_id go_description MA_10000213g0010 MA_10000213g0010 MA_10000405g0010 MA_10000405g0010 GO:0006468-protein phosphorylation;GO:0030246-carbohydrate bi...

Admin 2024-6-20

bioinformatics

检索制表符分隔文件的第一列和第五列，将第五列中的空格转换为制表符

我有一个tsv包含制表符分隔列的文件。我想获取第五列，其中有空格分隔的值。将空格分隔转换为制表符分隔并另存为新文件。试图： cut -d"\t" -f"4" input.tsv awk -v OFS="\t" '$1=$1' input.tsv > output.tsv 输入： Composite_Element_REF Gene_Symbol Chromosome Genomic_Coordinate TCGA-KL-8323-01A-21D-2312-05 TCGA-KL-8324-01A-11D-2312-05...

Admin 2024-6-20

bioinformatics

当不同列中的连续单元格相等时，如何使用 shell 脚本计算列中的单词数！

当第 2 列、第 3 列和第 1 列中的连续单元格相同时，我尝试计算第 9 列中C_R和的数量。S_R该文件采用床格式（制表符分隔格式）。原始文件很大，第一列定义了染色体编号。文件的前几行看起来像这样， chr1 10200 10300 8 10000 10214 100 214 S_R chr1 10200 10300 8 10009 10233 100 224 S_R chr1 10200 10300 8 10014 10220 100 206 S_R chr1 1020...

Admin 2024-6-20

bioinformatics

将一行的一部分复制到另一部分

我想复制第一部分（IxoscaEVm****t1_，没有'.p[数字]') 以 ">" 开头的行，并在同一行的最后一个 ":" 之前粘贴 a。输入： >IxoscaEVm2293881t1.p1 type:complete len:255 gc:Universal :13-219(+) MFLRQLGAPRFYYARLFLRFIAVTIGPFLKSFPEKMLFLTYFPFYFWQRFSNINKRRKLLPATFLTLG >IxoscaEVm2798449t1.p1 type:partial5 len:345 gc:Universal :...

Admin 2024-6-20

bioinformatics

计算 grep 搜索之间的字符数

有没有办法可以将 grep 命令与一系列其他命令结合使用来查找字符序列（即 fasta 文件中的“GAATTC”）并计算每次匹配之间有多少个字符？ ...

Admin 2024-6-20

bioinformatics

awk 不会将列添加到 tab delim 文件

我使用以下代码根据其他现有列的计算将两个新列（15 和 16）添加到 tab delim txt 文件中。问题：新列数据显示在终端中，但文件未随列更新。当发送到另一个文件 ( code ... > Sample.....2.txt) 时，列会存在，但分隔符从制表符更改为空格。需要：根据制表符分隔文件中现有列的计算，在一行代码中添加第 15 列和第 16 列。文件：Sample1_RVDB_sort_unique.txt 代码： awk '{$15 = ($4/$13)*100; $16 = ($4/$14)*100; print}' Sample...

Admin 2024-6-20

bioinformatics

AWK：如果文件之间的两个键列匹配，则将一个文件的第 16 列添加到另一个文件的匹配行，同时保留不匹配的行

我有两个制表符分隔的文件（FileA.tsv 和 FileB.tsv）。文件A.tsv ID 图形圆圈几列... 长度 196-0 196 0 ---- 12874 195-1 195 1 ---- 12874 56-0 56 0 ---- 3349 115-1 115 1 ---- 5297 文件 A 有数百行和 12 列，此处未全部描述。 2 和 3 的每个值都不是唯一的，但它们的特定组合是唯一的。因此，event_id 是一个唯一标识符，由 2 和 3 中的值连接而成。文件B.tsv 第 1 栏第 ...

Admin 2024-6-20

bioinformatics

如何将csv文件中除“0”和前两个字段之外的所有文本转换为1？

我有几个大的 .csv 文件，我想将它们转换为二进制（1 和 0）格式。其中，除前两个字段外，所有包含文本的单元格都将变为 1，0 将保持为 0。 head Test.csv Iss1,1,0,0,Hsapiens-I34,0,0,0,Mmusculus-H01,0,0 Iss1,11,0,Scerevisiae-U09,Hsapiens-I05,0,0,0,0,0,0 Iss1,21,0,0,Hsapiens-I05,0,0,0,Hsapiens-I31,0,0 Iss1,31,0,0,Mmusculus-H13,0,0,0,0,0,Hsapiens-I3...

Admin 2024-6-20

bioinformatics

合并 1022 个打开的文件太多打开的文件错误？

我使用 samtools 对 bam 文件进行坐标排序。该命令在运行时会创建大量文件。我运行以下命令 samtools sort -o sorted.bam genomic_dataset.bam 但它给出以下结果 [bam_sort_core] 合并 1022 个文件...打开：打开的文件太多我搜索了一下，发现打开文件的数量有限制。输出为ulimit -n1024。数据集约为560 GB，运行时间约为15小时。因此，在排序时需要创建大量的文件。说到我的问题，我怎样才能摆脱这个限制？我是一个远程 Linux 服务器 ...

Admin 2024-6-20

bioinformatics

使用额外的空格更改不规则标题

我正在处理数据这种晦涩的文件格式: SNP A1 A2 F1 I1 F2 I2 F3 I3 rs0001 A C 0.02 0.00 1.99 （注意前三个字段周围的空格）标题很长（500k 条目），我想将其转换为如下内容： SNP A1 A2 F1_I1 F2_I2 F3_I3 rs0001 A C 0.02 0.00 1.99 ...这样无论是否删除不规则的空白，都更容易使用。作为参考，这也是可以接受的，只要它是一致的： SNP A1 A2 F1_I1 F2_I2 F3_I3 rs0001 A C...

Admin 2024-6-20

bioinformatics

使用 sed 从文本文件中删除特定字符串，不更改输出文件？

编辑：添加块引用文本我有一个制表符分隔的文本文件 ( acc.paired.txt)，其中包含照明样本名称 ( head)： SRR10598163_R1.fastq.gz SRR8916417_R2.fastq.gz SRR10598049_R1.fastq.gz SRR10598163_R2.fastq.gz SRR8916418_R1.fastq.gz SRR10598049_R2.fastq.gz SRR10598164_R1.fastq.gz SRR8916418_R2.fastq.gz SRR10598050_R1.fastq.gz ...

Admin 2024-6-20