我有一个大型方形相关矩阵文件(110,000 RXC),用于 .tsv 格式的人类转录数据(文件名 = corr_trans.tsv)。当我尝试从矩阵中提取转录本(如 ENST00000568709)的相关数据时,我没有得到任何结果,它显示了包含此转录本的标题,但不显示包含相关数据的主行。当我对其他一些转录本尝试相同的步骤时,它给出了前 22000 行中存在的转录本的结果。之后,它无法读取该文件。根据我过去的知识/经验,这是因为换行错误,我想知道如何删除 tsv 文件中的换行错误。
我不需要任何输出文件。我只想读取整个矩阵文件。
谢谢
样本数据(文件名 = corr_trans.tsv)
transcript_id ENST0000000233 ENST0000000412 ENST00000001008 ENST00000001146
ENST0000000233 1 0.128095164 0.122437557 0.032729413
ENST0000000412 0.128095164 1 -0.010030176 0.07378663
ENST00000001008 0.122437557 -0.010030176 1 0.011332091
ENST00000001146 0.032729413 0.07378663 0.011332091 1
当我尝试使用命令 grep ENST0000000412 的数据时
grep "ENST0000000233" corr_trans.tsv
我得到输出(2行)
transcript_id ENST0000000233 ENST0000000412 ENST0000001008 ENST00000001146
ENST0000000233 1 0.128095164 0.122437557 0.032729413
但是,当我为 ENST00000001146 尝试此操作时
我只得到一行作为输出,而不是具有相关数据的行
transcript_id ENST0000000233 ENST0000000412 ENST0000001008 ENST00000001146
在实际矩阵中,此错误发生在 22000 行之后。