探索一个消费级的基因检测结果–总览

1.各个染色体上的分布

这块应该是aff的芯片总共的559535个位点,看下在各个染色体上的分布情况,还是拉出我的脚本。

dic = {}
with open('0D-121348-oIDS.txt') as f:
    for line in f:
        chromesome = line.strip().split('\t')[1]
        #print(chromesome)
        #break
        if chromesome in dic.keys():
            dic[chromesome] += 1
        else:
            dic[chromesome] = 1

for chromesome in sorted(dic.keys()):
    print(chromesome, dic[chromesome])

结果是:

1 39974
10 23878
11 26194
12 23978
13 17665
14 15813
15 15894
16 17518
17 19029
18 13464
19 15614
2 39273
20 12395
21 8049
22 8583
3 32828
4 26888
5 28249
6 38720
7 26591
8 23718
9 22267
MT 5921
X 10791
Y 46241

 

大概这个芯片的特色在于多了一些线粒体的位点用母系祖缘分析吧。

2.未分出的位点数

#先看看Y染色体上的点
 cat ywc.txt | grep 'Y'| wc -l
46241
#再看看所有是‘-’的位点数
 cat ywc.txt | grep '-'| wc -l
71569

那么真正未分出的位点是71569-46241=25238个。

#以sg开头的位点,应该是图灵自己加上的。
cat ywc.txt | grep 'sg'| wc -l
33682

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注