继续学习–生信

最近从图书馆借了《生物信息学(第2版)》国防科大刘伟主编的,继续我的学习之路。我是图书馆有啥新书就借来读读,一来比较喜欢新书,二来这书好像也不怎么热,能借得到,虽然好多内容是重复,也有新东西可学的快感,顺便复习一下也不错。

1. weka

这次,我看到了weka,学习一下!

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品–Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。–百度百科

有图形界面的,应该是新手友好型的吧,否则作者不会在每一章就来了个习题试试weka。手上的电脑系统多,但是比较愿意用的是黑苹果,因为觉得苹果的产品设计还有点乔老爷子的灵魂在,但是已经逐渐淡去了,特别是今年的新品已经成为奢侈品了,相信好多果粉要放弃了,钱包是关键。但是10.11的操作系统已经落后了,特别是APFS推出后,许多软件不兼容了要。
下了个最新版本的,发现无可用的加载文件系统,于是换上3.6的旧版本试试。
下载地址:https://excellmedia.dl.sourceforge.net/project/weka/weka-3-6-osx/3.6.15/weka-3-6-15-oracle-jvm.dmg
3.7的反而更新时间更早,难道也是有一个长期支持版和一个短期支持版相间隔?


小白探索中。。。

2. Entrez id转IPI id

从搜索中得知,IPI id是已经被淘汰的id编号,但是,为了做题目,写个python小脚本试试。转换思路很简单,就是下载一个IPI和Entrez id的对应文件,然后用python读取这个文件,构建一个字典,从里面查询就OK了。代码附上:

###convert entrez id to ipi id
dic = {}
with open("ipi.genes.HUMAN.xrefs") as f:
    for line in f:
        entrez_id = ''
        ipi_id = ''
        if line[0] != '#':
            entrez_id = line.strip().split('\t')[8].split(',')[0]
            ipi_id = line.strip().split('\t')[9]
            if entrez_id == '':
                continue
            dic[entrez_id] = ipi_id

id = '27'
print(dic[id])

以上两个均是第一章后面的习题,做做练手。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注