最近从图书馆借了《生物信息学（第2版）》国防科大刘伟主编的，继续我的学习之路。我是图书馆有啥新书就借来读读，一来比较喜欢新书，二来这书好像也不怎么热，能借得到，虽然好多内容是重复，也有新东西可学的快感，顺便复习一下也不错。

1. weka

这次，我看到了weka，学习一下！

Weka的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费的，非商业化（与之对应的是SPSS公司商业数据挖掘产品–Clementine ）的，基于JAVA环境下开源的机器学习（machine learning）以及数据挖掘（data mining）软件。–百度百科

有图形界面的，应该是新手友好型的吧，否则作者不会在每一章就来了个习题试试weka。手上的电脑系统多，但是比较愿意用的是黑苹果，因为觉得苹果的产品设计还有点乔老爷子的灵魂在，但是已经逐渐淡去了，特别是今年的新品已经成为奢侈品了，相信好多果粉要放弃了，钱包是关键。但是10.11的操作系统已经落后了，特别是APFS推出后，许多软件不兼容了要。
下了个最新版本的，发现无可用的加载文件系统，于是换上3.6的旧版本试试。
下载地址：https://excellmedia.dl.sourceforge.net/project/weka/weka-3-6-osx/3.6.15/weka-3-6-15-oracle-jvm.dmg
3.7的反而更新时间更早，难道也是有一个长期支持版和一个短期支持版相间隔？

小白探索中。。。

2. Entrez id转IPI id

从搜索中得知，IPI id是已经被淘汰的id编号，但是，为了做题目，写个python小脚本试试。转换思路很简单，就是下载一个IPI和Entrez id的对应文件，然后用python读取这个文件，构建一个字典，从里面查询就OK了。代码附上：

###convert entrez id to ipi id
dic = {}
with open("ipi.genes.HUMAN.xrefs") as f:
    for line in f:
        entrez_id = ''
        ipi_id = ''
        if line[0] != '#':
            entrez_id = line.strip().split('\t')[8].split(',')[0]
            ipi_id = line.strip().split('\t')[9]
            if entrez_id == '':
                continue
            dic[entrez_id] = ipi_id

id = '27'
print(dic[id])

以上两个均是第一章后面的习题，做做练手。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

文章

继续学习–生信

1. weka

2. Entrez id转IPI id

发表回复取消回复

1. weka

2. Entrez id转IPI id

发表回复 取消回复

发表回复取消回复