人工智能技术在生物信息学中的应用研究.ppt
《人工智能技术在生物信息学中的应用研究.ppt》由会员分享,可在线阅读,更多相关《人工智能技术在生物信息学中的应用研究.ppt(60页珍藏版)》请在启牛文库网上搜索。
1、人工智能技术在生物信息学中的应用研究,刘滨,内容,生物信息学概述生物知识DNA介绍蛋白质介绍人工智能和自然语言处理技术在生物信息学中的应用蛋白质序列和自然语言的相似性蛋白质相互作用位点预测远程同源性和折叠检测资源数据库工具,定义,Bioinformatics由来生物信息学之父Hwa A.Lim博士CompBio bioinformatique bio-informatics(bio/informatics)bioinformatics,意义,蛋白质序列,蛋白质结构,数据指数级增长增长的不平衡性,研究方向,DNA序列分析基因识别系统发生行为分析(进化树)蛋白质结构和功能预测基因芯片数据挖掘和基因
2、表达调控信息分析基因组功能预测支撑蛋白质组学和各种“组学”研究利用生物分子的结构信息参与创新药物的设计生物学虚拟实验模型的构件,DNA介绍,碱 基,碱 基 配 对,DNA的空间结构,蛋白质介绍,20种标准氨基酸的英文简写,肽键,本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用,采用Ngram寻找蛋白白质序列和自然语言的相似性采用条件随即域(CRF)解决蛋白质相互作用位点预测问题。采用N-gram,binary profile和N-nary profile模型结合支持向量(SVM)机解决蛋白质远程同源性和折叠识别的问题。采用潜在语义分析(LSA)提高远程同源性检测效果。,蛋白质序列和
3、自然语言的相似性,蛋白质序列和自然语言的相似性,Dong et al.N-gram Statistics and Linguistic Featrues Analysis of Whole Genome Protein Sequences.Journal of Harbin Institute of Technology.2004 在此论文中,探索了蛋白质和自然语言之间的关系。,N-gram,例子:SVYDA其中包含的3-gram为:SVYVYDYDA,N-gram 比较分析(人),N-gram 比较分析(褐家鼠),蛋白质组的Zipf定律分析,Zipf定律:对数形式的Zipf定律为:,Zipf
4、定律分析(人),蛋白质序列和自然语言的关系,蛋白质相互作用位点预测,基于CRF的蛋白质相互作用位点预测,蛋白质相互作用位点预测研究内容蛋白质相互作用位点预测的意义为什么采用CRF进行相互作用位点预测CRF模型实验结果分析,蛋白质相互作用位点预测研究内容,相互作用位点预测的任务,A R N D C Q E G H I L K M F P S T,W Y V,.,0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0,蛋白质相互作用位点预测的意义,识别相互作用的位点可以帮助构建蛋白质复合体的分子结构模型。与此同时,蛋白质相互作用位点的研究对理解生物体活动机制、蛋白质功能研究
5、、疾病诊断和药物研究有重要意义。,为什么采用CRF进行相互作用位点预测,蛋白质一级结构是一个序列传统的相互作用位点预测方法都是基于分类的方法,忽略了序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向。为了引入相邻残基间的相互影响的信息,采用了基于序列标记的方法(CRF)。,CRF模型,yi-1,yi,yi+1,X(x1,x2,xi-1,xi,xi+1,xn),链状条件随机域模型,转移特征,状态特征,特征定义,转移特征序列谱状态特征残基的溶剂可接触面积状态特征残基的保守性状态特征,实验结果分析:预测示例,SMC1HD:SCC1-C复合体,CRF预测结果,支持向量机预测结果,正确位点
6、,实验结果分析:预测示例,Ribosomal subunit 30S复合体,CRF预测结果,支持向量机预测结果,正确位点,实验结果分析:预测示例,Sreptococcal pyrogenic enterotoxin C(SpeC)复合体,CRF预测结果,支持向量机预测结果,正确位点,远程同源性和折叠检测,远程同源性和折叠检测研究内容,蛋白质可按其结构和进化关系进行分类。目前广泛使用SCOP 数据库定义的分类体系,包含三个主要层次:家族(family)、超家族(superfamily)和折叠(fold)。依靠蛋白质一级结构将其按照结构和进化关系进行分类。,意义,在比较建模和折叠识别中,都需要识别
7、和待测序列具有同源性的蛋白质作为模板。因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤。,蛋白质同源性检测方法示意图,蛋白质向量化方法,N-gramsBinary profilesN-nary profiles,Binary profiles,N-nary profiles,统计方法,统计方法可衡量特征t和类别c之间的相关性。特征t相对于类别c的 值定义如下,潜在语义分析(LSA),用于自动实现知识提取和表示的理论和方法,通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。,采用LSA的可能性,实验结果分析(远程同源性检测结果),实验结果分析(折叠检测结果),远程同源性
8、检测结果(roc50分布),折叠检测结果(roc50分布),核酸序列数据库(cont.),国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de(2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html(3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/人类基因组数据库GDB http:/www.gdb.org/Ensembl http:/www.ensembl.org/其他模式生物基因组数据库鼠基因组数据库 MGD
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 技术 生物 信息学 中的 应用 研究