主讲人:肖铨武博士
主 题:数据挖掘技术在免疫学中的应用主持人:统计学院 吕绍高副教授
时 间:2013年 5月15 日(星期三)下午14:00
地 点:柳林校区通博楼B212学术会议室
主 办:统计学院、科研处
主讲人简介:
肖铨武博士。2009年7月毕业于中国科技大学与香港城市大学联合培养项目,分别获得两校博士学位。2009,07—2010,08,就职于阿里巴巴担任数据挖掘算法工程师;2010,08—2012,05,在香港城市大学从事博士后工作,师从著名数学家Smale做学习算法在免疫学中的应用等方面的研究;2012,05---至今,在微软(亚洲)互联网工程院任应用研究员一职,主要从事搜索广告、数据挖掘算法开发等工作。
内容题要:
多肽与MHC分子的结合是免疫学研究的一个重要课题,而核方法(kernel method)是近年来在统计学习和数据挖掘中广受好评的技术。为了把核方法应用到免疫学中,我们将20种氨基酸用字母表示,将多肽和MHC-II类分子看作氨基酸构成的字符串序列。在蛋白质研究常用的BLOSUM62矩阵的基础上,我们构造了氨基酸上的初始核,并依此定义了一般氨基酸序列上的正定核。将这一正定核代入正则化最小二乘核回归(regularized least square regression)算法中,即可预测多肽与MHC分子的结合强度。与当前文献中提到的其它方法相比,我们的方法更简单,并且在公开数据集上的实验结果表明,该方法的预测结果也更加准确。同时我们把核方法应用到MHC-II类分子的聚类中。在没有利用生物学先验知识的前提下,我们的聚类结果与世界卫生组织对MHC-II类分子的分类基本一致。