讲座开始前,杜鹏会见了林希虹。


本次讲座由李扬主持,他介绍了主讲人林希虹及出席本次讲座的各位领导、老师,并对林希虹的到来致以欢迎与感谢。林希虹于1984年进入清华大学应用数学系学习,毕业后留学美国,现任美国哈佛大学公共卫生学院生物统计系教授、统计学系教授,美国医学科学院院士,所获荣誉包括Spiegelman奖、COPSS奖、美国国家卫生研究院的杰出成就奖等。

杜鹏为林希虹颁发了本次活动的纪念证书。

林希虹由最近的研究切入,指出大数据领域目前存在着大量机会与挑战,亟需优秀人才来推动该领域的发展。她从大数据时代下人们接触的各种数据类型讲起,重点强调了医学数据的使用有助于人们更好地研究各种疾病,从而进行精确预防与精确治疗。她表示,各国普及的生物样本库、GWAS(Genome-wide association study)等项目包含了海量基因序列信息,并强调基因序列的价值不在于数据本身,而很大程度上在于基因序列的分析,如基因组的平行比对用以研究病理等。

以基因序列问题的研究过程为例,林希虹着重指出团队协作对于处理重大难题的重要性。她表示,实际研究中仅仅拥有统计学、计算机学知识远远不够,如若脱离了相关领域的专业知识,往往难以对数据进行合理的统计推断。在科研领域,善于发现并提炼出问题的能力亦不可或缺,只有不断发现问题,才能始终保持前列。
林希虹就GWAS目前基因测序的相关进程展开了许多专业问题的探讨,如罕见基因的分析、海量数据的高效存储、如何从实际问题中建立统计模型、如何快速地分析数据、高维数据的应用等,并简单介绍了不同类型的数据所采取的不同分析策略。对于云计算相关问题,她指出云计算相对传统数据具有成本低、效率高、安全性强等优势,之后从美国各家医院的电子病历入手,分析了数据整合的困难,显示出数据云的优越性。
林希虹与现场师生就统计相关专业问题进行了交流与探讨。李扬代表同学们询问了有关专业选择、就业方向和领域研究的问题,林希虹表示需要依据个人兴趣进行选择,并强调发掘和解决问题的能力、团队交流能力、学术写作能力以及主观能动性在科研领域的重要性。许王莉就相关学术问题发表了看法,并与林希虹深入讨论。现场同学也就本次讲座内容积极提问,林希虹进行了耐心的解答。


本次讲座以生物统计为例,将统计与医学、基因科学相结合,解读了大数据时代海量数据的存储问题以及云计算的发展潮流等热点,着重以学科渗透的视角向同学们展示了统计学的具体应用,激发了更多理工科同学对数据科学相关领域的探索热情。