哈佛终身教授刘军:生活在一个统计学的时代

 
 
上世纪80年代初,一位意气风发的年轻人骑着自行车往来于清华大学和北京大学之间,奔赴一个个教室。
 
2010年夏季,郁郁葱葱的清华大学和北京大学校园里,一位中年男子骑自行车匆匆而过,去听散落在校园各处的讲座。
 
他们是同一个人,美国哈佛大学统计系和生物统计系终身教授刘军,世界生物统计和生物信息学领域的著名专家。2010年12月17日,刘军获得被誉为“华人菲尔茨奖”的晨兴数学奖应用数学金奖。
 
父母为他抄书
 
从12岁起,刘军就对数学着迷。但在“文革”期间,要发展这样的兴趣是异常困难的。不要说电脑或计算器,就连数学书也难得一见。
 
刘军家里的学习氛围很好,父母在大学任教,对刘军读书很支持。那时,教科书和参考书都少得可怜,父母就竭尽所能四处为儿子挖书,包括向老教授借来那些已经被藏起来的书。父母还利用休息时间帮他抄书,父亲甚至抄写过一整本书。当时的刘军分辨不出哪些是高中的内容,哪些是大学的,所以就都看了。他说:“做数学就像玩一个游戏,你所需要的只是一张纸和一支笔。”那时,每到星期天,刘军就喜欢骑一个小时的自行车到朋友家或数学小组里去做题。
 
刘军在北京大学读书时,虽然很爱玩牌,喜好旅行郊游,但也没有落下功课。毕业时刘军仍是数学系最优秀的毕业生之一,因此获得数学与应用数学学会的资助,于1986年赴美留学。至今,刘军十分怀念在北大的日子,那些和同学一起打桥牌、拱猪,一起出去穷快活的日子。
 
从1986年的北京直接飞抵世界金融经济中心纽约,刘军感觉就像进入电影里面一样,很不真实。由于各种语言文化、风俗习惯和思想方式的极大差异,初到美国的刘军经历了一次文化冲突。语言成为刘军的最大障碍。因为他可以看懂公式和方程式,不必听懂老师说什么就可以明白。再加上平常又不注意和外国学生、老师交流,所以到美国一年后,他的英语比初来时还差了些。
 
1988年,刘军从新泽西Rutgers大学转学到芝加哥大学。导师王永雄的关心成为刘军研究生涯的一个重要转折点。通过认真的思索,刘军决定投身统计学研究。“我不想仅仅去解决那些历史上没有人能解决的难题。我想要和现实生活发生关系,虽然当时我还不太清楚统计学到底是什么。”他坦言除了比较喜欢数学,还很喜爱科学,热爱生活。所以,他开始很用功地学习,吸收各种知识。
 
同时被聘为两所世界名校终身教授
 
在王永雄眼中,刘军“富有创造性,能力过人,计算技巧更令人惊异”,不仅如此,“他头脑清晰,很善于和别人沟通;同时他又是一个和善、热情、乐于助人的人”。
 
仅用了3年,刘军就读完了博士。1989年,刘军的第一个项目主要是以统计计算为主,是和两个老师一起合作。他们发明了一个新颖的又具有一般性的重点抽样方法。此方法在其后的十几年中又得到了很大的推广和发展。刘军和合作者陈嵘在1998年发表的关于此方法方向的综述性文章发挥了很大影响,被引用了1400多次,是现在非常流行的“粒子滤波法”的前身和推广。
 
之后,刘军又作出了一系列关于吉布斯抽样法的理论问题的结果。把算法中的一些重要的逻辑线条理清了,成为现在人们研究吉布斯抽样法和其他MCMC 算法的重要工具。业内的人很重视和推崇刘军他们的研究成果,发表的论文被引用了400多次。
 
由于刘军的杰出工作,2000年,他同时拿到斯坦福大学和哈佛大学终身教授的聘书。经过仔细思量,他慎重地选择了哈佛。一个重要原因是Bauer基因组学研究中心像一块磁石那样强烈地吸引着他。在那个研究中心,生物学家、数学家和化学家共同探索潜藏在生命内部的奥秘。
 
目前,刘军的主要工作是探索基因如何开启和关闭,如何参与和控制生命活动。通过各种统计手段和计算机技术,他着重研究那些基因组中间的重复序列片段。这些片段常常包含了调控基因表达的信息,而这些信息与一个由基因产生的蛋白质最终会构成大脑或大拇指的一部分密切相关。通过长时间的复杂的基因复制与突变的实验,就可以发现这种开关机制。如果在距离某个基因很近的地方发生突变并导致相应的蛋白质中止生成,那么这个区域就应该是一个基因开关的所在。刘军相信可以通过对出现在实际基因间的遗传序列的统计学分析定位这些开关。
 
这些工作的起源是1992年一次会议上的偶然机会。当时刘军碰到纽约州立卫生部一个研究室的Charles Lawrence,一个很有创造力的人。他们一起聊天,相见恨晚。之后他们就一起作研究,合作持续了近20年。1993年,他们合作的第一篇文章就是关于如何有效用现代统计模型和计算方法寻找基因调控位点。此文在《科学》杂志上发表,至今已被引用了1600多次。用此方法,他们还预测了大肠杆菌中的大约2000个开关。而这些开关中的80%被后来的实验证明是正确的。
 
除此之外,刘军还做了遗传学统计技术的发展,DNA的排序,全基因组上找变异位等。如糖尿病的所有基因编号,有时达到成千上万。
 
刘军说:“这个领域的好处是,总会有一个最后的审判日——因为你是在对大自然作预测,所以你总会知道你究竟是对还是错。”
 
统计学教授唐纳德·鲁宾评价道:“不管是作为教师还是同事,刘军先生都是哈佛大学的一笔财富。哈佛的计算生物学需要他的力量。另外,他还是个十分热情的人,谈吐温和,却又有着惊人的幽默感。”
 
破译生命语言密码
 
统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛应用在各门学科中,从物理和社会科学到人文科学,甚至被用在工商业及政府的情报决策。在2000多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。
 
在现在这个数据的时代,找出数据的规律就是用统计的方法。数学是严格的推理,统计是推断,有点像侦探在寻找一个事情的原由。推理是统计很重要的手段,但不是其精髓。统计和生活比较近,可以直接指导决策。现在人们对于数据的重要性认识得越来越深刻。
 
最近,刘军和哈佛专门研究我国历史的包弼德教授合作,发展统计模型来研究我国的宋史30卷。比如,研究者想知道谁是王安石的老师和学生朋友等等,用官名和地名就可以把其中的关系找出来。这个方法还可以应用于研究中医药方中各味药之间的关系,把病状和药方统计出来,到了用药的时候,可以从里面找到相应的药方。用统计方法来研究《红楼梦》已经不是新闻了,但他们的新方法可以帮助找到哪些词、哪些人或哪些地方之间有关系。
 
凭着兴趣爱好,刘军在生物信息学领域还处于冷门期时,就敲开了这个破译生命语言密码的大门。在统计学方法还只应用在临床及医疗数据处理时期时,他已经开始盘算着用数学统计方法去开启生命的奥秘。他开始从大量的DNA 和蛋白质序列中研究规律,并结合生物芯片数据来研究生物学中的核心问题之一:基因调控模式。
 
这之后的多年,刘军的实验室一直通过生物信息学和计算生物学,利用基因序列信息和mRNA表达的基因芯片数据,长期研究基因调控网络、基因转录调控、统计遗传学、蛋白结构和功能分析、基因组序列分析等课题。
 
他们的实验室是转录因子-DNA序列结合位点预测课题的先驱。用计算机方法和统计学方法预测的这些位点经过实验室验证属实的有:大肠杆菌(E. Coli)、Basillus Subtilis、酵母和人类转录因子结合位点。此外,他们预测的部分蛋白结构也已经获得实验室证实。
 
学好数学凭兴趣
 
刘军现在已有19个博士生毕业,17 个博士后出站。微软、谷歌和华尔街上的公司都很欢迎他的学生。但他的大多数学生还是选择了走学术道路。
 
“我很感激我的学生,和年轻人交流会有很大的成就感。我希望学生能多提问题,从而大家都可以从中得到新的灵感和发展。我也很快就意识到了这种方式的重要性。也会花很多时间在他们身上,希望他们成长起来。我曾经忍痛开除了几个学生,不是因为他们不聪明,而是他们不够专心,不是做学问的料。”刘军说。
 
随着社会的不断发展,如今外在环境对孩子的吸引不可小觑,网络游戏在学生中的风靡使他们不能安心投入学习。刘军认为,游戏影响学习,这只是片面的看法,其实有些游戏是可以帮助学习数学的,比如一些数字推理游戏便可以在游戏的同时练习逻辑思维能力。
 
刘军自认一向都是一个很自信和很会放松的乐天派。科学研究对他是一种乐趣,所以他没有感到什么研究的压力。他最大的压力来自对学生的担忧,总在思考怎么让学生获得更好的未来。他大部分的经费都用于培养博士生和博士后,所以申请经费的时候很大程度会考虑学生的需求。
 
刘军是一个热爱科学的人,也是个热爱生活的人。刘军爱好广泛:足球、篮球、游泳和滑雪。刘军另一个爱好就是收集古董钢笔,摆弄它们,修理它们成为他最好的放松方式。现在他已经收藏了几百支Parker、Waterman、Sheaffer、Wahl-Eversharp、Mont Blanc等品牌钢笔。在他的实验室主页上,可以看到这些收藏的照片。在采访结束的时候,他拿出珍藏的派克钢笔,在记者的采访本上写下“时间很重要”几个字。
 
学术名片:
 
刘军,北京大学数学系毕业,1991年在美国芝加哥大学获统计学博士学位。2000年,任哈佛大学统计系和生物统计系终身教授。2001年刘军完成了自己的英文著作《科学计算中的蒙特卡罗策略》。此书现已成为哈佛大学、斯坦福大学及其他高等学府的教科书。2002年获得北美五个统计学会联合设立的统计学最高奖——考普斯“总统奖”,2002~2003年与学生及合作者提出寻找DNA中相似度高的功能片段的吉布斯抽样算法。2004年被选为数理统计学会会士(IMS Fellow),2005年被美国统计协会选为会士(ASA FELLOW)。
 
在统计理论方面,刘军创立了序贯蒙特卡罗方法;对马尔可夫链蒙特卡罗(MCMC)方法和设计构建了重要理论框架。由刘军提出的“Gibbs保守串抽样和指针”是到目前为止生物学者寻找DNA和蛋白序列中精巧模式的两种重要方法之一。(记者 易蓉蓉

本网部分文稿源于网络,版权归原创,本站整理发表的目的在于公益传播,分享读者。
如您不愿参与公益共享或认为权益受到侵犯,请与编者联系,我们核实后积极回应诉求并及时删除,谢谢您的理解和支持。

相关文章