人类基因组计划25年:给大科学六大启示
1989年,人类基因组计划开始前,班伯里学术峰会在纽约冷泉港实验室举行。图片来源:Cold Spring Harbor Lab. Library & Archives
25年前,新创建的美国人类基因组研究国家中心(NHGRI,现在的国家人类基因组研究所)和美国及国际合作伙伴联手,发起了“人类基因组计划”(HGP)。接下来发生的事情,代表了最具历史意义的科学努力之一:历经13年,对人类基因组全部30亿个碱基对进行测序。
甚至仅在几年前,关于HGP的讨论还主要关注此项目已经或将对认识人类疾病带来何种见解。然而,直到今天人们才逐渐明晰,除了极大地加速生物医学研究,HGP还开启了一种做科研的新方式。
作为生物学领域的首个大规模项目,HGP为众多基于合作的研究项目铺就了道路。自2000年起,仅NHGRI便参与发起了超过25个此类项目。这些对生物医学研究提出了新挑战,比如要求来自不同国家和学科的多个团队共同分享并分析海量数据集。
对于年轻的研究人员来说,他们很容易忘记今天正试图解决的很多问题,在25年前甚至都没有被前辈思考过。同样容易被忽视的还有这样一种见解,即HGP仍在向那些追寻大科学项目的人提供建议。
美国国家人类基因组研究所所长Eric D. Green、冷泉港实验室名誉主席James D. Watson和国立卫生研究院院长Francis S. Collins日前联合撰文,阐述了HGP为今天基于合作的科学项目提供的六大关键经验。
拥抱合作。HGP不可避免地打破了研究人员独自埋头苦干、回答一小部分科学问题的常规。它还同假设驱动的研究背道而驰,反而关注将为很多后续研究提供借鉴的基础信息的发现。
HGP汇集了来自很多国家、学科和年龄层的2000余名研究人员,每个小组则对应着不同的资助机构。成功来自于资助者强有力的领导、对任务重要性的共同认知,以及研究人员为了集体利益愿意放弃个人成就。
很多合作型基因组学项目随之而来。这包括:对人类基因组中的序列变异进行分类的千人基因组计划、描绘导致癌症的突变特征的癌症基因组图谱,以及利用基因组测序和其他技术研究微生物群落的人类微生物群系项目。
合作型科研的一个常见障碍是参与者不愿拥抱新的合作。然而,各种努力以及集中起来的数据和资源会使每个人都受益的意识不断强化,并且正在使旧的观念遭到摈弃。
数据分享最大化。HGP改变了生物医学研究中关于数据分享的既有规范。一旦大量的基因组作图和测序数据开始产生,为缩短数据产生和发布相隔时间而建立相关政策的势头很快便发展起来。这些努力促成了1996年“百慕大原则”的采用。当时,参与此项目的主要团队负责人同意在超过一定规模的基因组序列集产生的24小时内将其提交至一个公开数据库。
从那以后的这些年里,此项努力变成一种基石。2003年,劳德代尔堡协议延伸了相关原则。2008年,美国国立卫生研究院(NIH)扩展了其数据分享的期望,将全基因组关联研究包括进来。2014年,“百慕大原则”开始执行扩展的基因组数据共享政策。这要求利用NIH资助产生或分析出来的几乎所有大规模基因组数据都要共享。
广泛存在的数据共享正带来新的挑战。这包括:分析和移动大量数据集存在的计算和输送上的困难,以及对于人类数据(尤其是基因组和临床数据)来说,如何保护研究参与者的隐私问题。各种举措已经推出,以解决这些问题。例如,对强大可靠的计算平台的需求,正带来生物医学研究中云计算使用的快速增长。
制定数据分析计划。对于HGP的规划,本身存有缺陷。回顾过去,早期未受到充分关注的一个领域是数据分析。首个人类基因组序列以一种零零碎碎的方式产生了。为获得每条染色体的连续序列,上千个单独组装的序列片段(每个约100~300千碱基)不得不通过计算被连接在一起。当对此类计算过程的需求(最终证实在技术上非常有挑战性)变得明显时,已处于项目相对较晚期。通过一小群生物信息学家的巨大努力,这一任务在几个月的时间里完成。如果规划中给予更多关注,此项工作便不会面临如此大的压力。
近年来,一些基因组学项目(诸如千人基因组计划和癌症基因组图谱)已经展示了对于数据分析计划的早期设计会如何为数据产生策略提供信息。最近,对美国精准医学计划的规划包括了如何最好地整合和分析预期的大量数据类型的讨论
- 标签:
- 编辑:刘柳
- 相关文章