关于循证医学、精准医学和大数据研究的几点看法

转自：中华流行病学微平台

唐金陵1, 李立明2.

1. 999077 中国香港中文大学公共卫生及基层医疗学院;

2. 100191 北京大学公共卫生学院

摘要

循证医学仍是当今最好的医学实践模式。需要注意的是，证据本身不等于决策，决策还必须考虑现有资源和人们的价值取向。证据显示，绝大多数患者不会因使用降血压、降血脂、降血糖、抗癌药而预防重要并发症或死亡，说明现代医学的很多诊断和治疗都不精准，找到那几个为数不多的对治疗有反应的患者就成了现代医学的梦。精准医学应运而生，但它并不是新概念，也不等于孤注一掷的基因测序。精准医学依赖的大队列多因素研究由来已久，也不是新方法。医学一直在寻求精准，而且在人类认知的各个层面都有所建树，如疫苗和抗体、血型与输血、影像对病灶的定位以及白内障晶体替换手术。基因不是达到精准的唯一途径，只是提供了新的可能性。但是多数基因和疾病关联强度很低，说明基因精准指导防治的价值可能不大，利用大数据和其他预测因素是精准医学的必经之路。在使用大数据问题上，强调拥有总体、大样本、关联关系而淡化因果关系，是严重的误导。科学从来不会待考察了总体后才进行推论；研究需要的样本量恰恰与效果大小成反比；否定因果关系就是对流行病学科学原理和方法的否定，放弃了对真实性的保障，最终会导致防治的无效。因此，在确认疗效上，基于大数据的现实世界观察性结果不能取代随机对照试验的实验性证据。本文谨希望以怀疑和批评的方式，激发出精准医学和大数据蕴藏的真正潜力。

关键词:循证医学；精准医学；大数据；现实世界研究；流行病学方法

一

循证医学中的情与理

循证医学呼吁医学实践须基于现有最好的应用型(而不是基础型)研究证据[1-2]。没有循证医学的敦促，医学研究就多会停留在理论上；没有循证医学的反馈，医学研究可能会偏离正确的轨道；没有循证医学这张盾牌，资本就会更肆无忌惮地让医学为利润服务。然而，在肯定证据在医学决策中重要性的同时，还必须强调证据本身并不是决策，决策还必须兼顾现有资源的多寡、患者的需要和价值取向。

如果把证据称为理，证据以外可以影响决策的因素就是情。如果理是科学发现的客观事实(如一个药物被证明有效)，情就是人们如何利用这些事实的主观情感和好恶。医学决策，情与理缺一不可。在20世纪90年代循证医学初期，人们对医学应用型(主要是流行病学)研究及其产生的科学证据认识不足、重视不够，有必要特别突出证据在决策中的重要性。但是在证据和指南被视为“绑架”了医学实践的今天，有必要重申或特别关注其他因素在决策中不可或缺的作用，尽管目前还有很多医学指南和实践并非基于证据。

研究证明一个药物有效，这是理。理是中性的、稳定的，具有普遍性，展示了决策选择的可能效果。证据无疑应该渗透到每一种决策中，证据存在时，忽视证据是无知和不负责任的行为。但是，对循证医学的很多误解和误用，多是因为把证据等同于行动，过度强调了证据在决策中的作用。我们可以造出原子弹，但有了原子弹不等于就可以杀戮，否则就是决策中对情的忽视。证据在决策中的作用就是告知真相，当证据被清晰地呈现出来时，它在决策中的全部作用就已经完成了。证据不会告诉你做不做、做什么，是人在做选择和决定。

药有效，吃不吃？取决于情。情的核心是支撑人们行动抉择的价值观，价值观决定了人们的好恶和需要、对事物重要性和意义的判断，以及对有限资源(如人力、物力、时间、金钱)的分配意向等。人们的价值观虽然不同，却没有严格的错对之分。情因人而异，面对中性不变的理，不同的人会做出不同的抉择。循证医学的走样，也多因情的滥用和自作多情。忽视证据的存在是情的滥用；只认理不认人，违背当事人意愿的决策是自作多情。降血压药物治疗100个高血压患者，5年内大约可以预防3例心肌梗死或脑卒中事件，费用不高，副作用不大。癌症靶向药物能延长生存几个月，但治疗所需费用可达几十万甚至上百万元人民币。治还是不治？没有绝对正确的答案，依情而定，因人而异。

其实，证据也非完全无情。以治疗为例，为什么人们研发了一些治疗方法而不是另一些？为什么评估了一些治疗方法而不是另一些？为什么选用了一些结局而不是另一些？为什么发明了一些测量而不是另一些？为什么在这些人群中评估而不是另一些？其实，科学探索真理过程中的每一步选择或多或少都有价值观的导向。甚至在什么是疾病这个医学最根本的问题上，也不完全由真理决定，也有人情。高血压、高血脂、糖尿病的诊断切点应该放到哪里？肿块多大的癌变才算癌症？没有绝对的客观标准[3-4]。疾病不是一个绝对客观、黑白分明的事实，如何定义疾病，通常需要人的主观抉择。主观性介入的地方，就是情之所系的地方[5-6]。

由于不同人群情的变化与不同，多数关于是否应该干预的“僵硬的”国际共识和指南都是可被质疑的。合理的治疗应该是在合适的地点、时间，由合适的提供者，给予患者可负担并愿意接受的安全、有效的治疗。“合理”就是既依据于“理”，也合乎于“情”。与指南恰好相悖，因为情的多变，合理的治疗必然因人而异，只能是个体化的决策。

我们强调合理医疗，是因为有很多不合理的乱象。为什么已经循证了还有乱象？就是因为在科学探索及证据应用中小视了“情”的作用，或是“乱”用了情。不合理的乱象背后经常有利益的影子。无论如何，医学都不能丢掉它的初衷：患者利益第一。只有这样，医学的路才不会走得太偏。

另外，有人认为，循证医学否定了直觉、经验和假设，把随机对照试验(RCT)和Meta分析或临床研究等同于循证医学，把统计学意义等同于临床意义，过于信任统计数字，用证据逼迫医生做不该做的事情，这些认识和批评多是源于对循证医学的误解[7]。也有人认为，循证医学中人文关怀不足，RCT和指南被商业利益利用，进而引起过度诊断和过度治疗，例如有些靶向抗癌药物效果很小、费用很高、喊得很响，这些问题多是循证医学被误用的结果[8-9]。对循证医学的误解和误用不是循证医学本身的问题，而是使用者的问题。也有人指出，RCT中的患者不能代表所有患者，研究显示的平均结果不能精准到每个患者，RCT和Meta分析有自身的问题，研究中还可能存在偏倚、误导、甚至伪造的结果，这些问题反映的是整个现代医学和医学研究的局限性及其有关的不良的人为因素，尚没有比循证医学指出的更好的解决方案[10-11]。

二

精准医学不等于孤注一掷的DNA测序

20世纪后，慢性病成为人类疾病的主要负担，但是慢性病的防治远没有抗生素和疫苗应对传染病那么精准有效。例如，研究证据显示，100个患者服用抗高血压药物5年，只有3人因治疗可预防冠心病和中风，对其余97人无效。在绝大部分治疗的患者中无效，说明治疗很不精准。抗癌治疗、降脂药、降糖药等也都不精准。找到那几个为数不多的对药物有反应的患者就成了现代医学的梦，精准医学应运而生。如果前面谈的主要是依据价值观的个体化治疗，而精准医学则是希望在生物学意义上的个体化。

20世纪生物医学最伟大的突破莫过于发现了人类遗传物质DNA的双螺旋结构，解开了人类遗传的密码。DNA测序可以发现疾病的易感基因，把预防做得更精准，也可以发现对治疗产生反应的相关基因，把治疗做得更精准。20世纪70年代PCR诞生后，最红火的医学研究应是与基因相关的研究，为攻克癌症和心血管病预示了无限的前景[12]，我们把大部分生物医学研究资源都用在了相关研究上[13-14]。

精准医学的最初愿景是希望通过基因测序这个全新的技术，找到对防治敏感的患者，进而大大提高防治的精准，提高防治效果[15-18]。但是，很多人一开始就怀疑基因组学技术本身可以独立而圆满地解决防治精准的问题[15, 19]。因此，人们在精准医学里又注入了其他新技术，如蛋白组学、代谢组学和肠道菌组学。进而在精准医学里纳入影响防治效果的传统因素和技术就成了必然，这些因素包括年龄、性别、家族史、疾病亚型，以及传统的病理、生理、生化、免疫、影像检查等。因此，当很多人还在认真揣摩精准医学到底是什么的时候，首先推出精准医学的美国把精准医学的旗舰项目(The Precision Medicine Initiative Cohort Program)改名为“我们所有人的研究项目” (All of Us Research Program)[20]。这个从基因测序出发的精准医学本质上已变成一个典型的流行病学队列研究，基因特征不过是可测量的一种暴露因素而已。在众多因素之中，基因是否可以超越其他因素而胜出，还是未知数。

其实，除了纳入新的测量因素之外，精准医学不过是老药装新瓶，并不是什么新思想。逐步迈向诊断和防治的精准一直都是医学追求的目标，是医学最根本的目的所在，也是医学每一次重大进步的标志性特征。然而，医学的精准绝不只是基因层面的精准，也绝不是有了基因测量之后才可以精准。例如，自19世纪中叶起，微生物的发现及其检查方法的出现就是人类诊治传染病的一次革命性的精准，X线等影像技术是向活体内探测和定位的另一种革命性的精准。

广义地讲，认识到疾病的特异症状和体征，发明温度计、听诊器、X线、超声波、CT、内窥镜、显微镜，以及生理、生化、病理、微生物、免疫检查等方法，都是医学迈向精准的步伐。有了这些手段，已可将很多疾病的诊断和治疗把握得十分精准，尤其在防治传染病上，取得了有目共睹的成就。例如疫苗预防传染病、血型鉴定与输血，以及影像定位与外科手术。而且医学的精准已在人类认知的不同层面全面展开。例如，用CT确定骨折部位是大体解剖层面的精准，用内窥镜确定疾病的部位是在器官层面上的精准，确定癌症细胞类型是在细胞层面的精准，测量抗体确定感染菌型是分子层面的精准，基因标志物则是在基因层面的精准。

这些检查方法提高了诊断的精准，也提高了预后预测的精准，但诊断和预后的精准不等于防治的精准，而最终医学需要的是防治的精准[21]。基因检查(包括目前和未来任何其他新的检查技术和方法)带来的诊断上的精准是否可以带来防治的精准是一个必须追究的问题。从提升防治效果的意义上，基因检查也许会再一次带来惊喜。但目前来看，精准医学标志性成果的靶向抗癌药物，最多也只可延长生存几个月[8-9]，远没有微生物和影像相关技术那样真正掀起了一场防治的精准革命。医学一定会有新的奇迹出现，但对于基因诊断我们是否过于乐观，是否应把所有鸡蛋都放进一个篮子？精准医学后来的退让、调整和“变味”，正是这种担忧和质疑所产生的结果。

美国精准医学的旗舰项目本质上是一个同时考量很多因素的大型队列研究(PMI 2016)[20]。在探索慢性病病因上，20世纪中叶人类就开始了大型队列研究，4万人的英国医生研究(British Doctors Cohort)揭示了吸烟和肺癌的关系[22]，长达70年的佛明翰心脏研究(Framingham Heart Study)揭示了心血管病的主要危险因素[23]。2004年，中国开展了50万人的慢性病队列研究(China Kadoorie Biobank Study)，并采集了生物遗传标本[24-25]。这些研究结果已使肺癌和心血管病的预防变得更加精准。在评估疗效上，类似大型队列研究的是大型随机对照临床试验。因此，精确医学的队列研究也不是新生事物，无非是纳入的人数越来越多，纳入因素的种类越来越多。

为什么需要更多人数的研究呢？科学研究的一个重要特征是，研究的效应或效果越小，需要的样本量就越大，所形成的研究就越大。白内障手术可使患者马上重见光明，治疗几个患者就足以说明问题。100人服用阿司匹林10年可预防1例冠心病、中风或死亡，需要上万人来验证[26]。这样的效果无论如何都算不上是个惊喜，更谈不上精准。因此，一个悖论就出现了：需要的研究越大，其证明的防治的平均作用就越小，就越不精准[27]。

一个危险因素作用的大小可以用相对危险度来衡量。在英国，吸烟和肺癌关系的相对危险度约为15，大约93%[(15-1)/15]的肺癌都是吸烟引起的，如果根除吸烟，可在吸烟者中预防93%的肺癌。即使这样，很多人对吸烟的害处仍不以为然。那么，一个相对危险度低于1.5的基因对指导预防和治疗的价值会有多大？值得拷问。更不用说围绕一个基因采取措施的复杂性和可能的负面后果。

然而，人们对基因抱持的期望远远大于对戒烟好处的认可。由于自身能力的局限，人类会相信神明，越是不可思议的越可能被奉为神明，虽然常识更有可能是对的。这使人类有时会集体变得盲目。那条藏着我们每一个人生命密码的DNA链太神奇了，我们无法不把它奉若神明。

这条握着我们命根子的DNA链真的握着我们的所有命运吗？包括疾病、康复和长寿？关于命运有一个悖论：当我们预测到命运时，命运就会转变。这有点儿像量子力学里薛定谔猫的味道。当我们知道未来会大富大贵时，我们会放松努力，大富大贵也许不会再来；当我们知道未来生活艰辛时，我们会努力工作，命运会因此而转变。如果基因决定了我们必然会长寿，为什么还不胡吃海塞？如果这条DNA链真的握着我们的所有命运，它为什么掌握不了自己的全部命运，还要用这七尺肉身把它重重保护？我们这个肉身在大千世界里又会走过怎样的命运轨迹？我们怀疑这条DNA链真的都能说清楚。

人大于构成他的物质基本元素的总和，因此还原论不是唯一可胜出的方略。如果基因这条路只是很多通路中的一条，孤注一掷的代价就太大了。即使精准医学有无限的前景，但它是否可以精准地指导治疗，最终还必须通过人群研究进行验证。首先，精准到每一个人经常是不必要的，因为人之间存有共性；精准到每一个人可能只是一种理论设想[28]，因为它很难通过重复而得到验证，除非疗效极大极明显。其次，如果可以精准到亚组，验证一个基因标志物是否可以在一个亚组人群有效地预测疗效，随机对照试验仍然是最可靠的方法。比如，将KRAS野生型和突变型的结肠癌患者分别随机分配到治疗组和对照组，然后比较靶向抗癌药在KRAS野生型和突变型亚组患者中疗效的区别(即交互作用)[21, 29-31]，就属于这类研究。这样的研究最终又构成了有关疗效的科学证据，必应纳入循证医学实践。

由此可见，精准医学与循证医学是互补关系，不是替代关系，精准医学的研究结果也是循证医学的科学证据。认为循证医学是概率性的，是不精准的，终究要被精准医学替代，这个说法是不现实的。历史经验显示，百分之百有效只是概率有效的一种不常见的极端形式。

最后，精准医学未必是最好的模式。公共卫生措施多强调共性和标准化，如对抗传染病的排污、供水、消毒、隔离等措施，效果有目共睹，而且具有更高的公益性和公平性。其实，个性与共性，或特殊性与一般性，是一对矛盾的两个方面。即使是个体干预，针对共性的方法往往也是最有效的，如抗生素和疫苗。当强调个性化治疗的时候，往往是因为还没有掌握事物的共性，没有抓住根本矛盾，效果说不清楚，因此希望用灵活多变的方式来寻找解决问题的突破口。

三

大数据的统计精确性不等于科学可信性

计算机和互联网给数据的储存、处理和分析带来了前所未有的方便，大量常规收集的数据给科学研究带来了极大的方便，大数据时代到来，为循证医学产生证据提供了前所未有的新契机，也成了精准医学赖以发展的重要途径。之前，由于资源的限制，科学研究只能在一个有限的样本里完成，当样本量足够大时，基于样本的观察就可以准确地推论总体。有人声称，基于大数据的研究，不再需要关心样本，因为我们有了总体[32]。直接研究总体似乎是大数据研究最突出的优势。

然而，代表总体这个优势只是一个虚妄的承诺。代表性仅仅是一个相对于样本来源的有限总体的抽象概念，主要取决于抽样方法。如果说总体是这个世界上所有有关个体的总和，那么没有一个数据库可以代表这个总体。一个医院的患者不能代表一个城市里所有患者的总体，一个城市里所有医院的患者也不能代表这个国家里所有患者的总体，一个国家里所有的患者也不能代表全世界所有患者的总体，目前全世界的所有患者也不能代表时间长河里这个世界上所有的患者。因此，总体是相对的，也是有限的。继而，所有数据库的代表性也是相对的，有局限性的。因此，基于所谓总体的观察结论也不能保证外推时必然不会失败。另外，所谓代表性广，经常的结果是导致严重的实践错误。例如，如果一个药物在一种患者5%的亚组中有效，最好的研究是那些只代表这5%亚组患者的样本，而不是代表所有这类患者的样本。把研究扩展到这5%以外的患者，看似拓宽了代表性，其后果是这个药物将被错误地用于大量无效的人群，而且代表性越宽泛，这个错误的比例就越大，就背离精准医学越远。

其实，人类过去所有的研究和对总体的推论都是基于样本的，也根本没有必要基于总体。我们从来没有通过观察这个世界上所有的男女之后才能说出男女之间的差别；我们也不可能观察到世界上所有的男女，因为我们无法观察已经去世的人，也无法观察还没有出生的人。如果真的要等到观察了总体里所有的人，我们只能永远等下去，永远都不会有结论。同理，我们也不会把世界上所有的茅台酒都喝了，才会知道茅台的滋味。对样本的研究就够了，而且我们也只能研究样本。

有人说因为大数据涵盖了总体，只关注关联关系就够了，不需要追究它是否存在真实的因果关系[32]。对于医学，这是一个更危险的信号。吸烟可以引起肺癌，抗高血压药物可以降低心血管病的风险，这是因为它们之间存在因果关系。因此，戒烟可以预防癌症，抗高血压药可以预防心血管病。然而，吸烟者常会携带火机，火机也会与肺癌有关联，但一个人不会因为扔了火机就会预防癌症，因为它们之间不存在因果关系。确立病因和疾病以及治疗和效果之间的因果关系是医学研究的重要内容，人类发展了一整套人群研究的理论和方法[33-35]，目的在于控制偏倚和混杂，使发现的关联关系更可能是真实的因果关系，使切断原因可以防止结果发生成为可能[36]。如果医学防治措施是建立在一堆不知因果本质的关联关系之上，则根本无法保证防治的效果[36-37]。忽视关联和因果关系的区别，就等于否定现今所有流行病学研究方法的发展和进步，包括观察性研究中对混杂的控制以及随机对照试验里随机分组和盲法的科学性。样本量大，只能降低随机误差，提高结果的精确性，不能弥补研究设计上的不足，不能降低系统误差，不能提高结果的可信性。可信性和精确性就如同工具精密度与研究者人数的关系。随机对照试验就如同一台高倍精密的显微镜，观察性研究就如同人的肉眼，显微镜看不到有细菌，肉眼也必定看不到，如果说肉眼看到了一定是假的，再多人说看到了也是假的。内部真实性是外推性的前提，认为只关注关联就够了，是对发展已久的现代医学应用型研究理论和方法的漠视。

正是由于对样本量的过于关注、对因果关系的漠视，以及对人群研究科学原理的认识不足，有人提出基于大数据的现实世界观察性研究来评估疗效，并认为以此就可以取代随机对照试验成为对疗效的最终确认。然而，这样的现实世界研究(无论是否基于大数据)与随机对照试验的根本区别不是样本量，也不在于对PICOS(population，intervention，comparator，outcome，setting，即：人群、干预、对照干预、结局、干预环境)等因素的限制程度。如果真的需要，随机对照试验也完全可以拥有很大的样本量，也可以在切合实际的PICOS组合下进行[38-39]。二者的本质区别在于对偏倚和混杂的控制，也就是观察和实验的区别，是科学性高低的区别[40-42]。换言之，随机对照试验结论的可信性远远高于现实世界研究。因此，从疗效的重要性和研究结果的可信性上看，现实世界的观察性研究终究不能取代实验性的随机对照试验在确认疗效中的根本作用。

除此之外，那些本来就只能通过观察性研究来回答的医学问题，大数据现实世界研究完全可以与特别组织的具体研究媲美，很多方面甚至远远优于后者。这些研究问题包括了干预效果以外的绝大部分与医学实践有关的问题，如疾病病因、诊断、疾病的转归和预后、慢性罕见副作用、甚至患病率和发病率(如果数据涵盖了有限总体里的所有成员)，以及医学干预的经济学评价等。即使是关于疗效，大数据在产生研究假设和初步探索效果上，也拥有巨大的潜力，也完全可以用来支持实效RCT(pragmatic RCT)的开展。在病因研究方面，大数据提供了无数前所未有的新的危险因素，大大拓宽了潜在危险因素的图谱，进而扩大了可用的预防措施的范围。对于医疗卫生管理，大数据则更是一个前所未有的机遇。值得注意的是，大数据中各种测量的准确度、精确度和完整性，以及同一因素测量方法在不同时期和不同机构的一致性，可能是目前限制利用这些数据的重要障碍之一。

最后，样本量甚至研究质量都不是决定一项研究是否具有意义的关键，研究的意义首先取决于研究问题的意义。我们每个人每天都面对着海量的数据和信息，就像走进一个大森林，树木本身并不能告诉你它们的用途，需要人提出问题。

四

结语

循证医学既强调理也重视情，是现今最好的医学决策模式。但是，很多药物的平均有效率很低，如何找到那几个为数不多的对治疗有反应的患者，是整个现代医学的难题。然而，科学突破需要时间和积累，且往往不是计划攻关的结果，多发生在不经意的地方。显微镜的出现、欧洲产褥热的控制、伦敦霍乱的控制、发现微生物可以致病、发现抗生素和疫苗等，都是如此，用了几百年的时间，带有很大的偶然性。

人类用了几千年甚至更长的时间才攻克了传染病，面对流行不到100年的慢性病，也许我们太急于解决问题了。精准医学希望利用最新的医学技术，最终把治疗做得精准，但是并非指日可待。其实完全个体化的治疗只是一个理论可能性，既往成功的精准防治(如疫苗)往往不是针对每一个人采取不同的措施，而是针对个体间的共性或基本矛盾采取的相同的措施。而且，影响健康的因素远不止于医疗，我们群体健康的决定因素远远超出了基因和临床照护，精准医学不是唯一的出路。大数据的确提供了医学研究的新途径，但认为可以研究总体并无需追究因果本质，则混淆了随机误差和偏倚，混淆了统计学显著性和科学真实性，否定了人类几百年来发展起来的医学应用型(即流行病学)研究的原理和方法，是医学研究的严重倒退。

然而，在科学领域，我们总应抱着开放的态度，因为科学的突破口很难预测。任何嘲笑别人的人都可能最终被嘲笑，任何希望预测未来的人都可能让人大跌眼镜。英国皇家协会前主席凯尔文曾预言，所有比空气重的东西都不可能飞起来。爱因斯坦也曾说，没有任何轻微的迹象表明人类会俘获核能。100多年前，又有谁敢肯定塞麦尔维斯对产褥热的调查和控制会开启人类有效应对传染病的大门。科学总会在不经意的地方爆出惊喜，本文谨希望以批评的方式激发起精准医学和大数据研究蕴藏的真正潜力。

志谢:靳光付、李晓松、毛琛、王波、王束玫、杨祖耀阅读了早期的稿件并提出了宝贵意见，冯琦协助整理了参考文献

利益冲突:无

参考文献【略】