第三节 医学真理的认知发展与GRADE系统

一、医学真理认知发展的三个阶段

了解专家或权威的经验与意见从古至今都是患者和公众获取知识和指导行动的重要途径。专家经验在很多情况下为决策提供了参考和依据,但因为其基于某个专家的个人见解,具有不可避免的主观性和片面性,所以仅凭专家经验去指导医疗实践可能存在偏差甚至误导。例如:美国儿童保健专家斯波克(Benjamin Spock)医生,他的畅销书《婴儿与儿童保健》(Baby and Child Care)几十年来一直被父母和专家们奉为育儿宝典。从1956年著作的出版到20世纪70年代末,他一直认为:“婴儿躺着睡有两大坏处:一是如果婴儿呕吐,躺着睡使他更可能被呕吐物呛噎;二是婴儿倾向于将头一直偏向同一边……这可能使一侧头部扁平……我认为最好一开始就让婴儿习惯趴着睡”。2005年《国际流行病学杂志》发表的一篇累积系统评价发现,婴儿俯卧睡眠与猝死综合征之间的风险比值比高达4.15,而且早在1970年,就已经有观察性研究证据显示,婴儿俯卧睡眠和猝死综合征相关,但直到2002年之前的近30多年间,仍不断有父母让婴儿出生后趴着睡觉。假设从1970年开始,就将该证据及时转化的话,可以预防英国超过1万名婴儿以及欧美5万名婴儿猝死。为了避免专家经验的误导,更为了科学验证所有的医疗干预措施,1948年,英国医学会组织设计、实施了链霉素治疗肺结核的随机对照试验,揭开了近代临床试验崭新的一页。在医学领域,设计科学、实施严谨和报告规范的临床研究,带领医生和患者走出医学知识的迷雾。

随着临床研究的不断增多,一方面,其质量参差不齐,大量临床研究不符合基本的要求和标准;有学者调查了中国发表的RCT的质量,发现真正的随机对照试验不足一成。另一方面,针对同一问题的研究结果常常不一致甚至矛盾,给临床医生决策带来困扰。比如,1998年在《新英格兰医学杂志》同一期刊登了2篇随机对照试验,其中一篇的结论为,根除幽门螺杆菌感染不能缓解非溃疡性消化不良的症状;而另一篇的结论为:根除幽门螺杆菌感染可以缓解非溃疡性消化不良的症状。在这种情况下,仅依靠单个的临床研究指导医疗实践是远远不够的,必须将研究同一主题或疾病的所有临床研究全面纳入,严格对其质量进行评价后,在同质的基础上进一步进行合并分析,才能够得到更为精确的结果。系统评价,尤其是高质量Cochrane系统评价的出现,为医学领域带来了一场新的革命,《柳叶刀》杂志将Cochrane协作网称为“全人类的基因组计划”。

然而,系统评价仅是对当前研究的总结,并提供该临床问题的证据体(evidence body)。但临床上真正需要的是告诉医务人员该做什么,不该做什么的推荐意见,即临床实践指南(clinical practice guideline,CPG)。假设一篇纳入5项RCT的系统评价结果显示,某种抗病毒药物治疗流行性感冒很有效,能够降低10%患者的病死率,并缓解30%患者的症状。在这种情况下,是否就可以直接把这种药物推广到临床,大规模使用呢?答案显然是否定的。因为一方面,决策者需对系统评价所提供的证据质量进行分级,即对系统评价纳入的报告病死率或症状缓解率的RCT进行偏倚风险评估,在此基础上,进一步考察其结果的精确性、研究之间的一致性、发表性偏倚以及证据的直接性,给出该证据质量的等级(高、中、低还是极低)。另一方面,即使该证据的质量为高,还应该进一步考察该药物的安全性、成本、患者的接受度等其他因素,在全面平衡利弊的基础上,才能够最终做出一个恰当合理的推荐意见。由此可知,经过了系统评价的信息,才能够成为证据,而经过GRADE分级的证据,才能够成为制订推荐意见的基石,而平衡了证据质量、患者偏好与干预成本等因素后形成的推荐意见,是知识转化的枢纽,架起了理论到实践的桥梁。

从这个角度而言,GRADE方法的出现,将人类对医学真理的认知,以及对研究成果的转化,向前推进了一大步。面对任何一种宣称有效的干预措施,无论其是药物,手术,亦或其他物理康复方法,都可以用GRADE去思考和探究它的本质:该知识、结论或主张是从哪里来的?专家经验还是临床研究?如果是临床研究,是否对全世界所有研究该干预措施的同类研究进行了系统评价?如果是来源于系统评价,那么它的证据质量如何?其安全性和成本如何?在进行了以上询问和分析后,我们相信,无论医务工作者还是患者,都会对这种干预措施有一个更为客观、科学和全面的认识,不仅避免了被其误导,还有可能基于判断结果,去开启一项新的研究或发现。

二、GRADE系统应用要点

GRADE分级适用于三个研究领域:系统评价、卫生技术评估以及临床实践指南,但在各自领域的应用不完全相同。对于系统评价,GRADE仅用于对证据质量分级,不给出推荐意见;对于指南,需在对证据质量分级的基础上形成推荐意见,并对其推荐强度进行分级;对于卫生技术评估,是否给出推荐意见,取决于评估的目的。在应用GRADE系统时,需注意以下几点:

1.GRADE的证据质量分级不是对单个临床研究或系统评价的分级,而是针对报告了某个结局指标的证据体的质量分级。这种分级是建立在系统评价基础上的。即使系统评价最终仅纳入了一个研究,但其中报告了不同的结局指标,证据质量分级仍然应针对不同结局指标分别进行。此时,降级的五个因素里面,不一致性不适用,因为只有一个研究,而其他四个降级因素均适用。

2.对于随机对照试验和观察性研究,均可以进行降级,因为其研究设计均可能存在缺陷。对随机对照试验应重点考虑降级,且在一般情况下,不考虑升级,因为如果设计无缺陷,本身就是最高级别,无需升级,如果设计有缺陷,则应降级。对于观察性研究,在无降级因素存在的情况下,如果有符合条件的升级因素,则可考虑升级。

3.对于不精确性和不一致性这两个条目,在指南和系统评价中的含义和用法有所不同。在指南当中是否需要在这两个方面降级,取决于其是否能够明确支持或反对指南制订者给出一个一致的推荐意见。

4.如果结局指标较多,首先应按它们对患者的重要性进行排序,最多纳入7个指标,并分为3个等级:关键结局,如死亡、严重的不良反应等;重要结局,如疼痛缓解、糖化血红蛋白降低等;一般结局,如轻度发热或胃肠道反应等。

5.当一项干预措施可以同时影响多个结局时,关于该干预措施的总体证据质量则取决于关键结局的证据质量或者它们中证据质量较低的。譬如,抗病毒药物治疗流感的有效性,病死率和ICU患者收治率均被列为至关重要的结局指标,但如果病死率的证据质量为高,ICU患者收治率的证据质量为中,则总的证据质量为中等而非高。主要原因是在考虑结局指标相对重要性的基础上,下结论应保守。如果一旦将该证据质量定为高,则意味着将ICU患者收治率这一关键结局从中等升级为高,夸大了干预的有效性,可能会给出不恰当的推荐意见。

尽管在GRADE方法中证据质量的升级和降级都有较为具体、明确的标准,但这并不能确保所有人对同一个证据分级的结果是完全一致的。GRADE的优势在于提供了一个系统化、结构化和透明化的分级方法,但由于分级人员本身水平的差异以及证据体的复杂程度,对同一个证据体有可能得出不一样的分级结果。研究显示,经过培训的分级人员较未经过培训的,其分级结果更为趋同,两人以上的分级结果相对于一个人更为客观。

(陈耀龙)

学习小结

推荐阅读材料

1.陈耀龙.GRADE在系统评价和实践指南中的应用. 兰州大学出版社. 2017.

2.GORDON H GUYATT,ANDREW D OXMAN,SHAHNAZ SULTAN,等. GRADE指南:Ⅸ. 证据质量升级. 中国循证医学杂志,2011,11(12):1459-1463.

3.GORDON,GUYATT,ANDREW,等.GRADE指南:Ⅷ. 证据质量评价——间接性[J].中国循证医学杂志,2011,11(12):1452-1458.

4.GORDON H GUYATT,ANDREW D OXMAN,VICTOR MONTORI,等. GRADE指南:Ⅴ. 证据质量评价——发表偏倚[J]. 中国循证医学杂志,2011,11(12):1430-1434.

5.GORDON H GUYATT,ANDREW D OXMAN,REGINA KUNZ, 等. GRADE指 南:Ⅶ. 证据质量评价——不一致性[J]. 中国循证医学杂志,2011,11(12):1444-1451.

6.GORDON GUYATT,ANDREW D OXMAN,REGINA KUNZ,等. GRADE指南:Ⅵ. 证据质量评价——不精确性(随机误差)[J]. 中国循证医学杂志,2011,11(12):1435-1443.

7.HOWARD BALSHEM,MARK HELFANDA,HOLGER J SCHUNEMANN,等.GRADE指南:Ⅲ. 证据质量分级[J]. 中国循证医学杂志,2011,11(4):451-455.

8.GORDON H GUYATT,ANDREW D OXMAN,GUNN VIST,等. GRADE指南:Ⅳ.证据质量分级——研究的局限性(偏倚风险)[J].中国循证医学杂志,2011,11(4):456-463.

9.陈耀龙,姚亮,杜亮,等.GRADE在诊断准确性试验系统评价中应用的原理、方法、挑战及发展趋势[J]. 中国循证医学杂志,2014,14(11):1402-1406.

10.GORDON,GUYATT,ANDREW,等.GRADE:证据质量和推荐强度分级的共识[J].中国循证医学杂志,2009,9(1):8-11.

11.ROMAN,JAESCHKE,GORDON,等.意见不一致时的策略:应用GRADE网格对临床实践指南达成共识[J]. 中国循证医学杂志,2009,9(7):730-733.

12.杨楠,肖淑君,周奇,等.GRADE在网状Meta分析中应用的基本原理和方法介绍[J].中国循证医学杂志,2016,16(5):598-603.

13.杨楠,邓围,陈耀龙,等.GRADE在预后研究系统评价中应用的原理、方法及挑战[J].中国循证医学杂志,2015,15(9):1112-1116.

14.姚亮,陈耀龙,杜亮,等.GRADE在诊断准确性试验系统评价中应用的实例解析[J]. 中国循证医学杂志,2014,14(11):1407-1412.

15.陈耀龙,姚亮,杜亮,等.GRADE在诊断准确性试验系统评价中应用的原理、方法、挑战及发展趋势[J]. 中国循证医学杂志,2014,14(11):1402-1406.

16.陈耀龙,姚亮,Susan,等.GRADE在系统评价中应用的必要性及注意事项[J]. 中国循证医学杂志,2013,13(12):1401-1404.

17.陈耀龙,杨克虎,姚亮,等.GRADE系统方法学进展[J]. 中国循证儿科杂志,2013,8(1):64-65.

复习参考题

1.医学研究中证据应该如何被定义?

2.患者偏好与价值观对指南推荐意见影响,举例说明?

3.GRADE系统的优势是什么?