第二节 证据质量与推荐强度的分级
一、证据质量与推荐强度的演进
前牛津大学循证医学中心主任Paul Glasziou教授和Cochrane协作网创建人Iain Chalmers在2010年的一项研究中发现,全世界每年仅RCT就发表27 000余个,系统评价4000余个。其他观察性研究、动物研究和体外研究的数量更为庞大。但对于医务人员和决策者而言,每天却只有24小时。想要有效判断这些研究的好坏,遴选出高质量证据,将其转化为推荐意见进而促进循证实践,那么一套科学、系统和实用的分级工具必不可少。另一方面,美国国立指南文库(National Guideline Clearinghouse,NGC)已收录了超过2000个全世界最新的高质量循证指南,然而各个指南所采用的证据质量和推荐强度的分级标准和依据却各不相同。临床医生想要快速理解和应用这些推荐意见,全面了解当前各种分级标准的现状十分必要。过去40年间有50多个机构和组织就如何对证据质量和推荐强度进行分级展开了积极的探索与尝试,本节将对主要的分级组织、标准和方法予以简要介绍。
证据质量与推荐强度分级方法的发展主要经历了三个阶段,第一阶段单纯考虑试验设计,以随机对照试验为最高质量证据,主要代表有加拿大定期体检特别工作组(Canadian task force on the periodic health examination,CTFPHE)的标准(表2-3)和美国纽约州立大学下州医学中心推出的“证据金字塔”(图2-1),其优点在于简洁明了,操作性强。但存在的主要问题在于分级依据过于简易,仅用于防治领域,且结果可能并不客观准确;第二阶段在研究设计的基础上考虑了精确性和一致性,以系统评价/Meta分析作为最高级别的证据,主要代表有英国牛津大学循证医学中心(Oxford Center for Evidence-based Medicine,OCEBM)推出的OCEBM标准(表2-4)。此外该标准在证据分级的基础上引入了分类概念,涉及治疗、预防、病因、危害、预后、诊断、经济学分析等七个方面,更具针对性和适应性,曾一度成为循证医学教学和循证临床实践中公认的经典标准,也是循证教科书和循证指南使用最为广泛的标准之一,但由于其级数较多(大小共10级),简单将证据质量和推荐强度直接对应(高质量证据对应强推荐,低质量证据对应弱推荐),且未充分考虑研究的间接性和发表性偏倚,以及观察性研究的升级等因素,所以在实际应用中仍然存在问题。2000年,针对当前证据分级与推荐意见存在的不足,包括世界卫生组织在内的19个国家和国际组织60多名循证医学专家、指南制订专家、医务工作者和期刊编辑等,共同创建了GRADE工作组,旨在通力协作,循证制定出国际统一的证据质量分级和推荐强度系统。该系统于2004年正式推出。由于其更加科学合理、过程透明、适用性强,目前包括WHO和Cochrane协作网在内的100多个国际组织、协会和学会已经采纳GRADE标准,成为证据与推荐分级发展史上的里程碑事件。



二、GRADE系统的基本概念和原理
GRADE方法首次清楚阐述了证据质量和推荐强度的定义,即证据质量是指对观察值的真实性有多大把握;推荐强度指指南使用者遵守推荐意见对目标人群产生的利弊程度有多大把握。其中“利”包括降低发病率和病死率,提高生活质量和减少资源消耗等,“弊”包括增加发病率和病死率、降低生活质量或增加资源消耗等。证据质量分为高、中、低、极低四个等级,推荐强度分为强、弱两个等级,具体描述见表2-5。

和此前的分级系统一样,GRADE对证据质量的判断始于研究设计。一般情况下,没有严重缺陷的随机对照试验的证据起始质量为高(即A级),但有五个因素可降低其质量。没有突出优势的观察性研究的证据起始质量为低(即C级),但有三个因素可升高其质量(表2-6)。


对于推荐强度,GRADE突破了之前将证据质量和推荐强度直接对应的弊端,进一步提出,除了证据质量,资源利用和患者偏好与价值观等证据以外的因素也影响推荐的强度,并将推荐强度的级别减少为两级。对于不同的决策者,推荐强度也有不同的含义(表2-7、表2-8)。

