Diagnostic performance of clinical prediction models for pulmonary embolism.

2008
MEDICINA FAMILIAR Y COMUNITARIA, MEDICINA INTERNA, NEUMOLOGÍA
TEC. SANITARIA. EXCLU. MED.
INFORMES DE EVALUACIÓN
+ Año
2008
+ Áreas de Conocimiento
MEDICINA FAMILIAR Y COMUNITARIA, MEDICINA INTERNA, NEUMOLOGÍA
+ Tipo Tecnología
TEC. SANITARIA. EXCLU. MED.
+ Línea de Producción
INFORMES DE EVALUACIÓN
Con el objetivo de evaluar el rendimiento diagnóstico de las escalas o modelos clínicos utilizados para la determinación de la probabilidad pretest en el diagnóstico del embolismo pulmonar, se realizó una revisión sistemática de la literatura. Los autores concluyeron que la rentabilidad diagnóstica de las escalas usadas no presenta diferencias relevantes con la rentabilidad proporcionada por la valoración empírica. Tampoco se ha podido poner de manifiesto la superioridad de la rentabilidad diagnóstica de una escala sobre las demás. La escala de Wells de tres categorías ha mostrado una alta sensibilidad en poblaciones con moderada frecuencia de embolismo pulmonar, sin embargo en poblaciones con alta frecuencia los datos fueron discordantes. La rentabilidad de la escala de Ginebra en poblaciones de alta frecuencia de embolismo pulmonar la sensibilidad ha resultado ser alta.
Antecedentes y justificación:
Las manifestaciones clínicas del embolismo pulmonar son muy poco sensibles y específicas, por lo que, ante la sospecha de esta patología, el clínico se maneja con un enorme grado de incertidumbre. Para facilitar el enfoque de una estrategia diagnóstica adecuada, se han desarrollado numerosas herramientas (escalas, modelos, reglas), que ayudan a determinar la probabilidad de que el paciente presente esta patología, de forma previa a la realización de pruebas complementarias invasivas que confirmen o descarten el diagnóstico de forma definitiva. Hasta el momento, no se tiene clara evidencia de que el rendimiento diagnóstico de estas escalas o modelos sea mejor que el proporcionado por la experiencia del clínico, o sobre cuál de las escalas se comporta con mayor exactitud. El rendimiento diagnóstico de estas herramientas ha sido estudiado en diversos trabajos, que son el objeto de la actual revisión.

Objetivos:
El objetivo principal ha sido evaluar el rendimiento diagnóstico de las escalas ó modelos clínicos utilizados para la determinación de la probabilidad pretest en el diagnóstico del embolismo pulmonar. Partiendo de la bibliografía encontrada, se planteó como objetivo secundario describir otros resultados de las escalas ó modelos diferentes al rendimiento diagnóstico.

Metodología:
Se ha realizado una revisión sistemática de la literatura. Inicialmente, se realizó una búsqueda bibliográfica exploratoria, enfocada a identificar revisiones sistemáticas, en MEDLINE, Emergency Care Research Institute, Cochrane Library, Centre for Reviews and Dissemination, International Network of Agencies for Health Technology Assessment (INAHTA) y National Guideline Clearinghouse. Posteriormente se realizó la búsqueda definitiva, dirigida a localizar estudios originales, en MEDLINE y EMBASE. Los principales criterios utilizados para la selección de los artículos se han referido a población (pacientes adultos con sospecha de embolismo pulmonar), intervención (alguna herramienta estructurada para estimar la probabilidad pretest de embolismo pulmonar), patrón oro (pruebas complementarias habituales para el diagnóstico del embolismo y/o seguimiento clínico de 3 meses), resultados (rendimiento diagnóstico y/o resultados clínicos de la aplicación de las escalas) y diseño (ensayos clínicos y estudios observacionales con ó sin grupo control). La evaluación crítica de los trabajos originales se realizó con la herramienta QUADAS. Se ha realizado una síntesis cualitativa de los datos.

Resultados:
En la búsqueda definitiva resultaron 428 referencias. Tras eliminar 38 duplicados, quedaron 390 documentos. Tras la primera selección, basada en la lectura de título y resumen, se excluyeron 315 artículos, quedando 75 para lectura a texto completo. De ellos, siguiendo los criterios de inclusión y exclusión, se excluyeron 68, quedando finalmente incluidos 11 trabajos originales en la revisión; todos ellos estudios observacionales sin grupo control. En la mayoría de los estudios se valoraba más de una escala.
La rentabilidad del uso de escalas frente al empirismo se ha estudiado en tres trabajos de buena calidad que no encontraron diferencias relevantes entre el rendimiento diagnóstico de estas dos opciones de cálculo de la probabilidad pre-test de embolismo pulmonar.
Cuando se comparó la rentabilidad de las diferentes escalas entre sí, los resultados presentaron bastante variabilidad. La escala de Wells de 2 categorías se ha mostrado más específica que sensible en dos estudios de buena calidad; en ambos la sensibilidad osciló entre el 60 y 62%. La escala de Wells de 3 categorías ha sido evaluada en 9 estudios. Dos estudios la valoraron en poblaciones con baja frecuencia de embolismo pulmonar, aportando resultados dispares en sensibilidad y especificidad (en un trabajo se estimó una sensibilidad del 92% y una especificidad moderada, y en el otro la sensibilidad fue del 54%), aunque ambos coincidieron en el alto valor predictivo negativo de la escala (superior al 96%). Con frecuencias moderadas y altas de embolismo pulmonar los estudios coincidieron en presentar la escala de Wells de tres categorías como más sensible que específica: con frecuencias moderadas la sensibilidad fue superior al 90% (dos estudios), y con frecuencias altas (cinco estudios), ésta osciló entre el 66 y el 91%. La escala de Ginebra, valorada en cinco estudios, se caracterizó por ser más sensible que específica. En el único estudio en el que esta escala fue aplicada de forma prospectiva, sus resultados compararon favorablemente con los de la escala de Wells, ambos con sensibilidad superior al 70%. El rendimiento diagnóstico del algoritmo de Wells, la regla de Charlotte y los modelos de Rodger y Pisa ha sido evaluado en un solo estudio para cada uno de ellos. De todos ellos, sólo el modelo de Pisa ha demostrado una rentabilidad diagnóstica superior, de forma estadísticamente significativa, a la de las escalas de Wells y Ginebra (área bajo la curva ROC del 94% para este modelo, frente al 54% de la escala de Ginebra y 75% de la escala de Wells). Aunque se trata de un trabajo de buena calidad, los problemas de validez externa limitan su aplicabilidad. En estos estudios no se han registrado resultados de efectividad clínica de la aplicación de las escalas.

Conclusiones:
La rentabilidad diagnóstica de las escalas usadas para la determinación de la probabilidad pretest en el diagnóstico del embolismo pulmonar no presenta diferencias relevantes con la rentabilidad proporcionada por la valoración empírica. Con la evidencia disponible no se ha podido poner de manifiesto la superioridad de la rentabilidad diagnóstica de una escala concreta sobre las demás. Las escalas de Wells de tres categorías y Ginebra son las más estudiadas. La escala de Wells de tres categorías ha mostrado una alta sensibilidad (mayor al 90%) en poblaciones con moderada frecuencia de embolismo pulmonar; pero en poblaciones con alta frecuencia los datos de sensibilidad fueron discordantes (entre 66 y 91%). En estudios de buena calidad en los que se ha evaluado la rentabilidad de la escala de Ginebra en poblaciones de alta frecuencia de embolismo pulmonar la sensibilidad ha resultado ser alta (mayor de 86%). Los estudios sobre rentabilidad diagnóstica hallados en esta revisión no han valorado la efectividad clínica de las escalas en términos de resultados en salud.
Background And Rationale:
The clinical manifestations of pulmonary embolism are just a bit sensitive and specific, so that, the clinician has to face a considerable amount of uncertainty when suspecting this pathology. To facilitate the approach to an appropriate diagnostic strategy, there have been developed several tools (scores, models, rules) which help to determine the patient’s probability to have the pathology prior to performing invasive supplementary tests that definitely confirm or discard the diagnostic of embolism. Up to the moment, there is no clear evidence proving that the diagnostic performance of these scores or models is better than that provided by the clinician’s experience or reporting which of the scores is more accurate. The diagnostic performance of these tools has been studied in several papers, which are the subject of the current review.

Objectives:
The main objective has been to assess the diagnostic performance of the scores or clinical models used to determine the pre-test probability in diagnosing pulmonary embolism. A secondary objective was to describe other outcomes from the scores or models, different to the diagnostic performance.

Methodology:
A literary systematic review was conducted. Initially, an exploratory bibliographic search was run which was addressed to identify systematic reviews on MEDLINE, Emergency Care Research Institute, Cochrane Library, Centre for Reviews and Dissemination, International Network of Agencies for Health Technology Assessment (INAHTA) and National Guideline Clearinghouse. Afterwards, the definite search was conducted which was focused on finding original studies on MEDLINE and EMBASE. The main criteria used to select the papers have referred to patient population (adults with suspected pulmonary embolism), intervention (any tool which has been structured to estimate pre-test probability of pulmonary embolism), gold standard (usual and supplementary tests to diagnose embolism and/or 3 months clinical follow-up), results (diagnostic performance and/or clinical outcomes from applying the scores) and design (clinical trials and observational studies with or without control group). The critical assessment of the original studies was conducted with QUADAS tool. The data were summarised qualitatively.

Results:
The definite search resulted in 428 references. 390 documents remained after discarding 38 duplicates. After the first selection was completed, which had been based on reading title and summary, 315 papers were excluded, so 75 remained to be read on its whole. Of the latter, 68 papers were excluded following the inclusion and exclusión criteria so that 11 original studies were finally included in the review. All of them were observational studies without control group. Most of them assessed more than one score.
It has been studied the accuracy of the scores as opposed to empiricism in three, good quality works. The studies did not find any relevant difference in the diagnostic performances of these two options when estimating the pre-test probability of pulmonary embolism.
When accuracy of the scores was compared with each other, the results were much variable. 2 categories-Wells score has proved to be more specific than sensitive in two good quality studies; sensitivity varied in both of them from 60% to 62%. 3 categoriesWells score has been assessed in 9 studies. Two studies assessed it in groups of patients with low frequency of pulmonary embolism, providing different results on sensitivity and specificity (it was estimated 92% of sensitivity and moderate specificity in a study while another presented 54% of sensitivity), although both studies coincided in high negative predictive value of the score (over 96%). In patients with moderate and high frequency of pulmonary embolism, the studies matched in presenting the 3 categories-Wells score as more sensitive than specific: sensitivity was over 90% in patients with moderate frequency of embolism (two studies), and it varied between 66 and 91% (five studies) in patients with high frequency of embolism. The Geneva score, which was assessed in five studies, was characterised by being more sensitive than specific. Its results matched those of Wells scores favourably in the only one study that had applied the score prospectively. Both results achieved over 70% of sensitivity. The diagnostic performance of Wells algorithm, Charlotte rules and Rodger and Pisa models have been assessed each of them in one study, only. Of all them, just the Pisa model has proved, in a statistically significant way, a superior diagnostic performance than Wells and Geneva scores (94% of the area under the ROC curve for this model as opposed to 54% for the Geneva score and 75% for Wells score). Although it is a good quality study, problems related to external validity jeopardise its applicability. It has been reported no result on clinical effectiveness of the scores application in these studies.

Conclusions:
The diagnostic performance of the scores used to determine the pre-test probability in diagnosing pulmonary embolism does not present relevant differences with the diagnostic performance provided by the empirical assessment. On the basis of the evidence available, there cannot be established the superiority of the diagnostic performance of a specific score over the rest of them. 3 categories-Wells score and Geneva score have been studied the most. 3 categories-Wells score has proved high sensitivity (higher than 90%) in patients with moderate frequency of pulmonary embolism, but in patients with high frequency, sensitivity data did not match (between 66 and 91%). In good quality papers in which it has been assessed the accuracy of Geneva score in patients with high frequency of pulmonary embolism, sensitivity has proved to be high (over 86%). The studies on diagnostic performance found in this review have not assessed clinical effectiveness of the said scores in terms of health outcomes.
AETSA P 2008 3 Embolismo PulM (1.6 MiB, 1467 downloads)