Según el diccionario de la Real Academia Española, el término “significativo” denota simplemente la presencia de algo “que tiene importancia por representar o significar algo”. Sin embargo, en estadística, la significancia representa un concepto distinto: es una afirmación específica respecto a qué tan probable es que algo se deba al azar[1],[2]. El confundir ambos conceptos es sencillo y frecuentemente visto en artículos de investigación biomédica[3]. En este artículo, expondremos brevemente las principales herramientas utilizadas para hacer inferencia estadística, las estimaciones de valores p (p-values) e intervalos de confianza.
Tradicionalmente los valores p (de probabilidad) han sido utilizados para evaluar si los resultados son explicables por el azar. Para realizar esta estimación, conceptualmente se realiza una prueba de hipótesis, en la que se decide aceptar una de dos hipótesis mutuamente excluyentes. Conocemos como hipótesis nula (H0) a aquella que representa lo tradicionalmente aceptado hasta el momento en que se realiza la prueba de hipótesis, habitualmente que no existe asociación entre las variables o que ésta es explicable por el azar. La hipótesis alterna (H1) en cambio, es aquella que plantea que ambas variables están asociadas.
La definición de valor p es la probabilidad de observar un estadístico tan extremo como el de la muestra, asumiendo que la hipótesis nula es cierta[4]. Es decir, coloquialmente, cuál es la probabilidad de observar lo que se dio en el estudio asumiendo que ambas variables no están asociadas. Por consenso, hemos fijado un valor umbral de probabilidad del 5% que es conocido como nivel de significación o α para decidir cuál hipótesis es la cierta. Si la probabilidad es baja (<5%) significaría que lo observado es muy infrecuente, por lo que se opta por rechazar la hipótesis nula y asumir que las variables están asociadas. Esto es lo que se conoce como algo estadísticamente significativo, que nada tiene que ver con que los hallazgos sean clínicamente relevantes.
Por ejemplo, si un ensayo detectara que un tratamiento disminuye la incidencia de una complicación en un 2% con un valor p de 0,01, quiere decir que, por azar, esta disminución en complicación ocurre en un 1% de los casos. Dado que es muy infrecuente, damos el cariz de significativo a lo evaluado y asumimos que la intervención estuvo asociada a la diferencia. No obstante, el que una reducción del 2% sea clínicamente relevante, dependerá, entre otras cosas, de lo que estemos midiendo. Reducir la mortalidad en 2% será probablemente interesante en cualquier escenario, pero una disminución en la incidencia una reacción adversa menor, como cefalea, puede no justificar grandes costos o reacciones adversas derivadas del nuevo tratamiento.
Otra consideración que debe tenerse con los valores p está en el método que se emplea para interpretarlos. El valor corte de 5% implica que en 5 de cada 100 casos se podría interpretar que hay asociación entre dos variables siendo que en realidad no existe tal fenómeno, puesto que sigue estando dentro de las posibilidades del azar. Como es casi imposible trabajar con una población completa, nunca se sabrá si la hipótesis nula es cierta con certeza absoluta. Por este motivo siempre es necesario cotejar los resultados encontrados con otras experiencias científicas para obtener una imagen global lo más fidedigna posible respecto a los efectos de una exposición (que bien puede ser una intervención) en un paciente.
Sin importar que tan bien diseñado esté un estudio, el hecho de realizar un muestreo hace susceptible al ensayo a ciertos grados de imprecisión y azara href="#" data-dropdown="drop1" class="drop-link">[1]. Lo que somos capaces de apreciar en una muestra o al comparar dos grupos puede no necesariamente representar al universo o población de donde la muestra proviene[5],[6].
Los intervalos de confianza ofrecen una manera de estimar, con alta probabilidad, un rango de valores en el que se encuentra el valor poblacional (o parámetro) de una determinada variable[7],[8]. Esta probabilidad ha sido fijada por consenso en un 95% en base a supuestos de normalidad, pero rangos entre el 90% y 99% son comúnmente utilizados en la literatura científica. En términos simples, un intervalo de confianza del 95% indica que el valor poblacional se encuentra en un determinado rango de valores con un 95% de certeza. Como regla general, mientras mayor es el tamaño de la muestra, menor es la variabilidad para hacer la estimación del intervalo, lo que lleva a estimadores más precisos[9]. Por el contrario, mientras más certeza se desee respecto a la extrapolación poblacional (por ejemplo, 99%), más amplio será el intervalo.
Estas herramientas también permiten hacer inferencia estadística al excluir un valor crítico que indique la falta de asociación del intervalo. Una interpretación coloquial de esto último es decir que los hallazgos son estadísticamente significativos porque el intervalo “no pasa por el 1”. Efectivamente, de tratarse de un indicador cuya fórmula es un cuociente, como el riesgo relativo (RR) o el Odds Ratio (OR), un valor 1 indica que la frecuencia de un determinado evento fue igualmente presentado tanto en el grupo expuesto como en el que no, por lo que sería el “valor crítico” que debe excluirse para denotar significancia estadística[9],[10],[11]. Cuando lo expresado es una resta en el riesgo entre dos grupos (como con la reducción del riesgo absoluto), un valor de 0 pasa a ser el límite para denotar hallazgos significativos, puesto que representaría el punto en que el evento es igualmente probable en ambos grupos.
Supongamos que existe un estudio que detectó que la fibrilación auricular en el postoperatorio se asociaba a mayor mortalidad entre pacientes operados con un RR de 3 (IC 95%: 2-4). Esto significa que en la muestra, la presencia de la arritmia triplicó la probabilidad de morir en relación a quienes no la tuvieron. Si bien no podemos trabajar con la población, la estimación del intervalo indica que podemos estar 95% seguros que el valor poblacional del riesgo relativo estará entre 2 y 4. Como el valor 1 está excluido del rango del intervalo, podemos decir que los hallazgos son estadísticamente significativos.
Hacer pruebas de hipótesis (valores p) o estimar (intervalos de confianza) son técnicas validadas que contribuyen a la precisión de los efectos clínicos de cualquier investigación original[12],[13]. Ambas están estrechamente relacionadas, siendo raro que un intervalo de confianza entregue un resultado significativo y un valor p no. No obstante, la información ofrecida por un intervalo de confianza es más detallada que la contenida en valores p, permitiendo al clínico además estimar si el rango de una diferencia entre tratamientos es lo suficientemente grande como para justificar su uso en una patología relevante[7],[12],[13].
Declaración de conflictos de intereses
Los autores han completado el formulario de declaración de conflictos de intereses del ICMJE traducido al castellano por Medwave, y declaran no haber recibido financiamiento para la realización del artículo; no tener relaciones financieras con organizaciones que podrían tener intereses en el artículo publicado, en los últimos tres años; y no tener otras relaciones o actividades que podrían influir sobre el artículo publicado. Los formularios pueden ser solicitados contactando a la autora responsable.
Citación: Madrid E, Martínez F. Statistics for the faint of heart - how to interpret confidence intervals and p values. Medwave 2014;14(1):5892 doi: 10.5867/medwave.2014.01.5892
Fecha de envío: 7/1/2014
Fecha de aceptación: 22/1/2014
Fecha de publicación: 28/1/2014
Origen: solicitado
Tipo de revisión: con revisión por cuatro pares revisores externos, a doble ciego
Citaciones asociadas
1. Editores. Masthead Jan/Feb;14(1). Medwave 2013;14(1):e5899. | Link |
Nos complace que usted tenga interés en comentar uno de nuestros artículos. Su comentario será publicado inmediatamente. No obstante, Medwave se reserva el derecho a eliminarlo posteriormente si la dirección editorial considera que su comentario es: ofensivo en algún sentido, irrelevante, trivial, contiene errores de lenguaje, contiene arengas políticas, obedece a fines comerciales, contiene datos de alguna persona en particular, o sugiere cambios en el manejo de pacientes que no hayan sido publicados previamente en alguna revista con revisión por pares.
Nombre/name: Antonieta Rojas de Arias
Fecha/date: 2014-02-22 15:19:21
Comentario/comment:
Excelente publicación muy clara y muy útil!! muchas gracias
Antonieta Rojas de Arias
Nombre/name: Raúl Verástegui
Fecha/date: 2014-03-06 10:48:34
Comentario/comment:
Gracias, es de mucha utilidad.
Para comentar debe iniciar sesión