Correlación, causalidad… y grafos: lo más fundamental (e ignorado) en estadística

Una deficiente comprensión de conceptos estadísticos y la enorme presión a que los investigadores de todas las áreas nos vemos sometidos para publicar podría ser la causa de que la mayoría de los estudios científicos de áreas médicas, biológicas y de ciencias sociales lleguen a conclusiones erróneas con tal de publicar.Hace ya ocho años que el profesor John Ioannidis publicó esta rotunda afirmación [1], para sorpresa de parte de la comunidad científica y alivio de otros que por fin veían señalado al elefante en la habitación. Pero los años pasan y es frustrante ver que seguimos igual, tanto por parte de algunos autores (como el criticado aquí) como por periodistas que se “tragan” acríticamente cualquier cosa que comience por el manido “un estudio científico demuestra que…“.

(Créditos: XKCD-es)

Por esto he decidido dedicar (otra) entrada a aclarar concepciones erróneas que pululan sobre la estadística, una de las herramientas más potentes que tenemos y sin embargo con peor fama entre el público general precisamente por su mal uso.

Sé que otros blogs ya han hablado del tema “causalidad vs. correlación”, así que le doy a dar un enfoque nuevo: explicar la verdadera relación que existe entre correlación, causalidad y grafos.

Chocolate y premios Nobel

“Los países con mayor consumo de chocolate tienen más premios Nobel, por lo que se recomienda su consumo para mejorar la inteligencia.”

¿Te parece absurdo? A mí mucho. Pues esta asociación se llegó a publicar en una revista científica [2] y generó una ristra de titulares en todo tipo de medios, p.ej. aquí, aquí o aquí.
Los autores del estudio hipotetizaban que el efecto de los flavonoides del cacao sobre las capacidades cognitivas era tan importante que permitía la aparición de más premios Nobel allí donde más se consume. Rápidamente aparecieron críticas en las revistas científicas [3], donde se señalaba (entre otros puntos débiles del estudio) que muchos otros índices aparte del chocolate tienen una alta correlación con el número de premiados así que… ¿cuál es realmente la causa última?

Por ejemplo, entre los índices que correlaban salió el número de tiendas de IKEA en cada país:


Dos variables se dice que están correladas cuando el aumento (o disminución) de una provoca un cambio claro en la otra, lo que se suele traducir en que los datos representados como gráfica “parecen caer” sobre una línea en lugar de ser una “nube amorfa”.

No creo que guardar los libros en armarios con nombres de pueblos noruegos te haga más listo. De hecho, puede que para llegar a ser un Nobel tenga más importancia el nivel socioeconómico de un país que la “inteligencia” de sus gentes.

Lo que se quería resaltar con esta anécdota de las tiendas IKEA es que, buscando, seguro se acabarán encontrando relaciones absurdas, así que sólo la correlación no justifica en absoluto la existencia de una relación de causa-efecto. De hecho, y aunque esto sea ya otro tema, la ausencia de correlación tampoco implica que no exista relación causa-efecto, ya que siempre quedará una probabilidad (pequeñísima) de haber obtenido una combinación de datos especialmente adversa.

Un error demasiado común

Antes de pasar a explicar el porqué aparecen estas correlaciones sin relación causal directa, quiero recopilar algunos “un estudio científico demuestra que…” para echar unas risas:

Lo del corazón partío les pasa factura a los solteros: “Los felizmente casados sobreviven más que los solteros tras un ‘by-pass’” (ElMundo)
Lo mejor para dormir tranquilo es no enterarse de las noticias: “La sobreinformación es la causante del «síndrome de fatiga informativa»” (ABC)
No es por no moverse del sofá, no, sino por mirar una pantalla: “Ver la televisión acorta la vida hasta en cinco años” (El Economista)
Y este estudio fue ya de traca: “El tamaño del pene está relacionado con el crecimiento del PIB: Un investigador de la Universidad de Helsinki (Finlandia) ha llegado a la conclusión en un reciente estudio que el tamaño promedio del pene en un país, tiene directa relación con el crecimiento del Producto Interno Bruto (PIB) de cada nación.” (Noticias Terra)

Eje vertical: PIB. Eje horizontal: tamaño medio del miembro masculino. No, no es coña: alguien quiso imaginarse una correlación en esta nube de puntos…o quiso hacerse famoso. (Fuente)

Grafos y causalidad

Vamos al meollo: ¿por qué aparece correlación entre variables? Hay varias posibilidades:

(1) Causalidad directa: Una variable realmente se encuentra entre las causantes de la otra.
(2) Causalidad indirecta: Existe un tercer hecho (o varios) que relaciona indirectamente los dos bajo estudio.
(3) Casualidad con los datos: Si se seleccionan muy mal los datos, con sesgo intencionado o simplemente muy pocas muestras, puede “parecer” que hay correlación simplemente por azar. A veces también ocurre que simplemente existe correlación sin relación causal remota; p.ej. el precio del tomate en Cuenca puede subir a la par que el número de cines abiertos en China.

Los casos (1) son los típicos explorados en Física, donde existen modelos bastante buenos de sistemas sencillos y cerrados donde se controlan todas las variables de los experimentos. Los casos (3) suelen ser fácilmente identificables con el sentido común, p.ej. el caso del PIB y el tamaño del pene que menciono arriba.

Los casos verdaderamente problemáticos son los segundos, los de causalidad indirecta. Y aquí vemos el papel que juegan los grafos.

Uno de los modelos gráficos más usados en estadística es el que representa las variables como nodos y las relaciones causales como arcos dirigidos (con “flechitas”). Este modelo se llama red Bayesiana y es un formalismo matemático extremadamente potente.Veamos un ejemplo clásico en este tema: las relaciones entre que haya llovido (LL), que la hierba esté húmeda (H) y que hayan funcionado los aspersores o rociadores para regar (R). Se tienen tres nodos y las relaciones son:

(Créditos)

Cada flecha A -> B indica que A influye (es una causa) de B. Leamos la información que codifican los arcos del ejemplo:

LL->R: Si llueve no se enciende el aspersor, ya que no hace falta.
R->H: Si se ha regado, la hierba estará mojada.
LL->H: Si llueve, la hierba estará mojada.

Aunque no vamos a entrar en estos detalles, las “flechitas” no son siempre deterministas sino que normalmente implican incertidumbre, p.ej. si llueve hay un 80% de probabilidad de que no se enciendan los aspersores. Esto no es ninguna limitación, al contrario: permiten trabajar con información del mundo real donde casi todos los modelos tienen componentes desconocidas.

Correlación y distribuciones marginales

Por fin llegamos al quid de la cuestión: ¿qué pasa cuando estudiamos la correlación entre variables de un grafo?

Esto es lo que normalmente se hace con los estudios médicos y de otro tipo: se escogen dos (o más) variables entre las que se hipotetiza una relación causal y se pone a prueba mediante técnicas estadísticas (e.g. test chi2, etc.). Ahora, si la realidad es que A implica B, el modelo real es:

y se debería encontrar correlación. Por tanto, la clave para poder asociar correlación con causalidad de manera rotunda es estar seguros de que la única causa posible de B es A… o que tiene más causas pero todas ellas son independientes de A. Algo bastante difícil de asegurar en cualquier modelo complejo como puede ser la salud de una persona donde intervienen tantos y tantos factores.

Veamos algo más interesante: qué ocurre cuando se ignoran hechos. Por ejemplo, imaginemos un evento C que es la causa de A y de B, como representa este grafo:

La distribución de probabilidad que modela perfectamente este sistema depende de tres variables, pero según la teoría de modelos gráficos podemos separarla (“factorizar” es el término matemático) en el producto de las funciones que modelan cada relación causal por separado:

P(a,b,c)=P(a|c)P(b|c)P(c)

¿Qué problema tiene esto? Pues que si estudiamos solamente A y B, olvidándonos de C, realmente se trabaja con la función:

P(a,b)

donde se dice que C ha sido “marginalizado“, y toda la información de sus arcos pasan a crear un nuevo “arco” entre A y B… ¡Aunque inicialmente no existía relación causal alguna entre ellas!
En resumen: si se estudian dos variables dejando fuera causas comunes, se detectará una correlación entre ellas aunque no exista relación causal directa alguna. Este es el mayor peligro en cualquier estudio científico.

Curiosamente este efecto depende del sentido de las flechas: si ahora estudiamos solamente las variables A y B dejando fuera una C que es efecto de ambas, no detectaremos correlación entre A y B. Si reflexionas un momento sobre qué significan las flechas entenderás por qué esto es así de manera intuitiva.

Una regla general para saber si el ignorar un nodo C introduce correlación entre A y B es esta: si los caminos desde A a B se encuentran en una configuración “flecha-flecha” (como en este último dibujo), no aparece correlación, y sí aparece en cualquier otro caso.

Un ejemplo práctico: delincuencia y boy scouts

Quería terminar con un ejemplo numérico para aclarar los conceptos a quien nunca antes de hoy hubiese oído hablar de probabilidades marginales y cia. Lo he sacado de este excelente curso de la PennState University (EEUU).

Tenemos los siguientes datos sobre 800 chicos a los que se clasifica por nivel socioeconómico (S), si son o no boy-scouts (B) y si tienen o no antecedentes delictivos (D):

¿Qué pasa si estudiamos la hipotética relación entre ser boy-scout y delinquir? Pues que tendríamos que “ignorar” (marginalizar) el nivel socioeconómico, sumando los datos sobre los distintos niveles (aquí un ejemplo del proceso) y llegando a:

Estos números, sometidos a tests estadístico gritan un: sí, existe correlación (negativa) entre ser boy-scout y delinquir. Luego: ¿los boy-scout son mejores personas? No tan rápido…

¿Y si el modelo subyacente a los datos fuese que el nivel socioeconómico fuese la causa de ambos, ser boy-scout y delinquir, sin que exista relación directa alguna entre estas últimas?


	Posible modelo causal alternativo: c: Nivel socioeconómico, a: ser boy-scout, b: delinquir.

Poner a prueba este modelo es sencillo: se puede determinar si existe relación causal directa entre “a” y “b” en el grafo del dibujo poniendo a prueba la correlación de la distribución condicional de éstas para cada valor dado de “c”:

P(a,b|c)

En la práctica esto se traduce en volver a la tabla original:

Y hacer tres pruebas de correlación entre ser boy-scout y delinquir para cada trozo de 2×2 de los datos, uno por cada nivel socioeconómico (low, medium, high).

Estas pruebas dan un resultado de correlación nula (la hipótesis nula arroja χ²=0.16), luego la apresurada hipótesis de que ser boy-scout te hace menos propenso a delinquir era errónea: el detonante real es el nivel socioeconómico, que a su vez condiciona que un chico se pueda permitir hacerse boy-scout o no.

Aunque el artículo me ha quedado “algo” denso y largo, ¡espero que lo hayas disfrutado! Puedes leer más en los enlaces que dejo abajo.
Referencias:

[1] Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8), e124. (Paper)
[2] Messerli, F. H. (2012). Chocolate consumption, cognitive function, and Nobel laureates. New England Journal of Medicine, 367(16), 1562-1564. (PDF)
[3] Maurage, P., Heeren, A., & Pesenti, M. (2013). Does Chocolate Consumption Really Boost Nobel AwardChances? The Peril of Over-Interpreting Correlations in Health Studies. The Journal of nutrition, 143(6), 931-933. (PDF)
[4] https://onlinecourses.science.psu.edu/stat504/node/112
[5] Un capítulo gratuito sobre graphical models: http://research.microsoft.com/en-us/um/people/cmbishop/prml/Bishop-PRML-sample.pdf

Conocer Ciencia

Latest Posts:

21 de abril de 2014