Latest Posts:

16 de diciembre de 2013

Ojo: Correlación no implica causalidad

Correlación no implica causalidad, hay que decirlo más (si queréis, con la entonación que Ernesto Sevilla le daba a cierto insulto muy español en cierto vídeo que fue un fenómeno de internet hace un tiempo…). Y hay que decirlo más porque en general no llegamos a comprender qué significa esta frase. Bueno, o eso o que aun comprendiéndola intentamos confundir a quien no la entiende haciéndole creer que una cosa sí que implica a la otra.

Prácticamente a diario nos encontramos en (principalmente) medios de comunicación noticias cuyo titular tiene una estructura parecida a algunos de los siguientes:
Un estudio afirma que cuanto más A más B.
Un estudio afirma que quienes son A tienen menos B.
Un estudio afirma que dado que A es así entonces B es de esta otra forma.
En principio, todos esos titulares indican básicamente que lo que dice A es lo que provoca que ocurra B, o, lo que es lo mismo, que B es consecuencia de A. Normalmente, cuando uno se lee esas noticias, acaba dándose cuenta de que lo que hay es una correlación entre A y B (vamos, una relación entre esos dos sucesos), pero, en principio, sin ningún indicio de que sea uno de ellos, A en este caso, el que provoca el otro, B.

El estudio de la correlación entre dos variables es uno de los temas que se trata en Estadística. Resumiendo un poco, la cuestión sería algo como lo siguiente:
- A partir de ciertos datos obtenidos de cada una de esas variables uno estima si hay alguna relación entre ellas. La que se estudia con mayor frecuencia es la llamada regresión lineal (mediante la que buscamos si hay relación lineal hay entre las variables), pero hay muchos más tipos posibles: cuadrática, exponencial, logarítmica…
- Con esos datos se calcula una función (que, por ejemplo, en regresión lineal es una recta) que nos determina exactamente qué relación hay entre esas variables.
- Se estudia la correlación real entre ellas (es decir, cómo de fuerte es la relación que habíamos estimado a partir de los datos iniciales) mediante un coeficiente de correlación.
Este coeficiente suele tomar valores entre -1 y 1, y se interpreta de la siguiente forma:
  • Cuanto más cerca de 1 esté, mayor correlación positiva (es decir, que cuando aumenta una también lo hace la otra) hay entre las variables.

  • Cuanto más cerca de -1 esté, mayor correlación negativa (es decir, que cuando aumenta una disminuye la otra) hay entre las variables.

  • Cuanto más cerca de 0 esté, menor correlación hay entre las variables.
Ahora, que la relación entre las variables sea muy fuerte (esto es, que sea casi 1 o casi -1) no significa que una de ellas sea la causa de la otra. En ningún sitio esta teoría nos deja asegurar con tanta ligereza que el hecho de que haya una correlación muy fuerte entre A y B significa que la variable A es la que está provocado que se presente la variable B. La teoría habla de relación entre las variables, no de que una sea la causa de la otra. Por cierto, buenísima esta tira de XKCD sobre el tema:


Hasta aquí bien, ¿no? Vale, sigamos.

Todo esto de la mala interpretación de la correlación también se encuentra, y en demasiadas ocasiones, en estudios científicos supuestamente serios. No son pocos los estudios que al encontrar una cierta relación entre dos variables presentes en los sujetos estudiados se tiran a la piscina afirmando que por tanto una de ellas es la causa de la otra, cuando en realidad en dichos estudios no hay ninguna evidencia de que esto sea verdad (simplemente hay correlación).

Supongo que más de uno se estará preguntando lo siguiente: ¿entonces es mentira que correlación implique causalidad? Pues no, no es mentira, y verdad tampoco. Me explico:
Cuando se dice que la frase correlación no implica causalidad (en latín, Cum hoc ergo procter hoc) es cierta lo que se quiere decir es que el hecho de que haya correlación entre dos variables no significa que una provoque a la otra, pero eso no significa que si encontramos correlación entre dos variables automáticamente podamos descartar que una sea causa de la otra. Hay casos en los que A es la causa de que ocurra B, en otros es al revés, en otros hay alguna variable adicional la que hace que se produzca esa correlación…y a veces todo es fruto de la casualidad (sí, casualidad, no “causalidad”).
El problema de creerse que una fuerte correlación implica una cierta relación causal entre las variables es que esa creencia se puede usar (malintencionadamente o no) para engañarnos, ya que no es demasiado difícil encontrar correlación entre dos variables que en principio ni están relacionadas a poco que queramos “forzarla”.

Por ejemplo, si os digo que el descenso de piratas en el mundo está provocando una subida de la temperatura media global de nuestro planeta, ¿qué pensaríais? Posiblemente que estoy muy mal de la cabeza, ¿no? Bien, echadle un ojo a esta gráfica:

 
Fuente: Wikimedia Commons.

En ella se ve claramente que desde 1860 se ha producido un descenso del número de piratas y a la vez un aumento de la temperatura media de la Tierra, y que hay correlación lineal (la gráfica se acerca bastante a una recta) entre las dos variables. ¿Es el descenso de piratas la causa de la subida de temperatura? Pues no parece que sea así. ¿Y al revés? ¿Es la subida de la temperatura media global la causa del descenso de piratas? Pues tampoco parece que sea así. Es muy posible que esta relación sea pura casualidad.

En la siguiente imagen (que vi en este post del blog de Francis) podéis ver algunos otros ejemplos como el anterior:


Tremendo que la mayor actividad en Facebook sea la causa de la crisis de deuda griega, ¿verdad?

Y para terminar os recomiendo ver esta charla de Tim Minchin (comediante, actor y músico australiano), que me pasó @antlarr en este tuit (después de subtitular él mismo el vídeo), que trata sobre el tema. Muy graciosa a la vez que reveladora para quienes todavía no están convencidos:



Fuente:

Gaussianos

No hay comentarios.:

Publicar un comentario