Conocer Ciencia

Mostrando las entradas con la etiqueta estadisticas. Mostrar todas las entradas

5 de noviembre de 2014

Perú: Áreas concesionadas a la industria minera están en las principales cuencas

CONFLICTOS. Existe una superposición de territorios, lo que ocasiona choques entre la población y las empresas, además de pérdidas millonarias e inseguridad alimentaria.

Javier Contreras

El Marañón, Mantaro, Apurímac, Camaná e Inambari son cinco de las cuencas hidrográficas más importantes del Perú por la cantidad de terrenos agrícolas que riegan con sus aguas. Y sus territorios han sido otorgados en concesión a empresas mineras.

Eso se debe a la poca planificación en el otorgamiento de las concesiones del Estado, afirmó el geógrafo Anthony Bebbington.

En la actualidad, el 70% del territorio nacional se encuentra concesionado, lo que ocasiona un serio problema de superposición de territorios.

"El sistema de planificación aún no anticipa las relaciones entre agricultores y mineros, entre el cambio climático y los recursos hídricos y el alto costo de los conflictos", declaró.

Competencia por agua

Lamentó que en los años futuros, los distintos usuarios de la tierra vayan a competir cada vez más por el acceso a los mismos recursos de tierra y agua.

José de Echave, investigador de la ONG CooperAcción, precisó que en 1993 existían 2 millones 300 mil hectáreas concesionadas y en la actualidad el número pasó a 24 millones, lo cual responde a una mayor demanda externa.

Consideró que se olvida de una realidad que nos toca tan directamente como lo es el cambio climático. "En el Perú tenemos siete de los nueve indicadores de vulnerabilidad al cambio climático, pero esto pasa inadvertido en las políticas públicas y sobre todo en el sistema de minería", afirmó.

Seguridad alimentaria

La ocupación de territorios agrícolas tiene impacto también en la seguridad alimentaria. Giovanna Vásquez, representante de OXFAM, señaló que la pequeña agricultura en el Perú no tiene la prioridad necesaria a pesar de que destinan el 76% de sus tierras a la producción de tubérculos y el 72% a hortalizas.

“En el país no ha habido una política agraria adecuadamente implementada para ese sector. El censo del 2012 nos habla de que hay 2.260 mil pequeños productores y el sector ha aumentado aproximadamente en 500 mil. Las regiones de mayor concentración de la pequeña agricultura son Cusco, Puno y Cajamarca, donde la industria extractiva tiene una presencia importante”, declaró.

El estudio dice que la agricultura continúa siendo el mayor empleador de la población rural en el Perú. "El 25% vive hoy en zonas rurales, de ese porcentaje el 25,2% es el sector agrícola que aporta a la PEA y aporta el 7,2% al Producto Bruto Interno (PBI) nacional. La pequeña agricultura es un sector en el que hay una gran cantidad de gente empleada", sostuvo Bebbington.

CLAVES

Desde el 2007 se ha dado un repunte en el otorgamiento de concesiones mineras en potenciales áreas agrícolas.

En regiones de la Costa y Sierra además de Madre de Dios se concentran las concesiones mineras, en tanto en la Selva y en Talara, Piura, están las concesiones de hidrocarburos.
Los costos para las corporaciones mineras por conflictividad social pueden llegar a los US$20 millones semanales.

Fuente:

La República

26 de octubre de 2014

Fans del reggaetón son menos inteligentes, según este estudio

Aquellos que oyen reggaetón o a Beyoncé serían menos listos que aquellos que escuchan a Radiohead,

El análisis fue hecho en base a la media de los alumnos en sus pruebas de ingreso y sus gustos musicales.

Algunos estudios científicos suelen arrojar resultados que pueden dejarte más que sorprendido. Como aquel del 2004 en el que se aseguraba que en los lugares donde más se escucha la música country, son los que más suicidios presentan.

Ahora un nuevo estudio, no tan radical y con una metodología muy discutible, ha desatado una nueva polémica entre los amantes de la música.

El trabajo fue realizado por un programador de aplicaciones denominado Virgil Griffith, el cual arrojó que aquellos que oyen música de Beyoncé o Jay Z tienen menos habilidades intelectuales que aquellos que oyen a Radiohead o a U2.

¿Cómo es esto posible?

Para obtener dicha conclusión, Griffith analizó los gustos musicales de los estudiantes de varias universidades de Estados Unidos.

Primero, ordenó las instituciones según la media de sus alumnos en la prueba SAT, el exámen de admisión que realizan todos los alumnos que deseen estudiar en un centro de estudios superior.
Luego, investigó en Facebook los gustos musicales de los que acuden a cada una de estas 1352 universidades y tras esto, creó esta tabla de resultados:

Como se observa, en la parte media figuran bandas como Rage Against the Machine, Tool, Outkast o Queen.

Mientras que aquellos que prefieren los sonidos latinos o son amantes del rap, aparecen en la zona de los "menos listos".

Fuente:

El Comercio

Bonus:

11 de octubre de 2014

Perú: 1 700 000 sufren depresión y no son atendidas

Se calcula que en el Perú un millón 700 mil personas anualmente tienen depresión y requieren de atención, manifestó Yuri Cutipe, director de Salud Mental del Ministerio de Salud. Preocupante, y con el avance las reformas neoliberales la depresión será la enfermedad número en el Perú, si es que ya no lo es. Sin empleos de calidad, con slarios míseros, sin sindicatos y con los derechos pisoteados, con jornadas laborales extralargas, sin poder planificar un futuro... ¿quién no se deprimiría?

Cutipe dijo que es cierto que la bonanza económica en el Perú, especialmente en Lima, ha tenido repercusiones en la disminución en la frecuencia en la población de determinadas enfermedades mentales, especialmente los trastornos de ansiedad.

Sin embargo, aun cuando la prevalencia ha disminuido, encontramos un enorme volumen de la población afectada por los problemas de salud mental.

Agregó que la depresión en el Perú afecta la productividad del país en la regularidad a la asistencia en los trabajos y en la regularidad de continuar su formación académica.

Cutipe confesó que en la época incaica, los antiguos curanderos peruanos no solo se fijaban en la fractura (de un cerebro) si no también como se sentía una persona.

Sin embargo, dijo que en el mundo occidental la ciencia ha hecho que se desligue lo mental de lo físico y lo relacional; como si fueran mundos aparte de una misma persona.

Reveló que el sistema de salud peruano tiene una capacidad muy pequeña de reacción ante las necesidades de recuperación de los enfermos mentales como también de los problemas de prevención.

"El Perú, como muchos países vecinos, tiene un sistema de salud mental centrado en el aspecto psiquiátrico o psicológico; sin una visión psicosocial de utilizar los recursos en el medio donde vive la persona. Siendo esto un ejemplo claro de caso de Trastorno de Déficit de Atención e Hiperactividad (TDAH) en los niños", puntualizó.

Fuente:

RPP

23 de septiembre de 2014

Para pedir un aumento o subir una foto al Facebook, espérate al miércoles

En palabras del psicólogo Guillermo Fouce, “el miércoles es la jornada de mayor rendimiento a nivel laboral, pues la capacidad mental y de esfuerzo y el ritmo de trabajo llegan a su máximo”.

También constituye el momento más oportuno para pedir un aumento de sueldo, según Office Angels, una empresa británica de reclutamiento de personal.

Para la consultora EdgeRank Checker, que asesora a las empresas para optimizar su presencia en las redes sociales, no hay mejor momento para subir comentarios o fotos a Facebook.

De hecho, el pico máximo de tráfico en esta red se registra el miércoles por la tarde, con lo que aumentan las opciones de ser más visto y leído. Una curiosidad: los miércoles, los niños tienen menos apetito y comen peor, afirma un estudio hecho en París por la Fundación Rothschild.

Fuente:

Muy Interesante

9 de agosto de 2014

Diagrama de Tallos y Hojas

El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).

Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos.
Ejemplos

Horarios de trenes

Basándome en un articulo de Juan C. Dürsteler en InfoVis.net, tomamos como ejemplo un horario de trenes confeccionado a partir de un díptico de la línea Castelldefels-Barcelona/Sants recogido en la estación de Renfe. Originalmente el horario ocupa una tabla de 10 filas y 9 columnas más una columna "viuda" con el tren de las 22:38. Un total de 91 campos con formato hh.mm cada uno, 455 caracteres.
Díptico original Trayecto Castelldefels -> Barcelona-Sants

     5.03  7.32   9.02  11.07  13.32  15.07  16.50  18.32  20.07  22.38
     6.02  7.37   9.07  11.32  13.37  15.20  17.02  18.37  20.20
     6.18  7.50   9.24  11.37  13.50  15.32  17.07  18.50  20.32
     6.37  8.02   9.32  12.02  14.02  15.37  17.20  19.02  20.37
     6.48  8.05   9.37  12.07  14.07  15.50  17.32  19.07  20.50
     6.55  8.20  10.02  12.32  14.20  16.02  17.37  19.20  21.02
     7.02  8.24  10.07  12.37  14.32  16.07  17.50  19.32  21.07
     7.07  8.32  10.32  13.02  14.37  16.20  18.02  19.37  21.20
     7.20  8.37  10.37  13.07  14.50  16.32  18.07  19.50  21.32
     7.25  8.51  11.02  13.20  15.02  16.37  18.20  20.02  21.37

En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separación | y los minutos de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce fácilmente de la longitud de las filas y es, además, muy fácil ver en que minutos de cada hora pasan típicamente los mismos.

Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf

05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37    
10 | 02 07 32 37     
11 | 02 07 32 37     
12 | 02 07 32 37     
13 | 02 07 20 32 37 50       
14 | 02 07 20 32 37 50    
15 | 02 07 20 32 37 50
16 | 02 07 20 32 37 50
17 | 02 07 20 32 37 50
18 | 02 07 20 32 37 50
19 | 02 07 20 32 37 50
20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38

Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se puede reducir aún más el tamaño del gráfico, sin perder información y ganando en claridad.

Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf reducido

                                   05 | 03
                                   06 | 02 18 37 48 55
                                   07 | 02 07 20 25 32 37 50
                                   08 | 02 05 20 24 32 37 51
                                   09 | 02 07 24 32 37
                             10 11 12 | 02 07 32 37
              13 14 15 16 17 18 19 20 | 02 07 20 32 37 50
                                   21 | 02 07 20 32 37
                                   22 | 38

Al final tenemos 59 campos de 2 dígitos, 118 caracteres más los separadores, es decir 4 veces menos dígitos que con el horario original, menos espacio y más claridad.

Esto nos da idea de que una disposición apropiada de los datos puede ser doblemente informativa y que la representación gráfica puede contribuir enormemente a la percepción de patrones y a la comprensión de la naturaleza de los fenómenos.

Edad de 20 personas

Supongamos la siguiente distribución de frecuencias

   36  25  37  24  39  20  36  45  31  31

   39  24  29  23  41  40  33  24  34  40

que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas.

Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4.

A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo

Por último reordenamos las hojas y hemos terminado el diagrama

Comparar dos distribuciones

Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución

   35  38  32  28  30  29  27  19  48  40

   39  24  24  34  26  41  29  48  28  22

De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.

Fuentes:

Estadística para todos

Universidad Nacional de Colombia

4 de julio de 2014

¿Por qué los huracanes con nombre de mujer matan más?

Un mujer cruzando una calle de Brooklyn, después del paso del huracán Irene.

Los huracanes con nombre de mujer matan más. La razón: la gente teme más a Víctor que a Victoria, y toma más medidas de precaución si el peligro es masculino. Y así, históricamente, los huracanes con nombres femeninos han matado a más gente, según un estudio que se acaba de publicar en Proceedings of the National Academy of Science.

Los investigadores, de la Universidad de Illinois, en Arizona, han analizado seis décadas de huracanes, y las muertes que han producido desde 1950 hasta 2012. De los 47 más letales, los que arrastraban un nombre femenino han producido 45 muertes, casi el doble que los que tienen nombre de varón, que han causado 23.

Las diferencias son aún mayores cuando se han comparado nombres masculinos contundentes, con los nombres más dulces de mujer. El estudio indica que cambiar el nombre de un huracán de Charley a Eloise puede incluso triplicar sus efectos letales.

Sharon Shavitt, una de las autoras del estudio, se mete en el ojo del huracán para buscar una razón. Según ella, este desbaratado fenómeno de la naturaleza trae consigo “sexismo implícito”, ya que se toman decisiones por razones de “género”, sin analizar el peligro real que conlleva.

Para hacer el estudio, los científicos han hecho seis tipos de pruebas. Este gráfico muestra una de ellas.

Los voluntarios calificaron en una escala de 1 al 11 el nombre del huracán (1 igual a muy masculino, 11 muy femenino). Y al buscar los efectos mortales de cada uno de ellos, pues dieron con que los que llevan nombres considerados más femeninos habían provocado más daños y muertes. (Excluyeron Katrina, porque se salía de todos los valores por su enorme efecto).

Y así, este curioso estudio destaca cómo los roles de género están aún implícitos incluso ante la llegada de un huracán. ¡Lo que nos queda!

Fuente:

Hominidas

23 de abril de 2014

PIAAC: El PISA de los adultos y sus resultadfdos en Europa (2014)

Se acaba de presentar el informe PIAAC (el “PISA de adultos”), que compara la capacidades matemáticas y de comprensión lectora de distintos países. Vimos titulares como “los funcionarios son los más competentes“, lo que efectivamente es cierto. Pero hay más titulares que seguro habrían sido menos “populares” como “en España los hombres entienden mejor lo que leen que las mujeres“, dato significativo estadísticamente. Por cierto, un dato colateral del estudio es que el número de empleados públicos en España es similar o inferior al resto de Europa.

Veamos un repaso de los resultados en base a gráficas, que valen más que mil palabras.

¿Que haya correlación entre variables significa que exista causalidad? Ya hablamos de esto…

En el estudio PIAAC participan 157.000 adultos de entre 16 y 65 años de 23 países y regiones. Del resto de países de la OCDE no habrá datos hasta la segunda fase del estudio, en 2016. En España participaron 6.055 adultos. Lo que muestro abajo son los resultados de la encuesta. Datos, no interpretaciones ni conclusiones. Que exista correlación entre la edad, sexo o nivel económico y la nota obtenida no quiere decir que esa variable sea necesariamente la explicación del mejor desempeño…

1. Comprensión lectora: general

Cada prueba (comprensión y matemáticas) se califica con una nota y, al igual que en el colegio se clasifica con suspensos, aprobados, notables y sobresalientes, en el informe PIAAC se clasifica en niveles del 0 al 5, siendo 5 la mejor nota posible. Pues bien, España es [corrección] sólo un punto por encima del último, Italia, [/corrección] el país qué más porcentaje de población tiene con nivel 1 o inferior en comprensión lectora:

Evidentemente se podría empezar diciendo que tenemos la nota media en lo más bajo de todo empatando con Italia, pero es importante ver la distribución de las notas, no sólo las medias. De hecho, nuestro país es un campeón en desigualdad, no sólo en lo económico, sino también en esta competencia, como revela nuestra posición en el siguiente gráfico en las antípodas de Japón:

Puntuación en comprensión lectora (eje X) vs. variabilidad (eje Y invertido).

2. Comprensión lectora: desagregados

Se pueden desglosar los datos por distintas variables, para intentar analizar si a todos se les da peor que al resto de países o si hay segmentos de la población que “bajan” la media especialmente. Empezando por la edad, parece que los ciudadanos de entre 55 y 65 años obtienen significativamente menos nota que sus contemporáneos del resto de países. De nuevo, España e Italia sobresalen al resto en este aspecto. Aunque hay que decir que la baja nota media NO es culpa de los mayores: nuestros jóvenes de entre 16 y 24 años comprenden textos peor que los abuelos Japoneses o Eslovacos. De hecho se puede ver en el siguiente gráfico que ni lo más alto de los resultados de nuestro país se acerca siquiera al nivel 3 de comprensión lectora:

En cuanto a las diferencias entre hombres y mujeres, me he encontrado una sorpresa: a pesar de mi prejuicio de que tenía que ser al contrario, los hombres obtienen en la mayoría de países una puntuación superior a las mujeres. Es justo decir que sólo en 7 países (entre ellos España) es esta diferencia estadísticamente significativa, mientras en uno (Polonia) ocurre justamente al contrario:

Quizás este dato esté relacionado con el ligero mayor hábito de lectura que tienen (o declaran tener) los hombres en comparación con las mujeres:

Hábitos de lectura (frecuencia de lectura: baja, media y alta) desglosada por sexo.

3. Matemáticas: global

En razonamiento lógico/matemático es donde encontramos las verdaderas brechas entre países: Japón lo peta, seguido por algunos países del norte de Europa. Alemania, Australia y Reino Unido muestran una mayor dispersión de resultados que el resto, lo que quiere decir que hay más variedad de resultados altos y bajos.
España e Italia, de nuevo, están en lo más bajo con diferencia. Por atrás incluso de EEUU…

Analizando el valor en absoluto, sin comparar con otros países, el resultado general es bastante malo. De los percentiles 5 al 95, sólo algunos países llegan al nivel 4 de capacidad matemática. En España la mediana llega a la mitad del nivel 2, mientras que más del 20% caen en el nivel 1 o inferior. No es un estadístico especialmente malo en comparación con la OCDE: lo que falta en España es mayor porcentaje de ciudadanos en la parte alta de la tabla que suban la media.

Esto se confirma con el siguiente gráfico que compara el porcentaje de personas en cada nivel: mientras que en Finlandia o Japón el 19-20% sacan un sobresaliente en matemáticas, en España e Italia nos quedamos en el 4%.

4. Matemáticas: desagregados

Lo de que “la ciencia es cosa de hombres” (por gusto, no creo que por capacidad) parece un tópico pero los datos lo respaldan de manera aplastante. De manera estadísticamente significativa, en todos los países salvo dos los hombres parecen tener una mucho mejor capacidad matemática que las mujeres:

El desglose por edad revela prácticamente lo mismo que en comprensión lectora: si bien nuestro segmento de los 55-65 años es el peor de toda la OCDE, no es que los jóvenes lo hagan mucho mejor… de hecho también son los peores, exceptuando EEUU:

5. Desglose por tipo de empleo

Y éste es el análisis que triunfó en las redes sociales hace unos días: los empleados públicos efectivamente ganan al resto tanto en comprensión lectora como en matemáticas. No sólo en España, sino en todos sitios.

Por cierto, en esta gráfica de arriba, podéis ver el porcentaje de empleados públicos vs. privados de cada país. No viene mal para derribar el mito tan extendido de que España tiene demasiados…

Curiosamente, ocurre lo mismo al comparar quienes tienen un empleo indefinido con los temporales:

Esos son los datos. Como siempre, acabo recomendando no establecer conclusiones apresuradas ni demagógicas, por aquello de correlación≠causalidad y los factores ocultos .. pero tampoco ignorar los hechos.

Fuente:

Ciencia Explicada

21 de abril de 2014

Correlación, causalidad… y grafos: lo más fundamental (e ignorado) en estadística

Una deficiente comprensión de conceptos estadísticos y la enorme presión a que los investigadores de todas las áreas nos vemos sometidos para publicar podría ser la causa de que la mayoría de los estudios científicos de áreas médicas, biológicas y de ciencias sociales lleguen a conclusiones erróneas con tal de publicar.Hace ya ocho años que el profesor John Ioannidis publicó esta rotunda afirmación [1], para sorpresa de parte de la comunidad científica y alivio de otros que por fin veían señalado al elefante en la habitación. Pero los años pasan y es frustrante ver que seguimos igual, tanto por parte de algunos autores (como el criticado aquí) como por periodistas que se “tragan” acríticamente cualquier cosa que comience por el manido “un estudio científico demuestra que…“.

(Créditos: XKCD-es)

Por esto he decidido dedicar (otra) entrada a aclarar concepciones erróneas que pululan sobre la estadística, una de las herramientas más potentes que tenemos y sin embargo con peor fama entre el público general precisamente por su mal uso.

Sé que otros blogs ya han hablado del tema “causalidad vs. correlación”, así que le doy a dar un enfoque nuevo: explicar la verdadera relación que existe entre correlación, causalidad y grafos.

Chocolate y premios Nobel

“Los países con mayor consumo de chocolate tienen más premios Nobel, por lo que se recomienda su consumo para mejorar la inteligencia.”

¿Te parece absurdo? A mí mucho. Pues esta asociación se llegó a publicar en una revista científica [2] y generó una ristra de titulares en todo tipo de medios, p.ej. aquí, aquí o aquí.
Los autores del estudio hipotetizaban que el efecto de los flavonoides del cacao sobre las capacidades cognitivas era tan importante que permitía la aparición de más premios Nobel allí donde más se consume. Rápidamente aparecieron críticas en las revistas científicas [3], donde se señalaba (entre otros puntos débiles del estudio) que muchos otros índices aparte del chocolate tienen una alta correlación con el número de premiados así que… ¿cuál es realmente la causa última?

Por ejemplo, entre los índices que correlaban salió el número de tiendas de IKEA en cada país:


Dos variables se dice que están correladas cuando el aumento (o disminución) de una provoca un cambio claro en la otra, lo que se suele traducir en que los datos representados como gráfica “parecen caer” sobre una línea en lugar de ser una “nube amorfa”.

No creo que guardar los libros en armarios con nombres de pueblos noruegos te haga más listo. De hecho, puede que para llegar a ser un Nobel tenga más importancia el nivel socioeconómico de un país que la “inteligencia” de sus gentes.

Lo que se quería resaltar con esta anécdota de las tiendas IKEA es que, buscando, seguro se acabarán encontrando relaciones absurdas, así que sólo la correlación no justifica en absoluto la existencia de una relación de causa-efecto. De hecho, y aunque esto sea ya otro tema, la ausencia de correlación tampoco implica que no exista relación causa-efecto, ya que siempre quedará una probabilidad (pequeñísima) de haber obtenido una combinación de datos especialmente adversa.

Un error demasiado común

Antes de pasar a explicar el porqué aparecen estas correlaciones sin relación causal directa, quiero recopilar algunos “un estudio científico demuestra que…” para echar unas risas:

Lo del corazón partío les pasa factura a los solteros: “Los felizmente casados sobreviven más que los solteros tras un ‘by-pass’” (ElMundo)
Lo mejor para dormir tranquilo es no enterarse de las noticias: “La sobreinformación es la causante del «síndrome de fatiga informativa»” (ABC)
No es por no moverse del sofá, no, sino por mirar una pantalla: “Ver la televisión acorta la vida hasta en cinco años” (El Economista)
Y este estudio fue ya de traca: “El tamaño del pene está relacionado con el crecimiento del PIB: Un investigador de la Universidad de Helsinki (Finlandia) ha llegado a la conclusión en un reciente estudio que el tamaño promedio del pene en un país, tiene directa relación con el crecimiento del Producto Interno Bruto (PIB) de cada nación.” (Noticias Terra)

Eje vertical: PIB. Eje horizontal: tamaño medio del miembro masculino. No, no es coña: alguien quiso imaginarse una correlación en esta nube de puntos…o quiso hacerse famoso. (Fuente)

Grafos y causalidad

Vamos al meollo: ¿por qué aparece correlación entre variables? Hay varias posibilidades:

(1) Causalidad directa: Una variable realmente se encuentra entre las causantes de la otra.
(2) Causalidad indirecta: Existe un tercer hecho (o varios) que relaciona indirectamente los dos bajo estudio.
(3) Casualidad con los datos: Si se seleccionan muy mal los datos, con sesgo intencionado o simplemente muy pocas muestras, puede “parecer” que hay correlación simplemente por azar. A veces también ocurre que simplemente existe correlación sin relación causal remota; p.ej. el precio del tomate en Cuenca puede subir a la par que el número de cines abiertos en China.

Los casos (1) son los típicos explorados en Física, donde existen modelos bastante buenos de sistemas sencillos y cerrados donde se controlan todas las variables de los experimentos. Los casos (3) suelen ser fácilmente identificables con el sentido común, p.ej. el caso del PIB y el tamaño del pene que menciono arriba.

Los casos verdaderamente problemáticos son los segundos, los de causalidad indirecta. Y aquí vemos el papel que juegan los grafos.

Uno de los modelos gráficos más usados en estadística es el que representa las variables como nodos y las relaciones causales como arcos dirigidos (con “flechitas”). Este modelo se llama red Bayesiana y es un formalismo matemático extremadamente potente.Veamos un ejemplo clásico en este tema: las relaciones entre que haya llovido (LL), que la hierba esté húmeda (H) y que hayan funcionado los aspersores o rociadores para regar (R). Se tienen tres nodos y las relaciones son:

(Créditos)

Cada flecha A -> B indica que A influye (es una causa) de B. Leamos la información que codifican los arcos del ejemplo:

LL->R: Si llueve no se enciende el aspersor, ya que no hace falta.
R->H: Si se ha regado, la hierba estará mojada.
LL->H: Si llueve, la hierba estará mojada.

Aunque no vamos a entrar en estos detalles, las “flechitas” no son siempre deterministas sino que normalmente implican incertidumbre, p.ej. si llueve hay un 80% de probabilidad de que no se enciendan los aspersores. Esto no es ninguna limitación, al contrario: permiten trabajar con información del mundo real donde casi todos los modelos tienen componentes desconocidas.

Correlación y distribuciones marginales

Por fin llegamos al quid de la cuestión: ¿qué pasa cuando estudiamos la correlación entre variables de un grafo?

Esto es lo que normalmente se hace con los estudios médicos y de otro tipo: se escogen dos (o más) variables entre las que se hipotetiza una relación causal y se pone a prueba mediante técnicas estadísticas (e.g. test chi2, etc.). Ahora, si la realidad es que A implica B, el modelo real es:

y se debería encontrar correlación. Por tanto, la clave para poder asociar correlación con causalidad de manera rotunda es estar seguros de que la única causa posible de B es A… o que tiene más causas pero todas ellas son independientes de A. Algo bastante difícil de asegurar en cualquier modelo complejo como puede ser la salud de una persona donde intervienen tantos y tantos factores.

Veamos algo más interesante: qué ocurre cuando se ignoran hechos. Por ejemplo, imaginemos un evento C que es la causa de A y de B, como representa este grafo:

La distribución de probabilidad que modela perfectamente este sistema depende de tres variables, pero según la teoría de modelos gráficos podemos separarla (“factorizar” es el término matemático) en el producto de las funciones que modelan cada relación causal por separado:

P(a,b,c)=P(a|c)P(b|c)P(c)

¿Qué problema tiene esto? Pues que si estudiamos solamente A y B, olvidándonos de C, realmente se trabaja con la función:

P(a,b)

donde se dice que C ha sido “marginalizado“, y toda la información de sus arcos pasan a crear un nuevo “arco” entre A y B… ¡Aunque inicialmente no existía relación causal alguna entre ellas!
En resumen: si se estudian dos variables dejando fuera causas comunes, se detectará una correlación entre ellas aunque no exista relación causal directa alguna. Este es el mayor peligro en cualquier estudio científico.

Curiosamente este efecto depende del sentido de las flechas: si ahora estudiamos solamente las variables A y B dejando fuera una C que es efecto de ambas, no detectaremos correlación entre A y B. Si reflexionas un momento sobre qué significan las flechas entenderás por qué esto es así de manera intuitiva.

Una regla general para saber si el ignorar un nodo C introduce correlación entre A y B es esta: si los caminos desde A a B se encuentran en una configuración “flecha-flecha” (como en este último dibujo), no aparece correlación, y sí aparece en cualquier otro caso.

Un ejemplo práctico: delincuencia y boy scouts

Quería terminar con un ejemplo numérico para aclarar los conceptos a quien nunca antes de hoy hubiese oído hablar de probabilidades marginales y cia. Lo he sacado de este excelente curso de la PennState University (EEUU).

Tenemos los siguientes datos sobre 800 chicos a los que se clasifica por nivel socioeconómico (S), si son o no boy-scouts (B) y si tienen o no antecedentes delictivos (D):

¿Qué pasa si estudiamos la hipotética relación entre ser boy-scout y delinquir? Pues que tendríamos que “ignorar” (marginalizar) el nivel socioeconómico, sumando los datos sobre los distintos niveles (aquí un ejemplo del proceso) y llegando a:

Estos números, sometidos a tests estadístico gritan un: sí, existe correlación (negativa) entre ser boy-scout y delinquir. Luego: ¿los boy-scout son mejores personas? No tan rápido…

¿Y si el modelo subyacente a los datos fuese que el nivel socioeconómico fuese la causa de ambos, ser boy-scout y delinquir, sin que exista relación directa alguna entre estas últimas?


	Posible modelo causal alternativo: c: Nivel socioeconómico, a: ser boy-scout, b: delinquir.

Poner a prueba este modelo es sencillo: se puede determinar si existe relación causal directa entre “a” y “b” en el grafo del dibujo poniendo a prueba la correlación de la distribución condicional de éstas para cada valor dado de “c”:

P(a,b|c)

En la práctica esto se traduce en volver a la tabla original:

Y hacer tres pruebas de correlación entre ser boy-scout y delinquir para cada trozo de 2×2 de los datos, uno por cada nivel socioeconómico (low, medium, high).

Estas pruebas dan un resultado de correlación nula (la hipótesis nula arroja χ²=0.16), luego la apresurada hipótesis de que ser boy-scout te hace menos propenso a delinquir era errónea: el detonante real es el nivel socioeconómico, que a su vez condiciona que un chico se pueda permitir hacerse boy-scout o no.

Aunque el artículo me ha quedado “algo” denso y largo, ¡espero que lo hayas disfrutado! Puedes leer más en los enlaces que dejo abajo.
Referencias:

[1] Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8), e124. (Paper)
[2] Messerli, F. H. (2012). Chocolate consumption, cognitive function, and Nobel laureates. New England Journal of Medicine, 367(16), 1562-1564. (PDF)
[3] Maurage, P., Heeren, A., & Pesenti, M. (2013). Does Chocolate Consumption Really Boost Nobel AwardChances? The Peril of Over-Interpreting Correlations in Health Studies. The Journal of nutrition, 143(6), 931-933. (PDF)
[4] https://onlinecourses.science.psu.edu/stat504/node/112
[5] Un capítulo gratuito sobre graphical models: http://research.microsoft.com/en-us/um/people/cmbishop/prml/Bishop-PRML-sample.pdf

21 de marzo de 2014

Cada día mueren 1.400 niños en el mundo por falta de agua

Unicef denuncia alarmantes cifras. Los fallecimientos son por enfermedades relacionadas con la falta del líquido elemento

A diario mueren 1.400 niños en el mundo por falta de agua — (Foto: Reuters)

Unos 1.400 niños menores de cinco años mueren en el mundo a diario víctimas de enfermedades diarreicas relacionadas con la falta de acceso a agua potable, saneamiento adecuado e higiene, según datos de Unicef.

Unas 768 millones de personas no tienen acceso al agua potable, indicó el Fondo de las Naciones Unidas para la Infancia (Unicef) con motivo del Día Mundial del Agua, que se celebra mañana sábado. En su mayoría, estas personas viven en la pobreza, en zonas rurales apartadas o en barrios urbanos marginales.

Unicef señaló que las mujeres y las niñas son las que más sufren las consecuencias de la falta de agua potable porque sobre ellas recae el 71 % de la carga que representa la recogida de agua para el consumo.

Según la agencia de la ONU, dos terceras partes de las millones de personas que no cuentan con fuentes de agua potable en el mundo se concentran en diez países:

Distribución de países que concentran a la mayor cantidad de personas sin acceso a agua potable | Create Infographics

Esta semana Unicef inauguró una campaña mundial en las redes sociales para conseguir llevar agua potable y saneamiento a todas las personas que todavía carecen de estos servicios de primera necesidad.

Para ello, la organización ha solicitado a sus seguidores en las redes de Facebook, Twitter e Instagram que comenten lo que el agua significa para ellos, lo ilustren con fotografías y usen el hashtag #ElAguaEs para crear conciencia sobre lo que implica no tener acceso al agua potable.

Fuente:

El Comercio (Perú)

12 de marzo de 2014

Dsarrollan un modelo matemático sobre los asesinatos en serie

He de reconocer que me gustan las series de televisión cuyo argumento gira en torno a investigaciones, por ejemplo Mentes Criminales (Criminal Minds), sin embargo, nunca me enganchó la serie Numb3rs porque no me convencía el argumento relativo a que los crímenes puedan resolverse aplicando modelos
matemáticos. En la Universidad de California - Los Ángeles, parece que han optado por abrir una línea de investigación que busca definir un modelo matemático que permita a los investigadores obtener un modelo del funcionamiento del cerebro de un asesino en serie.

¿Un modelo matemático que describa el funcionamiento del cerebro de un asesino en serie? ¿Es una investigación seria? La verdad es que me sorprendió muchísimo encontrarme con este trabajo pero es la base de una investigación científica bastante seria. Mikhail Simkin y Roychowdhury Vwani, los autores del trabajo, han realizado un análisis matemático del comportamiento de un asesino en serie que vivió en Rusia, Andrei Chikatilo (conocido como el carnicero de Rostov). Este asesino fue detenido en Rusia el 20 de noviembre de 1990 y, tras 9 días de detención, confesó haber asesinado a 36 niños, niñas y mujeres durante 12 años además de haber asesinado a otras 20 personas más, así que fue condenado a muerte tras probarse en un juicio el asesinato de 52 de las víctimas.

La investigación juega con los patrones de comportamiento de este psicópata e intentan asimilarlo con una ley de energía que sirva para modelar la activación neuronal del cerebro del sujeto. Esta teoría se basa en el comportamiento fundamental de las neuronas, es decir, una neurona no se vuelve a disparar hasta que haya recargado su energía. Gracias a este funcionamiento y que las neuronas están conectadas entre sí, cuando las condiciones son propicias (neuronas recargadas), se producen reacciones en cadena que se transmiten entre las distintas neuronas cargadas que están conectadas dentro de la misma cadena.

No podemos esperar que el asesino cometa un asesinato justo cuando la excitación neuronal alcanza cierto umbral. Necesita tiempo para planificar y preparar su crimen

Es decir, que según estos investigadores, un asesino en serie comete un asesinato cuando transcurre cierto tiempo desde que se haya superado el umbral de excitación neuronal y, si tenemos en cuenta que el asesinato tiene un efecto sedante para el asesino, la actividad neuronal volverá a caer por debajo del umbral.

Basándose en este comportamiento, los autores han confeccionado un modelo que simula el patrón de carga y descarga de las neuronas de un cerebro para ver con qué frecuencia se supera el valor umbral durante un tiempo suficiente como para que se incite a cometer un asesinato. Realizando una simulación que abarcó 12 años, los mismos que Chikatilo estuvo activo, con un salto de 2 milisegundos (el tiempo de disparo de una neurona normal), los investigadores encontraron una distribución muy similar a la de los asesinatos cometidos por este psicópata de origen ruso que han utilizado como terrorífico modelo con el que comparar los datos.

El modelo podría mejorarse si se introdujesen parámetros de corrección como una tasa de éxito del asesinato, es decir, una probabilidad que defina si el asesinato se cometió en el primer intento tal y como se había planeado

De hecho, según este modelo, la probabilidad de que se cometa un asesinato es mucho más alta justo después de haber cometido un asesinato (y más baja si transcurre mucho tiempo). Curiosamente, estos modelos matemáticos relacionados con las leyes de energía sirven también para explicar el funcionamiento del cerebro ante un ataque epiléptico o para estudiar las réplicas de un terremoto.

Tomado de:

ALT1040

Latest Posts:

5 de noviembre de 2014

26 de octubre de 2014

Aquellos que oyen reggaetón o a Beyoncé serían menos listos que aquellos que escuchan a Radiohead,

11 de octubre de 2014

23 de septiembre de 2014

9 de agosto de 2014

Horarios de trenes

Edad de 20 personas

Comparar dos distribuciones

4 de julio de 2014

23 de abril de 2014

1. Comprensión lectora: general

2. Comprensión lectora: desagregados

3. Matemáticas: global

4. Matemáticas: desagregados

5. Desglose por tipo de empleo

21 de abril de 2014

Chocolate y premios Nobel

Un error demasiado común

Grafos y causalidad

Correlación y distribuciones marginales

Un ejemplo práctico: delincuencia y boy scouts

Tomado de:

21 de marzo de 2014

Unicef denuncia alarmantes cifras. Los fallecimientos son por enfermedades relacionadas con la falta del líquido elemento

12 de marzo de 2014