Los datos de uso de los artículos de la Wikipedia relacionados con la gripe coinciden con la evolución de enfermedad en EEUU. Estas predicciones se muestran más robustas que las que realiza Google y además se realizan con datos abiertos.
El uso de herramientas sociales —redes como Twitter o buscadores como Google— para predecir el comportamiento de las masas se está desarrollando cada vez más en nuestros días. Empezó siendo una serie de experimentos en el ámbito académico pero ya se está trabajando con ellas desde numerosas empresas y organismos para aprovechar toda la sabiduría del big data: millones de internautas haciendo lo mismo a la vez tiene que indicar algo. El problema es calibrar, ajustar lo que verdaderamente significa una avalancha de tuits o de búsquedas en un sentido, en un momento, en un lugar. La última herramienta en sumarse a la fiesta de los datos sociales ha sido la Wikipedia, después de que unos investigadores de la Escuela Médica de Harvard hayan determinado que su uso es capaz de predecir con precisión, en tiempo real, la llegada de los brotes de gripe en EEUU.
Dado que esta enciclopedia online está muy presente en nuestras vidas, parece lógico pensar que determinados picos o tendencias de uso pueden suponer que cuando el río suena, agua lleva. No en vano, la Wikipedia es ya la primera fuente de información médica entre los pacientes y los propios trabajadores sanitarios. Si en un determinado día se disparan significativamente las búsquedas sobre una dolencia contagiosa, esto debe suponer que hay una epidemia gestándose.
Los investigadores David McIver y John Brownstein se centraron en las visitas que recibieron 35 entradas de la Wikipedia en inglés relacionadas con la gripe: desde “resfriado común” hasta “fiebre” pasando por todas las variedades del virus conocidas (H1N1, H5N1, etc.) y remedios como el Tamiflu. Recogieron información de 294 semanas en las que, de media, se realizaban unas 30.000 consultas diarias, con picos de 334.000 visitas. Y cruzaron los datos con las estadísticas de los Centros para el Control y la Prevención de Enfermedades de EEUU (CDC): descubrieron que podían predecir con precisión el número de casos de gripe con una diferencia de apenas el 0,27% con respecto a los datos oficiales.
Y, lo más importante, podían ofrecer estos datos casi en tiempo real: dos semanas antes que las autoridades médicas, que tardan ese tiempo en elaborar sus predicciones a partir de sus sistemas propios de información. Todo gracias a que Wikipedia permite que se consulten las estadísticas de uso de cada entrada, y las actualiza a diario, lo que ofrece infinidad de datos a los investigadores que quieran usarlos.
“La principal ventaja de los datos de Wikipedia es que son completamente abiertos y para todos, por lo que cualquier persona puede crear sus propios modelos o mejorar el nuestro”, explica a Materia David McIver, en referencia a Google Flu Trends (GFT), la herramienta que desarrolló el buscador para predecir los brotes de gripe y que ha generado un intenso debate académico tras comenzar a fallar. Los datos que usa Google solo los conocen ellos y los de la Wikipedia son de libre acceso, lo que permite hacer ciencia con ellos: reutilizarlos cuantas veces sea necesario para replicar resultados o mejorar los de otros.
Wikipedia: más fiable que Google...
El artículo completo en:
Materia (España)