¿Por qué Google predecía la gripe y ahora no puede con el coronavirus?
Las epidemias son, como todo, hijas de su tiempo. La del coronavirus llega en tiempos del Big Data. La Humanidad lleva acumulando datos y datos sobre sí misma desde siempre, pero con la última revolución tecnológica los datos se han convertido en uno de los grandes pilares de la economía. Los datos son un gran negocio. Y el capitalismo despertó a esta verdad, en buena medida, gracias a otra epidemia mucho más leve que la que sacude el mundo ahora, la de la gripe común.
Toca retroceder poco más de diez años. En el año 2008, Google creó una herramienta que era capaz de predecir en tiempo real la evolución de la epidemia de gripe. El motor de búsqueda era capaz de saber por dónde se expandía el virus en EEUU con entre una semana y quince días de antelación con respecto al Centro para el Control y la Prevención de Enfermedades de ese país (CDC). El logro era de tal calibre que prácticamente se dio por creada una rama nueva de la epidemiología, que se bautizó como infodemiología y que, formalmente, es la «ciencia que evalúa la distribución y los factores determinantes de la información por internet o en una población, con el fin de recolectar información que permita evaluar la salud pública y las políticas estatales en el área».
¿Cómo hizo el buscador para adelantarse dos semanas al CDC hasta aportar datos casi a tiempo real? Pues, aparentemente, de una forma muy sencilla, aunque luego se verá que no tanto. Google miró hacia atrás en sus bases de datos, hasta cuadrar los mapas de epidemias de años anteriores con determinadas búsquedas que hacían los usuarios en internet por zonas. Así, encontró un patrón común que se repetía y, cuando en cierto lugar un número considerable de gente empezaba a teclear las búsquedas clave, saltaba la alerta. Ahí estaba actuando la gripe. La complicación de este hazaña viene de que lo hizo con un algoritmo inteligente. Esto es, los programadores no buscaron de forma preconcebida palabras como «gripe» (flu, en inglés) o fiebre. Estas surgieron de forma «inteligente» a partir del algoritmo matemático.
Así era la pantalla de Google Flu Trends.
Google desarrolló entonces la herramienta Google Flu Trends. Y el buscador se convirtió en una herramienta más en la lucha contra la enfermedad y una herramienta, además, bastante potente. Este logro lo monetarizó en buena medida. Los inversores tenían aún en la retina el caos generado por la gripe aviar y se dieron cuenta del valor que tendría, a futuro, la inmensa base de datos que iba generando el buscador. Aunque fueran datos que, en un primer momento, parecieran inútiles.
Las búsquedas, demasiado volátiles
Sin embargo, a día de hoy, todo esto parece haber quedado atrás. En esta pandemia por coronavirus, nadie se acuerda de Google Flu Trends. Yamir Moreno –director del Instituto de Biocomputación y Física de la Universidad de Zaragoza y uno de los matemáticos que trata hoy de predecir el comportamiento de la actual epidemia– explica que Google Flu Trends, pese a tener un arranque prometedor, dejó de funcionar.
A fin de cuentas, tratar de predecir la evolución de una enfermedad solo con búsquedas de internet tiene sus debilidades, pues los miedos de las personas son volubles. La gente, de repente, dejó de buscar las mismas cosas cuando tenía la gripe o buscaba por otros canales. En la pandemia actual, con el bombardeo informativo, las búsquedas de internet no parecen aprovechables. Finalmente, el algoritmo de Flu Trends resultó tan complicado de corregir que la multinacional lo acabó desechando.
La muerte de Flu Trends, sin embargo, no supuso la defunción de la infodemiología. El modelo matemático que desarrolló Moreno contra el coronavirus trabaja con los datos de movilidad del Instituto Nacional de Estadística (INE) y los va cruzando con los que van aportan las CCAA de positivos confirmados. «El modelo predictivo que hemos desarrollado parte con datos a nivel de comunidad autónoma. Si tuviéramos los datos ciudad por ciudad no costaría trasladarlo a ese nivel o al de Código Postal». Y Google parece tenerlos.
Katy Vargas, del equipo de comunicación de Google en el Estado español, explica que los datos que almacena la empresa de sus usuarios no pueden entregarse a ningún Estado. Google controla los movimientos de los usuarios de sus servicios móviles y, en particular, con el navegador gratuito que incluye en la mayoría de ellos bajo la denominación Google Maps. Se trata de datos muchos más precisas que los que maneja el INE.
Alex Arenas, físico de la Universidad Rodrigo i Virgili de Tarragona, es el autor del mapa de propagación del coronavirus que mide la probabilidad de contagio localidad por localidad. Es el mismo mapa que Gaindegia tomó como referencia para Euskal Herria. Arenas fue una de las primeras voces autorizadas que apuntaba claramente al colapso y llegó a emitir informes confidenciales para la Generalitat en los que le urgía a que se adelantara al Estado español, pues la reacción era muy tarde. El mapa de Rovira predice el número de infectados con cuatro días de antelación.
Mapa del equipo de Alex Rovira a 19 de marzo.
El físico resta valor a los datos tan completos sobre movilidad que almacena Google de los viajes de los usuarios de Maps. «Los datos que proporciona el INE son buenos y válidos porque son estables. Se trata de encuestas que se realizan periódicamente y que han demostrado que se mueven muy poco. Los datos que pueda tener Google almacenados son complicados de manejar porque hay que agregarlos», comenta Rovira. Según el experto, quienes mejores datos tienen de la movilidad de personas son en realidad la compañías telefónicas y él ha manejado algún archivo de este tipo, pero los resultados no han sido esperanzadores. Cantidad, a veces, no es sinónimo de calidad, según explica.
La urgencia sanitaria mundial ha dado noticias que son alarmantes desde el punto de vista de la intimidad y la protección de datos. A fin de cuentas, renunciar a un arma así no es sencillo cuando se está contra las cuerdas. En Austria, la compañía telefónica A1 ha facilitado al Gobierno datos de la movilidad de los usuarios de teléfonos móviles para verificar el cumplimiento colectivo de las órdenes de confinamiento. Lo cual, como es lógico, ha despertado polémica.
Big Data sanitario
Por otro lado, no solo el procesamiento de Big Data se emplea contra el virus desde su vertiente de control y monitorización de la población. También la medicina se sirve de ello. En Nafarroa, por ejemplo, existe un superordenador donde el Gobierno guarda los datos que tiene de sus ciudadanos, también los datos médicos. Se le conoce como CPD y GARA lo visitó en 2018.
La exconsejera Beaumont, en el pasillo del CPD. (I. URIZ/FOKU)
Son, de hecho, los datos médicos los que más espacio ocupan dentro de ese pasillo cerrado del CPD. Esto es así, en buena medida, por el programa Navarra Biomed que –muy resumidamente– consiste en almacenar genomas completos de un millar de individuos en busca de encontrar un patrón entre los historiales médicos y los genes almacenados. Algo así como lo que hizo Google con las búsquedas de internet y los mapas de epidemias de gripe. Hay que tener en cuenta que el genoma de una única persona ocupa 350 gigas de datos, lo cual quiere decir que probablemente rebase la capacidad de almacenamiento del dispositivo desde el que estás leyendo este artículo.
También el Big Data se puede emplear directamente contra el propio virus. Aquí, de nuevo, el pionero es Google, aunque el algoritmo no es suyo, sino de una compañía británica que compró en el año 2014. DeepMind es una empresa londinense destinada a la creación de inteligencia artificial y que ya había sacado adelante importantes investigaciones de carácter saniario, como predecir la aparición de insuficiencia renal aguda. Ahora lo ha vuelto a hacer.
El pasado 6 de marzo, DeepMind anunció que había conseguido destripar por completo la estructura de las proteínas que forman el coronavirus y esta información puede ser capital para su derrota definitiva. Ahora solo falta comprobarlo experimentalmente.
El CEO de Google, Sundar Pichal, ha avanzado a su vez en su blog que Verily, otra de sus compañías, que está trabajando en «un pequeño parche de temperatura en el cuerpo que transmite datos a una aplicación de teléfono para proporcionar una notificación oportuna de fiebre y respaldar el diagnóstico y el tratamiento tempranos de una infección viral como la gripe o el coronavirus».
En cualquier caso, bases de datos de todo el mundo están recogiendo información relativa al coronavirus. También al confinamiento y el comportamiento social que se desarrolla en este encierro en el hogar. Los vídeos, las fotos, las bromas… Todo se guarda en superordenadores a la espera de que un algoritmo les busque una forma de aprovechamiento.
Volviendo al inicio, las epidemias no las marcan únicamente las características de la enfermedad, sino también las circunstancias y el desarrollo sanitario y tecnológico en general. En esta ocasión, sería impensable que sonara el timbre y, al abrir, entraran en tropel en la vivienda enfermeros envueltos en trajes protectores para confinar a alguien por coronavirus en función de las búsquedas en internet, por un parche de los que habla Pichal o de que en la última foto tomada con el móvil se apreciaba cierta palidez o aspecto febril. El día de mañana, ¿quién sabe?