Giannina Segnini
En el pasado, los periodistas de investigación dependíamos de rastrear fuentes documentales o testimoniales, o de las filtraciones de “gargantas profundas”, para reconstruir o comprobar hechos de interés público. Esas fuentes eran reducidas o de difícil acceso, pero además, solo podían o querían guiarnos hacia pequeños pedazos de la realidad, limitados a un determinado tiempo o espacio. Con astucia, intuición y mucha persistencia, podíamos conectar muchos de esos pedazos de realidad inconexos y descubrir una gran historia.
La observación aguda de síntomas claros de corrupción, como el enriquecimiento acelerado de funcionarios públicos, la aprobación expedita de leyes que favorecen a sectores específicos, o licitaciones públicas construidas a la medida para que sólo una empresa pueda ganarlas, eran y siguen siendo puntos de partida clásicos para iniciar una investigación periodística.
Después de 16 años de liderar la Unidad de Investigación de La Nación, en Costa Rica, entendí que esas fuentes tradicionales no eran suficientes y que investigar hechos, personas o empresas aislados tampoco lo era. Tras la caída de un político corrupto siempre habrá otro a la espera de su turno, así como una nueva empresa dispuesta a sobornarlos para lograr sus objetivos. Entendí que debía abordar problemas sistémicos, pero también que es falso aquel refrán que dice que “se debe ver el bosque y no los árboles”.
Si lograba consolidar un nuevo modelo de periodismo de datos para investigar, podría ver el bosque y los árboles al mismo tiempo y liberarnos de la dependencia de las filtraciones.
A inicios del 2010, propuse en el diario la creación de un equipo multidisciplinario que potenciaría la experiencia de los tres periodistas de investigación que integrábamos la unidad con la de dos ingenieros en computación. La idea era descabellada en todos sus extremos: juntar en un mismo cuarto a tres veteranos periodistas de investigación con dos jóvenes ingenieros que hablaban en un idioma “extraterrestre”, con el fin de consolidar y analizar océanos de bases de datos públicas para investigar.
Además del reto de poner a convivir dos especies tan diferentes, la propuesta presentaba un gran desafío metodológico: en vez de definir una hipótesis para confirmarla o descartarla, siguiendo paso a paso el método científico, experimentaríamos a la libre, entrevistando grandes volúmenes de datos. El nuevo método también rompía el orden normal en el proceso de obtención de datos: buscaríamos los datos primero y haríamos las preguntas después.
Desde finales de los años 90, yo había recurrido a la Corte varias veces para demandar acceso a bases de datos que me habían negado sobre pagos de subsidios públicos. Los magistrados fallaron todos los casos a mi favor, así que contábamos con jurisprudencia, y, en general, una normativa que amparaba el acceso a bases de datos públicas.
Hasta el día de hoy, la mayor parte de los datos los obtenemos mediante solicitudes formales a las instituciones públicas que las custodian y otra parte es extraída de forma automatizada mediante robots que visitan páginas abiertas en la web y capturan y almacenan la información. Todos los datos que extraemos usando iMacros, son de naturaleza pública y no forzamos la entrada a ningún sistema o base de datos protegido.
Nuestro modelo de “cero desperdicio de datos” (Zero-waste data journalism) considera cualquier bit de información como un nuevo insumo, aunque se trate de datos históricos, y busca reutilizar conjuntos de datos en diferentes historias periodísticas. En esencia, se trata de juntar simples bits o datos inconexos, consolidarlos para crear conocimiento y analizarlos para generar inteligencia.
Seis meses después de haber iniciado con el nuevo modelo, habíamos limpiado y consolidado más bases de datos públicas que el mismo Gobierno. Información de registro de personas, propiedades, bienes muebles, empresas, embarcaciones, aeronaves, así como contratos públicos, pagos de subsidios, infracciones de tránsito y procesos judiciales, por ejemplo, fueron parte del primer catálogo de datos que alimentó nuestros servidores.
El mayor reto vendría después, cuando los datos estaban limpios y consolidados y estábamos listos para empezar a entrevistarlos. Formular preguntas inteligentes, combinando de la forma más efectiva todas las variables disponibles, es la tarea más difícil cuando se investiga con datos.
Una de las primeras historias bajo el nuevo modelo la publicamos a finales del 2010, durante las elecciones regionales de alcaldes en Costa Rica. Construimos una base de datos con los nombres de todos los candidatos a alcalde de todos los partidos políticos y la cruzamos con las condenas por delitos criminales, los morosos con el Estado, los que tenían sanciones administrativas o que habían sido inhabilitados para ocupar cargos públicos.
El ejercicio reveló que más de cinco candidatos habían sido condenados por delitos como secuestro extorsivo, fraude, estafa y robo y otros 27 habían sido inhabilitados para ocupar cargos públicos porque cometieron alguna irregularidad en cargos anteriores como funcionarios públicos.
El reportaje se publicó una semana antes de las elecciones con un mapa interactivo en el que los ciudadanos podían encontrar los antecedentes de cada candidato, así como su versión sobre los hechos.
Ese mismo año, un nuevo Gobierno asumió labores con la promesa de reforzar uno de sus programas estrella: un subsidio llamado Avancemos que entrega una beca mensual a más de 167 mil estudiantes de secundaria en condiciones de pobreza con el propósito de que no abandonen sus estudios. Obtuvimos la base de datos de todos los jóvenes beneficiarios y la completamos con los nombres de sus padres y madres. A esos padres, a su vez, les buscamos ingresos y posesiones como propiedades, empresas y vehículos.
Nuestra búsqueda partía de la hipótesis de que muchos de los jóvenes beneficiados no eran realmente pobres y que el beneficio se había entregado irregularmente. El primer cruce reveló una lista de 75 estudiantes cuyos padres recibían salarios de entre $2.000 y $9.000 al mes. Una revisión más detallada de estos casos, en expedientes físicos, entrevistas telefónicas y visitas a sus casas, comprobó que no se trataba de errores en la asignación del beneficio, sino de jóvenes que vivían en hogares pobres a cargo de mujeres solas, en su mayoría desempleadas. Al otro lado de esta realidad, se halló que los padres de estos niños recibían salarios de hasta $9.000 mensuales pero mantenían un contacto mínimo o inexistente con sus hijos y ex compañeras, y les aportaban poco o ningún dinero al mes.
Tras complementar el análisis de datos con la verificación en terreno, encontramos a un ejército de jóvenes que había sido abandonado por sus padres y a un Estado que subsidiaba ese abandono. La publicación se acompañó con una aplicación interactiva, “Los rostros del desamparo”, que integró los casos estudiados y las historias contadas en videos y audios tanto de las madres de los jóvenes becados como el descargo de sus padres.
Por haber nacido en una Unidad de Investigación, buena parte de la agenda periodística del nuevo modelo tenía que ver con temas de transparencia y gasto público. Cuando en el país se debatía la aprobación de una nueva ley fiscal para crear o modificar impuestos, publicamos una historia basada en datos sobre cuánto pagaban de impuesto inmobiliario los ministros y diputados que promovían esa reforma, sus empresas y sus cónyuges.
La investigación descubrió que la mitad de los ministros del Gobierno no declaraban o pagaban impuestos inmobiliarios.
Uno de los casos más graves era el del entonces ministro de Hacienda y su esposa, la asesora de la Presidenta de la República, quienes no habían declarado el valor de sus propiedades durante 12 años y pagaban menos impuestos por sus casas. Información adicional comprobó que tampoco reportaban todos sus ingresos a la hora de tributar y ambos tuvieron que renunciar a sus cargos.
Aunque los temas de transparencia siguen ocupando un lugar importante en la agenda, conforme pasaron los meses empezamos a incursionar en reportajes sobre otros temas sociales de impacto nacional, como educación, salud y transporte público.
Para estudiar las disparidades en la educación secundaria, analizamos seis años de resultados de las pruebas de ingreso a la Universidad de Costa Rica (UCR), tanto de los estudiantes provenientes de colegios públicos como privados. El análisis reveló que los estudiantes que venían de colegios públicos tienen la mitad de probabilidades de ingresar a la universidad pública que aquellos provenientes de colegios privados.
Para el proyecto, utilizamos los datos para producir una diversidad de nuevos “productos” que complementaron los reportajes: un ranking con indicadores de calidad por colegio que permitía comparar los resultados de hasta siete centros educativos y compartirlos en redes sociales y una calculadora para que los estudiantes que estaban próximos a realizar la prueba ingresaran su carrera preferida y estimaran el resultado que debían obtener para ingresar, con base en un algoritmo que procesó los datos históricos.
Desde que iniciamos con el nuevo modelo de datos, buena parte de los esfuerzos han estado concentrados en automatizar la extracción, limpieza y normalización de los datos mediante el uso de software libre, como Open Refine y Talend Open Studio for Big Data, poderosa herramienta que permite integrar y organizar grandes volúmenes de datos en un ambiente gráfico, sin tener que escribir código.
Esas herramientas jugaron un papel fundamental cuando The International Consortium of Investigative Journalists (ICIJ) nos encomendó reconstruir más de 320 tablas y desarrollar una aplicación interactiva para el proyecto Offshore Leaks, una de las mayores investigaciones periodísticas transnacionales de la historia.
La investigación emprendida por el Consorcio reveló cómo prominentes políticos, aristócratas y banqueros de diversos países usaron paraísos fiscales para crear compañías o fideicomisos, y con ello ocultar sus bienes o capitales, y en muchos casos evitar el pago de impuestos y ocultar actos de corrupción.
La Unidad de Investigación de La Nación fue escogida por ICIJ para procesar dos grandes bases de datos, que medidas en gigabytes son 160 veces más grandes que la filtración de los documentos diplomáticos estadounidenses realizada por WikiLeaks en el 2010. Reconstruimos las conexiones de más de 105 mil compañías, fideicomisos y fondos secretos en paraísos fiscales, sus dueños y representantes y desarrollamos una aplicación interactiva que visualizó todas esas conexiones. Desde el lanzamiento de la aplicación en Junio del 2013, en Hamburgo, Alemania, la aplicación recibió más de dos millones de visitas en sólo dos días y hoy es utilizada por cientos de periodistas de investigación y otras organizaciones en el mundo para investigar paraísos fiscales.
El desarrollo de “Offshore Leaks”, es quizás el proyecto más ambicioso que hemos emprendido hasta ahora, por la complejidad y abundancia de los datos, la trascendencia y el secretismo de su contenido y el impacto y tráfico mundial que generó su publicación.
La experimentación con datos pronto nos llevó a entender que con sólo un conjunto de datos se pueden generar múltiples productos editoriales para diferentes tipos de audiencias. Nuestros proyectos más recientes contemplan la producción de al menos cuatro productos para diferentes niveles de lectura: los jóvenes o lectores esponja, que buscan la esencia de la historia en un video o animación de dos minutos; los lectores habituales, que leen la noticia impresa o en línea; los exploradores, que además de leer las notas interactúan con las aplicaciones interactivas y crean sus propias historias; y, finalmente, los topos meticulosos, que esperan la publicación completa de las bases de datos o documentos utilizados en el reportaje para generar sus propios cálculos o visualizaciones.
Una reciente investigación sobre el “Reciclaje en Costa Rica” demostró la efectividad de esos cuatro niveles y la utilidad del análisis de datos como brújula para dirigir el reporteo. Por primera vez en Costa Rica, el Censo Nacional preguntó a los ciudadanos si separaban su basura para reciclarla.
Comparamos todas las respuestas del Censo con una base de datos que construimos manualmente y que identificó a los gobiernos locales que reciclan y a los que no. El análisis general demostró que un 40% de los municipios desperdician el esfuerzo de sus habitantes al separar la basura. Simplemente recogen los desechos separados por más de 212 mil hogares y los vuelven a mezclar en sus camiones recolectores. Esos datos generales los publicamos en un video con animación que resumió los hallazgos en las publicaciones impresas y en línea y que luego se desglosan en una aplicación interactiva, en la que todos los ciudadanos podían consultar cuánto recicla su gobierno local.
Nunca antes habíamos visto tan de cerca el poder de los datos como brújula para el reporteo de calle como en este reportaje. Tras realizar el análisis, emergió en el primer lugar de la lista de las regiones que más reciclan un pueblo cafetalero llamado Dota, donde según los datos, 8 de cada 10 personas separan sus desechos. Cuando la periodista visitó el pueblo, se encontró con una legión de formadores que enseñan, casa por casa, las mejores prácticas para reciclar, ahora totalmente arraigadas en una población que, por sus prácticas verdes, recibió $10 más por cada uno de los 50 mil quintales de café que exportó en el 2012.
Todas las bases de datos generadas para la investigación estaban disponibles para ser bajadas desde el sitio especial y eso permitió alimentar una hackathon sobre medio ambiente en la que programadores ensayaron otras propuestas de visualización de los datos de reciclaje.
Cuando se habla de periodismo de datos muchos imaginan a un grupo de nerds con sus ojos pegados a una pantalla y que renunciaron al reporteo de calle. Casi cuatro años después de iniciado este experimento, nuestro modelo de trabajo en equipo, junto con programadores, geógrafos y diseñadores, ha permitido crear un puente entre lo mejor del periodismo de investigación y la adaptación de nuevas tecnologías, convirtiendo datos inconexos en inteligencia para entender mejor cómo funciona nuestra sociedad.
De cara al futuro, figuran aún muchos retos para adoptar mejores tecnologías, ya en uso por los científicos, que nos permitirán analizar grandes volúmenes de datos en tiempo real y hasta anticipar comportamientos o fenómenos. La experimentación permanente y el trabajo en equipo son la clave para impulsar ese avance.
Periodista. Durante más de 16 años lideró la Unidad de Investigaciones en La Nación de Costa Rica, formando un equipo reconocido internacionalmente por su aporte al periodismo de datos. Ha trabajado en instituciones internacionales, realizado asesorías a medios y entrenado a cientos de profesionales en periodismo de investigación y periodismo de base de datos en América Latina, EE.UU., Europa y Asia. Es parte del gran jurado de la primera edición del Global Award on Data Journalism (Global Editors Network/Google).