La Nación: Gastos en el Senado en la Argentina 2004-2014

Un proyecto de periodismo de datos, colaboración y apertura

Angélica Peralta Ramos

A fines de 2010, en la Argentina aún no existían portales de datos abiertos ni Ley de Acceso a la Información Pública y los casos de corrupción vinculados a la administración pública eran un problema creciente. Sin embargo, LA NACION decidió comenzar un proyecto propio de “periodismo con bases de datos”. Para lograr este objetivo, fue necesario comenzar desde cero a construir las bases para luego abrirlas en la publicación de sus artículos periodísticos.

La investigación sobre los “Gastos en el Senado” comenzó en 2012 y tuvo su origen en un informante anónimo que hizo llegar a nuestra redacción, vía correo electrónico, una fotografía del despacho de Amado Boudou en la que se veía una mesa importada de Italia. Luego se detectaron en el sitio oficial del Senado tres datasets con archivos en formato .pdf de contrataciones desde 2004, que descargó el equipo de LA NACION Data. Como estos documentos eran imágenes escaneadas en .pdf, se transformaron a texto aplicando distintas técnicas de reconocimiento de caracteres (OCR) y luego fueron llevados a formato .xls (Excel), estructurando los registros mediante la extracción de entidades y fechas, y utilizando expresiones regulares (Regex).

Durante 2012 y 2013, gracias a este dataset y a numerosas investigaciones periodísticas, se publicaron artículos en la tapa de LA NACION, respuestas por parte del vicepresidente en ejercicio Amado Boudou y de quien anteriormente ocupara su cargo (a su vez presidentes del Senado) y una investigación judicial con relación a esos gastos que involucraba al mismo Boudou. Además, el trabajo del equipo permitió descubrir que algunos de los gastos correspondientes a viajes oficiales fueron presentados con fechas que se superponían entre sí o, incluso, que algunos de esos viajes directamente no se habían realizado.

El tema tuvo una amplia repercusión en diferentes programas de televisión y radio, y también en otros periódicos competidores de LA NACION. Y en 2013, la investigación fue premiada con el Data Journalism Awards en la categoría Best Data Driven Investigation.

En qué consistió la investigación

El Proceso

El trabajo estuvo dividido en varias fases, cada una con requerimientos diferentes en cuanto a la utilización de distintas herramientas:

Primera fase. Descarga de los archivos .pdf, que no eran otra cosa que imágenes escaneadas de los documentos en papel. Desarrollamos una aplicación, que se conectaba con el sitio del Senado y buscaba en secciones diferentes los .pdf (Decretos del Senado, Departamento Administrativo del Senado y Departamento Contable del Senado).

Segunda fase. Remoción de la protección de los .pdf contra copia e impresión.

Tercera fase. Conversión de los .pdf a archivos rastreables con Omnipage 18 (Batch Processing).

Cuarta fase. Análisis de los datos. La misma aplicación mencionada en la primera fase abre los archivos .txt, realiza búsquedas de nombres de senadores, compañías, los montos de los gastos (en pesos, dólares, euros y libras esterlinas), fechas, palabras claves (como “compra”, “compra directa”, “agentes de seguridad”, “viajes”, “muebles”, “transporte aéreo o terrestre”, etc.) y además permite insertar los textos completos y cada una de estas entidades en diferentes filas, asignando una fila a cada uno de los 33 mil archivos .txt.

Quinta fase. Las 33 mil filas obtenidas en una hoja de cálculo pudieron ser utilizadas para hacer investigaciones, simplemente con la aplicación de un filtro de Excel.

Sexta fase. La base de datos mencionada en la quinta fase fue importada desde un software de administración de proyectos para generar un gráfico de Gantt que mostraba, en una línea de tiempo, la distribución de los viajes y las superposiciones existentes.

Las Historias

Surgieron numerosas historias de la misma base de datos. A continuación, algunas de ellas:

Millones gastados en viajes

Laura Serra, periodista de la sección Política, escribió el primero de una serie de artículos que provocaron muchísima repercusión en la opinión pública. Por ejemplo, para una conferencia de un día en Suiza el vicepresidente viajó por 6 días con 4 custodios y 7 asistentes, a un costo de US$ 100 mil. Asimismo, los custodios solicitaron US$ 10 mil adicionales “para imprevistos” y gastaron US$ 10.820.

Para esta misma historia, publicada el 10 de febrero de 2013, se ordenaron las cifras en un gráfico interactivo desarrollado con la plataforma Tableau, presentadas según la cantidad de dinero gastada -y no por fechas-, análisis que se dejaría para un trabajo posterior.

¿Cuál fue el impacto de la publicación? Esa misma noche, el vicepresidente Amado Boudou apareció en un programa de la TV Pública (ver video) para responder a la publicación, y se excusó mostrando en cámara pilas de papeles (sin enfocar detalles) e indicando que en las mismas se encontraban los decretos a los que LA NACION no podía acceder en la web.

Al día siguiente, Laura Serra, fue invitada al programa del periodista Ernesto Tenembaum para explicar en persona el detalle de su documentada investigación. Esta historia fue dividida en artículos diferentes.

“Boudou gasta fondos de emergencia para comprar muebles de lujo” y “El vicepresidente Boudou omite informar al juez Oyarbide sobre la compra de estos muebles”

En la misma semana, el 15 de febrero de 2013, otra periodista de la sección Política de lanacion.com, Maia Jastreblansky, encontró en la misma base los datos de la compra en forma directa de los muebles de lujo por el doble del monto permitido, sin licitación previa. La adquisición fue realizada por un procedimiento que se reserva a situaciones de emergencia. También se descubrió que estos gastos no fueron expuestos al juez que investigaba el caso.

Otra vez, el vicepresidente alegó que había recibido la oficina en mal estado, dichos que luego fueron desmentidos en forma pública por su antecesor en el cargo, Julio Cobos.

¿Cuál fue el impacto de la publicación? Luego de publicada, un juez anunció la reapertura de la causa por los gastos excesivos del vicepresidente.

“Los viajes sospechosos de Boudou”, y además, “El Senado pagó viáticos por viajes no realizados”.

El 3 de abril de 2013, LA NACION reveló viáticos pagados para fechas que se superponían mediante un gráfico Gantt volcado en una visualización interactiva. Esta pieza también muestra la rendición de gastos por viajes que finalmente fueron cancelados. Los gastos fueron extraídos de los mismos .pdf e incluidos como documentos originales para documentar y darle sustento al artículo.

Los viajes de Boudou en 2013: ya realizó el doble de misiones al exterior

El vicepresidente lleva 14 salidas internacionales, muchas veces en representación de Cristina Kirchner. Los ampulosos viáticos de su comitiva con la caja del Senado.

Boudou lideró la lista de viajeros y se destacó por su amplia comitiva

Fue acompañado por asesores y custodios que podían realizar gastos extras en dólares o euros.

El Senado de Amado Boudou: su gestión sumó 2000 empleados más

La planta creció un 55% desde su llegada; este año se incorporaron, en promedio, más de dos personas por día.

Bajando mes a mes los listados de empleados del Senado, ubicados en páginas que de otra manera se pierden porque se pisan en el mismo URL, el equipo pudo analizar la evolución de los mismos, y los periodistas Iván Ruiz y Maia Jastreblansky fundamentaron con datos los rumores de crecimiento en la cantidad de empleados y contratados en este organismo.

VozData y las Maratones Cívicas

Si bien el trabajo de conversión de los OCR sirvió para detectar las primeras historias, incluso las que generaron mayor impacto, era evidente que esos datasets estaban perdiendo información ya que muchos archivos .pdf estaban mal escaneados, desalineados o grisados. Fue necesario entonces pedir ayuda para procesar este material, limpiarlo y clasificarlo. Es por esta razón que se decidió desarrollar una plataforma que permitiera estructurar y abrir bases de datos de manera colaborativa, bautizada como “VozData”.

VozData es una plataforma de colaboración abierta creada para transformar documentos públicos en información útil. Se trata también de una iniciativa para amplificar la voz de los datos que de otra manera permanecen distantes del control o la participación ciudadana. La aplicación se inspiró en los proyectos “Free the Files” de Propublica.org y “MP´s Expenses” de The Guardian y fue desarrollada por Opennews Fellows en LA NACION, con la participación de algunos integrantes del equipo de LN Data.

El primer proyecto “Gastos del Senado 2010-2012” consistió en estructurar y clasificar 6700 archivos .pdf, y se completó en dos meses gracias a la ayuda de 500 voluntarios, y con dos acciones llamadas “maratones cívicas”.

Las maratones consistieron en jornadas presenciales realizadas en la sede de LA NACION, de las que participaron usuarios de la plataforma y varias de las ONG y Universidades que colaboraron con VozData desde su lanzamiento. En simultáneo -y vía Hangouts- se conectaban desde las provincias dos universidades en Córdoba y Entre Ríos que también participaron del encuentro. El código de la plataforma VozData está liberado con el nombre de “Crowdata”, y los datos están abiertos en formatos Open Data.

Esta iniciativa de LA NACION demostró cómo hasta en contextos adversos, los medios de comunicación pueden ser proactivos, ir a fondo en el periodismo de datos, abrirse a la colaboración y generar espacios de participación ciudadana para fomentar la transparencia, descubrir nuevas historias y acelerar los procesos de innovación.

Angélica Peralta Ramos (@momiperalta)

Gerente de Desarrollo Multimedia en el diario La Nación de Argentina. Licenciada en Sistemas y MBA. Co-fundadora de lanacion.com en 1995. Desde 2006 ha estado a cargo de La Nación Multimedia, un área de investigación, desarrollo y formación que ha sido clave en facilitar la actualización del diario en nuevas tecnologías de comunicación y periodismo digital. El sitio lanacion.com ha sido reconocido internacionalmente con 4 premios Eppy y dos premios ONA. Desde 2011 también ha liderado el proyecto de periodismo de datos LA NACION Data. El proyecto Gastos del Senado en Argentina recibió en 2013 el Data Journalism Awards, entregado por Google y Knight Foundation.

Un proyecto de               Gracias al apoyo de