Trabajar con datos en Perú: Comparamuni y Emergencias.pe.

César Soplín

El 26 de mayo del 2014 el Poder Judicial peruano publicó 29.486 sentencias para su libre acceso a los ciudadanos y ciudadanas. Estos documentos son sobre materia constitucional, penal, civil, comercial, familiar, laboral, previsional y contencioso administrativo. Pero el sistema sólo permite la búsqueda manual. Obtener los documentos automáticamente es imposible porque la plataforma tiene instalada un captcha que impide la descarga masiva. Esto hace difícil poder explorar los documentos para la investigación, ya que sin la automatización un periodista tendría que descargar todos y cada uno de los documentos manualmente, uno por uno. Esto un programador lo podría hacer en minutos y con relativo poco esfuerzo, siempre y cuando se pueda acceder con una interfaz amigable (API).

La cuestión técnica es uno de los problemas principales, la fuente principal de datos no es accesible: el Estado aún no comprende completamente las ventajas del liberar los datos y pone trabas técnicas que impiden a los sistemas conectarse y descargar información rápidamente. Los captchas están sembrados en la mayoría de las fuentes de datos del Estado peruano.

Otro ejemplo: el 7 de julio del 2014 se supo que en el Registro de Organizaciones Políticas la Alcaldesa de Lima figuraba como militante del partido de Gobierno, del cual sería adversaria en las próxima elecciones municipales. Esta podría ser la oportunidad para un periodista de averiguar con qué otros personajes de la política sucede lo mismo. Usando un listado de personajes se podría realizar una comparativa y encontrar diferencias rápidamente. ¡Podríamos imaginar 10 mil comparativas en un segundo! Pero sólo se puede hacer manualmente, no es posible hacer consultas automatizadas, este sistema también tiene instalado un captcha que lo impide.

Con este horizonte y sin una posición clara del Gobierno hacia los datos abiertos, pensar en un API de datos estatales es pedir mucho.

Comparamuni

En el primer hackatón de Hack/Hackers Lima participamos junto a un equipo con el proyecto ComparaMuni. Buscábamos saber cuánto se gastaba en los rubros de viajes, asesorías y publicidad en el Municipio de Lima haciendo una comparación entre las cifras de la gestión actual y la anterior. Una comparación simple. La Municipalidad cuenta con una plataforma para obtener los datos lo cual ahorró bastante tiempo en la tarea, sin embargo cuando comenzamos a revisar la información encontramos que faltaban años de datos o que los rubros no eran claros. Sencillamente los datos no seguían un formato concreto, por lo que los periodistas tenían que procesar a mano esta información, para luego recién pensar en pasarla al sistema para su visualización.

Esto generó un hecho curioso. Algunas de las sumas se hicieron en Google Spreadsheets, pero automáticamente la herramienta redondeaba las cifras o interpretaba los separadores por comas como puntos (no se había configurado correctamente), situación que se advirtió al pasar las cifras al prototipo. Al final para asegurarnos que las sumas eran correctas usamos en una calculadora de toda la vida.

Finalmente obtuvimos un prototipo base funcional donde probar las visualizaciones (aún se debe mejorar), y nos entregó un aprendizaje de cómo trabajar periodistas y programadores juntos frente a los datos.

Emergencias.pe

Este proyecto surgió hace unos años como un experimento personal. La idea principal es conectar la central del Cuerpo de Bomberos del Perú (CGBVP) con Twitter. @bomberos publica las emergencias que se reportan a la central en tiempo real, tal cual se reciben. Permite a diversos diarios y comunidades mantenerse al tanto de las emergencias de lo que sucede en la ciudad. Al momento de escribir este texto cuenta con 14,530 seguidores.

No existe un API. Estos datos se obtienen de la central de bomberos vía scraping. El sistema procesa estos datos y los muestra en Emergencias.pe. La idea es que los periodistas y ciudadanos accedan fácilmente a esta información sobre las emergencias que suceden en la ciudad.

La elección de la tecnología es una configuración clásica: PHP. Usando Drupal se obtiene, procesa y envía los datos a Twitter. Para la visualización de los datos se utiliza Highcharts.js y Google Maps. Todavía es un trabajo en progreso y en los planes está usar MongoDB para mejorar la velocidad al obtener los reportes.

El programador en la redacción local

En los medios digitales peruanos el trabajo con datos todavía está comenzando, se recurre a soluciones como Tableau pero aún no hay desarrollos a medida. Trabajar con datos requiere que periodistas y programadores (y diseñadores) formen juntos un solo equipo, pero en la mayoría de redacciones esto es un choque cultural que aún no se puede superar. Incluso en redacciones integradas aún no se ven desarrolladores trabajando con datos a tiempo completo.

Otras iniciativas

El estado actual de las cosas en Perú es de iniciativas aún en progreso. En el ámbito local @aniversarioperu (es un seudónimo) tiene varios proyectos de datos libre en su sitio web. También hay una iniciativa de liberar datos en la Municipalidad de Lima. Un ejemplo de app que consume estos datos abiertos es Museos Lima.

César Soplin (@cesars)

Cesar Soplin Sánchez es arquitecto de información y desarrollador web. Antes trabajó en medios digitales en el Grupo El Comercio de Perú (elcomercio.pe, peru21.pe, gestion.pe. trome.pe, depor.pe) y en el sitio de Todo Noticias de Grupo Clarín en Argentina. Actualmente es profesor de Arquitectura de Información en Área 51 y consultor en Experiencia del usuario. Le apasionan los medios digitales, como se organizan y la manera en que las personas los usan.

Un proyecto de               Gracias al apoyo de