Equipo de datos y buenas prácticas

Por Sandra Crucianelli

La imagen no es sólo una foto. Es un símbolo. Representa la comunión que es posible gestionar desde un equipo (inicialmente no integrado por periodistas) que trabajaba abriendo datos cerrados, hasta su posterior inserción en la sala de redacción donde se produjo un encuentro mágico: el de reporteros y editores de las ediciones impresa y digital, infografistas y diseñadores multimedia con programadores, expertos en data mining y analistas de sistemas.

A principios de 2012, el Knight International Journalism Fellowship Program, me encomendó –entre otras- la tarea de formar, no un equipo de datos porque el mismo ya estaba en funcionamiento, sino un “equipo periodístico de datos” en el diario La Nación de Argentina. Desde mi Bahía Blanca natal, hacia Buenos Aires y allí, en el corazón de una de las estructuras periodísticas más grandes de América Latina, han ocurrido una serie de procesos y cambios dignos de ser analizados.

Al principio de la historia, dentro de la gerencia del área Multimedia, -que lidera Momi Peralta Ramos-, se formó a partir del 2011, un grupo de profesionales que se mostró desde el principio interesado en transformar datos cerrados en datos abiertos; primero compartiéndolos con la audiencia a través de un catálogo en uno de los blogs que posee el periódico y también, interesando a reporteros como Diego Cabot, quien fue el primero en usar ese enorme caudal de información convertido en una base de datos, para escribir una serie de artículos sobre cómo el Gobierno argentino usa dinero público para subsidiar a empresas de transporte de pasajeros en todo el país. A él se sumaron luego tantos otros como Hugo Alconada Mon, Laura Serra, Maia Jastreblansky, Juan Pablo de Santis, Iván Ruíz, entre muchos otros más, tanto de la edición gráfica como de la versión digital del diario. Mientras desde mi Fellowship se realizaba un diagnóstico del recurso humano existente, Michael Zanchelli, miembro de ICFJ, investigó en Estados Unidos y en Inglaterra cómo funcionan los equipos que hacen periodismo de datos.

Sin embargo, a poco de andar el camino, me di cuenta que era necesario considerar el contexto latinoamericano y por eso ambos decidimos incluir en su estudio original las experiencias de los otros dos equipos que ya estaban funcionando en países de habla hispana, concretamente los equipos de La Nación de Costa Rica, por entonces liderado por la periodista de investigación Giannina Segnini y el del diario O Estado, en Brasil, a cargo del periodista investigador José Roberto de Toledo. Hasta ese momento, había pocos puntos en común entre unos y otros equipos. Todos se caracterizaban por disponer entre sus filas a un minero de datos y programador, aunque no siempre funcionaban de la misma manera.

Dado el contexto, la estrategia que se aplicó en La Nación de Argentina fue a través de dos vías en simultáneo: una para sumar periodistas al equipo que procesaba los datos y la otra para insertar a ese equipo dentro de la sala de redacción. Sólo de este modo podríamos tener lo que se ve en la foto: lo que se conoce en inglés como Data Journalism Team.

La mayoría de los periodistas de habla hispana, hasta ese momento, sabía poco y nada sobre el periodismo de bases de datos. Muchos creían que se trataba de periodismo de precisión y otros lo consideraban un pariente cercano del periodismo asistido por computadora. En realidad, no se equivocaban ya que el periodismo de bases de datos es ante todo, periodismo de investigación, que incluye desde los principios postulados por Philip Meyer, hasta el uso de hojas de cálculo, pero con un ingrediente adicional: la incorporación del programador informático al equipo de noticias, sin cuya ayuda, no se lograría en ciertos casos, ni la extracción sistematizada de los datos, ni su gestión, mucho menos el diseño de lo que se conoce como News Apps o aplicaciones de noticias.

Para quien crea que formar un equipo de datos se basa en su entrenamiento sobre matemática y estadística, se equivoca. No se trata de training. El training es sólo una parte del proceso. Se trata de crear las condiciones en una infraestructura de noticias para que cada profesional interesado en ser parte de un equipo de esta naturaleza, pueda contar con los recursos en tiempo y forma para rescatar las historias escondidas detrás de los números.

Un equipo de datos es algo diferente a un equipo periodístico de datos. El primero es la piedra basal y condición necesaria, pero el segundo es el gran angular que hace posible la trascendencia de los datos, fluyendo hacia la información, para dar vida a noticias que habitualmente se encuentran atrapadas en celdas de cientos y cientos de hojas de cálculo. Buena parte de la tarea es abrir candados, metafóricamente hablando. En un país sin datos abiertos y sin ley nacional de acceso a la información pública, hubo que desarrollar una estrategia que tuvo como sello distintivo su flexibilidad, es decir; ningún punto del plan de acción inicial fue rígido. Cualquier pre concepto podría ser revisado una y otra vez y cualquier teoría ser sometida a revisión crítica hasta encontrar el camino más adecuado que nos condujo finalmente, a lo que se ve en la foto.

Dentro de las lecciones aprendidas puedo citar como positivas:

  • La incorporación de un coordinador, experto en procesamiento de datos, a las reuniones con los editores, en las que se toman decisiones sobre las noticias del día y de la semana.
  • Evangelización. Resultó vital el diálogo durante reuniones informales con reporteros, básicamente para mostrarles casos de éxito. Generalmente, los periodistas asocian al periodismo de datos con la matemática y la estadística, dos materias poco amigables dentro de la sala de redacción. Pero cuando toman cuenta de que a partir de grandes volúmenes de datos se pueden encontrar historias que generen alto impacto, esa percepción cambia y comienzan a preguntarse: ¿y esto, de qué se trata?
  • Trabajar por proyecto. Las metas en el mediano y largo plazo funcionan mejor en el periodismo de datos, al no estar sometido a la presión diaria de la noticia caliente, en especial cuando no se pueden disponer de reporteros al 100 % de su tiempo. Para ello, los editores acuerdan con el reportero interesado en trabajar con datos qué porción de su horario laboral semanal podrán dedicar a este tipo de trabajos periodísticos, sabiendo de antemano que el resultado que obtendrán, no es la misma nota que la de su competencia, sino un producto original, la mayor parte de las veces, una primicia. El trabajo por proyectos ahorra costos de producción en materia de recursos humanos y además permite integrar a un mayor número de periodistas del equipo que procesa datos. En este caso se apeló a reuniones de planificación semanales y training específico, adaptado al caso, cuando ello resultó necesario.
  • Mayor visibilidad del proyecto de datos: ciertamente visualicé esta necesidad desde el comienzo de mi Fellowship. Planteada la necesidad, lo que se hizo fue ir más allá de dar un espacio destacado al Blog de Datos. Se estableció el tag “Nacion Data” y se diseñó un canal de datos, como producto único en su tipo, en el que se unificaron contenidos basados en datos. Fue incorporado a la barra de secciones de la página frontal de la edición digital a mediados de 2012.
  • Consensuar buenas prácticas dentro de la sala de redacción.
  • Desarrollar un programa de entrenamiento intensivo. A principios de 2012 no existía un programa global e integral de entrenamiento en periodismo de bases de datos. Algunas experiencias se basaban en análisis de casos y otras en condiciones de borde demasiado particulares que o bien funcionaban en determinado país o bien lo hacían sólo en grandes medios con recursos, pero dejaba abierta una gran brecha con relación a los medios más pequeños, como los de provincia. Para ello, se diseñó un programa con dos ejes transversales: uno general, que podría replicarse en cualquier país y otro particular, aplicado al caso argentino y fácilmente adaptable a cualquier otro país latinoamericano.

El diseño de este programa comenzó con una pregunta: ¿qué conocimientos básicos debe tener un periodista que desee sumarse el equipo de datos?

  • Saber y entender, cómo funciona el Estado Nacional en al menos 3 puntos básicos: la estructura de la administración pública, los roles de las instituciones (incluyendo en especial a los entes de control) y la ruta del dinero entre el ciudadano que paga sus impuestos y el poder que administra los fondos públicos.
  • Tener dominio sobre las técnicas de búsqueda y recuperación de datos en dos niveles: uno basándose en motores de búsqueda pero aplicando técnicas avanzadas de searching; otro accesando bases de datos nacionales e internacionales.
  • Primer nivel en el procesamiento de datos: descarga desde la web, uso de conversores al formato Excel, siempre y cuando ello sea posible en la sala de redacción y operaciones básicas dentro de una hoja de cálculo (suma, resta, valor más frecuente, variación porcentual y gráficos simples como tortas, líneas quebradas y barras ; en otros casos, generar un canal de comunicación fluido a través de la figura de un coordinador de equipo, para aquellos casos en los que se requiera extracción automatizada de datos a través de software específico.
  • Segundo nivel de procesamiento de datos: nociones básicas de matemática y estadística descriptiva y estadística inferencial. Test diagnóstico y aprendizaje por desafío.
  • Tercer nivel de procesamiento de datos: definición de las variables disponibles a partir de los datos primarios. Análisis de posibles cruces y diseño de nuevas variables según cada caso en particular.
  • Reflexión sobre las emociones que suelen prevalecer en el periodista investigador y que se trasladan al equipo de datos, cuando se abordan temas de extrema sensibilidad.

El programa de entrenamiento intensivo diseñado para La Nación involucró 40 horas totales de capacitación interna.

Reunió en un mismo espacio, en mismos días y horarios a todos los miembros del equipo, desde periodistas y editores, hasta analistas de datos, diseñadores, expertos en visualización y programadores.

La parte más importante del periodismo de datos es ... el periodismo. No hay periodismo de datos sin historia. Ahora, ¿qué tanto sabemos los periodistas sobre contar historias a partir de datos? Esta es la pregunta que hay que hacerse. Una mirada introspectiva que todo colega debería tener sobre sí mismo, sobre su propio conocimiento y su necesidad de aprendizaje constante. En esta disciplina, en algunos casos se requiere saber acerca de algunas técnicas básicas de programación (Python, Perl, Ruby. etc.) aunque soy partidaria de que este conocimiento quede en manos del programador.

Buenas prácticas en periodismo de datos

* Identificar correctamente los productos del periodismo de datos. Hay al menos cuatro productos diferentes, generalmente complementarios, que surgen de esta práctica:

  • Artículos basados en datos: Generalmente son artículos cortos, construidos a partir de grandes volúmenes de datos como los que podrían estar contenidos en bases de datos o conjuntos de datos diseñados a partir de una o varias bases de datos.
  • Visualizaciones interactivas: En general son un complemento de los artículos basados en datos, pero pueden ser contenidos en sí mismos sin necesidad de que exista un artículo referencial: en algunos casos es suficiente un título, una bajada o subtítulo y una explicación a la audiencia sobre cómo leer los datos desde la visualización.
  • Conjunto de datos abiertos (conocidos como set de datos): Los medios de comunicación no necesariamente se abocan a realizar trabajos periodísticos basados en datos. También pueden, como el caso de La Nación de Argentina, dedicar una gran parte de su esfuerzo a la apertura de datos públicos. En países donde no existen leyes de acceso a la información pública, donde éstas no funcionan como deberían, donde en los sitios web del Gobierno hay algunos datos pero otros no o están ocultos bajo distintas capas de información y donde los formatos para mostrar los datos vía web no son accesibles: ver un dato en la pantalla no es lo mismo que acceder al mismo. Para que un dato sea accesible se debe mostrar en un formato reutilizable. Ejemplo: un documento oficial subido a Flickr. En estas circunstancias medios y organizaciones pueden dedicarse a la búsqueda, extracción y apertura de datos públicos, tal como LN hace a través de su catálogo de datos. Esto es: los datos que los gobiernos o las organizaciones no abren (sea por las razones que sean), los medios de comunicación pueden incursionar en ese terreno con lo cual seguramente harán grandes aportes. Los datos pueden gestionarse o administrarse desde plataformas sencillas y gratuitas como Google Drive.
  • Aplicaciones de noticias: Conocidas en inglés como News Apps. Son el fruto de la labor de periodistas + programadores informáticos. Muchas veces el volumen de datos es tan grande que resulta imposible encontrar una noticia si no se diseña una aplicación que nos permita agrupar y analizar variables, por ejemplo, por localización geográfica, por fecha, por nombre de compañía, etc.

  • Ejemplos:
    Gasto público en Bahía Blanca
    Salarios de empleados públicos (Texas Tribune)
    Pagos de compañías farmacéuticas a doctores (ProPublica)

No es acerca de matemática que estamos hablando, pero ciertamente una buena práctica es tener conocimientos básicos en la materia. La meta en periodismo de datos: es minimizar el error de análisis al mínimo posible. Trabajar con error cero es imposible, pero minimizarlo debe ser una meta de calidad del Data Team. Esa fue una de las razones por las que deberían ver el filme "El Informante": la presión bajo la que trabajan los periodistas de investigación y las emociones que surgen de esa presión, es alta; por eso hay que mantener la mente fría, no apurarse, revisar al menos tres veces los cruces de datos y ante la más mínima duda consultar con otra fuente.

* El caso de la variable "valor del dinero"

El valor del dinero cambia a lo largo del tiempo. Por eso, una conclusión puede ser matemáticamente correcta pero fácticamente inaceptable por entrar en conflicto con la realidad. Por ejemplo, para una serie de datos relacionados con montos de dinero, donde los únicos datos disponibles son el valor final y el inicial, no podemos decir que el ritmo sea sostenido (lineal); tal vez es exponencial y no lo vemos porque no tenemos los datos internos dentro de ese lapso de tiempo.

Cuando la serie temporal es larga (2003 - 2011) en ese caso, se debe cruzar con el IPC.

Ejemplo: un funcionario reporta su patrimonio
2003 = patrimonio de 35.000 $En diciembre del 2003 el IPC era de 68,11
2011 = patrimonio de 981.093 $En diciembre del 2011 el IPC era de 135,67

El cálculo se hace de esta manera:

IPC 2003 = 68,11 --- 35.000 $ (patrimonio declarado al 2003)

IPC 2011 = 135,67 --- x = (135,67 x 35.000) / 68,11 = 69.717 $ (Patrimonio ideal)

Pero el patrimonio real es 13 veces mayor al ideal. Esto quiere decir que si su crecimiento patrimonial hubiera guardado correlato con el IPC, su actual patrimonio debería ser de menos de 70 mil pesos y no casi de un millón de pesos como se reportó.

Me parece recomendable que vean este procedimiento porque es probable que tengan que toparse más de una vez con la variable "dinero", en la que de un año para el otro, se puede calcular la variación % y hablar en términos nominales porque a menos que haya hiperinflación, los valores no difieren mucho; pero en una serie temporal tan larga, cruzar con el IPC es un criterio de calidad en materia de análisis de datos.

* Verificación de datos con otras fuentes.

* Chequeo aleatorio de datos, sobre una muestra basada en el universo bajo estudio, al menos tres veces.

* Narrativa no demasiado extensa ni sobrecargada con información numérica.

* Remitir conclusiones a la visualización y mencionar el respaldo documental sobre el que se trabajó.

El periodismo de datos maneja un volumen grande de datos. Sin una adecuada visualización que acompañe el análisis de esos datos, sería imposible ver de manera sencilla las variables que se ponen en estudio. Las crónicas podrían ser extensas y pecar de aburridas si están plagadas de números que la gente puede no entender con facilidad si no son expuestos de manera adecuada. Por eso se sugieren crónicas cortas, con conclusiones contundentes y una visualización importante, dominante en el artículo, a la hora de contar una historia.

Los expertos en visualización interactiva son capaces de diseñar, a partir de una gran cantidad de datos, un gráfico que permite al lector decidir qué desea visualizar y cómo. La visualización de datos explica de manera comprensible las relaciones entre gran cantidad de información que se genera por distintas vías.

El clásico ejemplo para el reportero es el presupuesto público. El Ministerio de Economía entrega un pesado reporte lleno de tablas y números que a simple vista no producen ninguna información interesante, mucho menos una noticia que no sea la anunciada en el parte oficial de prensa. Pero un presupuesto contiene variables, es decir elementos que son medidos a lo largo del tiempo. Y si se dispone de un presupuesto del año en curso, probablemente tenga a mano el del año anterior, que tiene… las mismas variables. Sin embargo, muchas veces, hasta la más sencilla de las tablas puede resultar muy aburrida.

La comparación es quizá una de las prácticas más usadas por el periodismo, pero cuando hay que procesar gran cantidad de información numérica, el asunto se complica. Por eso, se recurre a distintas formas de visualizar el conjunto de datos; de ese modo podemos analizar mejor ciertos procesos y “visualizar” cambios que de otro modo no habrían saltado a simple vista.

* Uso adecuado del hipertexto: compartir fuentes primarias y secundarias, no remitiendo a las fuentes web desde sus páginas de inicio sino a la URL permanente desde dónde se obtuvieron los datos utilizados.

* Visualización interactiva: usar una gama de recursos no demasiado extensa, pero sí lo suficientemente versátil como para que pueda dar solución a cada tipo de variables bajo estudio.

* Compartir datos abiertos con la audiencia a través de Google Spreadsheet.

* Mostrar a la audiencia la documentación de respaldo original completa a través de la plataforma DocumentCloud.

* Mantener comunicación interna fluida incluyendo a todos los miembros del equipo involucrado y muy en especial, a los editores.

* Mantener abiertos los canales de comunicación con la audiencia a través de canales participativos mediante comentarios y difusión en redes sociales. Se sugiere no cerrar la vía de comentarios.

* Los sistemas de visualización interactiva deberían tener siempre la opción de descarga de los datos.

* No preocuparse por la competencia en la decisión de compartir documentos.

¿Qué requisitos deberían observarse para encuadrar los contenidos en esta disciplina?

Cuando las notas tengan alguno o varios de estos componentes:

  • Datos abiertos a disposición de la audiencia (descargables o en DocumentCloud, Google Drive, Junar, etc.)
  • Data Viz interactiva (Tableau Public, Google Fusion Tables, etc)
  • Un mashup (que es un híbrido) como cuando se cruza data de Twitter posicionando esa información en Google Maps.
  • Trabajo de data mining (minería de datos)
  • Scraping de datos (extracción de datos automatizada)
  • Uso de bases de datos propias o ajenas a partir de la cual se construye una propia.
  • Trabajo de recuperación documental web: búsqueda en la internet profunda o invisible.
  • Casos de acceso a la información, pero no cuando es uno aislado, sino cuando hay un conjunto de peticiones importante (más de diez por ejemplo y sistematizadas)
  • Trabajo de campo propio: es decir cuando la data no está (caso anterior, pero en vez de basarse en peticiones se basa en análisis de webzines del Gobierno, hay que construirla y crear un Excel propio, sobre la base de un análisis de información web.

Sandra Crucianelli (@spcrucianelli)

Periodista. Consultora y Trainer sobre contenidos digitales para los diarios Reforma de México, Mural de Guadalajara, La Prensa de Honduras, El Universal y Expreso de Ecuador, El Tiempo de Colombia, La Nación de Argentina, El Comercio de Lima, Perú y Folha de San Pablo, Brasil. Docente para el Knight Center de la Universidad de Texas; el Centro de Formación Digital de la Universidad de Guadalajara, México; CELAP, Centro Latinoamericano de Periodismo, Radio Nederland Training Center, PNUD Honduras, Instituto del Banco Mundial, Washington, USA; Fundación Violeta Chamorro, Nicaragua; Red de Periodistas de Provincias de Perú, Piura, Perú; Consorcio de Investigación Económica y Social, Perú. Fundación MEPI, DF, México. Autora del Libro "Herramientas Digitales para Periodistas" (2008, Knight Center, Universidad de Texas).

Un proyecto de               Gracias al apoyo de