Viaje al mundo de la extracción automática de datos desde documentos

Aug 21, 2011

Suggest edits

English post here!

Finalmente, ¡lo hicimos! Unas 40 personas (entre periodistas, programadores de software y militantes de organismos de Derechos Humanos de Argentina) desembarcamos el pasado 13 de agosto en el hackatón de Hacks/Hackers Buenos Aires, ocurrido dentro de la megamuestra Tecnópolis. La idea fue trabajar durante todo el día sobre Mapa76.info, un proyecto de software de extracción automática de datos y visualización desde documentos de texto. El software está centrado en analizar los juicios de la última Dictadura Militar argentina, ocurrida entre 1976 y 1983. Vinieron periodistas y programadores no sólo de Buenos Aires, sino también de Rosario, Córdoba y contamos con la presencia de los creadores de Junar.com, una api de streaming de tablas, quienes viajaron especialmente desde Chile para participar y mostrar su tecnología.

El problema a resolver: Existen en estos momentos en Argentina una gran cantidad de causas judiciales vinculadas a represores de la última Dictadura Militar. Más de 200 condenados, decenas de juicios en curso, cientos de testigos que declaran cada día y posiblemente más de mil presuntos implicados en hechos de Terrorismo de Estado entre 1976-1983. La pregunta es: ¿podemos desarrollar un software que encuentre relaciones que las personas no podemos ver? Es necesario para periodistas, para la Justicia, para quienes investigan definir relaciones entre Personas, Organizaciones y Lugares para visualizar en una línea de tiempo y en un mapa.

En qué trabajaron los periodistas: el motor de Mapa76.info –todavía en estado alpha– extrae nombres, lugares y fechas. En un primer momento, los periodistas “peinaron” documentos de sentencias y alegatos estableciendo relaciones entre fechas y acontecimientos especiales como: secuestro, tortura, traslado, etc para ver esos acontecimientos en una línea de tiempo. Luego se trabajó en pensar posibles casos de uso:

  • ¿Quién estuvo con quién en un centro clandestino?
  • Seguir la historia de una persona. ¿Que le pasó?
  • Cuando hay que escribir una nota sobre una persona, se puede partir “peinándola” en todos los documentos donde aparece mencionada.
  • Comparar dos historias de vida.
  • Comparar la historia según versiones.
  • Peinar documentos para tratar de contar una historia a partir de documentos
  • Incorporar otras fuentes como diarios extranjeros.
  • Comparar dos testimonios de una misma persona realizados en momentos diferentes.

Al mando de Martín Sarsale, los programadores trabajaron en mejorar la interfaz de carga de documentos y extracción de datos y en mejorar la interfaz de consulta de los datos (líneas de tiempo, mapas, visualización de documentos) (Ruby / jQuery) También se trabajó en mejorar la “carga” de datos y en la conversión de pdf a documentos de texto manejables.

El hackatón contó con el apoyo de la Unidad de Coordinación y Seguimiento de Causas de Derechos Humanos de la Procuración General de la Nación. Luego del hackatón nos pusimos en contacto con el equipo de coordinación de la Red Federal de Sitios de Memoria, e integrantes del Ministerio de Educación de la Nación Argentina, interesados en el proyecto. La cobertura realizada por los medios sobre el hackatón puede verse en Página/12, en la web de Tecnopolis y en YouTube.

Participaron, entre otros, Joel Matías Silva, Damian Silvani, Lucas Tolchinsky, Nahuel Baglieto, Sergio Sorin, Tania Wassaf, Manuel Milla, Ezequiel Clerici, Guillermo González, Mariano Mancuso, Mariano Zapatero, Luis Guardiola, Matias Iturburu, Javier Ciancio, Gisela Cardozo, Gabriel, Javier Pájaro, Joaquín Nuñez, Rodrigo Aza, Marcos Vanetta, Felipe Lerena, Filippo Fiorini y el equipo organizador de Hacks/Hackers Buenos Aires, conformado por Mariano Blejman (Página/12), Martín Sarsale (Sumavisos), Guillermo Movia (Mozilla Argentina), César Miquel (Easytech) y Mariana Berruezo. Diego Accorinti realizó el diseño gráfico de Mapa76.info.

Web http://meetupba.hackshackers.com

blog http://www.hackshackers.com

mail ba (at) hackshackers (dot) com

twitter @HacksHackersBA