martes, 22 de octubre de 2013

Técnicas y herramientas para scraping (extracción) de datos


Scraping o extracción de datos es una técnica utilizada para extraer información de sitios web utilizando un programa de computadora. Algo de esto vimos en el Bolivia DataBootCamp, principalmente con Google Refine.

"El objetivo es poder manipular la información por medio de otro software, muchas veces la información no se encuentra disponible en los formatos más adecuados, por lo tanto es necesario realizar un proceso de extracción, un proceso de trasladarlos desde un formato cerrado hacia un formato que nos permita trabajarlos", argumenta Sergio Araiza, de México.

Precisamente Araiza y Braulio Chávez (@hackerofdreams), en el marco del Desarrollando América Latina 2013, realizaron un hangout para mostrar el uso de algunas herramientas para extracción de datos que en este post comparto. (Me gustó mucho el proyecto Tabula).

Table Capture. Complemento para Google Chrome que detecta tablas de sitios web que están disponibles para su extracción y exporta en un formato procesable. Es compatible con Google Docs.

Tabula. Un programa que permite a los usuarios subir un archivo (en texto) en PDF a través de una interfaz web sencilla, para después extraer los datos tabulares en formato CSV, listos para su uso.

Con esto ya tenemos más elementos para experimentar con el periodismo de datos.

PD. Un poco más técnico, la presentación de Braulio Chávez para extraer datos usando código.


domingo, 18 de agosto de 2013

Datos de social media en tiempo real

Con esta aplicación, uno puede evidenciar el impresionante flujo de contenidos y datos que se genera en Internet a cada momento. Lo diseñó Gary Hayes y activando la herramienta uno puede visualizar datos como likes en Facebook por segundo, cargas de video en Youtube, búsquedas en Google, nuevos usuarios en Google Plus, número de tuits enviados, entre muchos otros.

El servicio se denomina Social Media Counts y tiene una versión para IPad que cuesta USD 0.99. La versión web es gratuita y se puede embeber a cualquier sitio web. Lo utilizaré en un Prezi para mostrar el flujo de social media cuando realice algunos talleres.    

miércoles, 31 de julio de 2013

Investigación: Periodismo Digital en Bolivia (2012)

Cecilia Banegas, corresponsal del Observatorio Nacional de Medios (ONADEM) de la Fundación Unir Bolivia, presentó en Santa Cruz, Cochabamba y recientemente en La Paz un estado del arte sobre el periodismo digital en Bolivia. El estudio, en el que también participaron Jessica Olivares, Jessica Terceros y Dagner Hidalgo, hizo un seguimiento a las versiones en línea de 70 medios en todo el país, entre medios nativos en Internet y medios en transición (agencias de noticias, radio y prensa). Ahí, en la Asociación de Periodistas de La Paz (APLP), estuvimos con la autora y el comunicólogo Erick Torrico para hacer los comentarios al texto.

Hay que decir que se trata del primer mapeo de medios digitales en Bolivia, un trabajo necesario en el que ya avanzaron países como Colombia, en 2010, por citar un ejemplo, y que puede sentar las bases para futuros estudios sobre el reto que ya comenzaron a encarar algunos de nuestros medios: la transición digital.

El estudio es un diagnóstico del uso de elementos multimedia, hipertexto, actualización permanente de noticias e interacción que hacen los medios digitales bolivianos. A pesar de que el 60% de los medios actualizan permanentemente sus noticias, sólo el 12% hace un buen empleo de recursos multimedia y del hipertexto.

Si bien se evidencian elementos de interactividad, principalmente en versiones de radios online, no hay personal especializado ni una política clara de medios destinada a dar respuesta y a dialogar con la gente. Por eso la investigación concluye que el periodismo digital en Bolivia está aún en proceso de descubrimiento.

Al ver estos resultados, pareciera que los medios están viviendo los años posteriores al 2004, cuando el periodismo digital, con la aparición de la Web 2.0, comenzaba a experimentar con estos elementos. Este periodismo hoy está extrayendo historias de grandes bases de datos y está empleando dispositivos móviles para sus coberturas, ¿será éste el norte? Si lo es, estudios como el de la Fundación Unir nos permitirán conocer este tránsito.

Queda pendiente otro trabajo para analizar la adopción y uso de tecnologías de parte de los periodistas. Ahí, con seguridad, tenemos muchos más avances y somos más optimistas. Entretanto, invito a revisar los hallazgos de la investigación, que está disponible en la cuenta en Scribd de Cecilia Banegas. Si tienen problemas para descargarlo, pueden hacerlo desde este enlace.

jueves, 13 de junio de 2013

DataBootCamp, el periodismo de datos llega a Bolivia

Primera sesión del Bolivia DataBootCamp
Se trata del primer evento de periodismo de datos que se lleva a cabo en nuestro país. Para muchos un tema nuevo, pero con inmensas posibilidades sobre todo para el periodismo de investigación.

El DataBootCamp de Bolivia, un taller de capacitación en el procesamiento y análisis de bases de datos, se lleva a cabo en La Paz entre el 12 y 14 de junio y reúne a periodistas, desarrolladores web, diseñadores y bloguers ansiosos de encontrar historias en bases de datos a veces poco legibles al "ojo común"; por eso apela al procesamiento, análisis y visualización o creación de aplicaciones que permitan explicar algunos hallazgos o lo hagan más digeribles.

Cito como ejemplo: "Las propiedades de los ministros", del equipo de investigación del diario La Nación de Costa Rica, que construyó una aplicación destinada a mostrar las propiedades de los ministros de ese país, sus cónyuges y las sociedades en las que alguno de ellos participa.

Esta aplicación constató que el ministro de Hacienda de ese país, Fernando Herrero, no había actualizado el valor de dos propiedades suyas durante 12 años, "lo que le permitió ahorrar hasta ¢300.000 anuales en impuestos". Más adelante, Herrero renunciaría a su cargo alegando "deseos de dedicar tiempo a su familia y a la construcción de una nueva vida lejos de las actividades gubernamentales". ¿El poder de los datos les dice algo?

Con ese horizonte estamos trabajando estos días y ya tenemos más de 40 propuestas.

La otra novedad es que el último día del Databootcamp se creará el capítulo Hacks/Hackers La Paz, una versión boliviana del Hacks/Hackers Buenos Aires, destinado a promover el periodismo de datos, una empresa que hay que promover en el país.

¿Cómo hacer periodismo de datos?

Dice Giannina Segnini, editora del equipo de investigación de La Nación de Costa Rica, una de las mayores exponentes de esta disciplina del periodismo en América Latina, que existen cinco pasos básicos para trabajar en periodismo de datos:

1. Obtención de los datos: "Es la primera fase, que para muchos parece muy fácil, pero no lo es y cada vez se vuelve más compleja, porque hay servidores públicos que no entienden por qué se desea acceder a una base de datos, para qué le puede servir a un periodista. Aquí es clave no ceder e insistir con todos los protocolos que permiten el acceso a la información".

Se puede comenzar, sin embargo, procesando datos ya existentes, el Atlas Electoral de Bolivia puede ser un ejemplo.

2. Limpieza de los datos: "Estos normalmente vienen repetidos, códigos que no están correctos, información que no es de interés para el fin planteado, entonces hay que revisarlos y normalizarlos de acuerdo con nuestra necesidad. Esta es la parte más difícil para el periodista".

Coincido y hay que desarrollar esta habilidad.

3. Análisis: "Es el paso más importante en periodismo de base de datos, no se trata de publicar datos, es hacer lo que hacemos los periodistas desde tiempos inmemoriales, sacar una conclusión (...) para esto es necesario comparar la información encontrada, correlacionarla con otra, cruzar datos para descubrir tendencias, patrones, comportamientos atípicos".

4. Verificación de la información: "Las bases de datos no son la verdad absoluta. Verificamos cada resultado que encontramos, esto se llama calle. Hay periodistas que creen que todo está en Google y que el buscador es la verdad revelada. La mala noticia para esta clase de periodistas es que el rigor seguirá siendo la mejor arma para el periodismo de calidad. Este no es un oficio para perezosos".

5 Visualización: "Pensar como diseñador es hoy una obligación de todo periodista. Es necesario encontrar la forma de explicar de la mejor manera posible a la audiencia algún dato. Por eso resulta relevante sugerir que si se piensa la información, antes de escribirla, en términos de cómo presentarla puede ayudarnos a hacer informaciones más agradables y claras. Cómo presentarles a los lectores esta información, que en no pocas ocasiones resulta confusa, es una pregunta que deberíamos sumar a las cinco W".

Habrá que tomar en cuenta estos criterios durante y después del Databootcamp, pues la recolección, procesamiento y análisis de inmensas cantidades de bases de datos, junto con la movilidad y la reportería móvil, son dos tendencias que hay que incorporar en el  periodismo. ¿No les parece?

Actualización 16, junio, 2013.

El álbum de fotos del DataBootCamp Bolivia

Proyecto "A dónde las llevan", que obtuvo el primer lugar en el evento y tiene mil dólares para completar su prototipo. Felicidades a Iván Boris Miranda y su equipo. Aquí pueden ver cómo funciona la aplicación.

Mapa de medios digitales en Bolivia, de Cecilia Banegas y su equipo.

Andy Tow nos colaboró a armar un cartograma de Bolivia donde es posible cruzar datos electorales y de inversión pública departamental (en temas de salud, educación, turismo y producción) para hacer hallazgos. 

viernes, 8 de febrero de 2013

Conectándonos Bolivia II: cómo fomentar la participación web y el liderazgo en las comunidades

Uno de los grupos de Conectándonos trabajando en el diseño de una campaña de ciberactivismo
Para quienes no lo sepan, Conectándonos es un encuentro de capacitación en el uso de medios sociales y ciudadanos que reúne a jóvenes de las comunidades menos representadas de diferentes países para promover su participación e inclusión en Internet. 

Ha sido el caso de Bolivia en noviembre de 2011, donde Annelissie Arrázola, Jessica Olivares, Mario Durán y su servidor participamos como facilitadores; siguió Conectándonos Ecuador en mayo de 2012; nuevamente Bolivia entre el 31 de enero y el 2 de febrero de este año y continuará Perú del 21 al 23 de febrero. De acuerdo con Juan Espinoza, de Hivos, que junto con Global Voices Online organizan este evento, se espera realizar un encuentro Latinoamericano con los participantes de los distintos países para unir más voces y promover estos espacios.

En Bolivia, uno de los principales problemas apunta a cerrar la brecha digital, ligada al acceso a internet, es sabido que el servicio es escaso en las áreas periurbanas y rurales del país y esto condiciona el aprovechamiento o no de las tecnologías; el otro problema está ligado a disminuir brecha cultural, es decir, la manera en que nosotros, como habitantes de un espacio, nos apropiamos de la tecnología, le sacamos provecho y la usamos para distintos fines.

Expectativas para Conectándonos Bolivia II

Conectándonos Bolivia II estuvo en el primer día dedicado a abordar este tema y concienciar sobre la necesidad de incluir a estos actores en las conversaciones que se generan en la web, algo que no se está haciendo en Bolivia; pero también de dotarles de las herramientas necesarias, ése fue el trabajo el segundo día. Como eje transversal, esta versión buscó desarrollar líderes para que, a su vez, se constituyan en replicadores del uso de la web social en sus comunidades. Asumo que esto se consiguió de dos formas:

Al equipo de facilitadores (estuvimos Andrea Guzmán, Natalia Chávez, Mario Durán y su servidor), se sumaron cuatro participantes de Conectándonos I que fungieron también como facilitadores. Ellos participaron en el diseño del encuentro, tuvieron a su cargo la elaboraron de su propio taller sobre el uso de medios sociales y orientaron a los nuevos participantes en todo momento. Con la experiencia anterior, adquirieron un rol protagónico y de liderazgo en el encuentro. Hay que saber abrir estos espacios y fomentar el re-cambio.

En la primera versión de Conectándonos Bolivia, se organizaron coloquios públicos para hablar sobre algunos proyectos que se estaban desarrollando en el país: Jaqi aru, Asamblea Cochabamba, @consumidorbo, Ciudadanía Virtual, por citar algunos. Este año, en cambio, se optó por visitar dos centros situados en Barrio Minero y Valle Hermoso, en la zona sur de Cochabamba.

Para ello, los 30 participantes, con el conocimiento adquirido en las jornadas precedentes, conformaron sus propios grupos, armaron y dieron sus propias charlas sobre Internet, herramientas web y redes sociales. No se trató de un simulacro, cada centro tenía un público invitado con participantes expectantes y los expositores debían responder. Durante cada charla, vi a los talleristas apropiarse de ese espacio y dejar fluir sus cualidades como facilitadores, algo que no había visto en ningún momento del encuentro.

Ambas prácticas contribuyen a la formación de líderes ¿No les parece?

Crédito foto: Galería en Flick de Conectándonos Bolivia