Wilfredo Jordan: Técnicas y herramientas para scraping (extracción) de datos

martes, 22 de octubre de 2013

Técnicas y herramientas para scraping (extracción) de datos

Scraping o extracción de datos es una técnica utilizada para extraer información de sitios web utilizando un programa de computadora. Algo de esto vimos en el Bolivia DataBootCamp, principalmente con Google Refine.

"El objetivo es poder manipular la información por medio de otro software, muchas veces la información no se encuentra disponible en los formatos más adecuados, por lo tanto es necesario realizar un proceso de extracción, un proceso de trasladarlos desde un formato cerrado hacia un formato que nos permita trabajarlos", argumenta Sergio Araiza, de México.

Precisamente Araiza y Braulio Chávez (@hackerofdreams), en el marco del Desarrollando América Latina 2013, realizaron un hangout para mostrar el uso de algunas herramientas para extracción de datos que en este post comparto. (Me gustó mucho el proyecto Tabula).

Table Capture. Complemento para Google Chrome que detecta tablas de sitios web que están disponibles para su extracción y exporta en un formato procesable. Es compatible con Google Docs.

Tabula. Un programa que permite a los usuarios subir un archivo (en texto) en PDF a través de una interfaz web sencilla, para después extraer los datos tabulares en formato CSV, listos para su uso.

Con esto ya tenemos más elementos para experimentar con el periodismo de datos.

PD. Un poco más técnico, la presentación de Braulio Chávez para extraer datos usando código.

Web scraping, Codeando México from Braulio Chavez