El ecosistema digital se convirtió en un mar de datos y las firmas capaces de recolectarlos y de procesarlos serán las que tomen la delantera en la personalización de estrategias de marketing. El scraping cobra fuerza y se posiciona. ¿Qué es? ¿Cómo funciona? ¿Para qué sirve? Entrevista al equipo de Social MID.
Por Laura Ponasso
¿Qué es el scraping?
El scraping es una técnica de recolección de información en línea: existe el scraping textual y el visual. En particular, desde nuestro grupo, trabajamos con el scraping textual, básicamente, para analizar e interpretar grandes cantidades de datos culturalmente significativos.
¿Cómo se aplica?
Para poder aplicarlo, es necesario que haya un software que medie en la recolección de esta información. Este software llama a una extracción automática de datos de un sitio web, una red social o una base de datos en donde se encuentra alojada la información.
También recurrimos a las APIs (Interfaces de programación de aplicaciones o en inglés, Application Programming Interfaces), que representan la capacidad de comunicación entre dos software: el que nos brinda la información y el que la recolecta. Una de sus principales funciones es jerarquizar la información, por lo que suelen ser diseñadas por los mismos desarrolladores del sitio; son las encargadas de organizar las consultas para que podamos recolectar la información que nosotros vemos traducida en interfaces como palabras clave, cantidad de vistas, cantidad de suscripciones, y cantidad de comentarios.
¿Qué herramientas existen para hacer scraping?
Los software que logran hacer esta descarga masiva de datos van variando. Muchos son herramientas que funcionan por un determinado período de tiempo y pierden validez cuando varía parte de la infraestructura del sitio o de la red social desde donde se descarga la información. Es decir, las herramientas varían de un momento a otro; no son las mismas herramientas las que se usaban hace cinco años en Instagram que las que se usan hoy. Hay que hacer un estudio continuo de los cambios en la arquitectura de los sitios, para ver cómo se puede scrapear los datos.
Un buen truco para no volverse loco buscando la información es bucear por Github. Esta plataforma es un repositorio en línea con muchísimos recursos, que nos permiten encontrar actualizaciones a estas herramientas que han quedado desactualizadas.
¿Qué utilidad o beneficio pueden encontrar las empresas en esta técnica?
La información que podemos encontrar a través del scraping es muy variada. Sin embargo, las empresas privadas utilizan mayormente esta metodología con el objetivo de identificar insights en redes sociales. Al scrapear miles y miles de datos, es imposible sacar una conclusión exacta, pero podemos empezar a preguntarle al dato determinadas cosas y las respuestas nos orientarán. Esto nos permiten encontrar emergentes y patrones de compartimientos, que nos permitirán plantear empezar a trabajar, reafirmar o contrarrestar ideas que teníamos sobre un determinado producto o acción.
A su vez, esa información nos permitirá detectar nichos específicos, identificar los comportamientos de esa audiencia y generar una estrategia para captarla antes de que se haga masiva.
¿Podemos mencionar algún ejemplo de aplicación?
En el campo de las empresas privadas, es imposible citar casos sin romper la confidencialidad de los clientes. Pero también hicimos otras investigaciones de corte social, que son públicas. Por ejemplo, hicimos un estudio en redes sociales del hashtag #niunamenos en las marchas del 3 de junio de 2015 y de2016 y, sobre esa base, analizamos diferentes situaciones sociales.
¿Cómo juega el marco legal en la investigación digital?
El marco legal que afecta a los datos que se generan y se descargan es algo difuso, porque el territorio del contenido digital está todavía para explotar. Pero hay varias cosas a tener en cuenta.
Por un lado, tenemos que entender que no podemos hacer scraping de cualquier dato personal, porque estaríamos violando la privacidad de las personas. Hay ciertas leyes que contemplan la privacidad y los datos de las personas, y hacer uso de esa información es ilegal y poco ético.
Por otro lado, tenemos que entender que, en muchos casos, las bases de datos cuentan con la autoría de la organización que confeccionó y recopiló la información. La Ley de Propiedad Intelectual Argentina N° 11.723, en ninguna de sus partes, contempla el dato, porque esto es un emergente que apareció mucho después de su sanción en 1933. Entonces, cuando hablamos de scraping de información, hablamos de datos que no vulneren la privacidad de las personas, que sean contenidos de dominio público o que estén liberados por un órgano de gobierno o por una empresa privada.
¿Existe algún código de ética?
En toda investigación, el propósito es construir conocimiento y no siempre mostrar puntos de vistas particulares. Es necesario cuidar al o a los informantes por una cuestión ética. En este sentido, cuando hacemos investigación digital, entramos en conflicto: hay mucha información que está pública y cometemos el error de pensar que, porque está en redes sociales, es libre y podemos usarla sin pedir permiso, sin tener acuerdos o convenios de confidencialidad. Trabajamos con ideas y conversaciones que personas compartieron, y no tenemos del todo consentimiento de las personas.
Al igual que en otras investigaciones más cualitativas, en ambientes digitales, también tratamos de evitar poner los nombres de los usuarios, porque no es importante saber quién dijo qué, sino que se trata de entender el dato en contexto. Cuando el scraping es visual, se evita mostrar las imágenes nítidas; se usan blureadas o con algún filtro, para que la persona no quede expuesta. En definitiva, el protocolo es similar al utilizado en otras investigaciones más tradicionales.
Puntualmente, podemos añadir y mencionar un protocolo conocido como Ethics of care, que consiste en cuidar con quienes estamos trabajando, pero teniendo en cuenta que, como investigadores, estamos mostrando una manera de ver al mundo. Su raíz está asociada a los estudios de género, donde lo importante es que te importe la persona sobre la cual investigar, establecer un vínculo y que los investigados no sean solo informantes y depositarios de la información.
¿Qué hacer luego de la recolección de información?
El scraping es sólo una de las partes que conforma las metodologías de investigación digital. En una primera instancia, se encuentra la problematización: nos preguntarnos qué queremos investigar y en dónde. Luego, buscamos la información (scraping) y, finalmente, estructuramos todos los datos conseguidos, para poder visualizar lo obtenido e interpretar los datos.
¿Datos o Big Data?
Cuando hablamos de datos hablamos de unidades mínimas e individuales, cuando estos datos estructurados o no estructurados se reúnen de manera masiva es cuando podemos empezar a hablar de big data.
* Social MID es un equipo especializado en métodos de investigación digital para la investigación social. Nacido en el seno de la Facultad de Ciencias Sociales de la Universidad de Buenos Aires, está conformado por Giselle Bordoy, Sofia Alamo, M. Eugenia Gonzalez Ocampo, Fernanda Ibañez, Melisa Chetto y Agustina Migliorini. Dicta talleres y seminarios en diferentes universidades y congresos de América Latina para estudiantes de nivel universitario y de posgrado. Más información en www.socialmid.net
Lea la nota completa en la revista CONTACTCENTERS N° 90.