Qué es el web scraping?

El web scraping es una tecnología que seguramente en 2018 se use bastante junto con Big Data y Analytics, porque tiene mucho potencial (y riesgos tanto éticos como legales) en sectores de seguridad, financiero o educativos, por poner algunos ejemplos.

El web scraping es un término utilizado que define una serie de técnicas que de forma automática permiten la extracción de datos e información de cualquier página web a través de un software o script. El proceso suele dividirse en dos fases, una de extracción de la información y después de manipulación y procesamiento con los fines que se determinen (rastreo, obtener información, duplicación de contenido…). Se captan de la misma manera que lo haría cualquier persona a mano. La ventaja es evidente: este método es mucho más rápido y eficiente.

Con este método se puede rastrear gran parte de la red y buscar toda la información pública que exista de personas, empresas u organizaciones… incluso sería capaz de encontrar información en la parte “oscura” de Internet (Darknet).

¿Es legal o ilegal esta técnica?

Todo depende de los datos extraídos de cada web y sus términos de licencia, por eso hay que ser cautelosos al utilizar estos métodos de obtención de información.

Cualquier sitio web que contenga grandes cantidades de información organizada es blanco posible de los scrapers que quisieran contar con esa información.

Impedir la extracción de datos en una empresa

Una empresa puede tomar medidas para evitar la extracción de datos, puede dificultar el rastreo, monitorizar las conexiones entrantes, y por supuesto utilizar herramientas de detección de scraping: la firma identificable que consta en la mayoría de estas herramientas sirve para detectarlas y, por consiguiente, bloquearlas.

Noticias relacionadas

Si lo deseas, puedes dejarnos un comentario