Logo Reaper

Web scraping con php a través de simple html dom

¿Qué es el Web scraping?
Durante el web scraping (del inglés scraping = arañar/raspar) se extraen y almacenan datos de páginas web para analizarlos o utilizarlos en otra parte.
Por medio de este raspado web se almacenan diversos tipos de información: por ejemplo, datos de contacto, tales como direcciones de correo electrónico o números de teléfono, o también términos de búsqueda o URL que luego pueden guardarse en bases de datos o analizarse con analizadores sintácticos (parsers).
Los parsers se utilizan para convertir un texto en una nueva estructura. Por ejemplo, en los análisis de HTML, el software lee un documento HTML y almacena la información. Un analizador DOM utiliza la representación de contenidos del lado del cliente en el navegador para extraer datos.
Realizar scrapping en profundidad requiere de conocimientos medios o avanzados en programación y análisis de estructuras HTML. Sin embargo en este ejemplo haremos un raspado simple para obtener el link directo de descarga de un instalador de NVDA.

Simple html dom

Descargar el script

Simple HTML Dom es un script que nos facilita parsear contenido html, extrayendo de manera rápida y sencilla los datos que nos interesan.

Extracción de un link de descarga

En el siguiente audio veremos como extraer la url de descarga del instalador de NVDA, el cual siempre va a recuperar la última version estable.

Descarga del proyecto scraping