Scraping Web
Este proyecto permite realizar scraping web de manera asíncrona desde el cliente utilizando XPath. El usuario ingresa una URL y un XPath, y el contenido extraído se muestra en la página web.
Instrucciones de instalación y uso
Requisitos previos
Asegúrate de tener lo siguiente instalado:
- Node.js (para la compilación de Tailwind CSS)
- Tailwind CSS (se utiliza para los estilos de la página)
Pasos para configurar el proyecto localmente
Clonar el repositorio
Clona este repositorio en tu máquina local:
```bash
git clone https://github.com/tu-usuario/scraping-web.git
Instalar dependencias
Dirígete al directorio del proyecto y ejecuta el siguiente comando para instalar las dependencias de Tailwind CSS:
cd scraping-web
npm install
Compilar Tailwind CSS
Si aún no has compilado Tailwind CSS, asegúrate de que esté configurado en tu proyecto. Si estás usando la configuración predeterminada de Tailwind, puedes compilarlo con el siguiente comando:
npx tailwindcss build src/styles.css -o output.css
Esto generará el archivo output.css que se enlaza en el archivo HTML.
Si te da problemas durante el proceso de instalación prueba a installar una versión diferente como esta: "npm install tailwindcss@3".
Abrir el proyecto en el navegador
Una vez que las dependencias estén instaladas y Tailwind CSS esté compilado, abre el archivo index.html en tu navegador.
Esto debería mostrarte la interfaz donde puedes ingresar la URL y el XPath para realizar el scraping.
open index.html # o abre el archivo directamente en tu navegador
Uso
"Wikipedia en español es la versión en español de Wikipedia, un proyecto de enciclopedia web multilingüe de contenido libre basado en un modelo de edición abierta. Wikipedia crece cada día gracias a la participación de gente de todo el mundo, siendo el mayor proyecto de recopilación de conocimiento jamás realizado en la historia de la humanidad."
Consideraciones
- El proyecto no tiene un backend; todo el procesamiento se realiza en el cliente, por lo que el navegador debe permitir las peticiones CORS a la URL.