La minería de datos es el proceso de recopilar datos específicos de páginas web. Los usuarios pueden extraer texto, imágenes, videos, reseñas, productos, etc. Puede extraer datos para realizar estudios de mercado, análisis de sentimiento, análisis competitivo y datos agregados.
Si está tratando con una pequeña cantidad de datos, puede extraerlos manualmente copiando y pegando información específica de las páginas web en una hoja de cálculo o formato de documento de su elección. Por ejemplo, si usted, como cliente, busca reseñas en línea que lo ayuden a tomar una decisión de compra, puede eliminar los datos manualmente.
Por otro lado, si se trata de grandes conjuntos de datos, necesita una técnica de minería de datos automatizada. Puede crear una solución de minería de datos interna o usar la API de proxy o la API de raspado para tales tareas.
Sin embargo, estas técnicas pueden ser menos efectivas porque algunos de los sitios a los que se dirige pueden estar protegidos por captchas. Es posible que también deba administrar bots y proxies. Tales tareas pueden consumir mucho de su tiempo y limitar la naturaleza del contenido que puede extraer.
Scraping Browser: la solución
Puedes superar todos estos desafíos con el navegador raspador por datos brillantes. Este navegador todo en uno ayuda a recopilar datos de sitios web difíciles de recuperar. Es un navegador que utiliza una interfaz gráfica de usuario (GUI) y está controlado por la API Puppeteer o Playwright, lo que lo hace indetectable por los bots.
Scraping Browser tiene funciones de desbloqueo integradas que manejan automáticamente todos los bloques en su nombre. El navegador está abierto en los servidores de Bright Data, lo que significa que no necesita una costosa infraestructura interna para eliminar datos de sus proyectos a gran escala.
Características del navegador Bright Data Scraping
- Desbloqueo automático de sitios web: No necesita seguir actualizando su navegador porque este navegador se ajusta automáticamente para manejar la resolución CAPTCHA, nuevos bloques, huellas dactilares e intentos. Scraping Browser imita a un usuario real.
- Una gran red de proxies: Puede dirigirse a cualquier país porque Scraping Browser tiene más de 72 millones de direcciones IP. Puede dirigirse a ciudades o incluso a operadores y beneficiarse de la mejor tecnología de su clase.
- Escalable: Puede abrir miles de sesiones simultáneamente ya que este navegador utiliza la infraestructura de Bright Data para manejar todas las solicitudes.
- Titiritero y dramaturgo compatibles: Este navegador le permite realizar llamadas a la API y recuperar cualquier cantidad de sesiones del navegador mediante Puppeteer (Python) o Playwright (Node.js).
- Ahorro de tiempo y recursos: En lugar de configurar proxies, Scraping Browser se encarga de todo en segundo plano. Tampoco necesita configurar ninguna infraestructura interna, ya que esta herramienta se encarga de todo en segundo plano.
Cómo configurar el navegador de scraping
- Vaya al sitio web de Bright Data y haga clic en el navegador raspador en la pestaña «Soluciones de raspado».
- Crear una cuenta. Verás dos opciones; «Comenzar prueba gratuita» y «Comenzar gratis con Google». Elijamos «Iniciar prueba gratuita» por ahora y pasemos al siguiente paso. Puede crear la cuenta manualmente o usar su cuenta de Google.
- Una vez que se crea su cuenta, el tablero presentará varias opciones. Seleccione «Proxies e infraestructura de scraping».
- En la nueva ventana que se abre, seleccione Scraping Browser y haga clic en «Iniciar».
- Guarde y active sus configuraciones.
- Activa tu prueba gratuita. La primera opción le otorga un crédito de $ 5 que puede usar para su uso de proxy. Haga clic en la primera opción para probar este producto. Sin embargo, si es un gran usuario, puede hacer clic en la segunda opción que le otorga $50 gratis si carga su cuenta con $50 o más.
- Introduce tu información de facturación. No te preocupes, la plataforma no te cobrará nada. La información de facturación solo verifica que usted es un usuario nuevo y que no busca obsequios al crear varias cuentas.
- Cree un nuevo proxy. Una vez que haya guardado su información de facturación, puede crear un nuevo proxy. Haga clic en el icono «agregar» y seleccione Scraping Browser como el «tipo de proxy». Haga clic en «Agregar proxy» y continúe con el siguiente paso.
- Crear una nueva «zona». Aparecerá una ventana emergente que le preguntará si desea crear una nueva Zona; haga clic en «Sí» y continúe.
- Haga clic en «Ver ejemplos de código e integración». Ahora obtendrá ejemplos de integración de proxy que puede usar para eliminar datos de su sitio web de destino. Puede usar Node.js o Python para extraer datos de su sitio web de destino.
Ahora tiene todo lo que necesita para extraer datos de un sitio web. Usaremos nuestro sitio web, geekflare.com, para demostrar cómo funciona Scraping Browser. Para esta demostración, usaremos node.js. Puede realizar un seguimiento si tiene instalado node.js.
Sigue estos pasos;
- Cree un nuevo proyecto en su computadora local. Navegue hasta la carpeta y cree un archivo con el nombre script.js. Ejecutamos el código de raspado localmente y mostramos los resultados en nuestra terminal.
- Abra el proyecto en su editor de código favorito. Yo uso VsCode.
- Instala el titiritero. Utilice este comando para;
npm i puppeteer-core
- Agrega este código a
script.js
archivar;
const puppeteer = require('puppeteer-core');
// should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
const auth='USERNAME:PASSWORD';
async function run(){
let browser;
try {
browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});
const page = await browser.newPage();
page.setDefaultNavigationTimeout(2*60*1000);
await page.goto('https://example.com');
const html = await page.evaluate(() => document.documentElement.outerHTML);
console.log(html);
}
catch(e) {
console.error('run failed', e);
}
finally {
await browser?.close();
}
}
if (require.main==module)
run();
- Editar contenido en
const auth='USERNAME:PASSWORD';
con los datos de tu cuenta. Verifique su nombre de usuario, nombre de zona y contraseña en la pestaña «Configuración de acceso». - Introduzca su URL de destino. Para mi caso, quiero obtener datos de todos los autores en geekflare.com, disponibles en https://geekflare.com/authors.
Cambiaré mi código en la línea 10 para que sea el siguiente;
await page.goto('<a href="https://geekflare.com/authors/" target="_blank" rel="noopener">https://geekflare.com/authors/</a>');
Mi código final ahora será;
const puppeteer = require('puppeteer-core');
// should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
const auth='brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c';
async function run(){
let browser;
try {
browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});
const page = await browser.newPage();
page.setDefaultNavigationTimeout(2*60*1000);
await page.goto('https://geekflare.com/authors/');
const html = await page.evaluate(() => document.documentElement.outerHTML);
console.log(html);
}
catch(e) {
console.error('run failed', e);
}
finally {
await browser?.close();
}
}
if (require.main==module)
run();
- Ejecute su código usando este comando;
node script.js
Tendrás algo así en tu terminal
Cómo exportar datos
Puede usar varios enfoques para exportar datos, según cómo planee usarlos. Hoy podemos exportar los datos a un archivo html modificando el script para crear un nuevo archivo llamado data.html en lugar de imprimirlo en la consola.
Puede modificar el contenido de su código de la siguiente manera;
const puppeteer = require('puppeteer-core');
const fs = require('fs');
// should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
const auth = 'brd-customer-hl_bc09fed0-zone-zone2:ug9e03kjkw2c';
async function run() {
let browser;
try {
browser = await puppeteer.connect({ browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222` });
const page = await browser.newPage();
page.setDefaultNavigationTimeout(2 * 60 * 1000);
await page.goto('https://geekflare.com/authors/');
const html = await page.evaluate(() => document.documentElement.outerHTML);
// Write HTML content to a file
fs.writeFileSync('data.html', html);
console.log('Data export complete.');
} catch (e) {
console.error('run failed', e);
} finally {
await browser?.close();
}
}
if (require.main == module) {
run();
}
Ahora puede ejecutar el código usando este comando;
node script.js
Como puede ver en la siguiente captura de pantalla, el terminal muestra un mensaje que dice «exportación de datos completada».
Si revisamos nuestra carpeta de proyecto, ahora podemos ver un archivo llamado data.html
con miles de líneas de código.
Acabo de rascar la superficie de cómo extraer datos usando Browser Scraping. Incluso puedo reducir y eliminar solo los nombres de los autores y sus descripciones usando esta herramienta.
Si desea utilizar Scraping Browser, identifique los conjuntos de datos que desea extraer y modifique el código en consecuencia. Puede extraer texto, imágenes, videos, metadatos y enlaces, según el sitio web al que se dirija y la estructura del archivo HTML.
preguntas frecuentes
El web scraping es un tema controvertido, con un grupo que dice que es inmoral mientras que otros piensan que está bien. La legalidad del raspado web dependerá de la naturaleza del contenido raspado y la política de la página web de destino.
En general, el raspado de datos que contienen información personal, como direcciones y detalles financieros, se considera ilegal. Antes de eliminar datos, compruebe si el sitio al que se dirige tiene alguna directriz. Siempre asegúrese de no eliminar dichos datos que no están disponibles públicamente.
No. Scraping Browser es un servicio de pago. Si se registra para una prueba gratuita, la herramienta le otorga $ 5 de crédito. Los planes pagos comienzan desde $15/GB + $0.1/hr. También puede optar por la opción Pay As You Go a partir de $20/GB + $0.1/h.
Scraping Browser es un navegador inteligente, lo que significa que tiene una interfaz gráfica de usuario (GUI). Por otro lado, los navegadores sin cabeza no tienen una GUI. Los navegadores sin cabeza, como Selenium, se utilizan para automatizar el web scraping, pero a veces están limitados porque tienen que manejar CAPTCHA y detección de bots.
Envoltura
Como se puede ver, navegador raspador simplifica la extracción de datos de las páginas web. Scraping Browser es fácil de usar en comparación con herramientas como Selenium. Incluso los que no son desarrolladores pueden usar este navegador con una interfaz de usuario impresionante y buena documentación. La herramienta tiene capacidades de desbloqueo que no están disponibles en otras herramientas de desguace, lo que la hace efectiva para cualquiera que quiera automatizar tales procesos.
También puede averiguar cómo evitar que los complementos de ChatGPT eliminen contenido de su sitio web.
Si quiere puede hacernos una donación por el trabajo que hacemos, lo apreciaremos mucho.
Direcciones de Billetera:
- BTC: 14xsuQRtT3Abek4zgDWZxJXs9VRdwxyPUS
- USDT: TQmV9FyrcpeaZMro3M1yeEHnNjv7xKZDNe
- BNB: 0x2fdb9034507b6d505d351a6f59d877040d0edb0f
- DOGE: D5SZesmFQGYVkE5trYYLF8hNPBgXgYcmrx
También puede seguirnos en nuestras Redes sociales para mantenerse al tanto de los últimos post de la web:
- Telegram
Disclaimer: En Cryptoshitcompra.com no nos hacemos responsables de ninguna inversión de ningún visitante, nosotros simplemente damos información sobre Tokens, juegos NFT y criptomonedas, no recomendamos inversiones