Una guía detallada para el web scraping utilizando ChatGPT Code Interpreter y sus complementos.
Si no le gusta crear algo nuevo, es probable que necesite información previa para comenzar. O tal vez desee buscar información valiosa en la competencia. Además, puede haber innumerables razones por las que alguien esté interesado en el contenido de un sitio web específico.
El web scraping es el proceso que sirve para tales casos de uso.
Y hay varias formas de hacerlo. Existen herramientas pesadas a las que puede suscribirse para realizar un scraping profesional de sitios web grandes. Es posible que también necesite una configuración específica para el procesamiento local.
De cualquier manera, el enfoque es costoso, requiere mucho tiempo y tedioso para los principiantes, especialmente para raspar algunas páginas web.
Presentamos ChatGPT para Web Scraping
Se supone que no debo presentarte ChatGPT. ¿Lo soy?
En resumen, ChatGPT es una IA generativa que responde como humanos. Obtiene una interfaz de chat para pedirle que realice diversas tareas, como preguntar sobre eventos históricos, escribir ensayos, resumir, traducir, codificar, etc.
ChatGPT responde por mensaje de texto. Sin embargo, existen complementos de ChatGPT que mejoran sus capacidades de varias maneras. Y usaremos uno de estos complementos. Además, utilizaremos su intérprete de código para extraer sitios web con estructuras de página web complicadas o con protocolos anti-scraping activos.
Tenga en cuenta que ChatGPT ofrece versiones gratuitas y de pago. Pero necesitarás la suscripción paga (actualmente $20 por mes) para usar el complemento Web Scraper o su motor Code Interpreter.
En otras secciones, ilustraré el proceso paso a paso.
Descargo de responsabilidad: Antes de continuar, confirme que el sitio web en cuestión permite eliminar su contenido. De lo contrario, puede comunicarse con su administrador y ver si lo permiten para evitarle problemas legales.
Web Scraping usando el complemento ChatGPT
Inicie sesión en su Abrir cuenta de IAflotar GPT-4 (su versión paga actual) y haga clic complementos.
Luego haga clic en Ningún complemento activadodesplácese hacia abajo y haga clic Tienda de complementos.
Tenga en cuenta que en lugar de Ningún complemento activado, tendrá un ícono de complemento si hay uno activo. En este caso, debes hacer clic en este icono para abrir la lista desplegable y hacer clic en la tienda de complementos en la parte inferior.
Esto abrirá la tienda de complementos. Buscar Raspador y golpear Instalar.
Seleccione este complemento en la interfaz ChatGPT.
Una vez seleccionada esta opción, invite a ChatGPT, mencionando la URL del tema y el contenido que se va a eliminar.
He hecho esto para algunos sitios web. Mira esto.
Raspe una publicación
Somos una publicación centrada en la tecnología y elegí nuestra página de inicio, geekflare.com/, para esta ilustración.
Aquí está el mensaje:
check this webpage: https://geekflare.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.
También se puede volver a solicitar convertir los datos al formato CSV, pegarlos en un archivo de texto con extensión .csv y abrirlo en una hoja de cálculo como MS Excel.
Eliminar una página web de oferta o cupón
La sección de ofertas de Geekflare es donde seleccionamos algunas ofertas sobre proyectos de alta tecnología. ¿Qué tal si obtenemos cada transacción como una matriz?
Prepare a list of deals from this webpage: https://geekflare.com/deals/. present the result in a tabular format.
Rasca Wikipedia
Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page
Raspado de tiendas de comercio electrónico
Finalmente, intenté eliminar Amazon.com para portátiles aplicando algunos filtros y pasando la URL a ChatGPT. Esto es lo que conseguí:
El problema es que éste no es un caso único. Encontrará muchos casos de este tipo en los que los sitios web tienen medidas anti-scraping. En esta situación, necesitará encontrar una alternativa para obtener los datos si suscribirse a raspadores estándar de la industria no es una opción.
Las siguientes secciones presentan una de esas soluciones.
Web Scraping usando el intérprete de código ChatGPT
Code Interpreter es un motor ChatGPT lanzado recientemente para realizar tareas relacionadas con la programación. Si bien el motor predeterminado depende en gran medida de respuestas de texto, Code Interpreter puede ayudar a visualizar resultados, analizar, depurar y ejecutar código, integrarse con archivos binarios de software y hacer muchas más cosas de programación.
En este proceso, descargaremos el HTML fuente, lo subiremos al intérprete de código ChatGPT y realizaremos el raspado.
Tomé esta página para la extracción:
Empezaremos guardando la página web en formato HTML. Para ello acceda a la página web y presione Ctrl+S
.
Ahora tenemos el archivo borrador. Veamos el mensaje.
Además del mensaje de texto, puede ver que le di elementos de muestra para acelerar el raspado. Dado que las estructuras de las páginas web de Amazon son complejas, sin estos ejemplos el intento de raspado podría fracasar o quedar en nada.
Y conseguir estos artículos es bastante sencillo. Haga clic derecho en cualquier lugar de la página web en cuestión y haga clic Inspeccionar popover.
Primero, haga clic en el icono superior (marcado con 1). Esto resaltará los detalles a medida que seleccione elementos en la página. A continuación, seleccione el elemento contenedor para un producto específico.
Asegúrese de seleccionar el contenedor más interno. Puede pasar el cursor y seguirá resaltado. En el momento en que obtenga el último shell que cubre este bloque, puede hacer clic e ir al lado derecho para copiar el nombre del elemento. div class
.
De manera similar, seleccione muestras para otros elementos.
Finalmente, cargue el código HTML y aparecerá un mensaje similar a este:
check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.
div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"
Pasará algún tiempo hasta que ChatGPT Code Interpreter haga su trabajo. Obtendrá algunos detalles, mientras que todo estará en el archivo CSV incrustado.
Puede observar que la tabla tiene algunas entradas que no están presentes en la página web original, especialmente al principio. En tales casos, debe volver a verificar y limpiar los datos para detectar cualquier redundancia.
Si es así, puedes volver a pedirle a ChatGPT que obtenga un CSV limpio.
Pensamientos finales
ChatGPT hace muchas cosas y el web scraping básico es una de ellas. De acuerdo, esto puede no ser adecuado para alguien que lee cientos de páginas. Sin embargo, te ayudará a empezar en la dirección correcta y será ideal para una breve sesión de scratching.
En esta guía, utilizamos uno de sus complementos de raspado y Code Interpreter. Si bien los complementos funcionan en muchos sitios web estándar, el segundo método es para estructuras de páginas web personalizadas o si la página tiene elementos dinámicos (desplazamiento sin fin, leer más, etc.).
Y para reiterar, lea los términos del sitio web en cuestión antes de realizar el scrap.
PD: consulte estas soluciones de raspado en la nube y nuestra propia API de raspado Geekflare.
Si quiere puede hacernos una donación por el trabajo que hacemos, lo apreciaremos mucho.
Direcciones de Billetera:
- BTC: 14xsuQRtT3Abek4zgDWZxJXs9VRdwxyPUS
- USDT: TQmV9FyrcpeaZMro3M1yeEHnNjv7xKZDNe
- BNB: 0x2fdb9034507b6d505d351a6f59d877040d0edb0f
- DOGE: D5SZesmFQGYVkE5trYYLF8hNPBgXgYcmrx
También puede seguirnos en nuestras Redes sociales para mantenerse al tanto de los últimos post de la web:
- Telegram
Disclaimer: En Cryptoshitcompra.com no nos hacemos responsables de ninguna inversión de ningún visitante, nosotros simplemente damos información sobre Tokens, juegos NFT y criptomonedas, no recomendamos inversiones