Cómo utilizar ChatGPT para web scraping mediante complementos e intérprete de código

Publicado por
Comparte en redes sociales


Una guía detallada para el web scraping utilizando ChatGPT Code Interpreter y sus complementos.

Si no le gusta crear algo nuevo, es probable que necesite información previa para comenzar. O tal vez desee buscar información valiosa en la competencia. Además, puede haber innumerables razones por las que alguien esté interesado en el contenido de un sitio web específico.

El web scraping es el proceso que sirve para tales casos de uso.

Y hay varias formas de hacerlo. Existen herramientas pesadas a las que puede suscribirse para realizar un scraping profesional de sitios web grandes. Es posible que también necesite una configuración específica para el procesamiento local.

De cualquier manera, el enfoque es costoso, requiere mucho tiempo y tedioso para los principiantes, especialmente para raspar algunas páginas web.

Presentamos ChatGPT para Web Scraping

Se supone que no debo presentarte ChatGPT. ¿Lo soy?

En resumen, ChatGPT es una IA generativa que responde como humanos. Obtiene una interfaz de chat para pedirle que realice diversas tareas, como preguntar sobre eventos históricos, escribir ensayos, resumir, traducir, codificar, etc.

ChatGPT responde por mensaje de texto. Sin embargo, existen complementos de ChatGPT que mejoran sus capacidades de varias maneras. Y usaremos uno de estos complementos. Además, utilizaremos su intérprete de código para extraer sitios web con estructuras de página web complicadas o con protocolos anti-scraping activos.

Tenga en cuenta que ChatGPT ofrece versiones gratuitas y de pago. Pero necesitarás la suscripción paga (actualmente $20 por mes) para usar el complemento Web Scraper o su motor Code Interpreter.

En otras secciones, ilustraré el proceso paso a paso.

Descargo de responsabilidad: Antes de continuar, confirme que el sitio web en cuestión permite eliminar su contenido. De lo contrario, puede comunicarse con su administrador y ver si lo permiten para evitarle problemas legales.

Web Scraping usando el complemento ChatGPT

Inicie sesión en su Abrir cuenta de IAflotar GPT-4 (su versión paga actual) y haga clic complementos.

complemento-chatgptcryptoshitcompra.com/wp-content/uploads/2023/08/1692985838_995_Como-utilizar-ChatGPT-para-web-scraping-mediante-complementos-e-interprete.jpeg»/>

Luego haga clic en Ningún complemento activadodesplácese hacia abajo y haga clic Tienda de complementos.

tienda de complementos

Tenga en cuenta que en lugar de Ningún complemento activado, tendrá un ícono de complemento si hay uno activo. En este caso, debes hacer clic en este icono para abrir la lista desplegable y hacer clic en la tienda de complementos en la parte inferior.

Esto abrirá la tienda de complementos. Buscar Raspador y golpear Instalar.

Leer también  Cómo deshabilitar Copilot en Windows 11
raspador

Seleccione este complemento en la interfaz ChatGPT.

raspador activado

Una vez seleccionada esta opción, invite a ChatGPT, mencionando la URL del tema y el contenido que se va a eliminar.

He hecho esto para algunos sitios web. Mira esto.

Raspe una publicación

Somos una publicación centrada en la tecnología y elegí nuestra página de inicio, geekflare.com/, para esta ilustración.

Aquí está el mensaje:

check this webpage: https://geekflare.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.
raspado geekflarepng«/>

También se puede volver a solicitar convertir los datos al formato CSV, pegarlos en un archivo de texto con extensión .csv y abrirlo en una hoja de cálculo como MS Excel.

Eliminar una página web de oferta o cupón

La sección de ofertas de Geekflare es donde seleccionamos algunas ofertas sobre proyectos de alta tecnología. ¿Qué tal si obtenemos cada transacción como una matriz?

Prepare a list of deals from this webpage: https://geekflare.com/deals/. present the result in a tabular format.
ofertas geekflare

Rasca Wikipedia

Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page
raspado de wikipedia

Raspado de tiendas de comercio electrónico

Finalmente, intenté eliminar Amazon.com para portátiles aplicando algunos filtros y pasando la URL a ChatGPT. Esto es lo que conseguí:

bloqueador de rayones de amazon

El problema es que éste no es un caso único. Encontrará muchos casos de este tipo en los que los sitios web tienen medidas anti-scraping. En esta situación, necesitará encontrar una alternativa para obtener los datos si suscribirse a raspadores estándar de la industria no es una opción.

Las siguientes secciones presentan una de esas soluciones.

Web Scraping usando el intérprete de código ChatGPT

Code Interpreter es un motor ChatGPT lanzado recientemente para realizar tareas relacionadas con la programación. Si bien el motor predeterminado depende en gran medida de respuestas de texto, Code Interpreter puede ayudar a visualizar resultados, analizar, depurar y ejecutar código, integrarse con archivos binarios de software y hacer muchas más cosas de programación.

Leer también  19 Best Expense Tracking Software for Small and Medium Business Owners [2023]
intérprete de código chatgpt

En este proceso, descargaremos el HTML fuente, lo subiremos al intérprete de código ChatGPT y realizaremos el raspado.

Tomé esta página para la extracción:

muestra de página de amazon

Empezaremos guardando la página web en formato HTML. Para ello acceda a la página web y presione Ctrl+S.

guardar código html

Ahora tenemos el archivo borrador. Veamos el mensaje.

rápido

Además del mensaje de texto, puede ver que le di elementos de muestra para acelerar el raspado. Dado que las estructuras de las páginas web de Amazon son complejas, sin estos ejemplos el intento de raspado podría fracasar o quedar en nada.

Y conseguir estos artículos es bastante sencillo. Haga clic derecho en cualquier lugar de la página web en cuestión y haga clic Inspeccionar popover.

inspeccionar elemento

Primero, haga clic en el icono superior (marcado con 1). Esto resaltará los detalles a medida que seleccione elementos en la página. A continuación, seleccione el elemento contenedor para un producto específico.

selección de elementos

Asegúrese de seleccionar el contenedor más interno. Puede pasar el cursor y seguirá resaltado. En el momento en que obtenga el último shell que cubre este bloque, puede hacer clic e ir al lado derecho para copiar el nombre del elemento. div class.

De manera similar, seleccione muestras para otros elementos.

descargar-html

Finalmente, cargue el código HTML y aparecerá un mensaje similar a este:

check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"

Pasará algún tiempo hasta que ChatGPT Code Interpreter haga su trabajo. Obtendrá algunos detalles, mientras que todo estará en el archivo CSV incrustado.

chatgpt del raspador web

Puede observar que la tabla tiene algunas entradas que no están presentes en la página web original, especialmente al principio. En tales casos, debe volver a verificar y limpiar los datos para detectar cualquier redundancia.

Si es así, puedes volver a pedirle a ChatGPT que obtenga un CSV limpio.

Leer también  13 Work Management Solutions to Sync Your Teams Up

Pensamientos finales

ChatGPT hace muchas cosas y el web scraping básico es una de ellas. De acuerdo, esto puede no ser adecuado para alguien que lee cientos de páginas. Sin embargo, te ayudará a empezar en la dirección correcta y será ideal para una breve sesión de scratching.

En esta guía, utilizamos uno de sus complementos de raspado y Code Interpreter. Si bien los complementos funcionan en muchos sitios web estándar, el segundo método es para estructuras de páginas web personalizadas o si la página tiene elementos dinámicos (desplazamiento sin fin, leer más, etc.).

Y para reiterar, lea los términos del sitio web en cuestión antes de realizar el scrap.

PD: consulte estas soluciones de raspado en la nube y nuestra propia API de raspado Geekflare.



Source link

Si quiere puede hacernos una donación por el trabajo que hacemos, lo apreciaremos mucho.

Direcciones de Billetera:

- BTC: 14xsuQRtT3Abek4zgDWZxJXs9VRdwxyPUS 

- USDT: TQmV9FyrcpeaZMro3M1yeEHnNjv7xKZDNe 

- BNB: 0x2fdb9034507b6d505d351a6f59d877040d0edb0f

- DOGE: D5SZesmFQGYVkE5trYYLF8hNPBgXgYcmrx 

También puede seguirnos en nuestras Redes sociales para mantenerse al tanto de los últimos post de la web:

-Twitter

- Telegram

Disclaimer: En Cryptoshitcompra.com no nos hacemos responsables de ninguna inversión de ningún visitante, nosotros simplemente damos información sobre Tokens, juegos NFT y criptomonedas, no recomendamos inversiones

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *