BeInCrypto se incluyó en un conjunto de datos para entrenar y mejorar herramientas de inteligencia artificial (IA) como ChatGPT, según un análisis reciente.
BeInCrypto se ha incluido en un enorme conjunto de datos de entrenamiento de IA llamado C4. El Washington Post y el Instituto Allen para la IA estudiaron recientemente el conjunto de datos C4 de Google para determinar qué sitios estaban potenciando las herramientas de IA.
Muchos modelos de lenguaje grandes han utilizado C4 (que significa Colossal Clean Crawled Corpus) como herramienta de enseñanza. Sin embargo, ChatGPT de Open AI no utiliza este conjunto de datos.
Ayudar a la IA a replicar el lenguaje humano
Los modelos de lenguaje grande como C4 y el empleado por ChatGPT, «raspan» Internet en busca de contenido para incluir en su modelo. El gran tamaño del conjunto de datos permite que la IA imite el habla humana.
el poste de washington ordenado Los sitios web de C4 utilizan datos de la empresa de análisis web, Similarweb. Luego, clasificaron los 10 millones de sitios web principales según la cantidad de «tokens» que contribuyeron.
Los tokens se refieren a fragmentos cortos de texto que se utilizan para dar sentido a datos no estructurados, que generalmente consisten en una palabra o frase.
Los tres mayores contribuyentes al conjunto de datos fueron patents.google.com, wikipedia.org y scribd.com, una biblioteca digital basada en suscripción. Y las organizaciones de noticias dominaron los primeros lugares, con Guardian, New York Times, Forbes, LA Times y Huffington Post ocupando los 10 primeros.
Los datos de C4 se analizaron por primera vez en 2019
Otros sitios web que se destacan en gran medida incluyen Instructables, una plataforma en línea para compartir instrucciones y procedimientos de bricolaje. Y los investigadores también encontraron al menos otros 27 sitios identificados por el gobierno de los Estados Unidos como mercados para la piratería y la falsificación.
C4 nació como un rasguño único de la organización sin fines de lucro Rastreo común en 2019. Le dijeron al Washington Post que no intenta evitar el material con licencia o con derechos de autor. Sin embargo, trate de priorizar sitios web de alta calidad y buena reputación donde los datos se puedan usar y analizar de forma gratuita.
A medida que la tecnología de IA continúa amenazando a varias industrias, el raspado de contenido para modelos de lenguajes grandes se ha vuelto cada vez más controvertido, particularmente en las industrias con mayor riesgo de IA.
Las empresas de formación en IA no compensan a los creadores de contenido por usar su trabajo. Además, los artistas recientemente atacaron las herramientas de imágenes de IA Midjourney y Stable Diffusion con una demanda por derechos de autor. Y la demanda alega que las herramientas de arte generativo de IA violan la ley de derechos de autor al copiar el trabajo de los artistas sin su consentimiento.
Descargo de responsabilidad
De conformidad con las pautas del Trust Project, BeInCrypto se compromete a proporcionar informes imparciales y transparentes. Este artículo tiene como objetivo proporcionar información precisa y oportuna. Sin embargo, se recomienda a los lectores que verifiquen los hechos de forma independiente y consulten a un profesional antes de tomar cualquier decisión basada en este contenido.
Si quiere puede hacernos una donación por el trabajo que hacemos, lo apreciaremos mucho.
Direcciones de Billetera:
- BTC: 14xsuQRtT3Abek4zgDWZxJXs9VRdwxyPUS
- USDT: TQmV9FyrcpeaZMro3M1yeEHnNjv7xKZDNe
- BNB: 0x2fdb9034507b6d505d351a6f59d877040d0edb0f
- DOGE: D5SZesmFQGYVkE5trYYLF8hNPBgXgYcmrx
También puede seguirnos en nuestras Redes sociales para mantenerse al tanto de los últimos post de la web:
- Telegram
Disclaimer: En Cryptoshitcompra.com no nos hacemos responsables de ninguna inversión de ningún visitante, nosotros simplemente damos información sobre Tokens, juegos NFT y criptomonedas, no recomendamos inversiones