Vous souhaitez créer vos propres applications d’IA générative ? Voici une liste de modèles d’IA pour vous aider à démarrer.
Modèles d’IA sont des architectures de réseaux neuronaux qui fonctionnent extrêmement bien sur des tâches spécifiques. Ceux-ci incluent des architectures de réseaux neuronaux convolutifs pour la classification et la segmentation d’images, des modèles de langage étendus génératifs pré-entraînés, des modèles de diffusion pour les tâches de génération d’images et
Récemment, les modèles d’IA pour les applications d’IA générative (pour l’image, la parole, le texte, etc.) sont devenus très populaires. Cela est dû à la fois aux progrès de la recherche et à l’accès au calcul haute performance.
Voici un bref résumé des modèles d’IA populaires dont je parlerai ci-dessous.
Modèle | Capacités clés |
---|---|
GPT-4 | Un grand modèle de langage open source peut être utilisé pour créer des applications basées sur LLM |
Lama | Variété d’applications PNL, des chatbots aux assistants de codage |
Faucon | Un grand modèle de langage open source peut être utilisé pour créer des applications basées sur LLM |
Diffusion stable | Conversion de texte en image, inpainting, outpainting et mise à l’échelle d’images |
DALL-E2 | Génération de texte en image |
Chuchoter | Reconnaissance vocale, traduction linguistique et détection de langue |
StableLM | Grand modèle de langage léger et open source |
AGRAFE | Une variété de tâches PNL, telles que la réponse aux questions, la synthèse et la génération de texte |
StagiaireLM | Un grand modèle de langage open source ; peut être utilisé pour créer des applications basées sur LLM |
Segmenter n’importe quel modèle | Généralisation Zero-shot pour une variété de tâches de segmentation d’images |
VagueGAN | Génération audio |
CycleGAN et pix2pix | Traduction d’image à image |
BioGPT | Génération et exploration de textes biomédicaux |
De l’art de l’IA à la création d’un assistant de codage personnalisé, vous pouvez créer une gamme d’applications d’IA générative en fonction de vos intérêts. Nous répertorions ici quelques modèles d’IA intéressants que vous pouvez explorer, ainsi que leurs principales capacités.
Commençons!
GPT-4
De la génération de l’itinéraire pour vos prochains projets de voyage à la rédaction de lettres de motivation adaptées à la description de poste, ChatGPT fait désormais partie de nos tâches quotidiennes. GPT-4son successeur, est un grand modèle de langage encore plus puissant.
Il s’agit du système d’IA le plus puissant d’OpenAI, avec de meilleures capacités de raisonnement et de meilleures performances que ChatGPT.
Voici une présentation technique sur le fonctionnement de GPT-4 et sur la façon dont vous pouvez créer des applications avec.
Vous pouvez accéder à l’interface ChatGPT avec un compte OpenAI gratuit. Cependant, pour accéder à GPT-4, vous devez disposer d’un abonnement ChatGPT Plus.
Voici quelques applications que vous pouvez créer avec ces grands modèles de langage :
- Chatbots personnalisés
- Améliorer les plateformes CRM
- Questions-réponses sur un corpus personnalisé
- Autres tâches comme le résumé et la génération de texte
Ensuite, nous passerons en revue quelques grands modèles de langage open source.
Lama
Sortie de la méta-IA Lama, un grand modèle de langage fondamental avec 65 B de paramètres, en février 2023. Par la suite, LLama 2 a été publié avec des améliorations substantielles par rapport à la version précédente. Vous pouvez accéder aux éléments suivants :
- Chat de lama : Lama 2 affiné
- Code Llama : construit sur Llama 2 ; formé sur plus de 500 milliards de jetons de code ; prend en charge la génération de code dans tous les langages de programmation les plus populaires
Vous pouvez télécharger et utiliser les modèles Lama en demander l’accès. Consultez ce tutoriel pour apprendre à utiliser LLama 2 dans vos applications Python :
Faucon
Faucon est encore un autre modèle de langage open source du Technology Innovation Institute (UAE). Tous les modèles de la suite Falcon LLM sont open source et sont disponibles en libre accès. Vous pouvez donc les utiliser pour créer des applications basées sur LLM.
Actuellement, il existe quatre tailles de modèles : 1,3B, 7,5B, 40B et 180B. pour mieux fonctionner que sur plusieurs benchmarks, le modèle 180B a été formé sur un ensemble de données de 3,5T de jetons. Le Falcon LLM fonctionne à égalité avec les autres LLM open source de premier plan.
Le LLM open source Falcon 180B atteint des performances proches de celles du GPT-4. Consultez ce didacticiel qui couvre le Falcon 180B, comment vous pouvez l’utiliser, la configuration matérielle requise et comment le comparer à GPT-4 :
Diffusion stable
Diffusion stable un modèle texte-image pour la génération d’images et d’autres applications créatives d’IA. Il peut également être utilisé pour la mise à l’échelle et l’inpainting d’images.
Diffusion stable XLsorti en juillet 2023, propose plusieurs améliorations, notamment :
- générer des images descriptives à partir d’invites beaucoup plus courtes
- la possibilité de générer du texte de support dans les images
- tâches d’inpainting et d’outpainting d’images
- interagir avec une image sourcée pour générer des variantes
Si vous souhaitez découvrir le fonctionnement des modèles de diffusion (la méthode derrière la magie), consultez Comment fonctionnent les modèles de diffusionun cours gratuit de DeepLearning.AI.
DALL-E2
DALL-E2 d’Open AI est un autre modèle de génération de texte en image populaire. Vous pouvez l’utiliser pour générer des images et des illustrations réalistes à partir d’un texte – une description en langage naturel.
Il peut être utilisé pour les tâches suivantes :
- génération d’images à partir d’invites de texte
- inpainting et outpainting d’images
- générer des variations d’une image
Vous pouvez accéder à DALL-E 2 via l’API OpenAI ou le Interface Web des laboratoires OpenAI.
Chuchoter
IA ouverte Chuchoter est un modèle de reconnaissance vocale qui peut être utilisé pour une multitude d’applications, notamment :
- identification de la langue
- tâches de reconnaissance vocale telles que la transcription de fichiers audio
- traduction de discours
Voici un tutoriel sur la façon de convertir la parole en texte à l’aide de l’API OpenAI Whisper :
Pour essayer le modèle, vous pouvez installer Whisper (openai-whisper
) en utilisant pip et en accédant à l’API depuis un script Python pour transcrire des fichiers audio. De plus, vous pouvez utiliser d’autres modèles de langage volumineux pour résumer la transcription et créer un fichier audio → pipeline de résumé.
StableLM
StableLM est une suite LLM open source de Stability AI. Les paramètres 3B et 7B sont actuellement disponibles. Les versions ultérieures incluront des modèles plus grands avec des paramètres 15B – 65B.
Ainsi, si vous souhaitez expérimenter des LLM légers et open source dans vos applications, vous pouvez essayer StableLM.
AGRAFE
AGRAFE représente Pré-formation contrastée langage-image. Il s’agit d’un réseau de neurones, un modèle multimodal, formé sur un vaste ensemble de données de paires (texte, image). Le modèle exploite les données en langage naturel et tente d’apprendre, à partir des descriptions en langage naturel, la sémantique des images. Le modèle CLIP est capable de prédire le texte le plus pertinent pour une image.
Avec CLIP, vous pouvez effectuer une classification d’images sans prise de vue, sans pré-formation ni réglage coûteux. De plus, vous pouvez tirer parti des capacités des bases de données CLIP et vectorielles pour créer des applications intéressantes dans :
- recherche texte-image et image-image
- recherche d’image inversée
Segmenter n’importe quel modèle
La segmentation d’image consiste à identifier les pixels appartenant à un objet spécifique dans une image. Sortie de la méta-IA Modèle de segmentation n’importe quoi (SAM) qui peut être utilisé pour segmenter n’importe quelle image et en découper des objets.
Vous pouvez utiliser des invites pour spécifier quoi segmenter dans une image. SAM prend actuellement en charge les invites suivantes : cadres de délimitation, masques et points de premier plan et d’arrière-plan. Le modèle offre également d’excellentes performances de généralisation zéro-shot sur des images inédites. Aucune formation explicite n’est donc requise.
Essayez le Modèle SAM dans votre navigateur!
StagiaireLM
StagiaireLM est un modèle de langage open source. Vous pouvez essayer le modèle de base 7B et le modèle de chat open source. Le modèle prend en charge une fenêtre contextuelle de 8K. De plus, InternLM prend en charge les capacités d’interpréteur de code et d’appel de fonctions.
InternLM est également disponible dans HuggingFace transformers
bibliothèque. Vous pouvez tirer parti du cadre léger de pré-formation. Il prend également en charge la création et le déploiement d’applications à l’aide de Déploiement LMD. Ainsi, vous pouvez créer des applications NLP génératives de bout en bout avec InternLM.
VagueGAN
VagueGAN est un modèle de génération audio. Il permet de synthétiser l’audio brut à partir d’échantillons de données audio réelles.
Vous pouvez entraîner WaveGAN sur un ensemble de données de fichiers audio arbitraires et synthétiser de l’audio sans prétraitement approfondi.
CycleGAN et Pix2Pix
Jusqu’à présent, nous avons couvert la parole en texte, la conversion texte en image et d’autres modèles pour diverses tâches de traitement du langage naturel. Mais que se passe-t-il si vous souhaitez effectuer une traduction d’image à image ? Ici, vous pouvez utiliser CycleGAN pour apprendre un mappage du domaine source vers le domaine cible afin d’effectuer une traduction d’image à image.
Par exemple, étant donné l’image d’un lac en hiver, vous souhaiterez peut-être traduire la même image lorsque la saison est l’été. A l’image d’un cheval, vous souhaiterez peut-être remplacer le cheval par un zèbre tout en conservant le même fond. CycleGAN est bien adapté à de telles tâches.
Le modèle pix2pix peut être utilisé pour la traduction d’image à image ; les principales capacités du modèle comprennent :
- reconstruire des objets à partir de cartes de contours et
- coloriser les images
Vous pouvez trouver les implémentations PyTorch de CycleGAN et pix2pix sur GitHub.
BioGPT
BioGPT de Microsoft est un modèle de transformateur que vous pouvez utiliser pour les applications d’exploration de données biomédicales et de génération de texte. Il utilise les implémentations de modèles séquence à séquence fournies par justeseq.
Fairseq de la recherche Facebook (maintenant Meta AI) est une boîte à outils qui fournit des implémentations de modèles séquence à séquence pour des tâches telles que :
- modélisation du langage
- traduction
- récapitulation
Les deux modèles pré-entraînés et des points de contrôle de modèles affinés sont disponibles. Vous pouvez télécharger le modèle soit à partir de l’URL, soit depuis le hub HuggingFace.
Les modèles BioGPT font également partie du HuggingFace transformers
bibliothèque. Ainsi, si vous travaillez dans le domaine biomédical, vous pouvez utiliser BioGPT pour créer des applications spécifiques à un domaine.
Emballer
J’espère que vous avez trouvé quelques modèles utiles avec lesquels vous pouvez créer des applications d’IA générative. Bien que cette liste ne soit pas exhaustive, nous avons couvert certains des modèles les plus populaires que vous pouvez utiliser pour créer des applications de génération de texte et d’audio, de transcription parole-texte, de recherche d’images, etc.
Lorsque vous créez des applications à l’aide de modèles de langage volumineux, vous devez être conscient des pièges courants, tels que les informations factuellement incorrectes et les hallucinations. Et vous pouvez être confronté à des limites lors du réglage fin des modèles, car le processus de réglage fin est souvent gourmand en ressources.
Donc, si vous êtes développeur, il est temps de rejoindre la révolution de l’IA et de commencer à créer des applications d’IA intéressantes ! Vous pouvez essayer ces modèles dans Google Colab ou d’autres blocs-notes collaboratifs de science des données.
Si quiere puede hacernos una donación por el trabajo que hacemos, lo apreciaremos mucho.
Direcciones de Billetera:
- BTC: 14xsuQRtT3Abek4zgDWZxJXs9VRdwxyPUS
- USDT: TQmV9FyrcpeaZMro3M1yeEHnNjv7xKZDNe
- BNB: 0x2fdb9034507b6d505d351a6f59d877040d0edb0f
- DOGE: D5SZesmFQGYVkE5trYYLF8hNPBgXgYcmrx
También puede seguirnos en nuestras Redes sociales para mantenerse al tanto de los últimos post de la web:
- Telegram
Disclaimer: En Cryptoshitcompra.com no nos hacemos responsables de ninguna inversión de ningún visitante, nosotros simplemente damos información sobre Tokens, juegos NFT y criptomonedas, no recomendamos inversiones