Rencontrez Chameleon : une prise | Groupe de cordons de raccordement Jilin

Les grands modèles de langage récents (LLM) pour diverses tâches de PNL ont fait des progrès remarquables, avec des exemples notables étant GPT-3, PaLM, LLaMA, ChatGPT et le GPT-4 proposé plus récemment. Ces modèles sont très prometteurs pour la planification et la prise de décisions similaires à celles des humains, car ils peuvent résoudre diverses tâches dans des situations sans coup sûr ou à l'aide de quelques instances. Les compétences émergentes, y compris l'apprentissage en contexte, le raisonnement mathématique et la pensée de bon sens, sont démontrées par les LLM. Cependant, les LLM ont des contraintes intégrées, telles que l'incapacité d'utiliser des outils externes, d'accéder aux informations actuelles ou de raisonner mathématiquement avec précision.

Un domaine de recherche en cours se concentre sur l'amélioration des modèles linguistiques avec accès à des outils et ressources externes et sur l'étude de l'intégration d'outils extérieurs et de stratégies modulaires plug-and-play pour résoudre ces contraintes des LLM. Des recherches récentes utilisent des LLM pour construire des programmes complexes qui résolvent plus efficacement les problèmes de raisonnement logique et exploitent de solides ressources informatiques pour améliorer les capacités de raisonnement mathématique. Par exemple, avec l'aide de sources de connaissances externes et de moteurs de recherche en ligne, les LLM peuvent acquérir des informations en temps réel et utiliser des connaissances spécifiques à un domaine. Une autre ligne de recherche actuelle, notamment ViperGPT, Visual ChatGPT, VisProg et HuggingGPT, intègre plusieurs modèles de vision par ordinateur de base pour donner aux LLM les compétences nécessaires pour gérer les problèmes de raisonnement visuel.

Malgré des progrès substantiels, les LLM enrichis d'outils d'aujourd'hui rencontrent encore des obstacles majeurs lorsqu'ils répondent aux demandes du monde réel. La plupart des techniques actuelles sont limitées à un ensemble restreint d'outils ou reposent sur des dispositifs particuliers pour un domaine donné, ce qui rend difficile leur généralisation à différentes enquêtes. La figure 1 illustre ceci : "Quel est le principal moyen de persuasion utilisé dans cette annonce ?" 1) Supposons qu'une image publicitaire a un contexte textuel et appelons un décodeur de texte pour comprendre la sémantique pour répondre à cette requête ; 2) trouver des informations de base pour expliquer ce qu'est un « attrait persuasif » et en quoi les différents types diffèrent ; 3) trouver une solution en utilisant les indices de la question d'entrée et les résultats intermédiaires des phases précédentes ; et 4) enfin, présenter la réponse d'une manière spécifique à la tâche.

D'autre part, tout en répondant à la question "Quel animal a la peau adaptée pour survivre dans des endroits froids", il peut être nécessaire de contacter des modules supplémentaires, tels qu'un sous-titreur d'image pour analyser les informations sur les images et un moteur de recherche Web pour collecter des connaissances sur le domaine afin de appréhender la terminologie scientifique. Des chercheurs de l'UCLA et de Microsoft Research proposent Chameleon, un cadre de raisonnement compositionnel plug-and-play qui utilise d'énormes modèles de langage pour résoudre ces problèmes. Chameleon peut synthétiser des programmes pour créer divers outils permettant de répondre à plusieurs questions.

Chameleon est un planificateur de langage naturel qui s'appuie sur un LLM. Contrairement aux méthodes conventionnelles, il utilise divers outils, tels que des LLM, des modèles de vision par ordinateur prédéfinis, des moteurs de recherche en ligne, des fonctions Python et des modules basés sur des règles conçus pour un objectif particulier. Chameleon génère ces programmes en utilisant les capacités d'apprentissage en contexte des LLM et ne nécessite aucune formation. Le planificateur peut déduire l'ordre approprié des outils à composer et à exécuter pour fournir la réponse finale à une demande d'utilisateur, motivée par des descriptions de chaque outil et des exemples d'utilisation d'outils.

Chameleon crée des programmes qui ressemblent au langage naturel, contrairement aux efforts antérieurs qui faisaient des programmes spécifiques à un domaine. Ces programmes sont moins sujets aux erreurs, plus simples à déboguer, plus conviviaux pour les personnes ayant peu de connaissances en programmation et extensibles pour inclure de nouveaux modules. Chaque module du programme exécute, traite et met en cache la requête et le contexte, renvoie une réponse choisie par le module et modifie la requête et le contexte stocké pour les exécutions de module à venir. En composant des modules sous la forme d'un programme séquentiel, des requêtes mises à jour et un contexte précédemment mis en cache peuvent être utilisés tout au long de l'exécution des modules suivants. Sur deux tâches, ScienceQA et TabMWP, ils démontrent la flexibilité et la puissance de Chameleon.

TabMWP est une référence mathématique comprenant de nombreux contextes tabulaires, tandis que ScienceQA est une référence multimodale de questions-réponses englobant de nombreux formats de contexte et thèmes scientifiques. L'efficacité de la capacité de Chameleon à coordonner divers outils dans différents types et domaines peut être testée à l'aide de ces deux critères de référence. Notamment, Chameleon avec GPT-4 obtient une précision de 86,54 % sur ScienceQA, surpassant le modèle à quelques coups le mieux rapporté d'un facteur de 11,37 %. Chameleon offre une amélioration de 7,97 % par rapport au CoT GPT-4 et une augmentation de 17,8 % par rapport au modèle de pointe sur TabMWP utilisant GPT-4 comme LLM sous-jacent, ce qui donne une précision totale de 98,78 %.

Par rapport aux LLM précédents comme ChatGPT, d'autres recherches suggèrent que l'utilisation de GPT-4 en tant que planificateur démontre une sélection d'outils plus cohérente et logique et peut déduire des restrictions probables compte tenu des instructions. Leurs brèves contributions sont les suivantes : (1) Ils créent Chameleon, un cadre de raisonnement compositionnel plug-and-play, pour résoudre les limites inhérentes aux énormes modèles de langage et entreprendre diverses tâches de raisonnement. (2) Ils combinent efficacement plusieurs technologies, y compris les LLM, les modèles de vision commerciale, les moteurs de recherche en ligne, les fonctions Python et les modules basés sur des règles, pour créer un système d'IA flexible et adaptatif pour répondre aux demandes du monde réel. (3) Ils font considérablement progresser l'état de l'art en démontrant la flexibilité et l'efficacité du framework sur deux benchmarks, ScienceQA et TabMWP. La base de code est accessible au public sur GitHub.

VérifiezPapier,Projet,etGithubGenericName . N'oubliez pas de rejoindrenotre sous-reddit 19k+ ML,Chaîne discorde, etCourriel , où nous partageons les dernières nouvelles sur la recherche en IA, des projets d'IA sympas, et plus encore. Si vous avez des questions concernant l'article ci-dessus ou si nous avons manqué quelque chose, n'hésitez pas à nous envoyer un courriel à[email protected]

🚀 Découvrez les outils d'intelligence artificielle de 100 dans AI Tools Club

Aneesh Tickoo est consultante stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l'Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l'apprentissage automatique. Son intérêt de recherche est le traitement d'images et est passionné par la construction de solutions autour de celui-ci. Il aime se connecter avec les gens et collaborer sur des projets intéressants.

Figure 1 : Projet papier, Github notre 19k+ ML SubReddit Discord Channel Email Newsletter [email protected] 🚀 Découvrez 100's AI Tools dans AI Tools Club