La différence entre le grand modèle d'inférence et le grand modèle ordinaire

Quel est le modèle d’inférence ?

   Le 12 septembre 2024, OpenAI a officiellement annoncé le modèle de raisonnement OpenAI o1. OpenAI affirme que la capacité de raisonnement du modèle OpenAI o1 a été considérablement améliorée par rapport au modèle de langage étendu actuel (GPT-4o). L'entraînement du modèle OpenAI o1 utilisant une nouvelle méthode d'apprentissage de l'IA, mettant l'accent sur l'importance du processus de « chaîne de pensée » et de l'apprentissage par renforcement, a conduit à une amélioration significative de la logique et du raisonnement mathématiques. On a commencé à l'appeler « apprentissage par renforcement ».Le grand modèle avec processus de réflexion est le grand modèle de raisonnement.

   Sur le site officiel d'OpenAI, OpenAI définit les modèles de raisonnement comme une réflexion avant de répondre, etGénérez une longue chaîne de processus de réflexion en interne avant de répondre à l'utilisateur.L'enchaînement de pensées permet d'inciter un grand modèle de langage à raisonner étape par étape. Il permet au modèle d'écrire explicitement les étapes intermédiaires du raisonnement avant d'atteindre la réponse finale. C'est comme lorsque les humains résolvent des problèmes complexes, ils notent d'abord leur processus de réflexion. Autrement dit, si le modèle suit une longue chaîne de raisonnement avant de vous répondre (ce processus doit pouvoir afficher un résultat) et fournit une réponse après avoir exploré de nombreuses pistes, alors un grand modèle doté de cette capacité est un grand modèle raisonnant.

   Bien qu’il n’existe pas de définition formelle,À l’heure actuelle, il existe un consensus dans l’industrie de l’IA et dans le monde universitaire selon lequel le cœur du modèle de raisonnement est de traiter ceux qui nécessitent une déduction logique en plusieurs étapes.Des problèmes complexes qui peuvent être résolus.

Raisonnement LLM En quoi est-il différent du modèle standard large (Standard LLM) ?

Prenons un exemple simple :

Questions non inférentielles : Donnez la réponse directement sans aucun raisonnement (Où se trouve la capitale de la Corée du Sud ?)

Problèmes de raisonnement : Il faut d'abord comprendre le problème et la relation entre eux, puis résoudre le problème correspondant étape par étape (un train de camions a roulé à 96 km/h pendant 4 heures. Quelle distance a-t-il parcourue au total ?). Il faut ensuite comprendre le problème mathématique « distance = vitesse * temps ».

Un modèle de langage ordinaire (LLM) peut produire directement une réponse courte (comme « 240 kilomètres »), tandis que la caractéristique du modèle de raisonnement est de montrer le processus de dérivation intermédiaire.

Étape 1 : Identifier le type de problème (vitesse, temps et distance)

Étape 2 : Appliquez la formule distance = vitesse x temps

Étape 3 : Insérez les chiffres et calculez 60 mph × 4 heures = 240 miles

 

Comment choisir le grand modèle approprié pour différentes scènes ?

Les modèles de raisonnement sont efficaces pour résoudre des tâches complexes telles que les énigmes, les problèmes mathématiques et les tâches de codage complexes, mais ils ne sont pas toujours nécessaires ni efficaces pour des tâches plus simples comme la synthèse, la traduction ou la réponse à des questions basées sur les connaissances. Utiliser des modèles de raisonnement pour chaque tâche peut s'avérer inefficace et source d'erreurs. Autrement dit, toutes les tâches de scénario ne sont pas adaptées au raisonnement sur de grands modèles ; il est donc particulièrement important de choisir le modèle le plus adapté à chaque scénario. Voici quelques points de vue et résumés à titre de référence.

Caractéristiques

Grand modèle standard (LLM standard)

Raisonnement sur les grands modèles(Raisonnement LLM)

Scénarios applicables

Génération de texte, traduction, résumé, réponses aux questions de connaissances de base

Raisonnement complexe, résolution d'énigmes, mathématiques, défis de codage

Compétences en résolution de problèmes complexes

En général, il est difficile de gérer des problèmes complexes comportant plusieurs étapes.

Excellent, capable de réfléchir profondément et de raisonner logiquement

Domaines de travail spécialisés

Rédiger des communiqués de presse, traduire des articles, générer des descriptions de produits, répondre à des questions de culture générale

Résolvez des énigmes logiques complexes, écrivez des algorithmes complexes, des preuves mathématiques

Efficacité opérationnelle

Réponse plus élevée et plus rapide, et consommation de ressources relativement moindre

Faible, temps d'inférence long, consommation de ressources élevée

Généralisation/universalité

Relativement faible, plus dépendant des données d'entraînement

Plus fort et mieux capable de s'adapter aux nouveaux problèmes et aux scénarios inconnus

Risque d'hallucinations/distorsion des données

Plus bas, plus dépendant des connaissances et des modèles connus

Plus élevé, peut donner de mauvaises réponses en raison d'une « réflexion excessive »

Contrôle des coûts

Généralement plus bas

Généralement plus élevé

 

Les grands modèles d’inférence doivent généralement être formés et renforcés.Il existe actuellement quatre méthodes principales pour former de grands modèles d'inférence : l'expansion du temps d'inférence, l'apprentissage par renforcement pur, le réglage fin supervisé combiné à l'apprentissage par renforcement, et le réglage fin supervisé pur et la distillation.Cette partie du contenu est plus professionnelle et approfondie. Les amis intéressés peuvent consulter d'autres textes ou articles officiels. Nous ne fournirons pas plus de détails pour le moment.

 

Partagez cet article

La différence entre le grand modèle d'inférence et le grand modèle ordinaire

Copier le lien

Table des matières