A diferença entre o modelo grande de inferência e o modelo grande comum O que é o modelo de inferência? Em 12 de setembro de 2024, a OpenAI anunciou oficialmente o modelo de raciocínio OpenAI o1. A OpenAI afirma que a capacidade de raciocínio do modelo OpenAI o1 foi significativamente aprimorada em comparação com o atual modelo de linguagem de grande porte (GPT-4o). Como o treinamento do modelo OpenAI o1 utiliza um novo método de treinamento de IA, enfatizando a importância do processo de "cadeia de pensamento" e do aprendizado por reforço, ele levou a uma melhoria significativa na lógica e no raciocínio matemático. As pessoas começaram a chamá-lo deO grande modelo com processo de pensamento é o grande modelo de raciocínio. No site oficial da OpenAI, a OpenAI define modelos de raciocínio como pensar antes de responder eGere uma longa cadeia de processos de pensamento internamente antes de responder ao usuário.O encadeamento de pensamentos é uma maneira de induzir um modelo de linguagem grande a raciocinar passo a passo. Ele permite que o modelo anote explicitamente as etapas intermediárias do raciocínio antes de chegar à resposta final. É como quando humanos resolvem problemas complexos, eles primeiro anotam seu processo de pensamento. Em outras palavras, se o modelo tem uma longa cadeia de processos de pensamento antes de responder (esse processo deve ser capaz de exibir a saída) e fornece uma resposta após explorar muitos caminhos diferentes, então um modelo grande com essa capacidade é um modelo de raciocínio grande. Embora não haja uma definição formal,Atualmente, há um consenso na indústria e na academia de IA de que o núcleo do modelo de raciocínio é lidar com aqueles que exigem dedução lógica em várias etapas.Problemas complexos que podem ser resolvidos.LLM em Raciocínio Qual a diferença em relação ao Modelo Grande Padrão (LLM Padrão)?Vejamos um exemplo simples:Perguntas não inferenciais: Dê a resposta diretamente, sem qualquer raciocínio (Onde fica a capital da Coreia do Sul?)Problemas de raciocínio: você precisa primeiro entender qual é o problema e qual a relação entre eles, e então resolver o problema correspondente passo a passo (um trem de vagões viajou a uma velocidade de 96 km/h durante 4 horas. Qual a distância total percorrida?). Depois, você precisa primeiro entender o problema matemático "distância = velocidade * tempo".Um modelo de linguagem grande comum (LLM) pode gerar diretamente uma resposta curta (como "240 quilômetros"), enquanto a característica do modelo de raciocínio é mostrar o processo de derivação intermediário.Etapa 1: Identifique o tipo de problema (velocidade, tempo e distância)Etapa 2: Aplique a fórmula distância = velocidade x tempoEtapa 3: insira os números e calcule 60 mph × 4 horas = 240 milhas Como escolher o modelo grande apropriado para diferentes cenas?Modelos de raciocínio são bons para resolver tarefas complexas, como quebra-cabeças, problemas matemáticos e tarefas desafiadoras de codificação, mas nem sempre são necessários ou eficientes para tarefas mais simples, como sumarização, tradução ou resposta a perguntas baseadas em conhecimento. Usar modelos de raciocínio para todas as tarefas pode ser ineficiente e propenso a erros. Em outras palavras, nem todas as tarefas de cenário são adequadas para raciocinar com modelos grandes, por isso é particularmente importante escolher o modelo grande certo para diferentes cenários. A seguir, algumas visualizações e resumos para referência.CaracterísticasModelo Grande Padrão (LLM Padrão)Raciocínio sobre grandes modelos(Raciocínio LLM)Cenários aplicáveisGeração de texto, tradução, sumarização, resposta a perguntas de conhecimentos básicosRaciocínio complexo, resolução de quebra-cabeças, matemática, desafios de codificaçãoHabilidades de resolução de problemas complexosGeralmente, é difícil lidar com problemas complexos com várias etapasExcelente, capaz de pensar profundamente e raciocinar logicamenteÁreas especializadas de trabalhoEscrever comunicados de imprensa, traduzir artigos, gerar descrições de produtos, responder a perguntas de conhecimentos geraisResolver quebra-cabeças lógicos complexos, escrever algoritmos complexos e provas matemáticasEficiência operacionalResposta mais alta e mais rápida e consumo de recursos relativamente menorTempo de inferência baixo e longo, alto consumo de recursosGeneralização/universalidadeRelativamente fraco, mais dependente de dados de treinamentoMais fortes e mais capazes de se adaptar a novos problemas e cenários desconhecidosRisco de alucinações/distorção de dadosMenor, mais dependente de conhecimento e padrões conhecidosMais alto, pode dar respostas erradas devido a "pensar demais"Controle de custosGeralmente mais baixoGeralmente mais alto Grandes modelos de inferência geralmente precisam ser treinados e fortalecidos.Atualmente, existem quatro métodos principais para treinar grandes modelos de inferência: expansão de tempo de inferência, aprendizado por reforço puro, ajuste fino supervisionado combinado com aprendizado por reforço e ajuste fino supervisionado puro e destilação.Esta parte do conteúdo é mais profissional e aprofundada. Amigos interessados podem ler mais textos ou artigos oficiais. Mais detalhes não serão repetidos por enquanto.