Início Ciência e tecnologia Pesquisadores do Alibaba revelam Marco-o1, um LLM com capacidades avançadas de raciocínio

Ciência e tecnologia

Pesquisadores do Alibaba revelam Marco-o1, um LLM com capacidades avançadas de raciocínio

Por

28 Novembro 2024

Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais

O recente lançamento do OpenAI o1 trouxe grande atenção aos grandes modelos de raciocínio (LRMs) e está inspirando novos modelos destinados a resolver problemas complexos com os quais os modelos de linguagem clássica frequentemente enfrentam dificuldades. Com base no sucesso do o1 e no conceito de LRMs, os pesquisadores do Alibaba introduziram Marco-o1que melhora as capacidades de raciocínio e aborda problemas com soluções abertas, onde estão ausentes padrões claros e recompensas quantificáveis.

OpenAI o1 usa “escala de tempo de inferência” para melhorar a capacidade de raciocínio do modelo, dando-lhe “tempo para pensar”. Basicamente, o modelo utiliza mais ciclos computacionais durante a inferência para gerar mais tokens e revisar suas respostas, o que melhora seu desempenho em tarefas que exigem raciocínio. o1 é conhecido por suas impressionantes capacidades de raciocínio, especialmente em tarefas com respostas padrão, como matemática, física e codificação.

No entanto, muitas aplicações envolvem problemas abertos que carecem de soluções claras e recompensas quantificáveis. “Nosso objetivo era ampliar ainda mais os limites dos LLMs, aprimorando suas habilidades de raciocínio para enfrentar desafios complexos do mundo real”, escrevem os pesquisadores do Alibaba.

Marco-o1 é uma versão aprimorada do Qwen2-7B-Instruct do Alibaba que integra técnicas avançadas, como ajuste fino de cadeia de pensamento (CoT), Pesquisa de árvore de Monte Carlo (MCTS) e estratégias de ação de raciocínio.

Os pesquisadores treinaram Marco-o1 em uma combinação de conjuntos de dados, incluindo o Aberto-O1 Conjunto de dados CoT; o conjunto de dados Marco-o1 CoT, um conjunto de dados sintético gerado usando MCTS; e o conjunto de dados de instruções Marco-o1, uma coleção de dados personalizados de acompanhamento de instruções para tarefas de raciocínio.

Marco-o1 usa CoT e MCTS para raciocinar sobre tarefas (fonte: arXiv)

MCTS é um algoritmo de busca que provou ser eficaz em cenários complexos de resolução de problemas. Ele explora de forma inteligente diferentes caminhos de solução, amostrando repetidamente possibilidades, simulando resultados e construindo gradualmente uma árvore de decisão. Provou ser muito eficaz em problemas complexos de IA, como vencer o jogo Go.

Marco-o1 aproveita o MCTS para explorar vários caminhos de raciocínio à medida que gera tokens de resposta. O modelo usa as pontuações de confiança dos tokens de resposta dos candidatos para construir sua árvore de decisão e explorar diferentes ramos. Isto permite que o modelo considere uma gama mais ampla de possibilidades e chegue a conclusões mais informadas e diferenciadas, especialmente em cenários com soluções abertas. Os pesquisadores também introduziram uma estratégia de ação de raciocínio flexível que lhes permite ajustar a granularidade das etapas do MCTS, definindo o número de tokens gerados em cada nó da árvore. Isso proporciona uma compensação entre precisão e custo computacional, dando aos usuários a flexibilidade para equilibrar desempenho e eficiência.

Outra inovação importante no Marco-o1 é a introdução de um mecanismo de reflexão. Durante o processo de raciocínio, o modelo periodicamente se pergunta: “Espere! Talvez eu tenha cometido alguns erros! Preciso repensar do zero.” Isso faz com que o modelo reavalie suas etapas de raciocínio, identifique possíveis erros e refine seu processo de pensamento.

“Essa abordagem permite que o modelo atue como seu próprio crítico, identificando possíveis erros em seu raciocínio”, escrevem os pesquisadores. “Ao levar explicitamente o modelo a questionar as suas conclusões iniciais, encorajamo-lo a reexpressar e refinar o seu processo de pensamento.”

Para avaliar o desempenho do Marco-o1, os pesquisadores realizaram experimentos em diversas tarefas, incluindo o benchmark MGSM, um conjunto de dados para problemas de matemática multilíngues do ensino fundamental. Marco-o1 superou significativamente o modelo básico Qwen2-7B, especialmente quando o componente MCTS foi ajustado para granularidade de token único.

Resultados Marco-o1 — *Diferentes versões do modelo Marco-o1 vs base (fonte: arXiv)*

No entanto, o objetivo principal do Marco-o1 era abordar os desafios do raciocínio em cenários abertos. Para tanto, os pesquisadores testaram o modelo na tradução de expressões coloquiais e de gírias, tarefa que exige a compreensão de nuances sutis de idioma, cultura e contexto. Os experimentos mostraram que o Marco-o1 foi capaz de capturar e traduzir essas expressões de forma mais eficaz do que as ferramentas de tradução tradicionais. Por exemplo, a modelo traduziu corretamente uma expressão coloquial em chinês, que significa literalmente, “Este sapato oferece uma sensação de pisar no cocô”, para o equivalente em inglês, “Este sapato tem uma sola confortável”. A cadeia de raciocínio do modelo mostra como ele avalia diferentes significados potenciais e chega à tradução correta.

Este paradigma pode revelar-se útil para tarefas como design e estratégia de produto, que requerem uma compreensão profunda e contextual e não possuem benchmarks e métricas bem definidas.

Tradução Marco-o1 — *Exemplo de cadeia de raciocínio para tarefa de tradução (fonte: arXiv)*

Uma nova onda de modelos de raciocínio

Desde o lançamento do o1, os laboratórios de IA estão correndo para lançar modelos de raciocínio. Na semana passada, o laboratório chinês de IA DeepSeek lançou o R1-Lite-Preview, seu concorrente o1, que atualmente está disponível apenas através da interface de chat online da empresa. O R1-Lite-Preview supostamente supera o1 em vários benchmarks importantes.

A comunidade de código aberto também está se aproximando do mercado de modelos privados, lançando modelos e conjuntos de dados que aproveitam as leis de escala de tempo de inferência. A equipe do Alibaba divulgou Marco-o1 em Hugging Face junto com um conjunto de dados de raciocínio parcial que os pesquisadores podem usar para treinar seus próprios modelos de raciocínio. Outro modelo lançado recentemente é o LLaVA-o1, desenvolvido por pesquisadores de várias universidades na China, que traz o paradigma de raciocínio em tempo de inferência para modelos de linguagem de visão (VLMs) de código aberto.

O lançamento desses modelos ocorre em meio à incerteza sobre o futuro das leis de escalonamento de modelos. Vários relatórios indicam que os retornos do treinamento de modelos maiores estão diminuindo e podem estar atingindo um obstáculo. Mas o que é certo é que estamos apenas começando a explorar as possibilidades de escalonamento do tempo de inferência.

VB diário

Fique por dentro! Receba as últimas notícias em sua caixa de entrada diariamente

Ao se inscrever, você concorda com os Termos de Serviço do VentureBeat.

Obrigado por se inscrever. Confira mais boletins informativos VB aqui.

Ocorreu um erro.

Fonte

Pesquisadores do Alibaba revelam Marco-o1, um LLM com capacidades avançadas de raciocínio

Uma nova onda de modelos de raciocínio

Último Artigo

8 Agentes livres defensivos Os comandantes de Washington devem ter como...

Americanos mais velhos que aceitam empregos de colarinho azul, desaceleração da...

Ilitch Sports + Entertainment, Fox 2 Detroit e Fanduel Sports Network...

Conferência de Atlanta realizada para discutir recursos de saúde mental na...

Meta e Salesforce apresentam agentes de IA para pequenas empresas

Categorias