Início Ciência e tecnologia Pesquisadores do Alibaba revelam Marco-o1, um LLM com capacidades avançadas de raciocínio

Pesquisadores do Alibaba revelam Marco-o1, um LLM com capacidades avançadas de raciocínio

24
0

Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


O recente lançamento do OpenAI o1 trouxe grande atenção aos grandes modelos de raciocínio (LRMs) e está inspirando novos modelos destinados a resolver problemas complexos com os quais os modelos de linguagem clássica frequentemente enfrentam dificuldades. Com base no sucesso do o1 e no conceito de LRMs, os pesquisadores do Alibaba introduziram Marco-o1que melhora as capacidades de raciocínio e aborda problemas com soluções abertas, onde estão ausentes padrões claros e recompensas quantificáveis.

OpenAI o1 usa “escala de tempo de inferência” para melhorar a capacidade de raciocínio do modelo, dando-lhe “tempo para pensar”. Basicamente, o modelo utiliza mais ciclos computacionais durante a inferência para gerar mais tokens e revisar suas respostas, o que melhora seu desempenho em tarefas que exigem raciocínio. o1 é conhecido por suas impressionantes capacidades de raciocínio, especialmente em tarefas com respostas padrão, como matemática, física e codificação.

No entanto, muitas aplicações envolvem problemas abertos que carecem de soluções claras e recompensas quantificáveis. “Nosso objetivo era ampliar ainda mais os limites dos LLMs, aprimorando suas habilidades de raciocínio para enfrentar desafios complexos do mundo real”, escrevem os pesquisadores do Alibaba.

Marco-o1 é uma versão aprimorada do Qwen2-7B-Instruct do Alibaba que integra técnicas avançadas, como ajuste fino de cadeia de pensamento (CoT), Pesquisa de árvore de Monte Carlo (MCTS) e estratégias de ação de raciocínio.

Os pesquisadores treinaram Marco-o1 em uma combinação de conjuntos de dados, incluindo o Aberto-O1 Conjunto de dados CoT; o conjunto de dados Marco-o1 CoT, um conjunto de dados sintético gerado usando MCTS; e o conjunto de dados de instruções Marco-o1, uma coleção de dados personalizados de acompanhamento de instruções para tarefas de raciocínio.

Marco-o1 usa CoT e MCTS para raciocinar sobre tarefas (fonte: arXiv)

MCTS é um algoritmo de busca que provou ser eficaz em cenários complexos de resolução de problemas. Ele explora de forma inteligente diferentes caminhos de solução, amostrando repetidamente possibilidades, simulando resultados e construindo gradualmente uma árvore de decisão. Provou ser muito eficaz em problemas complexos de IA, como vencer o jogo Go.

Marco-o1 aproveita o MCTS para explorar vários caminhos de raciocínio à medida que gera tokens de resposta. O modelo usa as pontuações de confiança dos tokens de resposta dos candidatos para construir sua árvore de decisão e explorar diferentes ramos. Isto permite que o modelo considere uma gama mais ampla de possibilidades e chegue a conclusões mais informadas e diferenciadas, especialmente em cenários com soluções abertas. Os pesquisadores também introduziram uma estratégia de ação de raciocínio flexível que lhes permite ajustar a granularidade das etapas do MCTS, definindo o número de tokens gerados em cada nó da árvore. Isso proporciona uma compensação entre precisão e custo computacional, dando aos usuários a flexibilidade para equilibrar desempenho e eficiência.

Outra inovação importante no Marco-o1 é a introdução de um mecanismo de reflexão. Durante o processo de raciocínio, o modelo periodicamente se pergunta: “Espere! Talvez eu tenha cometido alguns erros! Preciso repensar do zero.” Isso faz com que o modelo reavalie suas etapas de raciocínio, identifique possíveis erros e refine seu processo de pensamento.

“Essa abordagem permite que o modelo atue como seu próprio crítico, identificando possíveis erros em seu raciocínio”, escrevem os pesquisadores. “Ao levar explicitamente o modelo a questionar as suas conclusões iniciais, encorajamo-lo a reexpressar e refinar o seu processo de pensamento.”

Para avaliar o desempenho do Marco-o1, os pesquisadores realizaram experimentos em diversas tarefas, incluindo o benchmark MGSM, um conjunto de dados para problemas de matemática multilíngues do ensino fundamental. Marco-o1 superou significativamente o modelo básico Qwen2-7B, especialmente quando o componente MCTS foi ajustado para granularidade de token único.

Resultados Marco-o1
Diferentes versões do modelo Marco-o1 vs base (fonte: arXiv)

No entanto, o objetivo principal do Marco-o1 era abordar os desafios do raciocínio em cenários abertos. Para tanto, os pesquisadores testaram o modelo na tradução de expressões coloquiais e de gírias, tarefa que exige a compreensão de nuances sutis de idioma, cultura e contexto. Os experimentos mostraram que o Marco-o1 foi capaz de capturar e traduzir essas expressões de forma mais eficaz do que as ferramentas de tradução tradicionais. Por exemplo, a modelo traduziu corretamente uma expressão coloquial em chinês, que significa literalmente, “Este sapato oferece uma sensação de pisar no cocô”, para o equivalente em inglês, “Este sapato tem uma sola confortável”. A cadeia de raciocínio do modelo mostra como ele avalia diferentes significados potenciais e chega à tradução correta.

Este paradigma pode revelar-se útil para tarefas como design e estratégia de produto, que requerem uma compreensão profunda e contextual e não possuem benchmarks e métricas bem definidas.

Tradução Marco-o1
Exemplo de cadeia de raciocínio para tarefa de tradução (fonte: arXiv)

Uma nova onda de modelos de raciocínio

Desde o lançamento do o1, os laboratórios de IA estão correndo para lançar modelos de raciocínio. Na semana passada, o laboratório chinês de IA DeepSeek lançou o R1-Lite-Preview, seu concorrente o1, que atualmente está disponível apenas através da interface de chat online da empresa. O R1-Lite-Preview supostamente supera o1 em vários benchmarks importantes.

A comunidade de código aberto também está se aproximando do mercado de modelos privados, lançando modelos e conjuntos de dados que aproveitam as leis de escala de tempo de inferência. A equipe do Alibaba divulgou Marco-o1 em Hugging Face junto com um conjunto de dados de raciocínio parcial que os pesquisadores podem usar para treinar seus próprios modelos de raciocínio. Outro modelo lançado recentemente é o LLaVA-o1, desenvolvido por pesquisadores de várias universidades na China, que traz o paradigma de raciocínio em tempo de inferência para modelos de linguagem de visão (VLMs) de código aberto.

O lançamento desses modelos ocorre em meio à incerteza sobre o futuro das leis de escalonamento de modelos. Vários relatórios indicam que os retornos do treinamento de modelos maiores estão diminuindo e podem estar atingindo um obstáculo. Mas o que é certo é que estamos apenas começando a explorar as possibilidades de escalonamento do tempo de inferência.


Fonte