Início Ciência e tecnologia O modelo de raciocínio Qwen com perguntas do Alibaba supera a visualização...

O modelo de raciocínio Qwen com perguntas do Alibaba supera a visualização o1

35
0

Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


A gigante chinesa do comércio eletrônico Alibaba lançou o modelo mais recente de sua família Qwen, em constante expansão. Este é conhecido como Qwen with Questions (QwQ) e serve como o mais recente concorrente de código aberto do modelo de raciocínio o1 da OpenAI.

Como outros grandes modelos de raciocínio (LRMs), o QwQ usa ciclos de computação extras durante a inferência para revisar suas respostas e corrigir seus erros, tornando-o mais adequado para tarefas que exigem raciocínio lógico e planejamento, como matemática e codificação.

O que é Qwen with Questions (OwQ?) e pode ser usado para fins comerciais?

O Alibaba lançou uma versão de 32 bilhões de parâmetros do QwQ com um contexto de 32.000 tokens. O modelo está atualmente em pré-visualização, o que significa que uma versão de melhor desempenho provavelmente virá a seguir.

De acordo com os testes do Alibaba, o QwQ supera o o1-preview nos benchmarks AIME e MATH, que avaliam as habilidades de resolução de problemas matemáticos. Também supera o1-mini no GPQA, uma referência para raciocínio científico. QwQ é inferior a o1 nos benchmarks de codificação LiveCodeBench, mas ainda supera outros modelos de fronteira, como GPT-4o e Claude 3.5 Sonnet.

Exemplo de saída de Qwen com perguntas

O QwQ não vem acompanhado de um documento que descreva os dados ou o processo utilizado para treinar o modelo, o que dificulta a reprodução dos resultados do modelo. No entanto, como o modelo é aberto, ao contrário do OpenAI o1, o seu “processo de pensamento” não está oculto e pode ser usado para dar sentido à forma como o modelo raciocina ao resolver problemas.

Alibaba também lançou o modelo sob licença Apache 2.0, o que significa que pode ser usado para fins comerciais.

‘Descobrimos algo profundo’

De acordo com um postagem no blog que foi publicado junto com o lançamento do modelo: “Através de exploração profunda e incontáveis ​​testes, descobrimos algo profundo: quando temos tempo para ponderar, questionar e refletir, a compreensão do modelo sobre matemática e programação floresce como uma flor se abrindo para o sol … Este processo de reflexão cuidadosa e autoquestionamento leva a avanços notáveis ​​na resolução de problemas complexos.”

Isso é muito semelhante ao que sabemos sobre como funcionam os modelos de raciocínio. Ao gerar mais tokens e revisar suas respostas anteriores, os modelos têm maior probabilidade de corrigir possíveis erros. Marco-o1, outro modelo de raciocínio lançado recentemente pelo Alibaba, também pode conter dicas de como o QwQ pode estar funcionando. Marco-o1 usa Pesquisa de árvore de Monte Carlo (MCTS) e autorreflexão na hora da inferência para criar diferentes ramos de raciocínio e escolher as melhores respostas. O modelo foi treinado em uma mistura de exemplos de cadeia de pensamento (CoT) e dados sintéticos gerados com algoritmos MCTS.

Alibaba aponta que o QwQ ainda tem limitações, como misturar idiomas ou ficar preso em ciclos circulares de raciocínio. O modelo está disponível para download em Abraçando o rosto e uma demonstração online pode ser encontrada em Abraçando espaços faciais.

A era do LLM dá lugar aos LRMs: Grandes Modelos de Raciocínio

O lançamento do o1 despertou um interesse crescente na criação de LRMs, embora não se saiba muito sobre como o modelo funciona nos bastidores, além do uso da escala de tempo de inferência para melhorar as respostas do modelo.

Existem agora vários concorrentes chineses para o1. O laboratório chinês de IA DeepSeek lançou recentemente o R1-Lite-Preview, seu concorrente o1, que atualmente está disponível apenas através da interface de chat online da empresa. O R1-Lite-Preview supostamente supera o1 em vários benchmarks importantes.

Outro modelo lançado recentemente é o LLaVA-o1, desenvolvido por pesquisadores de várias universidades na China, que traz o paradigma de raciocínio em tempo de inferência para modelos de linguagem de visão (VLMs) de código aberto.

O foco nos LRMs surge num momento de incerteza sobre o futuro das leis de escala de modelos. Relatórios indicam que laboratórios de IA como OpenAI, Google DeepMind e Anthropic estão obtendo retornos decrescentes no treinamento de modelos maiores. E a criação de volumes maiores de dados de formação de qualidade está a tornar-se cada vez mais difícil, uma vez que os modelos já estão a ser treinados em biliões de tokens recolhidos na Internet.

Entretanto, a escala de tempo de inferência oferece uma alternativa que pode proporcionar o próximo avanço na melhoria das capacidades da próxima geração de modelos de IA. Há relatos de que OpenAI é usando o1 para gerar dados de raciocínio sintético para treinar a próxima geração de seus LLMs. O lançamento de modelos de raciocínio aberto provavelmente estimulará o progresso e tornará o espaço mais competitivo.


Fonte