Meta Introduz Chameleon, um Modelo Multimodal de Fusão Inicial

Investigadores de IA da Meta, a empresa que detém o Facebook, Instagram, WhatsApp, entre muitos outros produtos, desenharam e construíram um modelo multimodal para competir com o Gemini do Google.

Chamado Chameleon, o novo sistema é construído com uma arquitetura de fusão inicial, permitindo combinar múltiplas entradas de maneiras que não são possíveis com a maioria dos outros sistemas.

O grupo, denominado Equipa Chameleon, escreveu um artigo descrevendo o seu novo modelo, incluindo a sua arquitetura e os resultados dos testes realizados. O artigo está disponível no servidor de pré-publicações arXiv.

Modelos multimodais de IA, como o nome sugere, são aplicações capazes de aceitar mais de um tipo de entrada durante uma consulta. Um utilizador pode, por exemplo, submeter uma imagem de um cavalo enquanto pergunta quantos da sua raça ganharam o Kentucky Derby.

Até à data, a maioria desses modelos processa esses dados como entidades separadas na fase inicial do processamento e depois os junta para procurar associações — uma técnica chamada fusão tardia.

Essa abordagem tem funcionado bem, mas apresenta limitações em termos de integração. Para superar isto, a equipa da Meta baseou o seu modelo na arquitetura de fusão inicial.

Esta arquitetura permitiu à equipa entrelaçar associações desde o início. Conseguiram isso convertendo imagens em tokens, de forma semelhante à maneira como os LLMs analisam palavras. A equipa também adicionou a capacidade de usar um vocabulário unificado de tokens de diferentes fontes, incluindo imagens, código ou texto, e afirmam que isso permitiu aplicar computação transformativa com tipos mistos de dados de entrada.

Os investigadores notam que, ao contrário do Gemini, o Chameleon é um modelo de ponta a ponta, o que eliminou a necessidade de decodificadores de imagem. Eles também desenvolveram e utilizaram novos tipos de técnicas de treino para permitir que o seu modelo funcionasse com múltiplos tipos de tokens — técnicas que envolveram aprendizagem em duas fases e um conjunto de dados massivo de aproximadamente 4,4 trilhões de textos, imagens ou pares de tokens juntamente com dados intercalados. O sistema foi treinado utilizando 7 bilhões e depois 34 bilhões de parâmetros ao longo de 5 milhões de horas em GPU de alta velocidade.

O resultado, afirmam os investigadores, é um modelo que pode aceitar apenas texto, apenas imagens ou uma combinação de ambos e devolver respostas inteligentes e associações com maior precisão do que os seus concorrentes.