No cenário de rápida evolução da IA, está se tornando cada vez mais importante desenvolver modelos que possam simular e prever resultados com precisão em ambientes físicos do mundo real para permitir a próxima geração de sistemas físicos de IA.
Ming-Yu Liu, vice-presidente de pesquisa da NVIDIA e IEEE Fellow, juntou-se ao NVIDIA AI Podcast para discutir a importância do modelos de fundação mundial (WFM) — redes neurais poderosas que podem simular ambientes físicos. Os WFMs podem gerar vídeos detalhados a partir de dados de entrada de texto ou imagem e prever como uma cena evolui combinando seu estado atual (imagem ou vídeo) com ações (como avisos ou sinais de controle).
“Os modelos de base mundial são importantes para os desenvolvedores de IA física”, disse Liu. “Eles podem imaginar muitos ambientes diferentes e simular o futuro, para que possamos tomar boas decisões com base nesta simulação.”
Isto é particularmente valioso para IA física sistemas, como robôs e carros autônomos, que devem interagir de forma segura e eficiente com o mundo real.
Por que os modelos da Fundação Mundial são importantes?
A construção de modelos mundiais requer frequentemente grandes quantidades de dados, cuja recolha pode ser difícil e dispendiosa. Os WFMs podem gerar dados sintéticos, fornecendo um conjunto de dados rico e variado que aprimora o processo de treinamento.
Além disso, treinar e testar sistemas físicos de IA no mundo real pode consumir muitos recursos. Os WFMs fornecem ambientes virtuais 3D onde os desenvolvedores podem simular e testar esses sistemas em um ambiente controlado, sem os riscos e custos associados aos testes no mundo real.
Acesso aberto aos modelos da Fundação Mundial
Na feira CES, a NVIDIA anunciou o NVIDIA Cosmos, uma plataforma de WFMs generativos que acelera o desenvolvimento de sistemas físicos de IA, como robôs e carros autônomos.
A plataforma foi projetada para ser aberta e acessível e inclui WFMs pré-treinados baseados em arquiteturas de difusão e auto-regressivas, juntamente com tokenizadores que podem compactar vídeos em tokens para modelos de transformadores.
Liu explicou que com esses modelos abertos, as empresas e os desenvolvedores têm todos os ingredientes necessários para construir modelos em grande escala. A plataforma aberta também oferece às equipes a flexibilidade de explorar várias opções de treinamento e modelos de ajuste fino, ou construir os seus próprios com base em necessidades específicas.
Aprimorando os fluxos de trabalho de IA em todos os setores
Espera-se que os WFMs melhorem os fluxos de trabalho e o desenvolvimento de IA em vários setores. Liu vê impactos particularmente significativos em duas áreas:
“A indústria automobilística autônoma e a indústria humanóide (robôs) se beneficiarão muito com o desenvolvimento de modelos mundiais”, disse Liu. “(WFMs) podem simular diferentes ambientes que serão difíceis de ter no mundo real, para garantir que o agente se comporte de acordo.”
Para carros autônomosesses modelos podem simular ambientes que permitem testes e otimização abrangentes. Por exemplo, um carro autônomo pode ser testado em diversas condições climáticas e cenários de tráfego simulados para ajudar a garantir seu desempenho seguro e eficiente antes de ser implantado nas estradas.
Em robóticaos WFMs podem simular e verificar o comportamento de sistemas robóticos em diferentes ambientes para garantir que eles executem tarefas com segurança e eficiência antes da implantação.
A NVIDIA está colaborando com empresas como 1X, Huobi e XPENG para ajudar a enfrentar os desafios no desenvolvimento de IA física e aprimorar seus sistemas.
“Ainda estamos na infância do desenvolvimento do modelo de fundação mundial – é útil, mas precisamos torná-lo mais útil”, disse Liu. “Também precisamos estudar a melhor forma de integrar esses modelos mundiais nos sistemas físicos de IA de uma forma que possa realmente beneficiá-los.”
Ouça o podcast com Ming-Yu Liu ou leia a transcrição.
Saiba mais sobre o NVIDIA Cosmos e os anúncios mais recentes em IA generativa e robótica assistindo à palestra de abertura da CES do fundador e CEO da NVIDIA, Jensen Huang, e participando Sessões da NVIDIA no show.