Pesquisadores da Apple anunciam avanço na IA com o aprendizado multimodal MM1

Em uma publicação recente, os pesquisadores da Apple introduziram um método inovador para treinar grandes modelos de linguagem usando uma mistura de dados de texto e visuais, visando resultados incomparáveis em benchmarks de inteligência artificial (IA).

A equipe de pesquisadores da Apple compartilhou suas descobertas em um estudo inovador, mostrando uma nova abordagem para melhorar as capacidades de grandes modelos de linguagem (LLMs) por meio da aprendizagem multimodal. Essa abordagem, que integra dados textuais e visuais, é detalhada em seu artigo, “MM1: Métodos, Análises e Insights do Pré-treinamento Multimodal LLM”.

Sua pesquisa é um testemunho do potencial de combinar diversos dados de treinamento e arquiteturas de modelos sofisticadas para alcançar um desempenho de ponta em vários benchmarks de IA.

Central para as descobertas dos pesquisadores é o modelo MM1, uma estrutura pioneira dentro da família de modelos multimodais.

O modelo MM1 se distingue por seus resultados de última geração, obtidos através de uma seleção meticulosa de dados de pré-treinamento que inclui uma mistura de pares de imagem-capte, dados de imagem-texto intercalados e informações somente de texto.

Essa mistura estratégica é crítica para que o modelo se destaque em cenários de aprendizado de poucas fotos em vários benchmarks, superando outros resultados pré-treinamento no domínio.

O modelo MM1 exibe vários recursos excepcionais, como habilidades aprimoradas de aprendizado no contexto e a capacidade de raciocínio multiimagem. Esses recursos permitem que ele execute uma variedade de tarefas complexas com precisão impressionante.

Por exemplo, o modelo pode contar objetos, reconhecer partes de imagens, realizar reconhecimento óptico de caracteres (OCR), demonstrar compreensão de senso comum e conhecimento de palavras relacionados a objetos cotidianos e realizar operações matemáticas básicas.

O desempenho do MM1 nessas tarefas é particularmente notável, com dados provenientes do conjunto de validação COCO 2014 sublinhando sua eficácia.

Além disso, os pesquisadores destacam a habilidade do modelo MM1 em solicitações de cadeia de pensamento de poucos tiros, um recurso que ressalta suas capacidades avançadas de aprendizado e raciocínio no contexto. Esta faceta do modelo MM1 permite gerar resultados competitivos em um amplo espectro de benchmarks, abrindo assim o caminho para inovações em como os sistemas de IA interpretam e entendem informações complexas e multimodais.

Através de seu estudo abrangente, os pesquisadores da Apple não apenas demonstram a viabilidade dos modelos multimodais de linguagem grande, mas também lançam luz sobre o impacto significativo das escolhas arquitetônicas e da seleção de dados no desempenho desses modelos.

O modelo MM1, com suas conquistas de última geração na aprendizagem multimodal, é um farol para futuras pesquisas de IA, enfatizando a importância do treinamento integrado de dados textuais e visuais no avanço do campo.