Pesquisadores da China estão próximos de lançar a IA mais poderosa que o mundo já viu

O aprendizado multimodal sempre foi um desafio na Inteligência Artificial, pois os diferentes tipos de dados exigem abordagens distintas para o processamento eficiente – algo que algumas machine learnings ainda estão longe de realizar.

Porém, pesquisadores da Universidade Chinesa de Hong Kong e do Shanghai AI Lab apresentaram uma solução inovadora: o “Meta-Transformer”, uma estrutura de IA unificada que pode lidar com várias modalidades de dados usando o mesmo conjunto de parâmetros. Entenda os detalhes a seguir!

Abordagem diferente para novos resultados

O cérebro humano é uma inspiração para essa nova abordagem. Nosso cérebro processa informações simultaneamente de várias entradas sensoriais, como sinais visuais, auditivos e táteis, e a compreensão de uma fonte pode ajudar o conhecimento de outra.

No entanto, replicar essa capacidade no campo da IA tem sido um desafio devido à lacuna de modalidade no aprendizado profundo.

(Imagem: Thinkhubstudio/iStock/reprodução)

As modalidades de dados têm características distintas. Imagens têm informações espaciais e têm redundância de informações nos pixels compactados. As nuvens de pontos são difíceis de descrever devido à sua distribuição esparsa no espaço 3D.

Os espectrogramas de áudio são padrões de dados não estacionários e variáveis no tempo. Os dados de vídeo, por sua vez, compreendem uma série de quadros de imagens, o que permite registrar informações espaciais e dinâmicas temporais.

Até agora, as abordagens para lidar com diferentes modalidades envolviam a criação de redes separadas para cada tipo de dado, resultando em muito trabalho para ajustar os modelos individualmente. No entanto, os pesquisadores chineses propuseram uma nova maneira de lidar com essa complexidade.

O Meta-Transformer é composto por três componentes principais: um especialista em modalidade para tokenização de dados, um codificador compartilhado de modalidade para extrair representações entre modalidades e chefes específicos de tarefa para tarefas “downstream”.

Essa estrutura permite a criação de sequências de token compartilhadas a partir de dados multimodais e a extração de representações usando um codificador com parâmetros congelados. A abordagem direta do Meta-Transformer treina representações específicas de tarefas e de modalidades genéricas com eficiência.

Os resultados dos experimentos com o Meta-Transformer foram impressionantes. A estrutura alcançou desempenho excepcional em vários conjuntos de dados, abrangendo 12 modalidades diferentes.

Essa abordagem inovadora promete uma nova direção no desenvolvimento de uma estrutura agnóstica de modalidade, que unifica todos os tipos de dados e melhora significativamente a capacidade de compreensão multimodal.

Com o Meta-Transformer, a pesquisa multimodal está prestes a dar um grande passo à frente, proporcionando avanços significativos em inteligência artificial e aprendizado de máquina.

A possibilidade de processar várias modalidades de dados com uma única estrutura unificada representa um marco importante na jornada para uma IA mais poderosa e eficiente.

Abordagem diferente para novos resultados

Rebeca Bondioli

O que significa quando alguém dorme sorrindo?

Pais poderão dormir mais tranquilos com a nova lei que promete proteger crianças na internet

Superstição ou verdade: preciso mesmo desligar tudo da tomada quando chove?

Quer ter paz no celular? Veja como se livrar das chamadas de spam definitivamente