Meta simplesmente colocou sua IA em algum lugar que você não esperava – um par de óculos inteligentes Ray-Ban
Óculos inteligentes provavelmente não conseguiram decolarmas a adição de inteligência artificial (IA) pode ser a chave para o desenvolvimento de uma tecnologia vestível verdadeiramente transformadora.
Nos EUA e no Canadá, os óculos inteligentes Ray-Ban Meta receberam uma implementação de tecnologia de IA multimodal com software chamado “assistente virtual Meta AI”. Com IA multimodal – o que significa IA generativa que pode processar consultas que envolvem mais de um meio (por exemplo, áudio e imagens) – o dispositivo pode responder melhor às consultas com base no que o usuário está vendo.
“Digamos que você esteja viajando e tentando ler um menu em francês. Seus óculos inteligentes podem usar a câmera integrada e o Meta AI para traduzir o texto para você, fornecendo as informações necessárias sem ter que pegar o telefone ou olhar em uma tela”, explicaram os representantes da Meta em 23 de abril em um declaração.
Relacionado: Óculos inteligentes podem aumentar a privacidade trocando câmeras por esta tecnologia de 100 anos
O dispositivo primeiro tira uma foto do que o usuário está olhando e, em seguida, a IA utiliza o processamento baseado em nuvem para fornecer uma resposta a uma pergunta, transmitida por fala, como “que tipo de planta estou olhando?”
Meta explorou pela primeira vez a integração de IA multimodal nos óculos inteligentes Ray-Ban Meta em um lançamento limitado em Dezembro de 2023.
Testando a funcionalidade de IA neste dispositivo, um repórter da A beira descobriu que a maioria respondeu corretamente quando solicitado a identificar o modelo de um carro. Também poderia descrever um tipo de gato, por exemplo, e suas características em uma imagem tirada pela câmera. Mas a IA teve problemas para identificar com precisão as espécies de plantas pertencentes a um repórter e teve dificuldade para identificar corretamente uma marmota no quintal do vizinho.
Maquinações multimodais
Assistentes virtuais com tecnologia de IA não são novidade, com nomes como Google Assistant, Amazon Alexa e Siri da Apple, todos fornecendo respostas inteligentes a perguntas em linguagem natural. Mas o ponto crucial do Meta AI nos óculos inteligentes Ray-Ban é sua funcionalidade multimodal.
A capacidade de fundir e processar dados de vários módulos de sensores — por exemplo, câmeras e microfones — significa uma IA multimodal pode gerar resultados mais precisos e sofisticados versus sistemas de IA unimodais. do Google Modelo de IA multimodal Gemini por exemplo, pode processar uma foto de alguns cookies e responda com a receita.
Treinados na identificação de padrões em diferentes tipos de entrada de dados através de múltiplas redes neutras – coleções de algoritmos de aprendizado de máquina organizados para imitar o cérebro humano – as IAs multimodais podem processar dados de entrada de texto, imagens, áudio e muito mais.
Nos óculos inteligentes, isso significa que uma IA pode dar sentido ao mundo que o usuário está vendo, combinando sensores nos óculos com essas redes neurais. Como resultado, o sistema pode responder a consultas mais sofisticadas e oferecer informações contextuais mais inteligentes.
Mas no caso do dispositivo Ray-Ban Meta, a IA ainda tem um longo caminho a percorrer antes de atingir as capacidades de processamento de IA encontradas nos smartphones mais recentes; estes beneficiam de chipsets mais potentes e da fusão de sensores integrados – onde os dados são obtidos de vários sensores e processados em conjunto, por exemplo, para oferecer reconhecimento de cena em aplicações de câmara, permitindo que a iluminação e o equilíbrio de cores sejam ajustados de forma inteligente, ou combinando dados de termómetros e sensores ópticos em smartwatches para oferecer melhor feedback sobre o treino.