Recursos/White Papers

Tecnologia

Tecnologia de Inteligência Artificial do Google faz leitura labial melhor que pessoas

O que significa que ele não precisa ouvir para saber o que as pessoas dizem em um vídeo

Da Redação

Publicada em 25 de novembro de 2016 às 16h41

A Universidade de Oxford e a divisão de Inteligência Artificial do Google, chamada de Deep Mind, conseguiram criar o software de leitura labial mais preciso do mundo.

Para treinar a plataforma de rede neural, e obter esse resultado, os cientistas usaram mais de 5 mil horas de programação de TV da rede britânica BBC, incluindo atrações como Newsnight e World Today, que totalizaram mais de 118 mil sentenças diferentes.

Segundo os pesquisadores, o software, chamado de "Watch, Listen, Attend, and Spell", conseguiu registrar uma precisão de 46,8% na leitura labial dos participantes dos programas. Bem mais do que os 12,4% de precisão registrados por um ser humano especialista em leitura labial com os mesmos vídeos.

Esse projeto segue um trabalho parecido publicado no início do mês pela Universidade de Oxford, que usou técnicas parecidas para criar um programa de leitura labial chamado LipNet, que conseguiu 93,4% de precisão nos testes contra 52,4% de um ser humano especialista na área. No entanto, o teste do programa usou filmagens de sentenças muito mais simples do que as utilizadas pelo novo projeto do Google e Oxford.

Reprodução do paper Lip Reading Sentences in the Wild

A tecnologia tem um amplo leque de aplicações, tais como permitir que pessoas com problemas auditivos possam compreender conversas transcritas a partir do reconhecimento labial do interlocutor, se integrada em óculos de realidade aumentada. Desta forma, bastaria apenas olhar para uma pessoa para saber o que ela diz. 

É possível ainda melhorar as capacidades de assistentes virtuais como o Google Now, a Siri ou a Cortana.

Ou transcrever diálogos a partir de imagens capturadas de câmeras de segurança, ainda que não tenham a mesma qualidade e iluminação das imagens de um programa de TV.  Não deixa de ser preocupante pensar que no futuro essa tecnologia pode vir a ser usada com fins de vigilância.  Poderia haver violação do direito à privacidade, caso seja utilizada para “escutar” as conversas alheias ? 



Reportagens mais lidas

Acesse a comunidade da CIO

LinkedIn
A partir da comunidade no LinkedIn, a CIO promove a troca de informações entre os líderes de TI. Acesse aqui