Recursos/White Papers

Tecnologia

Machine Learning é legal, mas Synthesized Media é o novo buzz

Com o aprendizado da máquina e a IA nos ajudando a identificar imagens, vídeos e som, podemos coletar e marcar dados em escala. Não só isso. Podemos recriá-los a uma velocidade impressionante

Da Redação, com Ali Din, Computerworld/EUA

Publicada em 05 de dezembro de 2017 às 07h54

Este ano, houve muita conversa sobre Machine Learning (ML), Inteligência Artificial (AI) e Realidades Virtual/Aumentada (VR/AR), mas ultimamente, o o buzz vem crescendo em torno das "Synthesized Media" (mídia sintetizada). 

À medida que mais empresas passam pela Transformação Digital, os canais de comunicação vão mudando. Já incorporamos o digital em tudo o que fazemos, e a maneira como interagimos uns com os outros e com máquinas está evoluindo. Isso está impulsionando a inovação de forma ainda mais radical.

A base da Synthesized Media
Muitas empresas ainda estão investindo fortemente em imagens, podendo identificar imagens de vídeo ou estáticas, classificá-las e recuperá-las. Depois de  estruturarem esses dados, eles podem combiná-los com outros recursos. Por exemplo, você pode ir a um serviço e solicitar imagens relacionadas à sua marca, ou ter a IA criando um banner para você com base em algumas insumos de produtos e marcas.

Depois, há o processamento de linguagem natural e geração de fala. Mais empresas estão colocando esforços na compreensão da linguagem humana e, o mais importante, também na intenção. Uma vez que uma máquina entende, ela pode responder com mais precisão. Os exemplos de PNL (processamento de linguagem natural) são abundantes hoje.

Com o aprendizado da máquina e a IA nos ajudando a identificar imagens, vídeos e som, podemos coletar e marcar dados em escala. Não só isso. Podemos fazê-lo a uma velocidade impressionante

Junte todas essas coisas e você terá a próxima fase ...

SynthesizedMedia

Dando um passo adiante
Existem algumas questões muito interessantes que IA, ML, carros autônomos e automação robótica colocam para a humanidade. Imagine o que pode acontecer com cenários como...

Vamos começar com o áudio. Nós já temos máquinas que  falam. Mas ainda de uma forma meio robotizada. Mesmo a versão mais recente de Siri deveria ser mais humana.

Agora, vamos adicionar vídeo à voz. Encontre um personagem público, talvez um político, e capture vídeos de vários discursos. Usando algumas ferramentas especializadas, você pode sintetizar um novo vídeo com esse político dizendo o que quiser. E com um algoritmo de imitação de voz, você nem teria que depender de palavras e frases já usadas por ele ou ela em discursos anteriores.

Parece um pouco extravagante, ou talvez você seja experiente o suficiente para perceber que isso já está disponível, com implicações intrigantes, para dizer o mínimo. 

Por exemplo:

  • - O Lyrebird pode imitar essencialmente qualquer som, como motosserras ou macacos em uma selva. Então, era apropriado que esta empresa criasse um serviço que ouça a sua voz por cinco minutos e, em seguida, faça parecer que você diz qualquer coisa.
  • - Outro exemplo é que os pesquisadores da Universidade de Washington usaram a IA sintetizar um vídeo do presidente Barack Obama usando imagens de suas falas semanais.

- Um software desenvolvido na Universidade de Stanford é capaz de manipular imagens de filmes de figuras públicas para permitir que uma segunda pessoa coloque palavras na boca - em tempo real. O Face2Face captura as expressões faciais da segunda pessoa enquanto conversam em uma webcam e, em seguida, transforma esses movimentos diretamente no rosto da pessoa no vídeo original.  Por si só, o Face2Face é um brinquedo divertido para criar memes e divertir os anfitriões do talk show da tarde da noite . No entanto, com a adição de uma voz sintetizada, torna-se mais convincente - não só o fantoche digital se parece com o político, mas também pode soar como o político.

Com 3-5 minutos de áudio da voz de uma vítima - tirado ao vivo ou a partir de vídeos do YouTube ou programas de rádio - um invasor pode criar uma voz sintetizada que pode enganar humanos e sistemas de segurança biométrica de voz usados ​​por alguns bancos e smartphones.

Embora para alguns possamos estar pintando uma imagem de implicações negativas, também há alguns aspectos construtivos e positivos. Alguns exemplos mais positiva poderiam incluir ouvir as notícias da manhã na voz de sua celebridade favorita ou ter imagens de um ente querido falando com você mesmo não estando na sua presença.

Essas tecnologias de morphing ainda não são perfeitas. As expressões faciais nos vídeos podem parecer um pouco distorcidas ou não naturais e as vozes podem parecer um pouco robóticas. Mas com o tempo, esses sistemas serão capazes de recriar fielmente o som ou a aparência de uma pessoa - ao ponto em que pode ser muito difícil para os humanos detectar a fraude.

Todos os dias, mais empresas estão trabalhando com Synthesized Media. A tecnologia ainda está em seu estágio inicial, mas provavelmente irá melhorar rapidamente e se tornar generalizada em alguns anos - é inevitável.



Reportagens mais lidas

Acesse a comunidade da CIO

LinkedIn
A partir da comunidade no LinkedIn, a CIO promove a troca de informações entre os líderes de TI. Acesse aqui