Home > Gestão

Quão seguros são seus projetos de IA e aprendizado de máquina?

IA e o aprendizado de máquina trazem novas vulnerabilidades, juntamente com seus benefícios. Veja como várias empresas minimizaram seus riscos

Maria Korolov, CSO (EUA)

03/09/2019 às 18h00

Foto: Shutterstock

Quando as empresas adotam novas tecnologias, a segurança costuma estar em segundo plano. Pode parecer mais importante obter novos produtos ou serviços para clientes e usuários internos o mais rápido possível e com o menor custo. Já a construção de uma boa estrutura de segurança pode ser lenta e cara.

A inteligência artificial (IA) e o aprendizado de máquina (ML) oferecem as mesmas oportunidades de vulnerabilidades e configurações incorretas que os avanços tecnológicos anteriores, mas também apresentam riscos únicos. À medida que as empresas embarcam nas principais transformações digitais de IA, essas ameaças podem se tornar maiores do que o que vimos antes.

A IA e o ML requerem mais dados e informações mais complexas do que outras tecnologias. Os algoritmos utilizados foram desenvolvidos por matemáticos e cientistas de dados e saem de projetos de pesquisa. Enquanto isso, os requisitos de volume e processamento significam que as cargas de trabalho geralmente são tratadas por plataformas em nuvem, que adicionam outro nível de complexidade e vulnerabilidade.

A alta demanda de dados exige criptografia

Os sistemas de IA e ML requerem três conjuntos de dados. Primeiro, dados de treinamento, para que a empresa possa construir um modelo preditivo. Segundo, testando dados, para descobrir como o modelo funciona. Finalmente, dados transacionais ou operacionais em tempo real, para quando o modelo for colocado em funcionamento.

Isso cria dois problemas diferentes, cada um com suas próprias implicações de segurança. Primeiro, os dados de treinamento coletados pelos cientistas de dados geralmente estão em texto não criptografado. Trabalhar com dados anônimos ou tokenizados dificulta a construção do modelo. Os cientistas de dados normalmente não têm esse tipo de conhecimento em segurança de dados. Quando o modelo se prova e é movido para o lado operacional, ele ainda espera receber dados em texto sem formatação.

Esse é um grande risco de segurança. Para a Edgewise Networks, a criptografia de todos os dados desde o início teve custo. "Mas sabíamos que teríamos que fazer o investimento desde o início, porque não queríamos ser uma empresa de segurança cibernética que vazava IPI na nuvem", diz John O'Neil, principal cientista de dados da empresa. "Como tínhamos clientes nos fornecendo informações de rede, começamos com a ideia de que qualquer informação precisava ser criptografada."

O segundo risco de segurança são dados que não são obviamente tão valiosos. Embora os dados reais, transacionais ou operacionais, sejam claramente um ativo corporativo valioso que as empresas tentarão proteger, pode ser fácil ignorar os conjuntos de dados de treinamento e teste que também contêm informações confidenciais.

Fica pior. Os sistemas de IA não querem apenas mais dados. Eles também querem diferentes tipos de dados, dados contextualizados, o tipo de dados que pode expandir drasticamente o risco de exposição de uma empresa.

Digamos, por exemplo, que uma companhia de seguros queira entender melhor os hábitos de direção de seus clientes. Atualmente, estão disponíveis no mercado conjuntos de dados que oferecem informações de compras, de direção, de localização e muito mais, que podem ser facilmente correlacionados e compatíveis com as contas dos clientes. Esse novo conjunto de dados pode ser exponencialmente mais rico do que o iniciado pela empresa, mais atraente para hackers e mais devastador para a reputação da empresa, se for violado.

Uma empresa que tem muitos dados para proteger é a Box, a plataforma de compartilhamento de arquivos online. A companhia usa a IA para extrair metadados e melhorar a pesquisa, classificação e outros recursos. "Por exemplo, podemos extrair termos, renovações e informações de preços de contratos", explica Lakshmi Hanspal, CISO da Box. "A maioria dos nossos clientes vem de uma época em que a classificação de seu conteúdo era definida pelo usuário ou foi completamente ignorada. Eles estão sentados em montanhas de dados que podem ser úteis para a transformação digital - se o conteúdo for classificado, autoconsciente, sem esperar pela ação humana."

A proteção de dados é um dos pilares principais da Box, e os mesmos padrões de proteção de dados são aplicados aos sistemas de IA. "Na Box, acreditamos que é confiança que construímos, confiança que vendemos e confiança que mantemos", acrescenta Hanspal. "Acreditamos sinceramente que isso precisa estar relacionado às ofertas que fornecemos aos nossos parceiros e clientes, e não às informações."

Isso significa que todos os sistemas, incluindo novos projetos baseados em IA, são construídos com base nos principais princípios de segurança de dados, incluindo criptografia, registro em log, monitoramento, autenticação e controles de acesso. "A confiança digital é inata em nossa plataforma e nós a operacionalizamos."

Você sabe o que seus algoritmos estão fazendo?

Na Box, há um processo de desenvolvimento seguro, tanto para o código tradicional quanto para os novos sistemas de IA e ML. "Estamos alinhados com os padrões da indústria ISO no desenvolvimento de produtos seguros", afirma Hanspal. "A segurança por design é incorporada e existem verificações e balanços, incluindo testes de penetração e formação de equipes. Esse é um processo padrão, e os projetos de IA e ML não são diferentes."

Essa prática não é realidade em todas as empresas. De acordo com David Linthicum, diretor de estratégia em nuvem da Deloitte & Touche, apenas um quarto das organizações aplica segurança desde o início. Os outros 75% estão adicionando ao longo do tempo. "É possível fazer isso, mas a quantidade de trabalho será uma vez e meia maior do que se você o construísse sistematicamente, e não será tão seguro quanto seria se você tivesse segurança projetada no sistema."

Os algoritmos de IA e ML existem há algum tempo - em laboratórios de pesquisa. Mas os matemáticos e os cientistas de dados normalmente não se preocupam com possíveis vulnerabilidades ao escrever os códigos. Quando as empresas constroem sistemas de IA, elas recorrem aos algoritmos de código aberto disponíveis, usam sistemas comerciais de IA ou constroem seus próprios a partir do zero.

Com o uso de código aberto, existe a possibilidade de os invasores inserirem códigos maliciosos ou o código incluir vulnerabilidades. Os sistemas comerciais também usarão esse código-fonte aberto, além de um novo código que os clientes corporativos geralmente não conseguem acessar.

Mesmo quando as empresas contratam PhDs para criar seus sistemas de IA e ML, eles geralmente acabam sendo uma combinação de bibliotecas de código aberto e códigos recém-criados, desenvolvidos por pessoas que não são engenheiros de segurança. Além disso, não existem práticas recomendadas para escrever algoritmos de IA seguros, e, devido à escassez de especialistas em segurança e à escassez de cientistas de dados, as pessoas que são especialistas em ambos têm um suprimento ainda menor.

A Exabeam usa modelos ML para detectar ameaças de segurança cibernética nos dados de log de seus clientes corporativos, e os algoritmos incluem componentes prontos para uso, diz Anu Yamunan, vice-presidente de produtos e pesquisas da empresa. "Queremos garantir que não haja vulnerabilidades nessas ferramentas", o que significa a prática de varreduras de vulnerabilidades e testes de penetração de terceiros.

É preciso proteger mais do que apenas algoritmos

Proteger os sistemas de IA e ML é mais do que apenas proteger os algoritmos. Um sistema de IA não é apenas um mecanismo de processamento de linguagem natural, apenas um algoritmo de classificação ou apenas uma rede neural. Mesmo que essas peças sejam completamente seguras, o sistema ainda deve interagir com usuários e plataformas de back-end.

A interface do usuário é resistente a ataques? O sistema usa autenticação forte? As conexões com os bancos de dados de back-end são seguras? E as conexões com fontes de dados de terceiros?

Empresas maduras terão um processo de desenvolvimento de software que inclui segurança desde o início, além de análises de código estáticas e dinâmicas e outros testes, mas os sistemas de IA geralmente são construídos fora desse processo, em laboratórios de skunk e projetos-piloto. "Os cientistas de dados são ótimos em descobrir como lidamos com os problemas de ML, mas não são especialistas em segurança", declara Yamunan, da Exabeam. "É importante ter especialistas em segurança e cientistas de dados sentados juntos, trabalhando juntos no projeto."

Para Rob McDonald, vice-presidente de gerenciamento de produtos da Virtru, empresa de segurança cibernética, o desenvolvimento de IA e ML precisa estar alinhado com uma estrutura de melhores práticas para segurança da informação. "Você precisará incluir segurança nesse processo. Caso contrário, você está se preparando para problemas - o que provavelmente poderia ter sido resolvido no início do processo de design, se você tiver uma supervisão de segurança em vigor."

Algoritmos de IA podem criar viés

Quando os sistemas de IA e ML são usados ​​para segurança corporativa - para análise do comportamento do usuário, para monitorar o tráfego da rede ou para verificar a exfiltração de dados, por exemplo -, há outra área que pode criar problemas: o viés.

As empresas já estão lidando com algoritmos que criam problemas éticos para os negócios, como quando plataformas de reconhecimento facial ou recrutamento discriminam mulheres ou minorias. Quando o viés se insinua nos algoritmos, ele também pode criar problemas de conformidade ou, no caso de carros autônomos e aplicações médicas, podem matar pessoas.

Algoritmos tendenciosos também podem enfraquecer a postura de segurança cibernética de uma empresa, diz Linthicum, da Deloitte. Esse problema requer atenção cuidadosa ao conjunto de dados de treinamento e testes e validação contínuos após o treinamento inicial.

Essa é uma grande incógnita quando as empresas usam sistemas de segurança com IA e ML de fornecedores externos. "Se você não estiver criando o modelo, poderá haver todos os tipos de problemas que você não conhece", revela. "Você precisa auditar tudo e ter certeza de entender tudo."

Essa atitude é especialmente importante se os resultados forem usados ​​para priorizar as respostas de segurança cibernética e, ainda mais, quando as respostas forem automatizadas.

Esse viés pode ser acidental ou pode ser causado por um hacker. "Como você sabe que os atacantes não introduziram dados falsos de treinamento para manipular os algoritmos?" questiona Brian Johnson, CEO e co-fundador da DivvyCloud, fornecedora de segurança em nuvem.

Segundo Ameya Talwalkar, diretora de produtos e cofundadora da Cequence Security, ainda não houve casos públicos sobre invasores manipulando deliberadamente os dados de treinamento em IA, mas este é o momento certo para as empresas começarem a pensar no assunto. "É uma ameaça que precisa ser levada a sério."

O futuro da IA ainda é obscuro

Os sistemas de IA e ML requerem muitos dados, algoritmos complexos e processadores poderosos que podem ser ampliados quando necessário. Todos os principais fornecedores de nuvem estão se esquecendo para oferecer plataformas de ciência de dados que têm tudo em um só lugar. Isso significa que os cientistas de dados não precisam esperar que a TI forneça servidores, já que podem simplesmente ficar online, preencher alguns formulários e colocar a mão na massa.

É verdade que os fornecedores de nuvem prometem segurança robusta e, em geral, os sistemas podem ser mais seguros do que as alternativas locais, conforme aponta Bryan Becker, pesquisador de segurança da WhiteHat Security. Porém, a configuração desses sistemas pode ser complicada. "Você pode ter uma infraestrutura segura, mas configurá-la de maneira insegura", diz Becker. "Essa é provavelmente a principal preocupação de segurança."

Esses projetos se transformam em sistemas operacionais e, à medida que aumentam, os problemas de configuração se multiplicam. Com os serviços mais recentes, os paineis centralizados e automatizados de gerenciamento de segurança e configuração podem não estar disponíveis, e as empresas devem escrever por conta própria ou aguardar que um fornecedor melhore a infraestrutura e preencha a lacuna.

De acordo com Linthicum, da Deloitte, a indústria está em um período de transição. Até o momento, as empresas estão por conta própria. "Se você estiver mudando para um novo espaço tecnológico como a IA, será responsável por fornecer segurança", diz o especialista. "Faltam peças, mas acho que os fornecedores de plataformas de IA estão fazendo um trabalho melhor cada vez que você vê uma revisão de seu software, tornando as coisas mais seguras. Eles estão aprendendo com os erros do passado."

 

Tags
Junte-se a nós e receba nossas melhores histórias de tecnologia. Newsletter Newsletter por e-mail