Quão seguros são seus projetos de Inteligência Artificial e Machine Learning?

Inteligência artificial e machine learning trazem novas vulnerabilidades junto com seus benefícios. Veja como várias empresas minimizaram seus riscos

Publicado: 18/08/2020 às 08:37

Leitura 14 minutos

futuro inteligencia artificial — Foto: Adobe Stock

Quando as empresas adotam uma nova tecnologia, a segurança geralmente fica em segundo plano. Pode parecer mais importante obter novos produtos ou serviços para clientes e usuários internos o mais rápido possível e com o menor custo. Uma boa segurança pode ser lenta e cara.

A inteligência artificial (IA) e o machine learning (ML) oferecem as mesmas oportunidades para vulnerabilidades e configurações incorretas dos avanços tecnológicos anteriores, mas também apresentam riscos exclusivos. À medida que as empresas embarcam em grandes transformações digitais baseadas em IA, esses riscos podem se tornar maiores. “Não é uma boa área para se precipitar”, diz Edward Raff, Cientista-chefe da Booz Allen Hamilton.

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

IA e ML exigem mais dados e dados mais complexos do que outras tecnologias. Os algoritmos desenvolvidos por matemáticos e cientistas de dados surgem de projetos de pesquisa. “Somos apenas uma recente comunidade científica começando a entender que existem problemas de segurança com IA”, disse Raff.

Os requisitos de volume e processamento significam que as plataformas em nuvem geralmente lidam com as cargas de trabalho, adicionando outro nível de complexidade e vulnerabilidade. Não é nenhuma surpresa que a segurança cibernética seja o risco mais preocupante para os adotantes de IA. De acordo com uma pesquisa da Deloitte divulgada no mês passado, 62% dos adotantes veem os riscos de segurança cibernética como uma preocupação importante ou extrema, mas apenas 39% disseram estar preparados para lidar com esses riscos.

Para agravar o problema, a segurança cibernética é uma das principais funções para as quais a IA está sendo usada. Quanto mais as organizações experientes estão com IA, mais preocupadas elas ficam com os riscos de segurança cibernética, diz Jeff Loucks, Diretor Executivo do Centro de Tecnologia, Mídia e Telecomunicações da Deloitte.

Além disso, as empresas, mesmo as mais experientes, não estão seguindo as práticas básicas de segurança, como manter um inventário completo de todos os projetos de IA e ML ou conduzir auditorias e testes. “As empresas não estão fazendo um ótimo trabalho de implementação agora”, diz Loucks.

As necessidades de dados de IA e ML criam riscos

Os sistemas de IA e ML requerem três conjuntos de dados:

Dados de treinamento para construir um modelo preditivo
Dados de teste para avaliar o quão bem o modelo funciona
Dados transacionais ou operacionais ao vivo quando o modelo é colocado para funcionar

Embora os dados transacionais ou operacionais ao vivo sejam claramente um ativo corporativo valioso, pode ser fácil ignorar os pools de dados de treinamento e teste que também contêm informações confidenciais.

Muitos dos princípios usados para proteger dados em outros sistemas podem ser aplicados a projetos de IA e ML, incluindo anonimato, tokenização e criptografia. O primeiro passo é perguntar se os dados são necessários. É tentador, ao se preparar para projetos de IA e ML, coletar todos os dados possíveis e ver o que pode ser feito com eles.

Focar nos resultados de negócios pode ajudar as empresas a limitar os dados que coletam apenas ao necessário. “As equipes de ciência de dados podem ter muita fome de dados”, diz John Abbatico, CTO da Othot, uma empresa que analisa dados de alunos para instituições educacionais. “Deixamos claro ao lidar com dados de alunos que PII [informações de identificação pessoal] altamente confidenciais não são necessárias e nunca devem ser incluídas nos dados fornecidos à nossa equipe”.

Claro, erros acontecem. Por exemplo, às vezes os clientes fornecem informações pessoais confidenciais, como números de previdência social. Esta informação não melhora o desempenho dos modelos, mas cria riscos adicionais. Abbatico diz que sua equipe possui um procedimento para identificar PII, eliminá-lo de todos os sistemas e notificar os clientes sobre o erro. “Não consideramos isso um incidente de segurança, mas nossas práticas fazem com que pareça um”. Além disso, os sistemas de IA também querem dados contextualizados, o que pode expandir drasticamente o risco de exposição de uma empresa.

Segurança de IA por design

Uma empresa que tem muitos dados para proteger é a Box, a plataforma on-line de compartilhamento de arquivos. O Box usa IA para extrair metadados e melhorar a pesquisa, classificação e outros recursos. “Por exemplo, podemos extrair informações de termos, renovações e preços de contratos”, diz Lakshmi Hanspal, CISO da Box. “A maioria de nossos clientes vem de uma era em que a classificação de seu conteúdo é definida pelo usuário ou foi completamente ignorada. Eles estão sentados em montanhas de dados que podem ser úteis para a transformação digital – se o conteúdo for classificado, autoconsciente, sem esperar pela ação humana”.

A proteção de dados é um pilar fundamental para o Box, diz Hanspal, e os mesmos padrões de proteção de dados são aplicados aos sistemas de IA, incluindo dados de treinamento. Isso significa que todos os sistemas, incluindo novos projetos com tecnologia de IA, são construídos em torno dos princípios básicos de segurança de dados, incluindo criptografia, registro, monitoramento, autenticação e controles de acesso. “A confiança digital é inata à nossa plataforma e nós a operacionalizamos”, diz Hanspal.

A Box possui um processo de desenvolvimento seguro para o código tradicional e os novos sistemas alimentados por IA e ML. “Estamos alinhados com os padrões ISO da indústria no desenvolvimento de produtos seguros”, diz Hanspal. “A segurança desde o projeto é integrada, e há verificações e balanços em vigor, incluindo teste de penetração e formação de equipes vermelhas. Este é um processo padrão, e os projetos de IA e ML não são diferentes”.

Matemáticos e cientistas de dados normalmente não se preocupam com potenciais vulnerabilidades ao escrever códigos de algoritmos de IA e ML. Quando as empresas criam sistemas de IA, elas se baseiam nos algoritmos de código aberto disponíveis, usam sistemas comerciais de IA de “caixa preta” ou constroem seus próprios do zero.

Com o código-fonte aberto, existe a possibilidade de que invasores tenham inserido um código malicioso ou que o código inclua vulnerabilidades ou dependências vulneráveis. Os sistemas comerciais proprietários também usam esse código-fonte aberto, além de um novo código que os clientes corporativos geralmente não conseguem ver.

A inversão ataca uma grande ameaça

Os sistemas de IA e ML geralmente acabam sendo uma combinação de bibliotecas de código aberto e código recém-escrito criado por pessoas que não são engenheiros de segurança. Além disso, não existem práticas recomendadas padrão para escrever algoritmos de IA seguros. Dada a escassez de especialistas em segurança e de cientistas de dados, as pessoas que são especialistas em ambos são ainda mais escassas.

Um dos maiores riscos potenciais dos algoritmos de IA e ML, e a ameaça de longo prazo que mais preocupa Raff, da Booz Allen Hamilton, é a possibilidade de vazar dados de treinamento para os invasores. “Existem ataques de inversão em que você pode fazer com que o modelo de IA forneça informações sobre ele mesmo e sobre o que foi treinado”, diz ele. “Se ele foi treinado em dados PII, você pode fazer com que o modelo vaze essas informações para você. Os PII reais podem ser potencialmente expostos”.

Esta é uma área de pesquisa ativa, diz Raff, e um grande ponto de dor em potencial. Algumas ferramentas podem proteger os dados de treinamento de ataques de inversão, mas são muito caras. “Sabemos como impedir isso, mas fazer isso aumenta em 100 vezes o custo de treinamento dos modelos”, afirma. “Não estou exagerando. É literalmente 100 vezes mais caro e mais longo treinar o modelo, então ninguém faz isso”.

Você não pode proteger o que não pode explicar

Outra área de pesquisa é a explicabilidade. Hoje, muitos sistemas de IA e ML – incluindo as ferramentas baseadas em IA e ML oferecidas por muitos dos principais fornecedores de segurança cibernética – são sistemas de “caixa preta”. “Os fornecedores não estão construindo explicabilidade”, diz Sounil Yu, CISO residente na YL Ventures. “Em segurança, ser capaz de explicar o que aconteceu é um componente fundamental. Se não posso explicar por que aconteceu, como posso consertar?”

Para empresas que criam seus próprios sistemas de IA ou ML, quando algo dá errado, elas podem voltar aos dados de treinamento ou aos algoritmos usados e corrigir o problema. “Se você está construindo de outra pessoa, não tem ideia de quais eram os dados de treinamento”, disse Yu.

Precisa proteger mais do que apenas algoritmos

Um sistema de IA não é apenas um mecanismo de processamento de linguagem natural ou apenas um algoritmo de classificação ou apenas uma rede neural. Mesmo que essas peças sejam completamente seguras, o sistema ainda deve interagir com os usuários e plataformas de back-end.

O sistema usa autenticação forte e os princípios do menor privilégio? As conexões com os bancos de dados back-end são seguras? E quanto às conexões com fontes de dados de terceiros? A interface do usuário é resiliente contra ataques de injeção?

Outra fonte de insegurança relacionada às pessoas é exclusiva dos projetos de IA e ML: cientistas de dados. “Eles não os chamam de cientistas à toa”, diz Abbatico, de Othot. “Bons cientistas de dados realizam experimentos com dados que levam a modelos perspicazes. A experimentação, no entanto, pode levar a um comportamento arriscado quando se trata de segurança de dados”. Eles podem ficar tentados a mover dados para locais inseguros ou excluir conjuntos de dados de amostra quando terminar de trabalhar com eles. Othot investiu na obtenção da certificação SOC II desde o início, e esses controles ajudam a aplicar fortes práticas de proteção de dados em toda a empresa, incluindo quando se trata de mover ou excluir dados.

“A verdade é que o maior risco na maioria dos modelos de IA em todos os lugares não está na IA”, disse Peter Herzog, Gerente de Produto da Urvin AI, uma agência de IA, e co-fundador da ISECOM, uma organização internacional sem fins lucrativos em pesquisa de segurança. O problema, diz ele, está nas pessoas. “Não existe um modelo de IA livre de problemas de segurança porque as pessoas decidem como treiná-los, decidem quais dados incluir, decidem o que desejam prever e quanto dessas informações expor”.

Outro risco de segurança específico para sistemas de IA e ML é o envenenamento de dados, em que um invasor insere informações em um sistema para forçá-lo a fazer previsões imprecisas. “É uma ameaça real no futuro, mas agora as ferramentas clássicas que os invasores usam para fugir do antivírus ainda são eficazes, então eles não precisam ficar mais sofisticados”, diz Raff.

Evitando viés, desvio do modelo

Quando os sistemas de IA e ML são usados para segurança corporativa – para análise do comportamento do usuário, para monitorar o tráfego da rede ou para verificar a exfiltração de dados, por exemplo – preconceitos e desvios de modelo podem criar riscos potenciais. Um conjunto de dados de treinamento que sub-representa ataques específicos ou que está desatualizado rapidamente pode deixar uma organização vulnerável, especialmente porque a IA é cada vez mais usada para defesa. “Você precisa estar constantemente atualizando seu modelo”, diz Raff. “Você precisa torná-lo uma coisa contínua”.

Em alguns casos, o treinamento pode ser automático. Adaptar um modelo às mudanças nos padrões climáticos ou cronogramas de entrega da cadeia de suprimentos, por exemplo, pode ajudar a torná-lo mais confiável ao longo do tempo. Quando a fonte de informações envolve agentes mal-intencionados, os conjuntos de dados de treinamento precisam ser gerenciados com cuidado para evitar envenenamento e manipulação.

As empresas já estão lidando com algoritmos que criam problemas éticos, como quando o reconhecimento facial ou as plataformas de recrutamento discriminam mulheres ou minorias. Quando o preconceito se insinua nos algoritmos, ele também pode criar problemas de conformidade ou, no caso de carros autônomos e aplicações médicas, pode matar pessoas.

Assim como os algoritmos podem injetar viés nas previsões, eles também podem ser usados para controlar o viés. Orthot, por exemplo, ajuda universidades com objetivos como otimizar o tamanho das turmas ou atingir objetivos financeiros. A criação de modelos sem restrições apropriadas pode facilmente criar viés, diz Abbatico de Othot. “Levar em conta o preconceito requer diligência. Adicionar metas relacionadas à diversidade ajuda a modelagem a entender os objetivos e pode ajudar a combater o preconceito que poderia ser facilmente incorporado nas admissões se as metas de diversidade não fossem incluídas como restrições”.

O futuro da IA é nebuloso

Os sistemas de IA e ML exigem muitos dados, algoritmos complexos e processadores poderosos que podem ser escalonados quando necessário. Todos os principais fornecedores de nuvem estão se atropelando para oferecer plataformas de ciência de dados que tenham tudo em um lugar conveniente. Isso significa que os cientistas de dados não precisam esperar que a TI forneça servidores para eles. Eles podem simplesmente entrar na Internet, preencher alguns formulários e entrar no mercado.

De acordo com a pesquisa Deloitte IA, 93% das empresas estão usando alguma forma de IA baseada em nuvem. “É mais fácil começar”, diz Loucks da Deloitte. Esses projetos então se transformam em sistemas operacionais e, à medida que aumentam de escala, os problemas de configuração se multiplicam. Com os serviços mais recentes, os painéis centralizados e automatizados de configuração e gerenciamento de segurança podem não estar disponíveis, e as empresas devem escrever seus próprios ou esperar que um fornecedor se apresente e preencha a lacuna.

Quando as pessoas que usam os sistemas são cientistas de dados de cidadãos ou pesquisadores teóricos sem grande experiência em segurança, isso pode ser um problema. Além disso, os fornecedores historicamente lançam os novos recursos primeiro e a segurança depois. Isso pode ser um problema quando os sistemas são implantados rapidamente e, em seguida, dimensionados ainda mais rapidamente. Já vimos isso acontecer com dispositivos IoT, armazenamento em nuvem e contêineres.

Os fornecedores de plataformas de IA estão se tornando mais cientes dessa ameaça e aprenderam com os erros, diz Raff. “Estou vendo uma inclusão mais ativa de planos para incluir segurança do que poderíamos esperar, dada a mentalidade histórica de ‘a segurança vem por último’”, diz ele. “A comunidade de ML está mais preocupada com isso, e o tempo de espera provavelmente será menor”.

Irfan Saif, Diretor e Co-líder de IA da Deloitte, concorda, especialmente quando se trata das principais plataformas de nuvem que oferecem suporte a grandes cargas de trabalho de IA corporativa. “Eu diria que sim, eles estão mais maduros do que talvez as tecnologias anteriores em termos de evolução dos recursos de segurança cibernética”.

Lista de verificação de segurança para projetos de IA

A lista de verificação a seguir, do State of AI in the Enterprise – 3ª edição da Deloitte, poderá ajudar a proteger projetos de IA:

Mantenha um inventário formal de todas as implementações de IA;
Alinhe o gerenciamento de risco de IA com esforços mais amplos de gerenciamento de risco;
Ter um único executivo responsável pelos riscos relacionados à IA;
Realizar auditoria interna e testes;
Use fornecedores externos para realizar auditorias e testes independentes;
Treine os profissionais como reconhecer e resolver questões éticas em torno da IA;
Colabore com partes externas em práticas líderes de ética sólida de IA;
Garanta que os fornecedores de IA forneçam sistemas imparciais;
Estabeleça políticas ou um conselho para orientar a ética da IA.