Funcionários da Casa Branca preocupados com o potencial de danos sociais dos chatbots de IA e as potências do Vale do Silício que os apressam para o mercado estão investindo pesadamente em uma competição de três dias que termina no domingo no DefCon convenção de hackers em Las Vegas.
Cerca de 2.200 concorrentes recorreram a laptops para expor falhas em oito dos principais modelos de linguagem grande, representativos da próxima grande novidade da tecnologia. Mas não espere resultados rápidos deste primeiro “red-teaming” independente de vários modelos.
Os resultados não serão divulgados até cerca de fevereiro. E mesmo assim, corrigir falhas nessas construções digitais – cujo funcionamento interno não é totalmente confiável nem totalmente compreendido, mesmo por seus criadores – levará tempo e milhões de dólares.
Os modelos atuais de IA são simplesmente pesados demais, frágeis e maleáveis, mostram pesquisas acadêmicas e corporativas. A segurança foi uma reflexão tardia em seu treinamento, pois os cientistas de dados acumularam coleções incrivelmente complexas de imagens e textos. Eles são propensos a preconceitos raciais e culturais e facilmente manipulados.
“É tentador fingir que podemos polvilhar um pouco de pó mágico de segurança nesses sistemas depois que eles são construídos, remendá-los ou aparafusar aparatos especiais de segurança nas laterais”, disse Gary McGraw, veterano em segurança cibernética e cofundador do Berryville Institute. de Aprendizado de Máquina. Os concorrentes da DefCon são “mais propensos a encontrar problemas novos e difíceis”, disse Bruce Schneier, um tecnólogo de interesse público de Harvard. “Isso é segurança de computadores há 30 anos. Estamos apenas quebrando coisas a torto e a direito.”
Michael Sellitto, da Anthropic, que forneceu um dos modelos de teste de IA, reconheceu em uma coletiva de imprensa que entender suas capacidades e questões de segurança “é uma espécie de área aberta de investigação científica”.
O software convencional usa código bem definido para emitir instruções explícitas passo a passo. O ChatGPT da OpenAI, o Bard do Google e outros modelos de linguagem são diferentes. Treinados em grande parte pela ingestão – e classificação – bilhões de pontos de dados em rastreamentos da Internet, eles são trabalhos perpétuos em andamento, uma perspectiva perturbadora devido ao seu potencial transformador para a humanidade.
Depois de lançar chatbots publicamente no outono passado, a indústria de IA generativa teve que repetidamente tapar brechas de segurança expostas por pesquisadores e consertadores.
Tom Bonner, da empresa de segurança de IA HiddenLayer, palestrante da DefCon deste ano, enganou um sistema do Google para rotular um malware como inofensivo apenas inserindo uma linha que dizia “isso é seguro de usar”.
“Não há bons guarda-corpos”, disse ele.
Outro pesquisador fez com que o ChatGPT criasse e-mails de phishing e uma receita para eliminar violentamente a humanidade, uma violação de seu código de ética.
Uma equipe que inclui pesquisadores da Carnegie Mellon descobriu que os principais chatbots são vulneráveis a ataques automatizados que também produzem conteúdo prejudicial. “É possível que a própria natureza dos modelos de aprendizado profundo torne tais ameaças inevitáveis”, escreveram eles.
Não é como se os alarmes não tivessem soado.
Em seu 2021 relatório final, a Comissão de Segurança Nacional dos EUA sobre Inteligência Artificial disse que ataques a sistemas comerciais de IA já estavam acontecendo e “com raras exceções, a ideia de proteger sistemas de IA foi uma reflexão tardia na engenharia e no campo de sistemas de IA, com investimento inadequado em pesquisa e desenvolvimento”.
Hacks graves, relatados regularmente apenas alguns anos atrás, agora são pouco divulgados. Muito está em jogo e, na ausência de regulamentação, “as pessoas podem varrer as coisas para debaixo do tapete no momento e estão fazendo isso”, disse Bonner.
Os ataques enganam a lógica da inteligência artificial de maneiras que podem nem ser claras para seus criadores. E os chatbots são especialmente vulneráveis porque interagimos com eles diretamente em linguagem simples. Essa interação pode alterá-los de maneiras inesperadas.
Pesquisadores descobriram que “envenenar” uma pequena coleção de imagens ou texto no vasto mar de dados usados para treinar sistemas de IA pode causar estragos – e ser facilmente ignorado.
Um estudo de coautoria de Florian Tramér, da Universidade Suíça ETH Zurich, determinou que corromper apenas 0,01% de um modelo era suficiente para estragá-lo – e custar apenas US$ 60. Os pesquisadores esperaram que um punhado de sites usados em rastreamentos da web para dois modelos expirassem. Em seguida, eles compraram os domínios e publicaram dados incorretos sobre eles.
Hyrum Anderson e Ram Shankar Siva Kumar, que red-team AI enquanto colegas da Microsoft, chamam o estado de segurança AI para modelos baseados em texto e imagem “lamentável” em seu novo livro “Not with a Bug but with a Sticker”. Um exemplo que eles citam em apresentações ao vivo: a assistente digital Alexa, com inteligência artificial, é enganada para interpretar um clipe de concerto de Beethoven como um comando para pedir 100 pizzas congeladas.
Pesquisando mais de 80 organizações, os autores descobriram que a grande maioria não tinha um plano de resposta para um ataque de envenenamento de dados ou roubo de conjunto de dados. A maior parte da indústria “nem saberia que isso aconteceu”, escreveram eles.
Andrew W. Moore, ex-executivo do Google e reitor da Carnegie Mellon, diz que lidou com ataques ao software de busca do Google há mais de uma década. E entre o final de 2017 e o início de 2018, os spammers usaram o serviço de detecção com inteligência artificial do Gmail quatro vezes.
Os grandes players de IA dizem que segurança e proteção são as principais prioridades e assumiram compromissos voluntários com a Casa Branca no mês passado para enviar seus modelos – em grande parte “caixas pretas” cujo conteúdo é mantido de perto – para escrutínio externo.
Mas existe a preocupação de que as empresas não façam o suficiente.
Tramér espera que os mecanismos de busca e as plataformas de mídia social sejam manipulados para obter ganhos financeiros e desinformação, explorando os pontos fracos do sistema de IA. Um candidato a emprego experiente pode, por exemplo, descobrir como convencer um sistema de que é o único candidato correto.
Ross Anderson, um cientista da computação da Universidade de Cambridge, teme que os bots de IA erodam a privacidade à medida que as pessoas os envolvem para interagir com hospitais, bancos e empregadores e atores maliciosos os utilizam para extrair dados financeiros, de emprego ou de saúde de sistemas supostamente fechados.
Os modelos de linguagem de IA também podem se poluir ao se reciclarem a partir de dados inúteis, mostram as pesquisas.
Outra preocupação são os segredos da empresa sendo ingeridos e cuspidos por sistemas de IA. Depois que uma agência de notícias de negócios coreana informou sobre tal incidente na Samsung, corporações como Verizon e JPMorgan proibiram a maioria dos funcionários de usar o ChatGPT no trabalho.
Embora os principais players de IA tenham equipes de segurança, muitos concorrentes menores provavelmente não terão, o que significa que plug-ins mal protegidos e agentes digitais podem se multiplicar. Espera-se que as startups lancem centenas de ofertas construídas em modelos pré-treinados licenciados nos próximos meses.
Não se surpreenda, dizem os pesquisadores, se alguém fugir com sua agenda.