Microsoft compartilha orientações e recursos para AI Red Teams

A Microsoft publicou na segunda-feira um resumo de seus esforços de red teaming de inteligência artificial (IA) e compartilhou orientações e recursos que podem ajudar a tornar a IA mais segura e protegida.

A gigante da tecnologia disse que sua jornada de AI red teaming começou há mais de duas décadas, mas lançou uma AI Red Team dedicada em 2018. Desde então, vem trabalhando no desenvolvimento de recursos de segurança de AI que podem ser usados por toda a indústria.

A empresa já compartilhou cinco lições principais aprendeu com seus esforços de equipe vermelha. A primeira é que o red teaming de IA agora é um termo abrangente para sondar a segurança, bem como os resultados responsáveis pela IA (RAI). No caso de segurança, pode incluir encontrar vulnerabilidades e proteger o modelo subjacente, enquanto no caso de resultados de RAI, o foco do Red Team está na identificação de conteúdo prejudicial e questões de justiça, como estereótipos.

A Microsoft também apontou que o AI red teaming se concentra não apenas em ameaças potenciais de agentes mal-intencionados, mas também em como a IA pode gerar conteúdo prejudicial e problemático quando os usuários interagem com ela.

Os sistemas de IA estão em constante evolução e mudança, em um ritmo mais rápido em comparação com os sistemas de software tradicionais, e é por isso que é importante realizar várias rodadas de red teaming e automatizar as medições e o monitoramento do sistema.

Isso também é necessário porque os sistemas de IA são probabilísticos – a mesma entrada pode gerar saídas diferentes. A realização de várias rodadas de equipes vermelhas na mesma operação pode revelar problemas que uma única tentativa pode não identificar.

Por fim, a Microsoft destacou que – assim como no caso da segurança tradicional – a mitigação de falhas de IA requer uma abordagem de defesa em profundidade que pode incluir o uso de classificadores para sinalizar conteúdo prejudicial, alavancar o metaprompt para orientar o comportamento e limitar o desvio de conversação .

A Microsoft compartilhou vários recursos que podem ser úteis para vários grupos de indivíduos interessados em segurança de IA. Esses recursos incluem um guia para ajudar os desenvolvedores de aplicativos de modelo OpenAI do Azure a criar uma equipe vermelha de IA, uma barra de bug para triagem de ataques em sistemas de aprendizado de máquina (ML) para respondentes de incidentes e uma lista de verificação de avaliação de risco de IA para engenheiros de ML.

Os recursos também incluem orientação de modelagem de ameaças para desenvolvedores, documentação do modo de falha de ML para formuladores de políticas e engenheiros e segurança corporativa e orientação de governança para clientes do Azure ML.

A Microsoft compartilhou orientações e recursos apenas algumas semanas depois que o Google apresentou seu AI Red Team, encarregado de realizar ataques técnicos complexos a sistemas de inteligência artificial.