Transformações de Fourier decifram como redes neurais aprendem física, desvendando ‘caixa preta’ da IA

Uma das ferramentas mais antigas da física computacional – uma técnica matemática de 200 anos conhecida como análise de Fourier – pode revelar informações cruciais sobre como uma forma de inteligência artificial chamada rede neural profunda aprende a executar tarefas que envolvem física complexa, como clima e modelagem de turbulência, de acordo com um novo estudo.

A descoberta de pesquisadores de engenharia mecânica da Rice University é descrita em um estudo de acesso aberto publicado na PNAS Nexus, uma publicação irmã do Proceedings of the National Academy of Sciences.

“Esta é a primeira estrutura rigorosa para explicar e orientar o uso de redes neurais profundas para sistemas dinâmicos complexos, como o clima”, disse o autor correspondente do estudo, Pedram Hassanzadeh. “Isso poderia acelerar substancialmente o uso de aprendizado profundo científico na ciência do clima e levar a projeções de mudanças climáticas muito mais confiáveis”.

No artigo, Hassanzadeh, Adam Subel e Ashesh Chattopadhyay, ambos ex-alunos, e Yifei Guan, pesquisador associado de pós-doutorado, detalharam o uso da análise de Fourier para estudar uma rede neural de aprendizagem profunda que foi treinada para reconhecer fluxos complexos de ar na atmosfera. ou água no oceano e prever como esses fluxos mudariam ao longo do tempo. A análise revelou “não apenas o que a rede neural aprendeu, mas também nos permitiu conectar diretamente o que a rede aprendeu com a física do sistema complexo que estava modelando”, disse Hassanzadeh.

“Redes neurais profundas são notoriamente difíceis de entender e muitas vezes são consideradas ‘caixas pretas’”, disse ele. “Essa é uma das principais preocupações com o uso de redes neurais profundas em aplicações científicas. A outra é a generalização: essas redes não podem funcionar para um sistema diferente daquele para o qual foram treinadas”.

Hassanzadeh disse que a estrutura analítica que sua equipe apresenta no artigo “abre a caixa preta, permite-nos olhar para dentro para entender o que as redes aprenderam e por quê, e também nos permite conectar isso à física do sistema que foi aprendido”.

Subel, o principal autor do estudo, iniciou a pesquisa como aluno de graduação da Rice e agora é aluno de pós-graduação na Universidade de Nova York. Ele disse que a estrutura pode ser usada em combinação com técnicas de aprendizagem por transferência para “permitir a generalização e, finalmente, aumentar a confiabilidade da aprendizagem científica profunda”.

Embora muitos estudos anteriores tenham tentado revelar como as redes de aprendizado profundo aprendem a fazer previsões, Hassanzadeh disse que ele, Subel, Guan e Chattopadhyay escolheram abordar o problema de uma perspectiva diferente.

“As ferramentas comuns de aprendizado de máquina para entender as redes neurais não mostraram muito sucesso para aplicações de sistemas naturais e de engenharia, pelo menos de modo que as descobertas pudessem ser conectadas à física”, disse Hassanzadeh. “Nosso pensamento foi: ‘Vamos fazer algo diferente. Vamos usar uma ferramenta que é comum para estudar física e aplicá-la ao estudo de uma rede neural que aprendeu a fazer física.”

Ele disse que a análise de Fourier, proposta pela primeira vez na década de 1820, é uma técnica favorita de físicos e matemáticos para identificar padrões de frequência no espaço e no tempo.

“As pessoas que fazem física quase sempre olham para os dados no espaço de Fourier”, disse ele. “Isso torna a física e a matemática mais fáceis.”

Por exemplo, se alguém tivesse um registro minuto a minuto das leituras de temperatura externa por um período de um ano, as informações seriam uma sequência de 525.600 números, um tipo de conjunto de dados que os físicos chamam de série temporal. Para analisar a série temporal no espaço de Fourier, um pesquisador usaria a trigonometria para transformar cada número da série, criando outro conjunto de 525.600 números que conteriam informações do conjunto original, mas com uma aparência bem diferente.

“Em vez de ver a temperatura a cada minuto, você veria apenas alguns picos”, disse Subel. “Um seria o cosseno de 24 horas, que seria o ciclo diurno e noturno de altos e baixos. Esse sinal estava lá o tempo todo na série temporal, mas a análise de Fourier permite que você veja facilmente esses tipos de sinais tanto no tempo quanto no tempo. espaço.”

Com base nesse método, os cientistas desenvolveram outras ferramentas para análise de frequência de tempo. Por exemplo, as transformações de passagem baixa filtram o ruído de fundo e os filtros de passagem alta fazem o inverso, permitindo focar no fundo.

A equipe de Hassanzadeh primeiro realizou a transformação de Fourier na equação de seu modelo de aprendizado profundo totalmente treinado. Cada um dos aproximadamente 1 milhão de parâmetros do modelo atua como multiplicadores, aplicando mais ou menos peso a operações específicas na equação durante os cálculos do modelo. Em um modelo não treinado, os parâmetros têm valores aleatórios. Estes são ajustados e aprimorados durante o treinamento, à medida que o algoritmo aprende gradualmente a chegar a previsões cada vez mais próximas dos resultados conhecidos nos casos de treinamento. Estruturalmente, os parâmetros do modelo são agrupados em cerca de 40.000 matrizes cinco por cinco, ou núcleos.

“Quando pegamos a transformada de Fourier da equação, isso nos disse que deveríamos olhar para a transformada de Fourier dessas matrizes”, disse Hassanzadeh. “Não sabíamos disso. Ninguém nunca fez essa parte antes, olhou para as transformadas de Fourier dessas matrizes e tentou conectá-las à física.

“E quando fizemos isso, descobrimos que o que a rede neural está aprendendo é uma combinação de filtros passa-baixa, filtros passa-alta e filtros Gabor”, disse ele.

“O mais bonito disso é que a rede neural não está fazendo mágica”, disse Hassanzadeh. “Não está fazendo nada maluco. Na verdade, está fazendo o que um físico ou matemático poderia ter tentado fazer. Claro, sem o poder das redes neurais, não sabíamos como combinar corretamente esses filtros. Mas quando conversamos com físicos sobre isso trabalho, eles adoram. Porque eles são, tipo, ‘Oh! Eu sei o que são essas coisas. Isso é o que a rede neural aprendeu. Entendo.'”

Subel disse que as descobertas têm implicações importantes para o aprendizado profundo científico e até sugerem que algumas coisas que os cientistas aprenderam ao estudar o aprendizado de máquina em outros contextos, como a classificação de imagens estáticas, podem não se aplicar ao aprendizado de máquina científico.

“Descobrimos que alguns dos conhecimentos e conclusões na literatura de aprendizado de máquina que foram obtidos do trabalho em aplicações comerciais e médicas, por exemplo, não se aplicam a muitas aplicações críticas em ciência e engenharia, como modelagem de mudanças climáticas”, disse Subel. . “Isso, por si só, é uma implicação importante.”

Chattopadhyay recebeu seu Ph.D. em 2022 e agora é cientista pesquisador no Palo Alto Research Center.

A pesquisa foi apoiada pelo Office of Naval Research (N00014-20-1-2722), pela National Science Foundation (2005123, 1748958) e pelo programa Schmidt Futures. Os recursos computacionais foram fornecidos pela National Science Foundation (170020) e pelo National Center for Atmospheric Research (URIC0004).

Com informações de Science Daily.