Surfando na onda de dados de pesquisa: o formato de troca de dados automatizado 'EnzymeML' cria transparência em experimentos enzimáticos

Nas ciências catalíticas, como em todos os campos científicos, enfrentamos um volume e complexidade crescentes de dados de pesquisa, que são um desafio para análise e reutilização. Uma equipe liderada pelo Prof. Jürgen Pleiss, do Instituto de Bioquímica e Bioquímica Técnica da Universidade de Stuttgart, introduziu o EnzymeML como um formato de troca de dados em um artigo recente da revista “Nature Methods”. O EnzyemML serve como um formato para relatar de forma abrangente os resultados de um experimento enzimático e armazena os dados de forma estruturada, tornando-os rastreáveis e reutilizáveis.

Enquanto mais e mais dados são gerados por um número crescente de pesquisadores e crescentes gastos com pesquisa em todo o mundo, esses dados dificilmente são gerenciáveis por nossa prática acadêmica de comunicar resultados científicos. Mesmo gerenciar seus próprios dados manualmente é demorado e sujeito a erros, mas acessar e reanalisar dados de outros grupos de pesquisa é quase impossível. A falta de padrões, metadados incompletos e falta de dados originais tornam quase impossível reproduzir os resultados publicados. Cada vez mais pesquisadores sentem que estão se afogando em um tsunami de dados.

Isso também se aplica a estudos sobre atividade catalítica, seletividade e estabilidade de enzimas e redes enzimáticas, um campo de pesquisa igualmente importante para biotecnologia industrial e biomedicina. O que também complica nesta área é o fato de que os dados que descrevem os experimentos enzimáticos são particularmente complexos, porque uma reação enzimática depende de muitos fatores, como a sequência da proteína da enzima, o organismo hospedeiro recombinante, as condições da reação e as condições não enzimáticas. reações secundárias. Ademais, outros efeitos como inativação ou inibição da enzima ou evaporação do meio afetam os resultados.

O novo formato padronizado de troca de dados “EnzymeML”, apresentado por 23 autores de 14 diferentes instituições de pesquisa na revista científica Métodos da Natureza dá esperança a este respeito. O EnzymeML pode registrar completamente os resultados de um experimento enzimático, desde as condições de reação até os dados medidos, bem como o modelo cinético usado para analisar os dados experimentais e os parâmetros cinéticos estimados. O formato, portanto, fornece um canal de comunicação contínuo entre plataformas experimentais, cadernos de laboratório eletrônicos, ferramentas de modelagem de cinética enzimática, plataformas de publicação e bancos de dados de reações enzimáticas. “Demonstramos a viabilidade e a utilidade da caixa de ferramentas EnzymeML usando seis cenários em que dados e metadados de várias reações enzimáticas são coletados, analisados e carregados em bancos de dados públicos para uso futuro”, explica o primeiro autor Simone Lauterbach.

Os documentos EnzymeML são estruturados e padronizados, portanto, os resultados experimentais codificados em um documento EnzymeML são interoperáveis e reutilizáveis por outros grupos. Como um documento EnzymeML é legível por máquina, ele pode ser usado em um fluxo de trabalho automatizado para armazenar, visualizar e analisar dados, bem como reanalisar dados publicados anteriormente, sem restrições de tamanho de cada conjunto de dados ou número de experimentos .

“A digitalização da biocatálise aumenta a eficiência do gerenciamento, visualização e análise de dados”, enfatiza o Prof. Jürgen Pleiss, autor correspondente e coordenador do projeto. Ademais, a digitalização melhora a reprodutibilidade de experimentos e análises de dados, promovendo assim a confiança nos resultados científicos. “A caixa de ferramentas EnzymeML faz melhor uso de dados enzimáticos em rápido crescimento e é uma ferramenta útil que permite aos pesquisadores navegar na onda de dados de pesquisa.”

O EnzymeML também é usado em projetos de pesquisa no Centro de Pesquisa Colaborativa “Catalisadores Heterogêneos Moleculares em Geometrias Confinadas” (SBF 1333) e no Cluster de Excelência “Ciência de Simulação Integrada de Dados” (SimTech) na Universidade de Stuttgart, e também está incorporado ao as Infraestruturas de Dados de Pesquisa Nacional Alemã NFDI4Cat e NFDI4Chem.

Com informações de Science Daily.