Analisar a expressão gênica de uma pessoa requer o mapeamento de sua paisagem de RNA para uma referência padrão para obter informações sobre o grau em que os genes são “ativados” e desempenham funções no corpo. Mas os pesquisadores podem ter problemas quando a referência não fornece informações suficientes para permitir um mapeamento preciso, um problema conhecido como viés de referência.

Em um novo artigo publicado na revista Métodos da Natureza, pesquisadores da UC Santa Cruz apresentam o primeiro método para analisar dados de sequenciamento de RNA em todo o genoma usando um “pantranscriptoma”, que combina um transcriptoma e um pangenoma – uma referência que contém material genético de uma coorte de diversos indivíduos, em vez de apenas um único fio linear. Um grupo de cientistas liderados pelo professor associado de engenharia biomolecular da UCSC, Benedict Paten, lançou um kit de ferramentas que permite aos pesquisadores mapear os dados de RNA de um indivíduo para uma referência muito mais rica, abordando o viés de referência e levando a um mapeamento muito mais preciso.

“Isso é pangenoma mais transcriptoma – essa combinação nunca foi realmente feita antes até agora”, disse Jordan Eizenga, co-primeiro autor do artigo e pós-doutorando no Laboratório de Genômica Computacional da UCSC. “Esta é a primeira vez que alguém tenta incorporar o pangenoma como uma característica padrão do mapeamento de sequenciamento de RNA”.

Essa ferramenta ajudará pesquisadores de todo o mundo que estão trabalhando para entender a expressão gênica por meio da análise de sequenciamento de RNA. As ferramentas estão disponíveis publicamente e podem ser acessadas via Github.

“Com este kit de ferramentas, estamos empregando esses dados mais diversos que agora podemos obter do pangenoma para melhorar a medição dos dados de expressão gênica, algo que pode variar amplamente entre os indivíduos”, disse Paten. “O objetivo é fazer com que o impacto desses dados mais diversos seja sentido em estudos que analisam a expressão gênica, resultando em uma melhor análise para modelos celulares, modelos organoides e outras aplicações de pesquisa”.

A função mais comumente reconhecida do RNA é traduzir o DNA em proteínas, mas os cientistas agora entendem que a grande maioria do RNA não é codificante e não produz proteínas, mas pode desempenhar papéis como influenciar a estrutura celular ou regular os genes. Todo o cenário do RNA é conhecido coletivamente como transcriptoma, e mapeá-lo permite que os pesquisadores entendam melhor a expressão gênica de um indivíduo.

O pantranscriptoma baseia-se no conceito emergente de “pangenômica” no campo da genômica. Normalmente, ao avaliar os dados genômicos de um indivíduo quanto à variação, os cientistas comparam o genoma do indivíduo com o de uma referência composta por uma única cadeia linear de bases de DNA. O uso de um pangenoma permite que os pesquisadores comparem o genoma de um indivíduo com o de uma coorte geneticamente diversa de sequências de referência de uma só vez, provenientes de indivíduos que representam uma diversidade de ancestrais biogeográficos. Isso dá aos cientistas mais pontos de comparação para entender melhor a variação genômica de um indivíduo.

O mapeamento de dados de sequenciamento de RNA para entender a expressão gênica pode ser difícil porque as sequências de RNA são unidas por mecanismos celulares, o que significa que um conjunto de dados de RNA pode vir de áreas não conectadas do genoma, tornando difícil alinhá-los corretamente a uma referência. Esses locais de splicing não são uniformes na população humana, mas variam entre os indivíduos. Também é difícil saber de qual haplótipo vem o RNA – se o grupo de genes vem especificamente do conjunto de cromossomos herdados da mãe do indivíduo ou do conjunto herdado do pai.

Mas com o novo pipeline de ferramentas de código aberto, os pesquisadores podem pegar os segmentos emendados do RNA de um indivíduo, mapear onde eles se alinham em um pangenoma, identificar a qual haplótipo os dados pertencem e analisar a expressão do gene.

Primeiro, o pipeline identifica de quais áreas do genoma vêm os dados de sequenciamento de RNA, incluindo os locais de splicing, e marca esses pontos na referência do pangenoma. Esses pontos marcados são então comparados a um pantranscriptoma que consiste em transcrições específicas do haplótipo geradas a partir dos dados de referência contidos no pangenoma. Esta etapa requer métodos algorítmicos especializados e desafiadores.

Por fim, gera estimativas de níveis de expressão gênica com base nessa comparação entre os dados mapeados e os transcritos no pantranscriptoma e identifica de quais haplótipos os genes vêm.

“É definitivamente um estudo muito prospectivo, pois outros métodos de expressão do genoma ainda não estão realmente utilizando informações de pangenomas e haplótipos”, disse Jonas Sibbesen, co-autor do estudo e ex-bolsista de pós-doutorado no Laboratório de Genômica Computacional da UCSC. que agora é professor assistente na Universidade de Copenhague. “Agora estamos pensando no que a pangenômica pode trazer adicionalmente para as análises transcriptômicas”.

No futuro, os pesquisadores estão interessados ​​em desenvolver ainda mais essas ferramentas para serem úteis para análise de informática downstream e adaptar as ferramentas para as particularidades da pesquisa em dados de célula única. Por enquanto, o grupo espera que seu novo kit de ferramentas sirva para mostrar como o uso da análise derivada da pangenômica pode ser útil.

“Precisamos ser capazes de explicar a alguns pesquisadores como uma referência de pangenoma irá beneficiá-los”, disse Paten. “Este pipeline é realmente uma primeira tentativa de fazer isso para RNA, para dados funcionais, para dados de expressão”.

Com informações de Science Daily.