Sistema criado para proteger a base de dados do Genoma


Na última edição da revista Cell Systems , pesquisadores de Ciência da Computação do MIT e Laboratório de Inteligência Artificial e da Universidade de Indiana em Bloomington descreveram um novo sistema que permite consultas de banco de dados para estudos de associação do genoma, mas reduz as chances de compromissos de privacidade para quase zero.

Ele faz isso adicionando um pouco de desinformação para os resultados da consulta que ele retorna. Isso significa que os investigadores que utilizam o sistema podem começar a olhar para alvos de drogas com dados ligeiramente imprecisos. Mas na maioria dos casos, as respostas devolvidas pelo sistema estará perto o suficiente para serem úteis.

Um banco de dados on-line instantaneamente pesquisável de dados genéticos, mesmo um que retorna informações levemente imprecisas, poderia fazer a investigação biomédica muito mais eficiente.

“Neste momento, o que é um monte de gente, incluindo o NIH, por um longo tempo, é levar todos os dados – incluindo, muitas vezes, os dados agregados, as estatísticas que estamos interessados ​​em proteger – e colocá-los em repositórios”, diz Sean Simmons, um pós-doutorado do MIT em matemática e primeiro autor do jornal. “E você tem que passar por um processo demorado para obter acesso a eles.”

Esse processo envolve uma série de papelada, incluindo explicações de como a pesquisa habilitada por repositórios irá contribuir para o bem público, o que exige uma análise cuidadosa.

“Nós esperamos meses para obter acesso a vários repositórios”, diz Bonnie Berger, o Professor Simons de Matemática no MIT, que foi orientador de tese de Simmons e é o autor correspondente no jornal.

estudo de associação genômica ampla geralmente dependem de variações genéticas chamadas polimorfismos de nucleotídeo único ou SNPs (pronuncia-se “snips”). Um SNP é uma variação de um nucleótido, ou “carta” ADN num local específico no genoma. Milhões de SNPs foram identificados na população humana, e determinadas combinações de SNPs podem servir como substitutos para maiores extensões de DNA que tendem a ser conservado entre os indivíduos.

O novo sistema, que Berger e Simmons desenvolveram em conjunto com Cenk Sahinalp, professor de ciência da computação na Universidade de Indiana, implementa uma técnica chamada de “privacidade diferencial”, que tem sido uma importante área de pesquisa de criptografia nos últimos anos. técnicas de diferencial de privacidade adicionar um pouco de barulho, ou variação aleatória, com os resultados de pesquisas de banco de dados, para confundir os algoritmos que buscam extrair informações privadas a partir dos resultados de vários, sob medida, pesquisas sequenciais.

A quantidade de ruído necessário depende da força da garantia de privacidade – o quão baixo você deseja definir a probabilidade de vazamento de informações privadas – e do tipo e volume de dados. Quanto mais as pessoas cujos dados numa base de dados SNP contém, menos ruído o sistema precisa para adicionar;Essencialmente, é mais fácil de se perder no meio da multidão. Mas os mais SNPs os registros do sistema, o mais flexibilidade um atacante tem na construção de pesquisas de comprometer a privacidade, o que aumenta os requisitos de ruído.

Os pesquisadores consideraram dois tipos de consultas comuns. Em um deles, o usuário solicita a correlação estatística entre um determinado SNP e uma doença em particular. No outro, o utilizador pede uma lista dos SNPs numa região particular do genoma, que se correlacionam melhor com uma doença particular.

No primeiro caso, o sistema retorna uma medida amplamente utilizada de correlação chamado um valor de p. Aqui, a p-valor seria modificado – aumentada ou reduzida em cerca de fator aleatório, a fim de assegurar a privacidade.

No segundo caso, o sistema tem alguma chance de voltar e não os SNPs de maior pontuação em uma determinada região, mas vários dos SNPs top de pontuação e talvez um ou dois mais pontuação mais baixa. Para calcular a probabilidade de que um determinado SNP vai fazê-lo em resultados, os pesquisadores usam uma medida chamada a distância Hamming, que indica o quão longe a SNP marcando inferior é daquele que ele está substituindo. Este acaba por produzir resultados mais úteis do que depender de o valor-p. Encontrar um algoritmo eficiente para calcular as distâncias de Hamming na mosca é uma das principais inovações do sistema.

Deixando para fora as diferenças

A outra é que o sistema corrige para um problema comum em genética de populações chamado de estratificação da população. “O exemplo de padrão é que um determinado SNP está intimamente ligada ao ser intolerante à lactose”, disse Simmons. “Vamos dizer que as pessoas no leste da Ásia são mais propensos a ser intolerante à lactose do que alguém em, digamos, Europa do Norte. Mas também europeus do norte tendem a ser mais altos do que as pessoas do Leste da Ásia. Um método ingênuo sugerir que esta SNP particular tem um efeito na altura, mas é realmente uma falsa correlação. “

algoritmo dos pesquisadores supõe que as maiores variações em uma determinada população são os resultados de diferenças entre subpopulações, filtra essas diferenças, e afia em aqueles que permanecem.

Fonte: MDTMAG

 



Comentários