Publicado:
Leitura 3 minutos
Ao aplicar “estilometria linguística”, uma equipe de pesquisadores da Universidade de Stanford e da Universidade da Califórnia, construiu um algoritmo que pode parear formas existentes de escrita – pela qual um autor é conhecido – com postagens anônimas. Os pesquisadores planejam apresentar os resultados de sua pesquisa no IEEE Symposium on Security and Privacy (Simpósio de segurança e privacidade IEEE) e maio.
“A identificação estilométrica explora o fato de que todos têm uma “impressão digital” baseada na escolha do estilo e na idiossincrasia da escrita”, afirmou o coautor do relatório, Arvind Narayana, um pesquisador com pós-doutorado em ciência da computação em uma postagem de blog. Curiosamente, o trabalho anterior dele incluía um estudo de como quebrar o anonimato dos dados Neflix Prize, bem como elucidar a dificuldade em se manter anônimo em redes sociais.
Nesse caso, ao usar a estilometria linguística, os pesquisadores conseguiram identificar corretamente os autores 20% das vezes quando analisavam um “corpo de texto de cem mil autores”, dos quais tinham em média 20 postagens de cada pessoa. “Mas fica melhor. Em 35% dos casos, o autor correto estava em nossas 20 primeiras suposições. Por que isso importa? Porque na prática a análise algorítma não será o único passo de reconhecimento da autoria e sim utilizada para diminuir a lista para investigações posteriores”, afirmou Narayana.
Por exemplo, a localização do autor pode ser descoberta. Se uma autoridade exigir que um provedor de serviço revele a hora de log-in e log-out de um inscrito, pode usar essa informação para comparar quando as postagens foram feitas. Essa técnica parece ter sido usada para identificar e prender suspeitos da LulzSec.
Os pesquisadores também descobriram que quanto mais palavras escritas, maior a habilidade em identificar corretamente a autoria de um texto anônimo. Por exemplo, quando trabalharam com 40 ou 50 postagens em vez de 20, os pesquisadores tiveram sua precisão aumentada em 35%. Além disso, eles também descobriram que podem programar um algoritmo para retornar os resultados somente quando tivesse certeza de que um pareamento fosse descoberto. Em tais casos, “o algoritmo não tenta sempre identificar o autor, mas quando faz, acerta em 80% das vezes”, afirmou Narayana.
Em outras palavras, os dias de anonimato online podem estar contados, apesar do direito de falar anonimamente – online ou não – ser garantido pela lei dos Estados Unidos.
Tradução: Alba Milena, especial para o IT Web | Revisão: Thaís Sabatini
Redação
3 dias atrás
Redação
3 dias atrás
Redação
3 dias atrás
Redação
3 dias atrás