Espere ver mais extração de dados on-line, graças a uma decisão judicial mal interpretada

Caso envolvendo o LinkedIn e um tribunal de apelação dos EUA chegou a conclusão que utilizar dados de conteúdo público não viola legislação

Author Photo
10:47 am - 03 de maio de 2022
dados

Um tribunal de apelação dos Estados Unidos, em um caso envolvendo o LinkedIn, decidiu recentemente que a extração de dados (data scraping) de informações publicamente visíveis não viola a Lei de Fraude e Abuso de Computação (The Computer Fraud and Abuse Act).

Esta decisão – publicada pelo ZDNet – tem um componente de realidade e um componente de percepção. Na realidade, a decisão é deliciosamente estreita e improvável de ter muito impacto legal. Quanto à parte da percepção, é aí que os chefes da Web corporativa e seus colegas de TI provavelmente sofrerão uma grande dor de cabeça. O mesmo vale para os executivos de marketing corporativo (mas a maioria deles merece).

Realidade: a decisão não afirmou que a extração de dados da web de concorrentes é legal. Apenas disse que não violou essa lei específica. Pode violar outras leis criminais e certamente algumas leis civis, mas a corte apenas decidiu sobre o que lhe foi apresentado, como deveria.

Mas a percepção da maioria das pessoas, estimulada por manchetes enganosas de que o tribunal deu luz verde a toda extração, é que a prática agora é legal e os ‘raspadores de dados’ podem proceder agressivamente. Mesmo que o tribunal não tenha dito nada do tipo, é fácil prever que isso alimentará um aumento no scraping.

Quanto de aumento? Bem, provavelmente não será um grande aumento. Por quê? Porque o tipo de pessoa que rouba conteúdo por meio de scraping não está exatamente se segurando quando se trata da lei. Não é como se houvesse uma tonelada de profissionais de marketing que queriam raspar, mas judiciosamente retiveram até que os tribunais decidissem sobre a legalidade da scraping.

Dito isto, a má interpretação desta decisão irá encorajar os raspadores a fazer muito mais scraping.

O que a TI pode e deve fazer sobre isso? Dado que estas são geralmente páginas publicamente visíveis, é um problema. Existem poucos métodos técnicos para bloquear scrapers que não causariam problemas para os visitantes do site que a empresa deseja proteger.

Anos atrás, eu gerenciava um meio de comunicação que estava fazendo uma grande mudança para conteúdo premium, o que significa que os leitores agora teriam que pagar por histórias premium selecionadas. Encontramos um problema. Não podíamos permitir que as pessoas compartilhassem conteúdo premium livremente, pois precisávamos que as pessoas comprassem essas assinaturas.

Isso significava que bloqueamos o recortar e colar e bloqueamos especificamente alguém de salvar a página como PDF. Mas isso significava que essas páginas também não podiam ser impressas. (Salvar como PDF é realmente imprimir em PDF, portanto, bloquear downloads de PDF significava bloquear todas as impressoras.) Demorou apenas algumas horas para que os novos assinantes premium gritassem que pagaram pelo acesso e precisavam imprimir páginas e lê-las em casa ou de trem. Depois que alguns assinantes ameaçaram cancelar suas assinaturas pagas, nós nos rendemos e restabelecemos a capacidade de imprimir. (E nossos medos foram confirmados; PDFs de nosso conteúdo premium começaram a aparecer em todo lugar.)

Esse dilema é semelhante à luta contra os esforços de scraping. E a maioria das pessoas da web concluirá rapidamente que apenas aceitar os raspadores é provavelmente a melhor opção.

Voltando ao caso do LinkedIn, eu argumentaria que mesmo citar a Lei de Fraude e Abuso de Computador tenha sido um argumento enorme e equivocado do LinkedIn. Um argumento melhor – embora talvez igualmente improvável de vencer – seriam as violações de direitos autorais.

Os detalhes do LinkedIn tornam esse argumento difícil. Ao contrário de um meio de comunicação (como “Computerworld”), o LinkedIn não paga dinheiro para criar conteúdo excelente. A enorme quantidade de conteúdo que está sendo raspado envolve o que os clientes do LinkedIn escrevem individualmente de graça. O LinkedIn pode até mesmo argumentar com uma cara séria que possui legitimamente todas as informações do meu currículo, que publiquei na minha página no LinkedIn?

Se o LinkedIn me pagasse para postar comentários e mensagens e detalhes do histórico de trabalho, talvez pudesse argumentar a propriedade. Mas não é isso que eles fazem.

No entanto, os usuários esperam que o material postado no LinkedIn apareça apenas no LinkedIn? Mais ao ponto, esses usuários têm alguma expectativa realista de que ele permanecerá no lugar? Eu, como muitos repórteres, muitas vezes vou a uma página do LinkedIn para verificar informações biográficas de uma fonte ou verificar novamente as informações profissionais de uma pessoa para uma coluna ou postagem que estou escrevendo. Alguém contesta meu direito de fazê-lo?

E onde exatamente deve ser traçada a linha sobre o que constitui a scraping? A referência a um título é scraping? Que tal quatro títulos anteriores de uma pessoa, ou 10? Ou se são informações sobre mais de 100 pessoas? Isso é um problema, porque se o LinkedIn decidir não se preocupar com pequenas referências de dados, isso prejudica sua capacidade de buscar as grandes.

É aqui que entramos no argumento do espaço público. Se eu postar algo sensível sobre mim em um fórum público em um grande site de discussão, tenho motivos para esperar privacidade? (Na verdade, eu poderia porque ninguém se importa com o que eu penso, mas eu discordo.) Se eu quisesse que algo ficasse quieto, eu não teria postado publicamente.

Um dos usos mais interessantes que os jornalistas têm com o LinkedIn é revisar os detalhes da experiência de alguém. Por quê? Porque sabemos que muitos programadores e outros talentos técnicos vão compartilhar em excesso, detalhando o que fizeram em projetos para seu empregador, incluindo muitas informações altamente confidenciais sobre os sistemas em que trabalharam, aplicativos que seu empregador comprou e até mesmo falhas de segurança não anunciadas que eles corrigiram.

A única ação legal é que suas empresas podem demiti-los por divulgar informações internas. Mas o codificador que postou não tem como agir. Foi a escolha deles.

Em resumo, acho que todos podemos esperar mais scraping e roubo de conteúdo – e a TI, infelizmente, descobrirá que realmente não pode fazer muito para impedir isso.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.