218 views 3 mins

Web Scraping: cada vez mais comum

em Tecnologia
quarta-feira, 20 de abril de 2022

A prática de Web Scraping (WS) está se tornando cada vez mais comum. Ela consiste no uso de robôs de software (Scrap Bots) para coletar informações disponíveis na internet.

Vivaldo José Breternitz (*)

Um bot desse tipo analisa e captura textos, imagens e até mesmo código HTML que encontra na rede e os envia a seu proprietário, que pode utiliza-los para fins ilegais, como, por exemplo, copiar sites inteiros de comércio eletrônico a serem usados para obter os números de cartão de crédito ou ainda para roubar dados pessoais para uso em fraudes de diversos tipos.

Mas o WS pode ser usado também para fins legítimos, como por exemplo na pesquisa para classificar sites; mesmo uma grande empresa como o Google não conseguiria classificar todos os sites da web manualmente – seu número é tão grande que apenas algoritmos e grande poder de computação conseguem fazer esse trabalho.

Para isso, de uma forma bastante simplificada, podemos dizer que um bot vai a um site e determina o assunto de que este trata, analisa a rapidez com que o site carrega, a qualidade do conteúdo, se o site funciona bem ou não em telefones celulares e outros fatores, antes de classificá-lo e definir em que ordem o site será exibido pelo mecanismo de busca.

Outro uso que vem se tornando comum é o da análise de sentimentos. Se uma empresa lança um novo produto, precisa de informações para ter uma visão real do que o público pensa dele. Ela pode usar um Scrap Bot para analisar fóruns e mídias sociais, coletando as informações de que necessita.

A identificação de potenciais clientes e pesquisas de mercado são algumas das outras possibilidades de uso legítimo desses bots.

Scrap bots podem ser adquiridos na dark web, a parte da internet normalmente utilizada para transações ilegais, mas podem também serem construídos por pessoas com moderados conhecimentos de programação, frequentemente usando a linguagem Python e as bibliotecas associadas a ela, o que ajuda a explicar a popularização da prática.
Para bloquear seu uso, já existe software que tenta detectar e bloquear Scrap Bots. Algumas técnicas, como apresentar números de telefones e outras informações como imagem e não como texto, dificultam o sucesso dos bots mais simples. Também pode ser útil o uso de captchas e outros testes para provar que o site está sendo acessado por um humano.

É mais um tema a ser levado em consideração ao se projetar e operar sistemas de informação.

(*) Doutor em Ciências pela Universidade de São Paulo, é professor, consultor e diretor do Fórum Brasileiro de IoT