O Uso do Web Scraping
Palavras-chave:
Web Scraping, Ciência de Dados, Machine LearningResumo
Quando se refere ao web scraping, o primeiro pensamento que deve vir à mente é o de procura, captação e visualização de dados. Porém, de acordo com Mouromtsev (2016), duas coisas costumam ser esquecidas na aplicação dessa garimpagem de informações: o método de busca dos dados e a utilização dos dados. O método de busca pode ser de diferentes maneiras, já a usabilidade desses dados é a definição da finalidade de recolher centenas de dados. Devido à falta de difusão de como essa área do Data Science funciona e influencia nossas vidas, é necessária uma maior divulgação e explicação de tais funcionalidades.
A identificação de padrões e tendências atuais é uma das áreas mais importantes na criação ou implementação de qualquer projeto. Conhecer o padrão mais comum de atitudes de usuários e a próxima tendência permite a implementação do projeto de forma que ele se adeque a essas tendências e, ao mesmo tempo, se mantenha flexível a futuras mudanças.
Utilizando o web scraping, é possível fazer um recolhimento de dados de diversas fontes de informação na Internet. Como explicado por Means (2012), ao transferir esses dados para tabelas e gráficos, é possível identificar diversos padrões que antes estavam escondidos, como atrativos de atenção, cores que ajudam no destaque, interfaces mais intuitivas baseadas nos padrões mais fortes, funcionalidades que podem ser incluídas no sistema e até mesmo formas de estruturação do sistema como um todo. O conhecimento desses padrões permite que, ao invés de ficar se questionando ou realizando testes, você possa chegar a uma certeza de senso comum de funcionamento, aumentando muito as chances de sucesso.
A tendência trata-se de uma previsão de futuras mudanças e alteração de padrões baseada em múltiplos dados. Apesar de parecer simples de identificar, a tendência trata-se de uma análise mais aprofundada nos dados que foram recolhidos e nos padrões que esses dados apresentam, realizando o web scraping diversas vezes e em diferentes períodos de tempo. Por exemplo, em uma base onde você recolhe dados de um site em 3 trimestres seguidos, você pode identificar qual dos padrões teve um aumento maior e qual teve uma redução expressiva. Isso pode apontar qual é a tendência de mudança.
Como identificado pelo tópico anterior, o web scraping pode fornecer milhares de dados e, caso saiba trabalhar com eles, podem ser de grande ajuda na formulação de um projeto. Existem formas simples de recolher dados das pessoas, como a utilização de formulários, questionários e até mesmo recolhimento direto, buscando os dados em bancos abertos. Porém, essa maneira está sujeita a falhas e a um gasto excessivo de tempo. A forma mais rápida e precisa de recolher dados atualmente é por meio da utilização de scripts e bots, que vão recolher os dados de sites definidos em uma quantidade muito superior à que qualquer pessoa pode fazer, assim entregando massas de informações que podem ser formatadas para uma visualização mais ampla, como demonstrado na Figura 1.
A utilização mais característica do web scraping é para pesquisas. De acordo com Mouromtsev (2016), essa disponibilidade gigantesca de dados ajuda em criações, validações e mitigações, principalmente em áreas que necessitam de diversas pesquisas sociais, na criação de artigos, na disponibilização de dados, formas de ensinamento eficientes e outros pontos. A utilização desse método é questão de tempo para se tornar algo comum, chegando a um nível onde professores poderão ter acesso a padrões e comportamentos dos alunos em individual, assim aprendendo a lidar com o ensino de cada estudante.
Cada vez mais podemos ver a utilização do web scraping integrada a outras tecnologias, como machine learning e deep learning, que vêm incrementando cada vez mais funções e atrativos no mundo. Um dos principais casos de implementação são os algoritmos de redes sociais, entre eles o Instagram e o TikTok. Como explicado por Orgaz (2020), estas empresas ficaram conhecidas por possuírem algoritmos de captação e recomendação extremamente avançados, identificando o padrão de cada indivíduo e somando isso ao conjunto, aumentando a divulgação desses conteúdos específicos.
Apesar de ser uma forma de melhoria tecnológica a nível global, essa capacidade de compreender padrões e tendências é extremamente perigosa quando utilizada incorretamente. O caso mais famoso foi o da empresa Cambridge Analytica (CONFESSORE, 2018), que foi contratada pelo organizador da campanha do ex-presidente Donald Trump, realizando coleta de dados em massa nas redes sociais, como Facebook e Instagram, utilizando-se desses dados para criar o discurso e a entrega de diferentes materiais às pessoas. Basicamente, a estratégia era a adaptação da campanha do candidato às vontades mais comuns das pessoas, manipulando suas redes e utilizando seus dados contra eles mesmos.
Devido aos fatos citados nos tópicos anteriores, a utilização do web scraping já foi questionada diversas vezes. Apesar de todas as críticas recebidas, o web scraping continua crescendo exponencialmente em todas as áreas possíveis, pois um método que apresenta soluções e atitudes mais certeiras é sempre algo importante para a criação e expansão de qualquer ideia.
Referências
MOUROMTSEV, Dimitry and D’AQUIN, Mathieu (2016). Open Data for Education: Linked, Shared, and Reusable Data for Teaching and Learning. Springer.
BIENKOWSKI, Marie; FENG, Mingyu and MEANS, Barbara (2012). Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief. Center for Technology in Learning, U.S. Department of Education.
ORGAZ, Cristina (2020). 'TikTok foi feito para ser viciante': o homem que investigou as entranhas do aplicativo. Disponível em: https://www.bbc.com/portuguese/geral-55173900. Acesso em: 30/08/2021.
CONFESSORE, Nicholas (2018). Cambridge Analytica and Facebook: The Scandal and the Fallout So Far. Disponível em: https://www.nytimes.com/2018/04/04/us/politics/cambridge-analytica-scandal-fallout.html. Acesso em: 30/08/2021.
Downloads
Publicado
Edição
Seção
Categorias
Licença

Este trabalho está licenciado sob uma licença Creative Commons Attribution-ShareAlike 4.0 International License.
Os autores mantêm os direitos autorais sobre os trabalhos publicados nesta revista, concedendo à SETIF o direito de primeira publicação. O conteúdo está licenciado sob uma Licença Creative Commons Atribuição-CompartilhaIgual 4.0 Internacional (CC BY-SA 4.0), que permite copiar, redistribuir, remixar, transformar e criar a partir do material para qualquer finalidade, inclusive comercial, desde que seja atribuída a autoria e feita referência à publicação original nesta revista.
Os autores concordam que qualquer reutilização de seu trabalho por terceiros deve incluir o nome dos autores, o título do artigo, o nome da revista, o DOI (quando disponível) e o link para a licença.
É permitido e incentivado que os autores disponibilizem a versão publicada do trabalho em repositórios institucionais, sites pessoais ou redes acadêmicas imediatamente após a publicação, com menção à publicação inicial nesta revista.