Title: | A framework for scalable web data collection |
Author: | Sand, David Steiner |
Abstract: |
A fim de se destacar no mercado europeu altamente competitivo de hoje, empresas tendem a depender cada vez mais em informações relativas ao próprio mercado e aos seus concorrentes. A Jungsoft GmbH é uma empresa de desenvolvimento de software de longo prazo para projetos altamente exigentes, que trabalha com o autor deste documento e com um cliente europeu focado em transformar dados em vantagem competitiva, combinando \textit{big data} de alta qualidade, análises modernas e profunda experiência automotiva. O cliente vende muitos produtos para resolver seu objetivo, todos os quais dependem de ter dados abundantes e de alta qualidade. O projeto aqui apresentado visa fornecer a base para estes produtos, permitindo a rápida coleta de dados na web. Para isso, foi criada uma ferramenta distribuída, escalável, fácil de usar e com interfaces bem definidas. Como em toda nova criação, muitos obstáculos surgiram no caminho, tais como: como projetar uma arquitetura de software escalável; quão rápido poderiam ser incluídos novos websites na coleta de dados; e como desenvolvedores inexperientes poderiam contribuir para o crescimento do projeto. O projeto foi implementado com sucesso e atualmente está em produção, sendo utilizado por muitos desenvolvedores e coletando milhões de pontos de dados por dia. In order to stand out in today’s highly competitive European market, companies tend to rely more and more on information regarding the market itself and competitors. Jungsoft GmbH is a long-term focused technology development company for highly demanding projects, which works with the author of this document and with a European client focused on turning data into a competitive advantage by combining high-quality big data, modern analytics and deep automotive expertise. The client sells many products to solve its objective, all of which rely on having abundant, high-quality data. The project hereby presented aims to provide the basis to these products, by allowing the fast collection of data on the web. To do so, a distributed, scalable, easy-to-use and with well-defined interfaces tool was created from scratch. As with every new creation, many obstacles arose in the way, such as: how to design, implement and deploy a scalable software architecture; how fast could new websites be included in the data collection pipeline; and how could inexperienced developers contribute to the project’s growth. The project was successfully implemented and currently runs in production, being used by many developers and collecting millions of data points per day. |
Description: | TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia de Controle e Automação. |
URI: | https://repositorio.ufsc.br/handle/123456789/243322 |
Date: | 2022-12-12 |
Files | Size | Format | View |
---|---|---|---|
PFC.pdf | 4.463Mb |
View/ |