BIG DATA: UMA ANÁLISE CONCEITUAL E FUNCIONAL

Felipe Anselmo

Resumo


Existem hoje milhares de informações sendo geradas a cada segundo em todo o mundo. As pessoas estão cada vez mais conectadas e cada vez mais gerando dados. Nas empresas, estima-se que sejam criados petabytes de dados por dia, e para gerar informações em tempo real, os mesmos precisam ser processados analiticamente. Esse gigantesco volume de dados é denominado de Big Data, um conceito recente de dados estruturados e não estruturados que precisam ser processados em modo distribuído em alta velocidade e armazenados de alguma forma. Quando os dados não estão estruturados, é preciso formatá-los para que possam ser processados, armazenados e usados pelos sistemas de informação. Em função da grande quantidade de dados gerados diariamente por diferentes aplicações, torna-se necessário o estudo da técnica, das ferramentas e estruturas que suportem o Big Data, sendo este o objetivo do trabalho. A metodologia consistiu em alguns passos. Inicialmente foi realizada uma pesquisa bibliográfica sobre o tema, principalmente dos conteúdos disponíveis via Web publicados pelas empresas IBM, Google, Amazon. Em seguida, foram levantadas algumas ferramentas para trabalhar com Big Data. Como resultados preliminares da pesquisa evidenciou-se que o Big Data pode ser categorizado em cinco Vs, sendo eles: volume, velocidade, variedade, veracidade e valor. “Volume” são as grandes quantidades de dados; “Velocidade” é a demanda de entregar resultados em tempo real; “Variedade” é a forma em que os dados se encontram, divididos entre estruturados e não estruturados; “Veracidade” diz respeito à autenticidade, origem, reputação e disponibilidade dos dados; e “Valor” é a importância do resultado destes dados para as empresas. Observou-se que as ferramentas que trabalham com Big Data podem ser categorizadas por etapas, sendo elas, armazenamento; processamento e ETL (Extração, Transformação e Carga). Uma vez que os dados tenham passado por essas
13
etapas, podem ser usadas outras ferramentas ou algoritmos de aprendizagem de máquina para realizar buscas, extrair conhecimentos e visualizá-los através de relatórios. De todas as ferramentas e frameworks pesquisados, constatou-se que o Hadoop tem sido apontado na literatura como o framework mais utilizado na etapa de processamento, por ser de código aberto, ter boa documentação e propiciar uma série de funcionalidades para o analista de dados, entre elas, permitir o processamento distribuído de grandes massas de dados, e servir como sistema de gerenciamento e armazenamento de dados. Por isso, estruturou-se um ambiente de testes Ubuntu com o Hadoop devidamente instalado e configurado para rodar uma implementação em Java de leitura de palavras em arquivos não estruturados, semelhante ao arquivo de testes padrão do framework, assim podendo constatar o funcionamento genérico do Big Data. Durante as pesquisas observou-se que trabalhar com Big Data tem trazido insights para as empresas que elevam suas informações para outro patamar, porém, quanto mais alto o nível de estudo torna-se mais custoso e demanda maior capacitação da equipe de infraestrutura, desenvolvimento e analistas de sistemas. Nem sempre as características de todos os cinco Vs do Big Data estarão contidos na manipulação dos dados, por isso, não necessariamente passarão por todas as etapas supracitadas, neste caso, não sendo necessário utilizar todas as ferramentas.

Texto completo:

Sem título