MAPEAMENTO DE REDES SOCIAIS DINÂMICAS NO TWITTER ATRAVÉS DA CLUSTERIZAÇÃO DE TWEETS

Stephano Ribeiro de Macedo

Resumo


Nas mais diversas esferas da interação humana, redes sociais podem ser mapeadas e utilizadas para obtenção de informação sobre determinado grupo. Mídias sociais são plataformas que possibilitam a criação, expansão e manutenção de redes sociais através da internet. Com a velocidade que as informações são geradas pelos usuários e a quantidade de dados diferentes compartilhados a cada instante, muitas redes sociais surgem e se dissipam sem que haja tempo para que alguém que não esteja incluído no grupo obtenha conhecimento acerca das informações geradas e compartilhadas por estes indivíduos. O Twitter é uma das mídias sociais que possuem esta característica mais acentuada. Isso se dá, principalmente, por seu caráter de interação em tempo real. Neste contexto, a clusterização de documentos se mostra uma abordagem promissora para identificação de comunidades de usuários formadas a partir de tópicos discutidos dentro da plataforma. A mineração de texto é essencial para obtenção de conhecimento atualmente, onde a informação é trafegada em quantidades que impossibilitam a análise de forma manual sobre o conteúdo criado, compartilhado e consumido na internet. Este trabalho visa exemplificar técnicas de mineração de texto e clusterização de documentos aplicadas à busca por redes sociais dinâmicas no Twitter. Além disso avalia a qualidade da informação obtida com os algoritmos utilizados, a fim de validar a eficiência destes algoritmos na resolução do problema apresentado. A identificação de comunidades dentro do Twitter permite encontrar e definir padrões de como se dá a comunicação dentro da rede, assim como a clusterização de tópicos possibilita a determinação de assuntos não indexados por hashtags. Para o desenvolvimento do trabalho foram utilizados os algoritmos K-Means e LDA (Latent Dirihiclet Allocation). É importante destacar que a quantidade de estudos de mineração de textos para textos curtos (como são classificados os tweets) na língua portuguesa é extremamente baixa. Desta forma este trabalho busca promover um avanço nos trabalhos desta área, ao utilizar um objeto de estudo não tão experimentado pela comunidade acadêmica, podendo servir de base para inúmeros trabalhos sobre clusterização de documentos aplicados à áreas correlatas, até mesmo respondendo a novas questões que surgiram com o desenvolvimento desta pesquisa.

Palavras-chave


Clusterização; Mineração de texto; Ciência de dados; Twitter; Redes Sociais Dinâmicas



REVISTA UNIPLAC
ISSN 2447-2107
EDITORA UNIPLAC | PORTAL DE REVISTAS UNIPLAC
e-mail: propepg@uniplaclages.edu.br | Fone: (49) 3251-1009
Copyright 2012. Editora UNIPLAC