MODELAGEM DE TÓPICOS E CRIAÇÃO DE RÓTULOS: IDENTIFICANDO TEMAS EM DADOS SEMI-ESTRUTURADOS E NÃO ESTRUTURADOS

Resumo

  • Atualmente, o aumento do fluxo e da quantidade de informações armazenadas resultou em uma demanda por soluções para identificar e interpretar tais informações. Neste cenário, um dos desafios que existem é o de identificar temas ou assuntos em grandes coleções de documentos. A modelagem de tópicos é um conjunto de algoritmos capaz de extrair tópicos de documentos, visando à identificação desta coleção e facilitando o posterior agrupamento destes. Já a rotulagem de tópicos auxilia no reconhecimento de temas, provendo métodos para representá-los aos usuários de forma intuitiva. Então, através da modelagem é possível dividir documentos em tópicos e, após agrupá-los por tema, pode-se utilizar a rotulagem para extrair uma melhor representação dos grupos. Neste tutorial, apresentaremos: i) os principais métodos utilizados em ambas as abordagens, ii) como utilizá-los juntos para resolver problemas reais, exemplificando-os em diferentes cenários (por exemplo, o cenário acadêmico e o sensoriamento participativo através das mídias sociais), iii) e por fim, as oportunidades de aplicação em diversas áreas.

Autores

  • Diogo Nolasco é estudante do Programa de Pós-Graduação em Informática (PPGI) da Universidade Federal do Rio de Janeiro (UFRJ), sob orientação da Prof.a Jonice Oliveira. Atua na área de Big Scholar Data, trabalhando na identificação temporal, representação e correlação de áreas científicas com foco em inovação tecnológica. Sua pesquisa tem sido aplicada na área da Saúde e Cidades Inteligentes. Seus interesses de pesquisa incluem bancos de dados, métodos de aprendizado não-supervisionado, big data e mineração de dados;
  • Jonice Oliveira é professora obteve o seu doutorado em 2007 na área de Engenharia de Sistemas e Computação, ênfase em Banco de Dados, pela COPPE/UFRJ. Durante o seu doutorado recebeu o prêmio IBM Ph.D. Fellowship Award. Na mesma instituição realizou o seu Pós-Doutorado, concluindo-o em 2008. Desde 2009 é professora do Departamento de Ciência da Computação da UFRJ e atua no Programa de Pós-Graduação em Informática (PPGI-UFRJ). Tornou-se Jovem Cientista do Nosso Estado pela FAPERJ (desde 2013) e atuou como professora visitante no Insight Centre for Data Analytics (Irlanda) durante 3 meses (2015), do qual permanece como colaboradora. Coordena o Laboratório CORES (Laboratório de Computação Social e Análise de Redes Sociais), que conduz pesquisas multidisciplinares para o entendimento, simulação e fomento às interações sociais. Suas principais áreas de pesquisa são Gestão do Conhecimento, Análise de Redes Sociais, Big Data, Suporte à Decisão, Colaboração e Recomendação.