O documento discute o potencial das mídias sociais para revelar aspectos do comportamento humano. Apresenta quatro estudos de caso sobre análise de sentimento em redes sociais e recomendação personalizada. Também aborda aspectos psicológicos como a "tríade da persona virtual", análise de sentimento e predição de personalidade a partir de dados online.
2011: Empreendedorismo Digital - Como Dados Viram Negócios
O que revelam as mídias sociais sobre o comportamento humano
1. Persona Virtual:
O que as Mídias Sociais podem revelar
sobre o comportamento humano
Leandro Nunes de Castro
Lnunes@mackenzie.br, @lndecastro
Faculdade de Computação e Informática &
Programa de Pós-Graduação em Engenharia Elétrica e Computação
Laboratório de Computação Natural e Aprendizagem de Máquina
(LCoN)
www.mackenzie.br/lcon.html
1
2. • Introdução: Mídias Sociais e a Análise de Dados Não
Estruturados
• PARTE 1: ESTUDOS DE CASO
– Estudo de Caso 01: A Importância das Reclamações Sociais
– Estudo de Caso 02: Análise de Sentimento em Tweets
– Estudo de Caso 03: Recomendação em Comércio
Eletrônico
– Estudo de Caso 04: A TV Social
• PARTE 2: ASPECTOS PSICOLÓGICOS
– A Tríade da Persona Virtual
– Análise de Sentimento: Polaridade e Estados Emocionais
– Predição de Personalidade
– Predição de Perfil Psicológico e Temperamento
2
Agenda
3. Artificial Immune
Systems: A New
Computational
Intelligence
Approach
A NATCOMP +
Fundamentals
of Natural
Computing:
Basic Concepts,
Algorithms and
Applications
LCoN (laboratório
de Computação
Natural),
Mackenzie
TUILUX
(Recomendação para
E-commerce)
TTV (TV Social)
Uma Breve História no Tempo
1998-2002
2006-2009
2009-hoje
2010-2012
2012-2014
2016
NATSOFT
4. 4
1980-2000
Web 1.0
Infraestrutura:
- Comunicação
- Compartilhamento
de dados
- Informações
estáticas
2000-2008
Web 2.0
- SaaS
- Colaboratividade
- Escalabilidade
- Fontes
convergentes e
mutáveis
- Múltiplos
dispositivos
2009-20…
Web 3.0
- Personalização
- Analytics
- IoT
- Automação
- Inteligência
- Big Data
8. 8
O Processo de Análise de
Dados Não Estruturados
• Extração de
características
• Preparação de dados
• Processamento de
sinais
• Associação
• Classificação
• Agrupamento
• Detecção de
anomalias
• APIs
• Crawlers
• Câmeras
• Gravadores
• Sensores
• Especialistas de
domínio
• Medidas de
avaliação
• Benchmarking
9. Estudo de Caso 01
A Importância das Reclamações Sociais
Dados do Reclame Aqui
10. Panorama Geral do Setor de Construção Civil
7%
30%
19%
24%
20%
Status das Reclamações
Nao Respondido
Respondido
Replicas
Finalizada - Resolvido
Média Geral Média ">0"
3,9
5,3
0,5
2,6
Média das Notas
Finalizada - Resolvido Finalizada - Nao Resolvido
13. Estudo de Caso 02
Análise de Sentimento em Tweets
Dados da Rede Globo
14. • Para realizar as análises a serem apresentadas
foram utilizados 206.259 tweets de 127.945
usuários entre os dias 1 e 31 de dezembro de
2010.
• Os atributos disponíveis para essa análise
foram: Cliente, Avaliação, Termo, Usuário,
Texto e Data.
Base de Análise
17. Segmentando os Influenciadores
Grupo 1
adnoticia
annoticia
g1
news_mundo_
siteg1
waldeterossi
_invo
Grupo 2
comuniquebrinde
feedrssreader
segundoplanobr
sjodiel_indica
tweets24hs
Grupo 3
mariana_viips
novinhabru
romariontv
standupbot
tudonoesporte
vidasemglobo
zocialtv_br
18. Análise dos Grupos
Grupo Palavras
1
Rio, Brasil, Paulo, chuva, lula, mundial, policia, governo, sul, natal,
pais, wikileaks, brasileiros, Dilma, feira, alemão, sudeste, estados,
justiça, preso.
2
Rio, Paulo, Brasil, chuva, insensato, pais, governo, natal, wikileaks,
Dilma, mundial, justiça, policia, brasileiros, segurança, temporais,
projeto, risco, Cielo, prisão.
3
Programa, gosta, assista, Faustão, cine, peça, hoje, ajuda, vídeo,
twitteado, amore, marcos, noticias, castro, Araguaia, Ana, comedy,
zilza, vote, malhação.
19. Estudo de Caso 03:
Sistema de Recomendação para
Comércio Eletrônico
Desenvolvido para a empresa
NATLUX Informática e Consultoria LTDA
20. 20
“Os sistemas de recomendação
personalizada formam um guia no processo
de escolha de produtos em um comércio
eletrônico e objetivam recomendar o
produto mais atrativo a cada cliente, em
cada contexto, antes de perder sua
atenção. Essa sugestão pode ser feita por
meio de janelas específicas na loja virtual
ou enviando e-mails personalizados para
cada cliente.”*
* Artigo publicado na revista E-Commerce Brasil, Ano 2, Edição 1, 2012.
22. Visão Geral de um
Sistema de Recomendação
1. Captura de informações dos
produtos
2. Captura de informações sobre
o comportamento dos usuários
3. Aplicação dos algoritmos de
recomendação
4. Apresentação dos produtos
selecionados
5. Monitoramento e análise das
recomendações
22
23. Nossa Solução
Representação das regras:
Ab (1)
(2)
(3)
(4)
Ab{d}(8)
Maturate
Select
Clone
Ab{n}
C
C*
Re-select
f
f*
(7)
(6)
(5)
Ab{n}
Fluxo do algoritmo:
Recomendações personalizadas.
24. Estudo de Caso 04:
TV Social
O que é TV Social
Criança Esperança
Análise de Valor de Marcas
Big Brother Brasil
25. • Mídias Sociais: Aplicações de Internet
baseadas na criação e troca de conteúdo
gerado pelos próprios usuários.
• TV Social: Terminologia empregada para se
referir à convergência entre a TV e as Mídias
Sociais.
Fonte: Adaptado de http://bit.ly/12yQjfN
25
27. TTV Analytics
• Conhecer o engajamento, envolvimento e
sentimento das pessoas sobre os programas da TV
brasileira nas mídias sociais.
Objetivos
• Fornecer estudos quantitativos e qualitativos
sobre a TV Social.
Foco
• Uso da plataforma analítica do TTV.
• Elaboração de relatórios customizados.
Metodo-
logia
27
28. Emissoras
• Saiba o que estão falando
sobre todos os programas
da TV brasileira
• Analise o engajamento
• Busque episódios, fatos e
dados que interagem
e/ou motivam a audiência
• Compare com outras
emissoras/programas
• Tenha atualização diária
para toda a grade
Agências e Anunciantes
• Crie novos formatos de
análise de audiência de TV
• Desenvolva planos de mídia
com maior potencial de
engajamento
• Amplie as análises possíveis
na seleção de programas de
TV
28
Para quem?
30. 30
Tipos de Tag Cloud
Exportação XLS da
Tag Cloud
Exemplo de
Context Cloud
31. Sem Considerar Sentimento Sentimento Negativo
Criança Esperança 2013: 30/08 – 01/09
Sentimento Positivo
Nota-se uma influência maior dos
termos vinculados a sentimento
negativo na Context Cloud dos assuntos
sem considerar Sentimento
32. Big Brother Brasil 13
- Análise Quantitativa e Qualitativa -
Janeiro de 2013
33. Base de Análise
08 a 12/01/2013: Primeira semana de
exibição
82.541 posts qualificados e sem repetição
Fontes: Twitter e Facebook
34. Participantes
O Kleber Bambam tem uma
repercussão substancialmente maior
que os demais participantes da casa,
dificultando uma visualização da
distribuição na Tag Cloud.
Frequência na base:
Aline: 1601 Anamara: 548
André: 618 Andressa: 100
Aslan: 117 Dhomini: 741
Eliezer: 47 Fani: 765
Fernanda: 374Ivan: 76
Kamilla: 123 Bambam: 2898
Marcello: 321 Marien: 57
Nasser: 335 Natalia: 251
Yuri: 940
35. Adjetivos, Qualificadores e Afins
De forma geral os adjetivos associados ao programa têm
conotação negativa.
36. Análise de Contexto
O contexto do BBB gira em torno de conflitos
entre quem gosta e quem não gosta, sexo,
intelectualidade, redes sociais, audiência,
premiações, personagens, etc.
37. Distribuição e Perfil dos Grupos
Cluster 0
16%
Cluste
r 1
14%
Cluster 2
10%
Cluster 3
6%
Cluster 4
15%
Cluster 5
3%
Cluster 6
7%
Cluster 7
17%
Cluster 8
5%
Cluster 9
7%
Grupo 0: Defensores do BBB
Grupo 1: Repercussão da baixa
audiência da estreia
Grupo 2: Comparações com
novelas
Grupo 3: Twitter como mídia para
o BBB
Grupo 4: Críticos à inteligência dos telespectadores do BBB e seus defensores
Grupo 5: Foco no BBB e seus participantes
Grupo 6: Usuários do Facebook
Grupo 7: Novos fãs e interessados no BBB
Grupo 8: Críticos da sexualidade do BBB
Grupo 9: Críticos aos homens do programa
38. PARTE 2
A Tríade da Persona Virtual
As Mídias Sociais e o
Comportamento Humano
38
39. • “Eles são mais felizes e têm vidas melhores
que eu: O impacto do uso do Facebook sobre a
percepção dos outros” (Chou & Edge, 2012).
• “Mais informação do que eu sempre quis: O
Facebook desperta o monstro da inveja?”,
Muise et al. (2009)
• “Socialnomics: Como as mídias sociais
transformam a maneira com que vivemos e
fazemos negócios”, E. Qualman (2010)
• “O poder político das mídias sociais:
Tecnologia, a esfera pública, e a mudança
política”, C. Shirky (2011)
39
40. Imagem formada a partir de como as pessoas se
apresentam e se comportam nas mídias sociais,
o que envolve desde seu perfil, sua identidade
social, até seus comportamentos.
40
A Persona Virtual
43. ANÁLISE DE SENTIMENTO
Área que visa criar processos automáticos de
identificação das emoções e/ou sentimentos presentes
na forma como as pessoas se expressam textualmente.
Pode envolver a identificação da polaridade, estado
emocional (categorias e dimensão) e força.
Universidade Presbiteriana Mackenzie
aceslima@gmail.com43
44. • Uma Plataforma para Análise de Polaridade
(Sentiment Analysis Framework)
44
SAFRA
A SAFRA é uma plataforma automática de classificação de sentimento que não
requer a intervenção humana para operar!
46. Mensagem (tweet) Polaridade
'odeio voc temer pblico feliz improvisa no show de caetano e gil url' -1
'michelmiguel eliastemerlulia temer vai se dar mal no tenho provas mas
tenho convico'
-1
'kiko matarazzo publicitrio escritor marceneiro nas horas vagas cerveja
artesanal wanderlust fora temer odeio coxinha'
-1
'veja o momento em que manifestantes ato contra o governo temer atacam
usernameannoyedyoutubezufgdpwq'
-1
'fica de cara com lula tretando com os concurseiro mas pagapau para temer
que nem concurso mais quer fazer foratemer'
1
'zorra zuando dilma e temer morrendo de rir' 1
46
Análise de Polaridade
#temer
Classificados + Classificados -
Tema: #temer
Periodo Coleta 2016-09-18 a 2016-09-24
Total de tweets 105
Classificados + 41
Classificados - 64
47. Emoção é uma resposta discreta, por
tempo limitado, a um evento interno ou
externo que acarreta características
sincronizadas, incluindo experiência
subjetiva, expressão, resposta corporal e
tendência a ações (PHELPS, 2009).
47
Estados Emocionais
49. Tema: #olimpiadas2016
Período Coleta 03-28/08/2016
Total de tweets 849
Classificados Anger 26
Classificados Disgust 0
Classificados Fear 50
Classificados Happiness 495
Classificados Sadness 263
Classificados Surprise 15
49
Estados
Emocionais
3% 0%
6%
58%
31%
2%
#Olimpiadas2016
Classificados
Anger
Classificados
Disgust
Classificados Fear
Classificados
Happiness
Classificados
Sadness
50. Mensagem (tweet) Estado Emocional
'olha selecaoolimpica vexame vai ser mais uma derrota nessas
olimpiadas2016'
Tristeza
'orgulho dessas meninas muito respeito pelo futebol feminino bra rio2016
olimpiadas2016 futebol'
Alegria
'parabens selecao feminina time assim que da orgulho rio2016 martarainha
olimpiadas2016 guerreiras'
Alegria
'nao e mais surpresa veja parte ensaio geral da abertura da rio USER_NUMBER
olimpiadas2016 URL'
Surpresa
'meu sincero foda se essa palhacada vergonha rio2016 olimpiadas2016 pic
twitter com nzucqcf1gs'
Tristeza
'o triste vai ser que se o futebol masculino ganhar o ouro todas conquistas dos
outros atletas serao ignoradas olimpiadas2016'
Tristeza
'nenhum governo golpista ira calar nossa voz foratemer olimpiadas2016
itaipava arena URL'
Raiva
'olimpiadas2016 eles estao nos subestimando mas na verdade estao e com
medo URL'
Medo
50
Estados Emocionais
52. PREDIÇÃO DE PERSONALIDADE
Consiste em determinar os traços de personalidade de
um indivíduo baseado em seu comportamento, seguindo
um modelo de personalidade.
Atualmente, o modelo CGF (Cinco Grandes Fatores) é o
mais usado devido as pesquisas que relacionam
características léxicas com os traços presentes no
modelo. Universidade Presbiteriana Mackenzie
aceslima@gmail.com52
53. PREDIÇÃO DE PERSONALIDADE
Universidade Presbiteriana Mackenzie
aceslima@gmail.com53
Extroversão
Emoções positivas.Tendência a procurar estimulação e a
companhia dos outros
Neuroticismo
Tendência a experimentar emoções negativas, como
raiva, ansiedade ou depressão
Amabilidade
(Socialização)
Tendência a ser compassivo e cooperativo em vez de
suspeitoso. Indivíduos “amáveis” valorizam a boa relação
com os outros.
Conscienciosidade Tendência em mostrar autodisciplina
Abertura à
Experiência
Interesse pela arte, emoção, aventura, ideias fora do
comum, imaginação, curiosidade e variedade de
experiências
54. • Uma plataforma para Predição de
Personalidade
Universidade Presbiteriana Mackenzie
aceslima@gmail.com 54
PERSOMA
57. Predição de Perfil Psicológico e
Temperamento
Usando Dados de Mídias Sociais
Solução Stand-Alone
57
58. PREDIÇÃO DE TEMPERAMENTO
Consiste em determinar o temperamento (conjunto de
características inatas que influenciam fortemente o
comportamento) de um indivíduo no ambiente familiar e
profissional.
Atualmente, o modelo de temperamento de Keirsey é
uma teoria focada nas funções cerebrais que tem sido
amplamente usado em processos de recrutamento.58
59. 59
Artesão
Voltadas a trabalhos relacionados a
inteligência corporal e cinestésica, espacial,
musical e interpessoal. São preocupadas com
técnicas e aperfeiçoamentos constantes, pois
visam o virtuosismo.
Guardião
Têm um relacionamento julgador com o mundo
externo e, por isso, são cuidadosos, obedecem
às leis, seguem as regras e respeitam os
direitos dos outros.
Idealista
Confiam mais na intuição do que nos sentidos e
preferem tomar decisões com base em valores
humanos.
Racional
Embora intuitivos como os idealistas, submetem
tudo à razão
Predição de Temperamento
60. • Um framework para Predição de Temperamento
• O TECLA recebe como entrada um conjunto de tweets
(mensagens) de um dado usuário e retorna como saída
um dos quatro tipos de temperamento de Keirsey.
60
TECLA
62. • Problema de Classificação de Gênero no Twitter:
o Problema de classificação binária:
Dadas duas classes, masculino e feminino, atribuir um
tweet anônimo, ou conjunto de tweets, a uma dessas
classes, sem a existência de autores candidatos;
Estudos examinaram desde o uso de palavras ou
termos específicos (características psicolinguísticas),
nome do usuário, nome completo, localização, links
URL, dentre outros;
Já foi mostrado que mulheres e homens adotam
padrões diferentes, quase únicos, de comportamento
quando da comunicação, se baseada em gênero
(LAKOFF, 1975; EAGLY e STEFFEN, 1984; SCHWARTZ et
al., 2013).
Classificação de Gênero
63. Figura 1 - Processo de identificação e classificação de gênero.
GENEC - Uma Metodologia para
Classificação de Expressão de Gênero
64. • Os meta-atributos a serem extraídos são baseados em:
o Caracteres e Sintaxe: características estilométricas,
utilizadas anteriormente para a resolução de problemas de
atribuição de autoria;
o Palavras: incluem medidas estatísticas, conhecidas como
medidas de riqueza de vocabulário (do inglês, vocabulary
richness measures);
o Estrutura: incluem pontuação regular (como vírgula e dois
pontos), além dos pontos de interrogação e exclamação
utilizados de maneira excessiva (???, !!!);
o Morfologia: representam a maneira com a qual autor
organiza a estrutura (do inglês, layout) de uma mensagem;
o Psicolinguística
Metodologia Baseada em Meta-Atributos