SlideShare uma empresa Scribd logo
1 de 32
Baixar para ler offline
Světový a český Twitter
          jako
 zdroj pro data mining




            Josef Šlerka, WebExpo 2009
Twitter.com
Twitter je poskytovatel sociální sítě a mikroblogu,
který umožňuje uživatelům posílat a číst příspěvky
zaslané jinými uživateli, známé jako tweety.

Tweety jsou textové příspěvky dlouhé maximálně
140 znaků, které se zobrazují na uživatelově
profilové stránce a na stránkách jeho odběratelů
(followers).

                                        (Wikipedia)
Co je data mining
a jak se má k
Twitteru?
Data mining je analytická metodologie
získávání netriviálních skrytých a potenciálně
užitečných informací z dat. (Wikipedie)

Různé variace jsou pak: text mining, web
mining a další včetně semantických analýz.
Data mining Twitteru
- umožňuje využití všech klasických metod DM

- přidává jim čas a prostor

- díky tomu je lépe propojuje do skutečnosti než
klasické dokumenty na webu

- relativně snadné propojení s ostatními sociálními
sítěmi (až 30 % uživatelů má jeden nickname pro
všechny sítě)

- možnost sledovat jak lidi, tak věci
Příklady takovýchto metod
- různé varianty sémantické distance či
podobnosti (Jaccardův index apod.)

- frekvenční analýzy celkového korpusu členěné
podle času (jsou lidé smutnější ráno nebo
večer?)

- frekvenční analýzy korpusu členěné podle
místa (od marketingu po vědu)

- identifikace opinion makerů v síti
Transmission News
aneb dejme API
dohromady pro lepší
analýzu
Transmission News - 5 API v jednom
          na adrese www. transnews.tw
Twitter API
Yahoo Geo
Open Calais (on-line semantický analyzér)
Google Search AJAX
Google Maps

plus propojení na Wikipedii
www.transnews.tw
Jenže všechny tyhle
krásné věci naráží na
limit v Twitter API
Search API je omezeno
na počet dotazů, ale
hlavně omezuje hledání
v čase (v průměru 1,5
týdne do minulosti).
A proto vznikla aplikace
Vrabčák....
Český Twitter v číslech
    aneb Vrabčák
Užitá metodika aplikace Vrabčák 1.0
- od června 2009 zálohování twittů z lokace v
ČR pomocí API Twitteru v hodinových
intervalech
- automatická detekce jazyka

- pomocí frekvenčího slovníku zachycování možných
českých autorů

- komparace se zahraničními statistikami
Vrabčák 1.0 - čísla červen - září 2009
- celkem shromážděno přes 700.000 twittů

- od 10.628 unikátních uživatelů kteří o sobě
povolili údaj o lokaci (ČR) nebo twittli česky
- z toho 5.880 alespoň jednou twittlo česky
- jen 2.424 česky píšících uživatelů uvedlo svou
lokaci (obvykle svou lokaci uvádí 30 procent
uživatelů)
Kolik má tedy český Twitter uživatelů?


   Česky píšících mezi 6.000 - 8.000
          Další 1.000 až 2.000
   preferují pravděpodobně angličtinu

 Celkem tedy má český Twitter přibližně
     až 10.000 aktivních uživatelů
Jaká je jejich dynamika?

 Každé čtyři týdny rostl počet uživatel, kteří
 alespoň jednou twittli česky průměrně o 25
                 procent.

Počet aktivních uživatelů roste mezi týdny jen
              o 3 až 5 procent.

 Absolutní počty twittů rostou také o 25 procent
             zhruba po 4 týdnech.
Charekteristika česky psaných twittů?



2 % jsou RT
4 % obsahují hash
21.5 % tvoří odpovědi a konverzace
34.6 % obsahují link
Jak mluví česká kotlina
na Twitteru?
Jazyková skladba twittů z České republiky

   angličtina    čeština    slovenština   němčina
   ostatní


                      13%
                 4%
                7%
                                   44%




                     33%
Geografické rozložení Twittů mezi největší města
                    (červenec až září 2009)                    6. Liberec 14178x
1. Praha 247685x                                               en - 9561x ~ 67.44%
en - 116580x ~ 47.07%                                          cs - 2864x ~ 20.20%
cs - 79957x ~ 32.28%    9 měst         Praha         ostatní   sk - 462x ~ 3.26%
sk - 16449x ~ 6.64%
                                                               7. České Budějovice
2. Brno 37021x                                                 6219x
en - 16104x ~ 43.50%                                           cs - 2589x ~ 41.63%
cs - 14753x ~ 39.85%                                           en - 1386x ~ 22.29%
sk - 3360x ~ 9.08%                                             es - 551x ~ 8.86%

3. Ostrava 23836x                                              8. Hradec Králové 11888x
en - 13885x ~ 58.25%                           25%             cs - 4696x ~ 39.50%
cs - 5306x ~ 22.26%              30%                           en - 4400x ~ 37.01%
pl - 1638x ~ 6.87%                                             de - 1113x ~ 9.36%

4. Plzeň 13681x                                                9. Ústí nad Labem
en - 9160x ~ 66.95%                                            12016x
cs - 2206x ~ 16.12%                                            en - 4266x ~ 35.50%
fr - 417x ~ 3.05%                                              de - 2882x ~ 23.98%
                                                               cs - 2570x ~ 21.39%
5. Olomouc 10754
en - 4619x ~ 42.95%                                            10. Pardubice 5576x
cs - 3062x ~ 28.47%                                            cs - 2718x ~ 48.74%
pt - 999x ~ 9.29%                                              en - 1831x ~ 32.84%
                                        45%                    sk - 414x ~ 7.42%
Jak jde čas... a co s tím
Co víme, ale nevíme proč...
        aneb co se za pár měsíc naznačilo

- nejčastěji twittují Češi ve čtvrtek a v úterý, nejméně v
sobotu. Ve světě je naopak nejpopulárnějším dnem
úterý, nejméně využívaná je pak neděle.

- počet twittů stoupá od začátku měsíce do jeho konce,
pak o něco poklesne a zase stoupá, stručně řečeno lidé
twittují více na konci než na začátku
Predikce přítomnosti
Google vs. Twitter
MADONNA
 V PRAZE
13. 8. 2009
Madonna - srpen 2009 - Google search
Madonna - srpen 2009 - český twitter
Někdy je ale Twitter rychlejší a
predikuje tak i budoucí hledání na internetu
17. září v Ostravě
Rammstein - září 2009 - Google search
Rammstein - září 2009 - český Twitter




                          17.9.2009
Děkuji za pozornost.
 Otázky? Nápady?
 slerka@ataxo.com

Mais conteúdo relacionado

Mais de Ataxo Group

Výkonnostní marketing jako nedílná součást mediálního mixu
Výkonnostní marketing jako nedílná součást mediálního mixuVýkonnostní marketing jako nedílná součást mediálního mixu
Výkonnostní marketing jako nedílná součást mediálního mixuAtaxo Group
 
Modelovanie reklamnej kampaně
Modelovanie reklamnej kampaně Modelovanie reklamnej kampaně
Modelovanie reklamnej kampaně Ataxo Group
 
On Line Reputation Management
On Line Reputation ManagementOn Line Reputation Management
On Line Reputation ManagementAtaxo Group
 
Online reputation management - Matěj Novák
Online reputation management - Matěj NovákOnline reputation management - Matěj Novák
Online reputation management - Matěj NovákAtaxo Group
 
E Commerce 2009 - Marcela Krzemień
E Commerce 2009  - Marcela KrzemieńE Commerce 2009  - Marcela Krzemień
E Commerce 2009 - Marcela KrzemieńAtaxo Group
 
Matěj Novák - pro neziskovky
Matěj Novák - pro neziskovkyMatěj Novák - pro neziskovky
Matěj Novák - pro neziskovkyAtaxo Group
 
Reputation Management On-line
Reputation Management On-lineReputation Management On-line
Reputation Management On-lineAtaxo Group
 
Internet in the Czech Republic
Internet in the Czech RepublicInternet in the Czech Republic
Internet in the Czech RepublicAtaxo Group
 
SEO for Yellow Pages Publishers
SEO for Yellow Pages PublishersSEO for Yellow Pages Publishers
SEO for Yellow Pages PublishersAtaxo Group
 
Case study: Optimalizace PPC kampaně
Case study: Optimalizace PPC kampaněCase study: Optimalizace PPC kampaně
Case study: Optimalizace PPC kampaněAtaxo Group
 
SEO @ Google University pro finanční segment
SEO @ Google University pro finanční segmentSEO @ Google University pro finanční segment
SEO @ Google University pro finanční segmentAtaxo Group
 
SEO – optimalizace pro vyhledávače
SEO – optimalizace pro vyhledávačeSEO – optimalizace pro vyhledávače
SEO – optimalizace pro vyhledávačeAtaxo Group
 

Mais de Ataxo Group (13)

Výkonnostní marketing jako nedílná součást mediálního mixu
Výkonnostní marketing jako nedílná součást mediálního mixuVýkonnostní marketing jako nedílná součást mediálního mixu
Výkonnostní marketing jako nedílná součást mediálního mixu
 
Modelovanie reklamnej kampaně
Modelovanie reklamnej kampaně Modelovanie reklamnej kampaně
Modelovanie reklamnej kampaně
 
On Line Reputation Management
On Line Reputation ManagementOn Line Reputation Management
On Line Reputation Management
 
e-commerce 2009
e-commerce 2009e-commerce 2009
e-commerce 2009
 
Online reputation management - Matěj Novák
Online reputation management - Matěj NovákOnline reputation management - Matěj Novák
Online reputation management - Matěj Novák
 
E Commerce 2009 - Marcela Krzemień
E Commerce 2009  - Marcela KrzemieńE Commerce 2009  - Marcela Krzemień
E Commerce 2009 - Marcela Krzemień
 
Matěj Novák - pro neziskovky
Matěj Novák - pro neziskovkyMatěj Novák - pro neziskovky
Matěj Novák - pro neziskovky
 
Reputation Management On-line
Reputation Management On-lineReputation Management On-line
Reputation Management On-line
 
Internet in the Czech Republic
Internet in the Czech RepublicInternet in the Czech Republic
Internet in the Czech Republic
 
SEO for Yellow Pages Publishers
SEO for Yellow Pages PublishersSEO for Yellow Pages Publishers
SEO for Yellow Pages Publishers
 
Case study: Optimalizace PPC kampaně
Case study: Optimalizace PPC kampaněCase study: Optimalizace PPC kampaně
Case study: Optimalizace PPC kampaně
 
SEO @ Google University pro finanční segment
SEO @ Google University pro finanční segmentSEO @ Google University pro finanční segment
SEO @ Google University pro finanční segment
 
SEO – optimalizace pro vyhledávače
SEO – optimalizace pro vyhledávačeSEO – optimalizace pro vyhledávače
SEO – optimalizace pro vyhledávače
 

Světový a český Twitter jako zdroj pro data mining

  • 1. Světový a český Twitter jako zdroj pro data mining Josef Šlerka, WebExpo 2009
  • 2. Twitter.com Twitter je poskytovatel sociální sítě a mikroblogu, který umožňuje uživatelům posílat a číst příspěvky zaslané jinými uživateli, známé jako tweety. Tweety jsou textové příspěvky dlouhé maximálně 140 znaků, které se zobrazují na uživatelově profilové stránce a na stránkách jeho odběratelů (followers). (Wikipedia)
  • 3. Co je data mining a jak se má k Twitteru?
  • 4. Data mining je analytická metodologie získávání netriviálních skrytých a potenciálně užitečných informací z dat. (Wikipedie) Různé variace jsou pak: text mining, web mining a další včetně semantických analýz.
  • 5. Data mining Twitteru - umožňuje využití všech klasických metod DM - přidává jim čas a prostor - díky tomu je lépe propojuje do skutečnosti než klasické dokumenty na webu - relativně snadné propojení s ostatními sociálními sítěmi (až 30 % uživatelů má jeden nickname pro všechny sítě) - možnost sledovat jak lidi, tak věci
  • 6. Příklady takovýchto metod - různé varianty sémantické distance či podobnosti (Jaccardův index apod.) - frekvenční analýzy celkového korpusu členěné podle času (jsou lidé smutnější ráno nebo večer?) - frekvenční analýzy korpusu členěné podle místa (od marketingu po vědu) - identifikace opinion makerů v síti
  • 7. Transmission News aneb dejme API dohromady pro lepší analýzu
  • 8. Transmission News - 5 API v jednom na adrese www. transnews.tw Twitter API Yahoo Geo Open Calais (on-line semantický analyzér) Google Search AJAX Google Maps plus propojení na Wikipedii
  • 10. Jenže všechny tyhle krásné věci naráží na limit v Twitter API
  • 11. Search API je omezeno na počet dotazů, ale hlavně omezuje hledání v čase (v průměru 1,5 týdne do minulosti).
  • 12. A proto vznikla aplikace Vrabčák....
  • 13. Český Twitter v číslech aneb Vrabčák
  • 14. Užitá metodika aplikace Vrabčák 1.0 - od června 2009 zálohování twittů z lokace v ČR pomocí API Twitteru v hodinových intervalech - automatická detekce jazyka - pomocí frekvenčího slovníku zachycování možných českých autorů - komparace se zahraničními statistikami
  • 15. Vrabčák 1.0 - čísla červen - září 2009 - celkem shromážděno přes 700.000 twittů - od 10.628 unikátních uživatelů kteří o sobě povolili údaj o lokaci (ČR) nebo twittli česky - z toho 5.880 alespoň jednou twittlo česky - jen 2.424 česky píšících uživatelů uvedlo svou lokaci (obvykle svou lokaci uvádí 30 procent uživatelů)
  • 16. Kolik má tedy český Twitter uživatelů? Česky píšících mezi 6.000 - 8.000 Další 1.000 až 2.000 preferují pravděpodobně angličtinu Celkem tedy má český Twitter přibližně až 10.000 aktivních uživatelů
  • 17. Jaká je jejich dynamika? Každé čtyři týdny rostl počet uživatel, kteří alespoň jednou twittli česky průměrně o 25 procent. Počet aktivních uživatelů roste mezi týdny jen o 3 až 5 procent. Absolutní počty twittů rostou také o 25 procent zhruba po 4 týdnech.
  • 18. Charekteristika česky psaných twittů? 2 % jsou RT 4 % obsahují hash 21.5 % tvoří odpovědi a konverzace 34.6 % obsahují link
  • 19. Jak mluví česká kotlina na Twitteru?
  • 20. Jazyková skladba twittů z České republiky angličtina čeština slovenština němčina ostatní 13% 4% 7% 44% 33%
  • 21. Geografické rozložení Twittů mezi největší města (červenec až září 2009) 6. Liberec 14178x 1. Praha 247685x en - 9561x ~ 67.44% en - 116580x ~ 47.07% cs - 2864x ~ 20.20% cs - 79957x ~ 32.28% 9 měst Praha ostatní sk - 462x ~ 3.26% sk - 16449x ~ 6.64% 7. České Budějovice 2. Brno 37021x 6219x en - 16104x ~ 43.50% cs - 2589x ~ 41.63% cs - 14753x ~ 39.85% en - 1386x ~ 22.29% sk - 3360x ~ 9.08% es - 551x ~ 8.86% 3. Ostrava 23836x 8. Hradec Králové 11888x en - 13885x ~ 58.25% 25% cs - 4696x ~ 39.50% cs - 5306x ~ 22.26% 30% en - 4400x ~ 37.01% pl - 1638x ~ 6.87% de - 1113x ~ 9.36% 4. Plzeň 13681x 9. Ústí nad Labem en - 9160x ~ 66.95% 12016x cs - 2206x ~ 16.12% en - 4266x ~ 35.50% fr - 417x ~ 3.05% de - 2882x ~ 23.98% cs - 2570x ~ 21.39% 5. Olomouc 10754 en - 4619x ~ 42.95% 10. Pardubice 5576x cs - 3062x ~ 28.47% cs - 2718x ~ 48.74% pt - 999x ~ 9.29% en - 1831x ~ 32.84% 45% sk - 414x ~ 7.42%
  • 22. Jak jde čas... a co s tím
  • 23. Co víme, ale nevíme proč... aneb co se za pár měsíc naznačilo - nejčastěji twittují Češi ve čtvrtek a v úterý, nejméně v sobotu. Ve světě je naopak nejpopulárnějším dnem úterý, nejméně využívaná je pak neděle. - počet twittů stoupá od začátku měsíce do jeho konce, pak o něco poklesne a zase stoupá, stručně řečeno lidé twittují více na konci než na začátku
  • 26. Madonna - srpen 2009 - Google search
  • 27. Madonna - srpen 2009 - český twitter
  • 28. Někdy je ale Twitter rychlejší a predikuje tak i budoucí hledání na internetu
  • 29. 17. září v Ostravě
  • 30. Rammstein - září 2009 - Google search
  • 31. Rammstein - září 2009 - český Twitter 17.9.2009
  • 32. Děkuji za pozornost. Otázky? Nápady? slerka@ataxo.com