Materiaali 26.10.2015 pidetylle Aalto-yliopiston kauppakorkeakoulun analytiikan kurssille aiheesta "Analytiikka bisneksessä". Luento käy korkealla tasolla läpi keskeisiä tai muuten vain pinnalla olevia aiheita analytiikasta ja Big Datasta. Tärkeimpiä viestejä ovat:
- Analytiikan ja analyytikon tehtävänä on ratkoa bisnesongelmia
- Big Data tuo analytiikan hyvin erityisiä ominaisuuksia, joita ei esiinny pienemmässä mittakaavassa. Näiden ominaisuuksien ymmärtäminen on kriittistä analytiikan onnistumiselle
- Analytiikan käyttöönotto on enemmän kiinni ihmisistä kuin teknologiasta
- Data ja analytiikka on nykyisin keskeinen omistuserä monille yrityksille. Siksi datalle ja analytiikalle pitää muodostaa oma strategiansa ja sitä hallita kuten mitä tahansa bisneskriittistä pääomaa.
3. MITÄ ON ANALYTIIKKA?
Analytiikka on bisneksen silmät
• ”Näytä mihin astun”
• ”Auta päättämään mihin haluan mennä”
• Analytiikka on digitalisaation ydin
”Software is eating the world” – tämä on vasta alkanut…
4. MISSÄ ANALYTIIKKA TOIMII?
Jokaisella yrityksen osastolla:
• Tehtaasta logistiikkaan
• Markkinoinnista HR:ään
Jokaisella yhteiskunnan alueella:
• Ammattilaisurheilusta lääketutkimukseen
• Mobiilipeleistä maanjäristysten paikannukseen
• Vaateliikkeen hyllyistä rikostutkintaan
5. ESIMERKKI: FREEMIUM-PELIN ANALYTIIKKA
”Tarjotaan tätä ostoa tälle pelaajalle juuri tähän kellonaikaan, tähän hintaan, tässä
paikassa, tässä pelitilanteessa, tällä sanamuodolla ja animaatiolla, tässä kohtaa ruutua”
Ai miksi?
”No koska samassa paikassa eilen yhtä toista peliä pelannut saksankielinen, mutta
kanadalaiseksi itseään väittävä 23-vuotias Pokemoneja harrastava TTY:n opiskelija kävi
Espanjassa kuukausi sitten, käyttää Facebookia paljon juuri lauantaisin, on aika nopea
mutta samoja kielivirheitä toistava kirjoittaja ja tarkistaa usein pelin kaveritilastoja, joissa
viettää keskimäärin 2.3 sekuntia kerralla”
6. MITÄ ON BIG DATA?
Suurta ja monimutkaista
• Teknologiapohja ja laskentateho mahdollistaa hyvin heikkojen signaalien
arvioinnin hyvin suuresta datasta
• Big Data on välttämätöntä kaikkein arvokkaimmille analytiikkaratkaisuille
• Osaajia ei ole tarpeeksi luomaan kaikkea analytiikkaa, johon pystyisimme
• Tämä epäsuhta selittää hypen ja Big Datan nopean nousun esille
8. DATAN LAATU
Big Data on:
• Suurta harvinaisetkin ilmiöt toteutuvat usein
• Monimutkaista dataa ja sen laatua vaikeaa arvioida
• Kasvavaa ei aikaa pysähtyä
Analytiikan onnistuminen riippuu suoraan datan laadusta ja kyvystä hallita sitä
Bisneksen onnistuminen riippuu analytiikan onnistumisesta
9. DATAN LAATU
• Dataa yhdistellään hyvin erilaisista lähteistä
• Muuttujan määritelmä riippuu siitä, keneltä kysytään ja mistä luetaan
• Datakehitys ripeää ja nykytilanteen hahmotus siksi hankalaa
• Uutta dataa haalitaan laadun kustannuksella
• Poikkeusten, virheiden ja hyppyjen havaitseminen suuresta massasta vaikeaa
10. DATAN LAATU
Dokumentaation puute tai sen
virheet (usein väärä
yksinkertaistus)
Muuttujan merkityksen
muutos
Uudet muuttujat,
vanhojen katoaminen
Väärät tai
vaihtelevat yksiköt
Puuttuvat
arvot
Teksti ja numerot
sekaisin
Käsittämättömät
aikaleimat
Tilapäiset, vaihtuvat,
kopioituneet ID:t ilman
vastineita
Rikkinäiset ID:t
Korruptoituneet
kentät
Valehtelu ja petos
11. OIKEAN TAVOITTEEN VALINTA
Analytiikan tavoitteet eivät muodostu tyhjiössä:
• Bisnestavoitteet
• Virheiden kustannukset
• Datan ominaisuudet
• Jokaisella analytiikalla on onnistumisen mittari
• Esimerkki: Millä mittarilla etsitään asiakkaiden lupaavinta promillea?
• Paras mittari on bisnesarvo: raha, strateginen edistys, yhteiskunnallinen vaikutus
12. OIKEAN LAADUN VALINTA
Virheiden kustannukset ovat tapauskohtaisia:
• Maanjäristyksen riskiarviointi
• Lääkemolekyylin lupaavuus vs. potilasturvallisuus
• Asiakkaalle epämiellyttävän tuote-ehdotuksen teko
• Asiakkaan jo ostaman tuotteen ehdottaminen
• Kaasuturbiinin virheellinen säätö
Analytiikka elää tasapainossa hyötyjen ja haittojen keskellä
13. SOVELLUKSIA: OHJAAMATON OPPIMINEN
• Varhainen konerikon tai tietomurron havaitseminen
• Kuluttajan yksityiskohtaisen elokuvamaun määrittely
• Yhteisöjen ja nousevien aiheiden tunnistaminen sosiaalisessa verkossa
• Hakukone
• Zombie-epidemian mallintaminen
15. SOVELLUKSIA: OHJATTU OPPIMINEN
• Roskapostin tunnistus
• Betonin lujuuden säätö
• Parhaan mainoksen ja sen hinnan valinta kuluttajalle
Puoliohjattu oppiminen
• Hahmontunnistus videokuvasta
• Mielipideanalyysi webbifoorumeilta
16. EKSPONENTTILAIT
• Koulu opettaa meille, että kaikki seuraa normaalijakaumaa
• Todellisuudessa hyvin moni data seuraa eksponenttilakia – ”the long tail”
Maailma on täynnä eksponenttilakeja:
Asiakkaiden arvo ja aktiivisuus
Aivotoiminta
Maanjäristysten voimakkuus
Varallisuuden jako
Hiekanjyvien koko
Ihmisten sosiaalinen käytös
Jokien pituus
Osakepörssien aktiivisuus ja heilahtelu
Sähköinen kohina
Kaupunkien koko
Ihmiset eivät käyttäydy niin kuin kuvittelet
17. EKSPONENTTILAIT
• ”Kenellä on, sille annetaan” suuret verkostovaikutukset
• Esimerkki: nettisivuille linkitetään suhteessa niiden suosioon
• Esimerkki: tunnetut näyttelijät saavat enemmän rooleja
• Äärimmäisen vino jakauma: valtava huippu, mutta lähes kaikki pohjalla
• Keskiarvot ovat rikollisen huonoja mittareita
• Useimmat analyyttiset menetelmät sekoavat tästä täysin
• Eksponenttikäyrän eri osat käyttäytyvät hyvin eri tavoin
23. TILASTOLLINEN MERKITSEVYYS
Big Data on
• Suurta mikä tahansa erikoinen ilmiö löytyy kun etsii
• Monimutkaista mahdollisuus tehdä runsaasti monimutkaisia kysymyksiä
Ihmiset ovat tavattoman huonoja tulkitsemaan tilastoja
Sinä et ole poikkeus
Big Data tarjoaa täydellisen ympäristön tämän todistamiseen
24. TILASTOLLINEN MERKITSEVYYS
• Päättäjä: ”Voinko luottaa näihin numeroihin? Onko päätökseni perusteltu?”
• Tilastollinen merkitsevyys on eri asia kuin tosimaailman merkitsevyys
• Järjestelmien pitää toimia varman päälle riskien suhteen
• Luottamus analytiikkaan rakentuu hitaasti, mutta romahtaa nopeasti
25. TILASTOLLINEN MERKITSEVYYS
Merkitsevyysarvion luotettavuudelle on kriittistä:
• Datalähteen ja haetun ilmiön mallinnuksen oikeellisuus
• Etsityn ilmiön rajaaminen tiukasti etukäteen
Esimerkki bioinformatiikasta:
• Geenien toiminta ei ole normaalijakautunutta kohinaa
• Testattavana on samanaikaisesti tuhansia eri geenejä ja olosuhteita
• Eri tapoja etsiä poikkeuksia on tuhansia
26. KORRELAATIO JA SYY-SEURAUSSUHDE
• Korrelaatio ei ole syy-seuraussuhde
• Mutta analytiikassa korrelaatio usein riittää
• Korrelaatio voi kätkeä mielivaltaisen totuuden
• Tulipaloja syttyy enemmän kun palomiehiä on enemmän
• Enemmän markkinointiin investoivilla yhtiöillä on suurempi liikevaihto
27. ANALYYTTINEN TESTAUS
• Automaattinen analytiikka mullistaa tiedonkeruun ja innovoinnin
• Ei vain teknologiaa vaan ideologiaa
• ”Miten muotoilemme käyttöliittymän logiikan ja palikat?”
• ”Kumpi algoritmi tuottaa käyttäjien mielestä parempia tuloksia?”
• ”Millä hinnoittelustrategialla saamme maksimoitua lennon tuoton?”
• Lähtökohtana A/B-testaus
• Modernina rakenteena bandit-testaus
29. MITKÄ OVAT TÄRKEITÄ METRIIKOITA?
Älä valitse metriikoita vaan bisnesongelmia
• Näkyvä muutos metriikoissa näkyvä muutos bisneksessä
• Bisnesongelmat muuttuvat ja vaihtuvat jatkuvasti
• Internet ei kerro sinulle ongelmaasi
Ongelmien ymmärtäminen ei riitä, analytiikan tulee tarjota keinot ratkaisuun
30. ESIMERKKI: KAKSI MOBIILISOVELLUSTA
Uusi sovellus
• Tehokkain käyttäjien hankintakanava?
• Tehokkain orgaanisen kasvun keino?
• Miten korjata uusien käyttäjien
alkukokemus?
• Mitä ominaisuuksia ei käytetä?
• Tehdäänkö ”erikoistarjous” 2 vai 5
päivän jälkeen?
Vakiintunut sovellus
• Mikä käyttäjäsegmentti on vielä
ammentamatta?
• Mikä saa käyttäjät lähtemään?
• Millainen sisältö on parasta
monetisoinnille?
• Onko käyttäjiä, jotka ovat saturoituneet
nykysisällölle?
31. ANALYYTIKON TEHTÄVÄ
Ei tiedon, vaan bisneksen mallintaminen
• Analyytikko muuntaa bisnesongelmia dataratkaisuiksi
• Maailma on täynnä ongelmia ja analytiikka täynnä ratkaisuja
• Miten rakennetaan siltoja puolelta toiselle?
32. MITÄ TAITOJA DATA SCIENCE VAATII?
• Todennäköisyysmatematiikka
• Ohjelmointi ja skriptaus
• Laskentatieteet
• Datajärjestelmät
• Kyky kiertää ongelmia ja hallita monimutkaisuutta
• Intuitio (nopeasti poista väärät + valitse oikea lähestymistapa)
• Kyky nähdä yksityiskohdat, mutta luoda yleiskuva
• Bisnes-ymmärrys
33. OPERATIIVINEN ANALYTIIKKA
• Yleensä analytiikka nähdään kivoina kuvina kalvoilla ja nettisivuilla
• Analytiikan vaikutus ja hyöty 1000x, kun se automoidaan osaksi operaatioita
• Operatiivinen analytiikka analysoi ja reagoi dataan jatkuvasti, ympäri kellon,
ilman ihmisiä
34. OPERATIIVINEN ANALYTIIKKA: ESIMERKKEJÄ
• Markkinointi ei tutki mainonnan vaikutuksia, vaan kone automaattisesti
ennustaa ja painottaa budjetin uusiksi joka hetki
• Tuotantoketju tasapainottuu satojen yksiköiden ja tuhansien SKU:iden välillä
automaattisesti
• Kone ei vain tarjoa tietoa potilaan tilasta, vaan jatkuvasti arvioi mahdollisten
komplikaatioiden todennäköisyyttä ja ehdottaa lisätoimenpiteitä
35. OPERATIIVISEN ANALYTIIKAN HAASTEET
• Analytiikan automaattinen käyttö on 10x vaikeampaa
• Valtavat vaatimukset datan laadulle, algoritmien tarkalle ymmärtämiselle ja
järjestelmien luotettavuudelle
• ”Outo” data ei saa aiheuttaa ”pahoja” reaktioita
• Datan saatavuus on bisneskriittistä
• Analytiikan saatavuus on bisneskriittistä
• Analytiikan luotettavuus on bisneskriittistä
36. MITÄ ON REAALIAIKAINEN ANALYTIIKKA?
• Analyytikko: ”Mikä on käyttäjien määrä tänään? Lähteittäin? Entä nyt?
Ranskassa?”
• Järjestelmänvalvoja: ”Verkkoliikenteessä erikoinen piikki viime 10 sekunnin
aikana, miksi?”
• Mainospörssi: ”Mitä tarjoat tästä mainostilasta? Sinulla on 50 ms”
• Moottorikontrolleri: ”Näiden 12 sensorin data viimeisen 10 mikrosekunnin
ajalta kertoo, että minun tulee käskeä ohjaimia muuttamaan toimintaansa”
37. TARVITSEEKO ANALYTIIKAN OLLA MONIMUTKAISTA?
• Keskiverto yrityksellä on valtavasti ongelmia, jotka voi ratkoa hyvin
yksinkertaisella analytiikalla
• Näiden ratkominen ja automointi on monien vuosien työ
• Laajemman automaattisen analytiikan kehittäminen vie paljon pitempään
kuin kukaan alkuun kuvittelee
• Monimutkaisen analytiikan kehittäminen turhaa, jos taustalla olevia
perusasioita ei kunnolla hallita
38. ANALYTIIKAN KÄYTTÖLIITTYMÄ
Analytiikkaa ei oteta käyttöön, ellei se tee käyttäjiensä työstä
helpompaa, laadukkaampaa ja tehokkaampaa
Visualisointi on kriittistä sekä hyödylle että hyväksynnälle organisaatiossa,
konseptoinnista lopputuloksiin asti
Pääosa analytiikan investoinneista kuluu toimivan käyttöliittymän tarjoamiseen
39. ANALYTIIKAN KÄYTTÖLIITTYMÄ
• ”Mitä tietoa näiden käyttäjien tulee nähdä?”
• ”Mitä tietoa tämä päätöksenteko tarvitsee?”
• ”Miten esittää tieto selkeästi, mutta kaiken oleellisen näyttäen?”
• ”Miten esittää tieto niin, että siitä ei voi tehdä virheellisiä tulkintoja?”
40. YLEISET ONGELMAT ANALYTIIKAN KÄYTÖSSÄ
• Vähäinen huomio datan laatuun ja sen kompensointiin
• Metriikoiden huono ymmärrys ja valinta
• Metriikoiden virheellinen tulkinta
• Väärä yksinkertaistus (esim. keskiarvojen käyttö)
• Merkitsevyyden unohtaminen
• Virhelähteiden puutteellinen tunnistaminen
• Puutteelliset alkuperäiset tavoitteet
• Keskeinen data puuttuu (joskus hyvin vaikeaa korjata)
• Löydöt jäävät infotasolle, niitä ei automoida osaksi operaatioita
• Liian monimutkaisen tekeminen
42. KONEDATA JA IHMISTEN LUOMA DATA
Ihmisten luomaa dataa:
• 6K twiittiä / s
• 40K tapahtumaa / s mobiilipelistä (~200 Gt / pv)
• 50K Google-hakua / s
Konedataa:
• 5M tarjousta / s USA:n optiomarkkinoilla
• 120 Mt / s diagnostiikkaa kaasuturbiinista
• 1 Pt / s törmäyshetkellä CERNin LHC-kiihdyttimestä
43. KONEDATA JA IHMISTEN LUOMA DATA
• Ihmisten luoma data tulee kasvamaan, mutta pääosin
yksityiskohtaisuudeltaan
• Lähes kaikki ihmisten luoma data on ”pientä”
• Konedataa on valtavasti ja vain tallennuskapasiteetti rajoittaa sen kasvua
• Konedatan kerääminen mullistuu asioiden internetin myötä entisestään
44. DATA VERSUS ALGORITMI
• ”Yksinkertaiset mallit ja enemmän dataa voittavat vähempään dataan
perustuvat monimutkaisemmat mallit” – Peter Norvig
Perusteita:
• Lisää muuttujia laskee vinoumaa, lisää datapisteitä laskee varianssia
• Yksinkertaiset metodit helpompia hallita, erityisesti operaatioissa
• Laskenta-ajalla on merkitystä suuressa skaalassa
Viime aikoina sääntöön on ilmestynyt poikkeus
45. ”DEEP LEARNING” – SYVÄT NEUROVERKOT
• Pohjimmiltaan vain hyvin monikerroksinen tavanomainen neuroverkko
• Pitkä sarja pieniä läpimurtoja nostaneet menetelmän valtavan tehokkaaksi
• Poikkeus, missä ”valtavasti dataa ja monimutkainen malli” voittaa
Erityisominaisuuksia:
• Toimii erityisesti jatkuvarakenteiselle datalle (aikasarjat, kuvat, ääni)
• Automoi pois osan tarpeesta ymmärtää datan ominaisuuksia
• Vaatii valtavat määrät sekä dataa että laskentaa
• Hyvä alusta ohjatun ja ohjaamattoman oppimisen yhdistämiseen
46. ESIMERKKI: GOOGLENET
• 27 kerrosta, 5M parametria, näitä verkkoja 7 rinnan
• Oppiminen vaatii viikon (nopeaa) GPU-aikaa
• Kuvantunnistus ihmisen tasolla
Husky
vs.
Malamuutti
48. DATAJÄRJESTELMÄT MURROKSESSA
• Vanhat järjestelmät soveltuvat transaktioihin, ei analytiikkaan
• Erilainen data ja erilainen tarkoitus tarvitsevat hyvin erilaisen järjestelmän
Datan pitää olla
• heti saatavilla ympäri maailmaa
• käytettävissä laajasti ja samanaikaisesti
• vapaasti yhdisteltävissä
49. UUDET DATAJÄRJESTELMÄT – HADOOP
• Hadoop toi halvan, luotettavan datan tallennuksen ja kyvyn edes
teoreettisesti käsitellä valtavaa dataa
• Ei ole yhtä Hadoopia – vain yleinen heterogeenisen laskennan alusta ja
kokoelma järjestelmiä ja sovelluksia
Hadoop on oikea vastaus vain hyvin harvoille
51. UUDET DATAJÄRJESTELMÄT - PILVI
Vanhat tavat säilöä ja käyttää dataa sopivat huonosti uusiin tarpeisiin
Pilvi ratkaisee monia ongelmia
• Luotettavuus ja säilyvyys
• Skaalautuvuus, hajautus, samanaikaisuus
• Sama yksinkertainen saatavuus kaikkialta
Pilvi on ainoa oikea ratkaisu lähes kaikille
52. UUDET DATAJÄRJESTELMÄT – DATA ON JATKUVAA
• Ennen data nähtiin staattisena tilana, jota päivitettiin
• Nyt data nähdään jatkuvana virtana yksittäisiä muutoksia
• Mikään data ei ikinä katoa, se vain kertyy
Data pitää analysoidaan sitä mukaa kuin se tulee
Datan ”parasta ennen”-päiväys aikaistuu:
• ”Miksi katsoa kuukauden vanhaa dataa, kun sitä tulee tänään 10 gigaa lisää?”
• ”Eilisen data pitää hyödyntää nyt ennen kuin se on turhaa”
53. ASIOIDEN INTERNET
• Ymmärrämme elinympäristöämme lopulta aika vähän
• Asioiden internet muuttaa tämän niin ihmisille kuin koneille
• Suunnaton määrä hyvin monimutkaista dataa
• Mahdollisuudet ovat valtavat, mutta vielä epäselvät
• Teknologia on olemassa, mutta ei vielä kypsää
• Kuka analysoi ja tuo käyttöön kaiken tämän datan?
55. MITÄ BIG DATA TARKOITTAA BISNEKSELLE?
Asioiden arvoa ei mitata vain rahassa, vaan myös datassa
• Maksavat asiakkaat ovat aina pieni vähemmistö
• Ei-maksavat asiakkaat tuottavat elintärkeää dataa
Esimerkki: Google tekee $15B voittoa, vaikka tarjoaa kaikille ”ilmaisen”
sähköpostin, Officen, pilvitallennuksen, videokirjaston, hakukoneen, jne.
56. ANALYTIIKAN KÄYTÖN ASKELEET
1. Hallitsematonta – kaoottista, rikkinäistä dataa, ad-hoc käyttö
2. Reaktiivista – Paikallisia käyttötarpeita, tieto ei siirry
3. Hallittua – Strategian mukaista, suunniteltua
4. Osaamisen ydin – Datan käyttö on kaiken toiminnan ytimessä
5. Strategista – Datalle on oma strategia, sen arvoa ja investointeja
suunnitellaan ylimmillä tasoilla
57. ANALYTIIKKA JA YRITYSKULTTUURI
Suurin haaste analytiikan käytössä ei ole teknologia vaan ihmiset
• Miten saada organisaatio luottamaan dataan eikä statukseen, konsensukseen,
kokemukseen, intuitioon tai ennakkoluuloihin?
• Miten saada organisaatio vaatimaan dataa ja kyseenalaistamaan vanhat totuudet?
• Muutoksen täytyy lähteä huipulta, muutosten taas pohjalta
• Yhteistyö analytiikan osaajien ja osaamattomien välillä auttaa tukemaan muutosta
• Hyödyt vaativat suuren esipanoksen kärkihankkeet tärkeitä
58. ANALYTIIKKA JA YRITYSORGANISAATIO
• Miten rakentaa organisaatio ja sen prosessit hyödyntämään dataa joka
vaiheessa?
• Dataa ja korkean tason analytiikkaosaamista on kriittistä hallita ja kehittää
keskitetysti
• Vaihtoehto 1: Voimakas keskitetty osaaminen yhteistyössä bisnesyksiköiden
kanssa
• Vaihtoehto 2: Keskitetty yksikkö tarjoaa teknologiaa ja erikoisosaamista
bisnesyksiköihin hajautetuille analyytikoille, joilla bisnestuntemus
59. DATASTRATEGIA
Data on pääomaa
• Mikä on datan capex, arvon alenema ja kuoletus?
• Miten investoidaan datapääomaan?
• Miten data muunnetaan tuloiksi?
• Voiko dataa ostaa ja myydä?
• Miten datapääoma kirjataan?
• Keskeinen teknologia tarvitsee strategian, mikä on datastrategia?
60. ANALYTIIKKA JA YRITYSSTRATEGIA
”Mitä peliä pelaamme?”
• Oikea analytiikka tuo merkittäviä kilpailuetuja
• Monet rakentavat strategiansa sen datan varaan, johon heillä on yksinoikeus
”Miten pidämme kirjaa pistetilanteesta?”
• Analytiikalla arvioidaan yritysstrategian menestystä
• Analytiikka ei vain kerro pistetilannetta vaan keinot sen parantamiseen