SlideShare uma empresa Scribd logo
1 de 17
Baixar para ler offline
Datanest 3.0
PeaceGlory Fox
Miroslav Hetteš, Marek Čelín, Tomáš Kramár, Jano Suchal
Budem prezentovat projekt Datanest 3.0. Sucasny datanest je sice verzia 1.0 ale toto
je tak dobre, ze sme sa rozhodli verziu 2.0 preskocit.
Inspirovali sme sa grafom prepojeni, ktory spracoval Adam Valcek. Ti, co ste niekedy
takyto graf kreslili, viete, ze to je strasna robota. Lebo na zaciatku zacinate s niecim
co vyzera takto:
Viete, ze existuje nejaky Vahostav a poistovna Dovera.
Nástroj na
kreslenie grafov
My sme vytvorili v prvom kroku nastroj na kreslenie takychto grafov prepojeni. Co nie
je velmi zaujimave, lebo takychto nastrojov existuje uz dost.
Avsak potrebujete ho, lebo potrebujete kreslit aj prepojenia, ktore su zname len z
medii alebo inych zdrojov.
Automatické
hľadanie v
datasetoch
To co vsak umoznuje nas nastroj je automaticke pridavanie prepojeni z dostupnych
datasetov. Napriklad z OpenCorporates vieme automaticky nakreslit tieto prepojenia,
bez namahaveho rucneho hladania v registroch.
Ak by sme zobrali OpenCorporates a obchodny register, tak sa vieme takmer
automaticky dostat k tejto casti grafu.
Deduplikácia dát
Problemom open data je vsak to, ze su do velkej miery neprepojene, nepresne a
obsahuju mnozstva duplicitnych zaznamov a preklepov. Nas nastroj umoznuje tieto
duplicity spajat.
Napriklad v pripade Vahostavu su dve firmy Flexys, ktore mozu aj nemusia byt tie
iste.
Ak sa ich clovek rozhodne spojit do jedneho.
Tak nasledne uz v databaze figuruju ako spojene a dalsi pouzivatelia nemusia tuto
duplicitu oznacovat. Takto sa teda vedlajsim efektom prepajaju rozne datasety.
Hľadanie ciest v
grafe
Problem vsak nastava, ked si pozriete realitu, tak firiem flexsys je v opencorporate asi
180. Taktiez vacsinou neviete ci prave takato firma bude viest k nejakemu prepojeniu.
Toto je vsak pre pocitac velmi lahka uloha. Preto nas nastroj umoznuje automaticke
hladanie prepojeni.
Requesting edges for https://opencorporates.com/companies/cy/HE329746
GINOSTRA LIMITED ...2 found!
Requesting edges for https://opencorporates.com/officers/132206260
ΕΛΕΝΗ ΚΥΡΙΑΚΙΔΟΥ ...53 found!
Requesting edges for https://opencorporates.com/officers/132206261
FLEXSYS (SERVICES) LIMITED ...180 found!
Requesting edges for https://opencorporates.com/officers/131633667
ΕΛΕΝΗ Κ. ΚΥΡΙΑΚΙΔΟΥ ...2 found!
…
Found paths:
PATH 1:
GINOSTRA LIMITED <https://opencorporates.com/companies/cy/HE329746> --
(secretary)-->
FLEXSYS (SERVICES) LIMITED <https://opencorporates.com/officers/132206261> --
(possible_duplicate)-->
FLEXSYS (SERVICES) LIMITED <https://opencorporates.com/officers/132046854> --
(directed_by)-->
PREFTO HOLDINGS LIMITED <https://opencorporates.com/companies/cy/HE246615>
Tu je ukazka hladania cesty medzi dvoma firmami priamo v OpenCorporates aj ces
duplicitne a neprepojene data. Algoritmus oznaci cestu medzi firmami a pripadne
ukaze, za akych podmienok toto prepojenie existuje. V tomto pripade musi byt Flexys
ako sekretar firmy Ginostra ten isty ako director prefto holdings. Toto rozhodnutie
musi urobit clovek avsak je to obrovska pomoc, kedze nie je potrebne prehladavat
predtym stovky firiem.
Crowdsourcing
Ak ani toto nestaci, tak je mozne vyuzit crowdsourcing na precistenie/prepojenie
velkych datasetov.
Vyzera to takto. V moznych duplikatoch je mozne namiesto oznacenia vytvorit
“crowdsourcing” ulohu, ktoru moze riesit lubovolny navstevnik a pomaha tak
precistovat datasety aj pre ostatnych.
Otvorená
platforma
Toto vsak nie je vsetko. Ak ste si teraz povedali, ze to je fajn, ale ja chcem aj hladat
firmy v inej databaze alebo hladat prepojenia cez internetove domeny alebo nieco
uplne ine, tak Datanest 3.0 je otvorenou platformou. Mozete do nej pridavat vlastne
sluzby, ktore napriklad vedia hladat firmy na rovnakej adrese. Pridavat nove typy
vrcholov v grafe (domeny, ip adresy) a nove typy prepojeni (sused, vlastnik
domeny…) Staci dodrzat jednoduche API a zapnut vasu sluzbu v nastroji.
Datanest 3.0 - je teda nastroj na vizualizaciu a hladanie prepojeni v roznorodych
datasetoch, ktory pomocou crowdsourcingu umoznuje efektivne precistovat a prepajat
data a taktiez otvorenou rozsiritelnou platformou pre nove sluzby nad takymito
datami.
Demo

Mais conteúdo relacionado

Destaque

Aký programovací jazyk a framework si vybrať a prečo?
Aký programovací jazyk a framework si vybrať a prečo?Aký programovací jazyk a framework si vybrať a prečo?
Aký programovací jazyk a framework si vybrať a prečo?Jano Suchal
 
Soccerbook gestionalislideshare
Soccerbook gestionalislideshareSoccerbook gestionalislideshare
Soccerbook gestionalislideshareSoccerbook Calcio
 
Web Application Security Guide by Qualys 2011
Web Application Security Guide by Qualys 2011 Web Application Security Guide by Qualys 2011
Web Application Security Guide by Qualys 2011 nat page
 
Rank all the (geo) things!
Rank all the (geo) things!Rank all the (geo) things!
Rank all the (geo) things!Jano Suchal
 
Qg was guide
Qg was guideQg was guide
Qg was guidenat page
 
Slovensko.Digital: Čo ďalej?
Slovensko.Digital: Čo ďalej?Slovensko.Digital: Čo ďalej?
Slovensko.Digital: Čo ďalej?Jano Suchal
 
PostgreSQL: Advanced features in practice
PostgreSQL: Advanced features in practicePostgreSQL: Advanced features in practice
PostgreSQL: Advanced features in practiceJano Suchal
 

Destaque (9)

Aký programovací jazyk a framework si vybrať a prečo?
Aký programovací jazyk a framework si vybrať a prečo?Aký programovací jazyk a framework si vybrať a prečo?
Aký programovací jazyk a framework si vybrať a prečo?
 
Soccerbook gestionalislideshare
Soccerbook gestionalislideshareSoccerbook gestionalislideshare
Soccerbook gestionalislideshare
 
Web Application Security Guide by Qualys 2011
Web Application Security Guide by Qualys 2011 Web Application Security Guide by Qualys 2011
Web Application Security Guide by Qualys 2011
 
Rank all the (geo) things!
Rank all the (geo) things!Rank all the (geo) things!
Rank all the (geo) things!
 
Qg was guide
Qg was guideQg was guide
Qg was guide
 
Slovensko.Digital: Čo ďalej?
Slovensko.Digital: Čo ďalej?Slovensko.Digital: Čo ďalej?
Slovensko.Digital: Čo ďalej?
 
PostgreSQL: Advanced features in practice
PostgreSQL: Advanced features in practicePostgreSQL: Advanced features in practice
PostgreSQL: Advanced features in practice
 
Strange but true
Strange but trueStrange but true
Strange but true
 
Future world
Future worldFuture world
Future world
 

Mais de Jano Suchal

Beyond search queries
Beyond search queriesBeyond search queries
Beyond search queriesJano Suchal
 
Rank all the things!
Rank all the things!Rank all the things!
Rank all the things!Jano Suchal
 
Ako si vybrať programovácí jazyk alebo framework?
Ako si vybrať programovácí jazyk alebo framework?Ako si vybrať programovácí jazyk alebo framework?
Ako si vybrať programovácí jazyk alebo framework?Jano Suchal
 
Bonetics: Mastering Puppet Workshop
Bonetics: Mastering Puppet WorkshopBonetics: Mastering Puppet Workshop
Bonetics: Mastering Puppet WorkshopJano Suchal
 
Peter Mihalik: Puppet
Peter Mihalik: PuppetPeter Mihalik: Puppet
Peter Mihalik: PuppetJano Suchal
 
Tomáš Čorej: Configuration management & CFEngine3
Tomáš Čorej: Configuration management & CFEngine3Tomáš Čorej: Configuration management & CFEngine3
Tomáš Čorej: Configuration management & CFEngine3Jano Suchal
 
Ako si vybrať programovací jazyk a framework?
Ako si vybrať programovací jazyk a framework?Ako si vybrať programovací jazyk a framework?
Ako si vybrať programovací jazyk a framework?Jano Suchal
 
SQL: Query optimization in practice
SQL: Query optimization in practiceSQL: Query optimization in practice
SQL: Query optimization in practiceJano Suchal
 
Garelic: Google Analytics as App Performance monitoring
Garelic: Google Analytics as App Performance monitoringGarelic: Google Analytics as App Performance monitoring
Garelic: Google Analytics as App Performance monitoringJano Suchal
 
Miroslav Šimulčík: Temporálne databázy
Miroslav Šimulčík: Temporálne databázyMiroslav Šimulčík: Temporálne databázy
Miroslav Šimulčík: Temporálne databázyJano Suchal
 
Vojtech Rinik: Internship v USA - moje skúsenosti
Vojtech Rinik: Internship v USA - moje skúsenostiVojtech Rinik: Internship v USA - moje skúsenosti
Vojtech Rinik: Internship v USA - moje skúsenostiJano Suchal
 
Profiling and monitoring ruby & rails applications
Profiling and monitoring ruby & rails applicationsProfiling and monitoring ruby & rails applications
Profiling and monitoring ruby & rails applicationsJano Suchal
 
Petr Joachim: Redis na Super.cz
Petr Joachim: Redis na Super.czPetr Joachim: Redis na Super.cz
Petr Joachim: Redis na Super.czJano Suchal
 
Metaprogramovanie #1
Metaprogramovanie #1Metaprogramovanie #1
Metaprogramovanie #1Jano Suchal
 
elasticsearch - advanced features in practice
elasticsearch - advanced features in practiceelasticsearch - advanced features in practice
elasticsearch - advanced features in practiceJano Suchal
 
Postobjektové programovanie v Ruby
Postobjektové programovanie v RubyPostobjektové programovanie v Ruby
Postobjektové programovanie v RubyJano Suchal
 
Odporúčacie systémy a služba sme.sk čo čítať
Odporúčacie systémy a služba sme.sk čo čítaťOdporúčacie systémy a služba sme.sk čo čítať
Odporúčacie systémy a služba sme.sk čo čítaťJano Suchal
 
sme.sk čočítať ontožíur-2010
sme.sk čočítať ontožíur-2010sme.sk čočítať ontožíur-2010
sme.sk čočítať ontožíur-2010Jano Suchal
 

Mais de Jano Suchal (19)

Beyond search queries
Beyond search queriesBeyond search queries
Beyond search queries
 
Rank all the things!
Rank all the things!Rank all the things!
Rank all the things!
 
Ako si vybrať programovácí jazyk alebo framework?
Ako si vybrať programovácí jazyk alebo framework?Ako si vybrať programovácí jazyk alebo framework?
Ako si vybrať programovácí jazyk alebo framework?
 
Bonetics: Mastering Puppet Workshop
Bonetics: Mastering Puppet WorkshopBonetics: Mastering Puppet Workshop
Bonetics: Mastering Puppet Workshop
 
Peter Mihalik: Puppet
Peter Mihalik: PuppetPeter Mihalik: Puppet
Peter Mihalik: Puppet
 
Tomáš Čorej: Configuration management & CFEngine3
Tomáš Čorej: Configuration management & CFEngine3Tomáš Čorej: Configuration management & CFEngine3
Tomáš Čorej: Configuration management & CFEngine3
 
Ako si vybrať programovací jazyk a framework?
Ako si vybrať programovací jazyk a framework?Ako si vybrať programovací jazyk a framework?
Ako si vybrať programovací jazyk a framework?
 
SQL: Query optimization in practice
SQL: Query optimization in practiceSQL: Query optimization in practice
SQL: Query optimization in practice
 
Garelic: Google Analytics as App Performance monitoring
Garelic: Google Analytics as App Performance monitoringGarelic: Google Analytics as App Performance monitoring
Garelic: Google Analytics as App Performance monitoring
 
Miroslav Šimulčík: Temporálne databázy
Miroslav Šimulčík: Temporálne databázyMiroslav Šimulčík: Temporálne databázy
Miroslav Šimulčík: Temporálne databázy
 
Vojtech Rinik: Internship v USA - moje skúsenosti
Vojtech Rinik: Internship v USA - moje skúsenostiVojtech Rinik: Internship v USA - moje skúsenosti
Vojtech Rinik: Internship v USA - moje skúsenosti
 
Profiling and monitoring ruby & rails applications
Profiling and monitoring ruby & rails applicationsProfiling and monitoring ruby & rails applications
Profiling and monitoring ruby & rails applications
 
Čo po GAMČI?
Čo po GAMČI?Čo po GAMČI?
Čo po GAMČI?
 
Petr Joachim: Redis na Super.cz
Petr Joachim: Redis na Super.czPetr Joachim: Redis na Super.cz
Petr Joachim: Redis na Super.cz
 
Metaprogramovanie #1
Metaprogramovanie #1Metaprogramovanie #1
Metaprogramovanie #1
 
elasticsearch - advanced features in practice
elasticsearch - advanced features in practiceelasticsearch - advanced features in practice
elasticsearch - advanced features in practice
 
Postobjektové programovanie v Ruby
Postobjektové programovanie v RubyPostobjektové programovanie v Ruby
Postobjektové programovanie v Ruby
 
Odporúčacie systémy a služba sme.sk čo čítať
Odporúčacie systémy a služba sme.sk čo čítaťOdporúčacie systémy a služba sme.sk čo čítať
Odporúčacie systémy a služba sme.sk čo čítať
 
sme.sk čočítať ontožíur-2010
sme.sk čočítať ontožíur-2010sme.sk čočítať ontožíur-2010
sme.sk čočítať ontožíur-2010
 

Datanest 3.0

  • 1. Datanest 3.0 PeaceGlory Fox Miroslav Hetteš, Marek Čelín, Tomáš Kramár, Jano Suchal Budem prezentovat projekt Datanest 3.0. Sucasny datanest je sice verzia 1.0 ale toto je tak dobre, ze sme sa rozhodli verziu 2.0 preskocit.
  • 2. Inspirovali sme sa grafom prepojeni, ktory spracoval Adam Valcek. Ti, co ste niekedy takyto graf kreslili, viete, ze to je strasna robota. Lebo na zaciatku zacinate s niecim co vyzera takto:
  • 3. Viete, ze existuje nejaky Vahostav a poistovna Dovera.
  • 4. Nástroj na kreslenie grafov My sme vytvorili v prvom kroku nastroj na kreslenie takychto grafov prepojeni. Co nie je velmi zaujimave, lebo takychto nastrojov existuje uz dost.
  • 5. Avsak potrebujete ho, lebo potrebujete kreslit aj prepojenia, ktore su zname len z medii alebo inych zdrojov.
  • 6. Automatické hľadanie v datasetoch To co vsak umoznuje nas nastroj je automaticke pridavanie prepojeni z dostupnych datasetov. Napriklad z OpenCorporates vieme automaticky nakreslit tieto prepojenia, bez namahaveho rucneho hladania v registroch.
  • 7. Ak by sme zobrali OpenCorporates a obchodny register, tak sa vieme takmer automaticky dostat k tejto casti grafu.
  • 8. Deduplikácia dát Problemom open data je vsak to, ze su do velkej miery neprepojene, nepresne a obsahuju mnozstva duplicitnych zaznamov a preklepov. Nas nastroj umoznuje tieto duplicity spajat.
  • 9. Napriklad v pripade Vahostavu su dve firmy Flexys, ktore mozu aj nemusia byt tie iste.
  • 10. Ak sa ich clovek rozhodne spojit do jedneho.
  • 11. Tak nasledne uz v databaze figuruju ako spojene a dalsi pouzivatelia nemusia tuto duplicitu oznacovat. Takto sa teda vedlajsim efektom prepajaju rozne datasety.
  • 12. Hľadanie ciest v grafe Problem vsak nastava, ked si pozriete realitu, tak firiem flexsys je v opencorporate asi 180. Taktiez vacsinou neviete ci prave takato firma bude viest k nejakemu prepojeniu. Toto je vsak pre pocitac velmi lahka uloha. Preto nas nastroj umoznuje automaticke hladanie prepojeni.
  • 13. Requesting edges for https://opencorporates.com/companies/cy/HE329746 GINOSTRA LIMITED ...2 found! Requesting edges for https://opencorporates.com/officers/132206260 ΕΛΕΝΗ ΚΥΡΙΑΚΙΔΟΥ ...53 found! Requesting edges for https://opencorporates.com/officers/132206261 FLEXSYS (SERVICES) LIMITED ...180 found! Requesting edges for https://opencorporates.com/officers/131633667 ΕΛΕΝΗ Κ. ΚΥΡΙΑΚΙΔΟΥ ...2 found! … Found paths: PATH 1: GINOSTRA LIMITED <https://opencorporates.com/companies/cy/HE329746> -- (secretary)--> FLEXSYS (SERVICES) LIMITED <https://opencorporates.com/officers/132206261> -- (possible_duplicate)--> FLEXSYS (SERVICES) LIMITED <https://opencorporates.com/officers/132046854> -- (directed_by)--> PREFTO HOLDINGS LIMITED <https://opencorporates.com/companies/cy/HE246615> Tu je ukazka hladania cesty medzi dvoma firmami priamo v OpenCorporates aj ces duplicitne a neprepojene data. Algoritmus oznaci cestu medzi firmami a pripadne ukaze, za akych podmienok toto prepojenie existuje. V tomto pripade musi byt Flexys ako sekretar firmy Ginostra ten isty ako director prefto holdings. Toto rozhodnutie musi urobit clovek avsak je to obrovska pomoc, kedze nie je potrebne prehladavat predtym stovky firiem.
  • 14. Crowdsourcing Ak ani toto nestaci, tak je mozne vyuzit crowdsourcing na precistenie/prepojenie velkych datasetov.
  • 15. Vyzera to takto. V moznych duplikatoch je mozne namiesto oznacenia vytvorit “crowdsourcing” ulohu, ktoru moze riesit lubovolny navstevnik a pomaha tak precistovat datasety aj pre ostatnych.
  • 16. Otvorená platforma Toto vsak nie je vsetko. Ak ste si teraz povedali, ze to je fajn, ale ja chcem aj hladat firmy v inej databaze alebo hladat prepojenia cez internetove domeny alebo nieco uplne ine, tak Datanest 3.0 je otvorenou platformou. Mozete do nej pridavat vlastne sluzby, ktore napriklad vedia hladat firmy na rovnakej adrese. Pridavat nove typy vrcholov v grafe (domeny, ip adresy) a nove typy prepojeni (sused, vlastnik domeny…) Staci dodrzat jednoduche API a zapnut vasu sluzbu v nastroji. Datanest 3.0 - je teda nastroj na vizualizaciu a hladanie prepojeni v roznorodych datasetoch, ktory pomocou crowdsourcingu umoznuje efektivne precistovat a prepajat data a taktiez otvorenou rozsiritelnou platformou pre nove sluzby nad takymito datami.
  • 17. Demo