1. Datanest 3.0
PeaceGlory Fox
Miroslav Hetteš, Marek Čelín, Tomáš Kramár, Jano Suchal
Budem prezentovat projekt Datanest 3.0. Sucasny datanest je sice verzia 1.0 ale toto
je tak dobre, ze sme sa rozhodli verziu 2.0 preskocit.
2. Inspirovali sme sa grafom prepojeni, ktory spracoval Adam Valcek. Ti, co ste niekedy
takyto graf kreslili, viete, ze to je strasna robota. Lebo na zaciatku zacinate s niecim
co vyzera takto:
4. Nástroj na
kreslenie grafov
My sme vytvorili v prvom kroku nastroj na kreslenie takychto grafov prepojeni. Co nie
je velmi zaujimave, lebo takychto nastrojov existuje uz dost.
5. Avsak potrebujete ho, lebo potrebujete kreslit aj prepojenia, ktore su zname len z
medii alebo inych zdrojov.
6. Automatické
hľadanie v
datasetoch
To co vsak umoznuje nas nastroj je automaticke pridavanie prepojeni z dostupnych
datasetov. Napriklad z OpenCorporates vieme automaticky nakreslit tieto prepojenia,
bez namahaveho rucneho hladania v registroch.
7. Ak by sme zobrali OpenCorporates a obchodny register, tak sa vieme takmer
automaticky dostat k tejto casti grafu.
8. Deduplikácia dát
Problemom open data je vsak to, ze su do velkej miery neprepojene, nepresne a
obsahuju mnozstva duplicitnych zaznamov a preklepov. Nas nastroj umoznuje tieto
duplicity spajat.
9. Napriklad v pripade Vahostavu su dve firmy Flexys, ktore mozu aj nemusia byt tie
iste.
11. Tak nasledne uz v databaze figuruju ako spojene a dalsi pouzivatelia nemusia tuto
duplicitu oznacovat. Takto sa teda vedlajsim efektom prepajaju rozne datasety.
12. Hľadanie ciest v
grafe
Problem vsak nastava, ked si pozriete realitu, tak firiem flexsys je v opencorporate asi
180. Taktiez vacsinou neviete ci prave takato firma bude viest k nejakemu prepojeniu.
Toto je vsak pre pocitac velmi lahka uloha. Preto nas nastroj umoznuje automaticke
hladanie prepojeni.
13. Requesting edges for https://opencorporates.com/companies/cy/HE329746
GINOSTRA LIMITED ...2 found!
Requesting edges for https://opencorporates.com/officers/132206260
ΕΛΕΝΗ ΚΥΡΙΑΚΙΔΟΥ ...53 found!
Requesting edges for https://opencorporates.com/officers/132206261
FLEXSYS (SERVICES) LIMITED ...180 found!
Requesting edges for https://opencorporates.com/officers/131633667
ΕΛΕΝΗ Κ. ΚΥΡΙΑΚΙΔΟΥ ...2 found!
…
Found paths:
PATH 1:
GINOSTRA LIMITED <https://opencorporates.com/companies/cy/HE329746> --
(secretary)-->
FLEXSYS (SERVICES) LIMITED <https://opencorporates.com/officers/132206261> --
(possible_duplicate)-->
FLEXSYS (SERVICES) LIMITED <https://opencorporates.com/officers/132046854> --
(directed_by)-->
PREFTO HOLDINGS LIMITED <https://opencorporates.com/companies/cy/HE246615>
Tu je ukazka hladania cesty medzi dvoma firmami priamo v OpenCorporates aj ces
duplicitne a neprepojene data. Algoritmus oznaci cestu medzi firmami a pripadne
ukaze, za akych podmienok toto prepojenie existuje. V tomto pripade musi byt Flexys
ako sekretar firmy Ginostra ten isty ako director prefto holdings. Toto rozhodnutie
musi urobit clovek avsak je to obrovska pomoc, kedze nie je potrebne prehladavat
predtym stovky firiem.
14. Crowdsourcing
Ak ani toto nestaci, tak je mozne vyuzit crowdsourcing na precistenie/prepojenie
velkych datasetov.
15. Vyzera to takto. V moznych duplikatoch je mozne namiesto oznacenia vytvorit
“crowdsourcing” ulohu, ktoru moze riesit lubovolny navstevnik a pomaha tak
precistovat datasety aj pre ostatnych.
16. Otvorená
platforma
Toto vsak nie je vsetko. Ak ste si teraz povedali, ze to je fajn, ale ja chcem aj hladat
firmy v inej databaze alebo hladat prepojenia cez internetove domeny alebo nieco
uplne ine, tak Datanest 3.0 je otvorenou platformou. Mozete do nej pridavat vlastne
sluzby, ktore napriklad vedia hladat firmy na rovnakej adrese. Pridavat nove typy
vrcholov v grafe (domeny, ip adresy) a nove typy prepojeni (sused, vlastnik
domeny…) Staci dodrzat jednoduche API a zapnut vasu sluzbu v nastroji.
Datanest 3.0 - je teda nastroj na vizualizaciu a hladanie prepojeni v roznorodych
datasetoch, ktory pomocou crowdsourcingu umoznuje efektivne precistovat a prepajat
data a taktiez otvorenou rozsiritelnou platformou pre nove sluzby nad takymito
datami.