SlideShare uma empresa Scribd logo
1 de 8
Baixar para ler offline
A/10.
A szemantikus technológiák: a szemantikus web lépcsős modellje, az RDF logika, a
tématérképek adatmodellje
A szemantikus világháló (Semantic Web) fő célja, hogy a világhálón elérhető temérdek
információt számítógépes feldolgozásra alkalmasabbá tegye.
Az irányzat jelszava, hogy a világhálón található információt a számítógépek ne csak olvasni,
hanem értelmezni is tudják. Ehhez szükséges, hogy a hálón levő adatokhoz ún.
metainformációt társítsunk, például egy képhez adjuk meg, hogy ki készítette, mi a címe, mit
ábrázol stb. Ezen túlmenően a számítógépeket képessé kell tennünk következtetések
elvégzésére, például ha egy képről ismert, hogy egy folyót ábrázol, akkor ebből gépi úton ki
lehessen következtetni azt is, hogy víz látható rajta. A szemantikus világháló irányzatához
szorosan kapcsolódik az ontológiák, azaz hierarchikus fogalmi rendszerek kutatása és
fejlesztése. Az ontológiákon való következtetések alapját pedig az ún. leíró logikai
(Description Logic) formalizmusok képezik. A World Wide Web konzorciumnak (W3C) a
szemantikus világhálóhoz kötődő legújabb szabványa, az OWL nyelv, már leíró logikai
alapokon nyugszik. Az ontológiai rendszerek és a metainformációk egyre nagyobb szerepet
kapnak a világhálón kívüli információforrások, például a vállalati adat- és tudásbázisok
kezelésében is. Az elérhető információ mennyisége ütemben nő, emiatt egyre nagyobb
szükség van az adatforrások rendszerezésére, összekapcsolására.
Lépcsős modellje:
A szemantikus web felépítése - A lépcsős modell
A szemantikus web a következtetéseket is lehetővé tevő metaadat-infrastruktúra a weben.
Ennek legfőbb építőköveit a World Wide Web dolgozza ki és szabványosítja. Az ide
vonatkozó legfontosabb ajánlások a Resource Description Framework (RDF), az RDF Schema
(RDFS) és Web Ontology Language (OWL). A szemantikus web összképét az egymásra épülő
célok lépcsős modelljével lehet szemléltetni. Ennek rétegei a következők: Consortium (W3C)
1. Az első szinten a Unicode és URI ajánlások biztosítják az egységes nemzetközi
karakterformátumot és az egységes címezhetőséget. A szemantikus weben belül az
URI-k használata jóval túlmutat a megszokott weblapcímeken. Egy személyt is
azonosíthat mondjuk az e-mail címét tartalmazó URI, vagy egy intézetet a
weblapjának a címe. Tulajdonságokat, állításfajtákat is URI-k azonosítanak.
2. Az XML réteg biztosítja, hogy a szemantikus web definíciókat egyéb XML alapú
szabványokkal integrálhassuk. Az XML a névtér- és sémadefiníciókkal együtt lehetővé
teszi, hogy egy XML dokumentum a létrehozásakor alkalmazott szintaktikai és
1
szemantikus szabályokra hivatkozzon. Ezáltal egy önleíró, érvényesíthető
dokumentumformátum jön létre.
3. Az RDF és RDFS réteg biztosítja, hogy állításokat tehessünk az objektumokról URI-k
segítségével, és olyan szótárakat készítsünk, amelyekre ezen URI-k hivatkozhatnak.
Az RDF hordozza a szemantikus tartalmat.
4. Az ontológiaréteg lehetőséget ad bonyolultabb szótárak felépítésére. Itt már a
különböző fogalmak közötti összefüggések is megadhatók, hasonlóan egy
tezauruszhoz. Le írják a szabályokat, amelyek alapján következtetések vonhatók le.
5. A digitális aláírás réteg a dokumentumok hitelességét igazolja.
• Az egyes szintek egymásra épülnek.
• Minden szint eggyel komplexebb, mint az alatta elhelyezkedő.
• Mégis az egyes szintek önállóan fejleszthetők.
A szemantikus web három különböző rétegből áll:
• metaadatok: az erőforrások és tulajdonságok leírása (URI, XML, RDF);
• sémák: a fogalmak hierarchikus leírása (RDFS, OWL, SKOS);
• logikák: leíró logikák (OWL, RIF).
A szemantikus web megvalósulásának előfeltétele, hogy a tartalmak létrehozói általánosan
elfogadott szabványokhoz tartsák magukat a fejlesztések során.
Az ontológiák:
Az ontológiák lényegében speciális taxonómiák, amelyek amellett, hogy megmutatják a
fogalmak egymáshoz képesti fogalmi hierarchiáját, a formális logikai szabályok
megjelenítésével még többre képesek az emberi gondolkodás reprezentálásában. (Berners-
Lee, 2001)
Ontológia szintaxisok:
– RDF/RDFS
– OWL
– SKOS
– RIF
–
OWL: Web Ontology Language;
• Ontológiák leírására szolgáló szintakszis;
• Megkönnyíti a webes tartalmak értelmezését a gépek számára
• Célja, hogy formális logikákon alapuló bonyolult szemantikai relációkat is lehessen a
számítógép számára reprezentálni
• Lehetővé teszi, hogy explicit módon ábrázoljuk egy meghatározott szókészlet
kifejezéseinek jelentését, valamint ezek összefüggéseit
I. RDF logika:
• Az RDF (Recource Description Framework – Erőforrás-Leíró Keretrendszer)
adatmodell alkalmas arra, hogy tetszőleges erőforrásokhoz metaadatokat kapcsoljon.
Az RDF úgy definiálja az erőforrás fogalmát, hogy az bármi lehet, ami azonosítható
URI-val.
2
• Az RDF: háromszavas mondatokból, ún. tripletekből áll. A tripletekkel modellezhetők
a világ dolgai. Az elképzelés szerint több alkalmazás együttesen leírja a világ
valamennyi létezőjét.
• Egyrészt egy adatmodell, amelynek elemei:
• Erőforrások
• Tulajdonságok
• Literálok
• Kijelentések
• Másrészt egy XML alapú szintakszis
• amellyel bináris relációk írhatók le,
• amellyel a valóság írható le formálisan.
• Az RDF adatmodell szerkezeti építőeleme a hármas (triplet)
• Szubjektum vagy alany (subject)
• Predikátum vagy állítmány (predicate)
• Objektum vagy tárgy (object)
E három együtt adja az állítást
• Az RDF-fel kifejezhetők tématérképek. (DE adatvesztéssel)
• Az Omnigator képes konvertálni a tématérképeket RDF-be.
• Az RDF-et nem csak szemantikus web alkalmazásokhoz használják.
• Az adatmodellből hiányzik a
– scope,
– a dolgok különböző neveken való kezelése,
– az előfordulások témákhoz rendelése.
RDF séma: Az RDF séma az objektumok leírásához osztályokat és osztálytulajdonságokat
vezet be. Ezáltal a sémákon alapuló RDF leírások strukturáltabbá válnak, bár bonyolultabb
összefüggések leírására csak a következő, ontológiai szinten lehetséges a szintén RDF-en
alapuló OWL nyelv segítségével.
Egy RDF séma megadja azt is, hogy egy osztály mely más osztályok kiterjesztése, valamint
hogy milyen kapcsolatban állhatnak ezen osztályok példányai. Az osztályokhoz hasonlóan a
kapcsolataikat is egy öröklésszerű hierarchiába szervezhetjük, valamint megadhatjuk az
értékkészletüket és értelmezési tartományukat.
• A sémák és az ontológiák a következtetésekhez szükséges háttértudást tartalmazzák.
• Pl.:
– osztály-alosztály (gerinces – emlős)
– a tulajdonságok közt fennálló hierarchikus viszonyok (ismerőse – barátja),
• A terminológia definiálásában is kitüntetett szerepük van az RDF sémáknak.
• Az RDF sémák nem kínálnak ellenőrzött szótárt, csak megteremti annak a
lehetőségét, hogy egy-egy alkalmazáson belül általánosan érvényes kijelentéseket
tegyünk.
• az RDF-hez kínál egy szabványos tipologizáló metódust.
Az RDF gráfmodellje
Az RDF az állításokat egy gráf csomópontjaival és éleivel modellezi, amelynek
csomópontjainak halmazát a gráf triplettjeinek alanyai és tárgyai alkotják, és az élek
halmazát az állítmányok. Az él iránya szignifikáns, és ennek mindig a tárgyra kell mutatnia.
3
A RDF gráfok megrajzolásakor az URI-val azonosított csomópontokat ellipszissel ábrázoljuk,
literálokat szögletes dobozzal reprezentáljuk. Fontos, hogy egy RDF-gráfban csak abszolút
URI-k szerepelhetnek.
RDF vs. Adatbázisok:
Egyszerűbb adatbázisokban leírni a tartalmakat, DE! az RDF a következőkben jobb:
– interoperabilitás;
– adatok számítógépek közötti cseréje;
– a strukturálatlan információk kezelésére az adatbázisok kevésbé alkalmasak;
– új információt akarunk beilleszteni, aminek nincs oszlopa
• ELLENBEN:
– az adatbázisokban tárolt információk teljes mértékben leírhatók RDF-ben is
Az RDF-et úgy tervezték, hogy bármiről lehessen vele állításokat tenni, ami azonosítható a
weben. Az RDF olyan egységes keretet biztosít az információtartalom leírására, amelyben
azok átvihetők egyik alkalmazásból a másikba. Nem csak azok az alkalmazások
használhatják az információt, amelyek számára azt eredetileg ábrázolták, hanem a más
4
célokra készült, későbbi alkalmazások is. Alkalmazások határain átnyúló
tudásreprezentáció.
Tárgyak azonosítása:
– Azonosítás: Hogyan biztosítható, hogy a számítógépek és az emberek is ugyanazt
értsék a dolgokon?  URI (Universal Resource Identifier) Pl. URL
– személy: mailto:thmate@oszk.hu
– cég: http://www.ki.oszk.hu
– sport: http://hu.wikipedia.org/wiki/Tenisz
– város: http://www.budapest.hu
– Állításokat is csak URI-k között lehet tenni.
– Az URI-kat elsősorban a számítógépek értik. A szemantikus web technológiákat
ugyanis gépi visszakeresésre optimalizálták.
– Az RDF webes erőforrásokat ír le.
– Erőforrás minden, aminek van URI-ja. Aminek van URI-ja az „fent van a weben”.
– Az URI-k literálok (karaktersorozatok), amelyek webes erőforrásokat azonosítanak.
– Ha két metaadat-leírás ugyanazt az URI-t használja, akkor ugyanazt a dolgot
azonosítja.
– RDF már az 1990-es évek végén létezett. A szemantikus web elképzelést azonban
csak 2001-hez kötik. Az RDF a szemantikus webnek csak az egyik rétege!
A szemantikus web technológiák könyvtári alkalmazása az XML és az RDF implementálásával
indult. Alkalmazhatóságuk pl.:
– a tudáskezelés, tudásmenedzsment és metaadatok kezelése
– az elektronikus dokumentumok kezelése
– RDF-en alapuló folyóirat-kezelő rendszer
– elektronikus disszertáció és szakdolgozat-kezelő alkalmazás
Egy 2004-es kutatás kiindulási pontja, hogy a katalógusok el fognak mozdulni az irodalom
feltárásától a weben található tartalmak értékelésének irányába
– Ez merőben új szemléletet hoz majd az elektronikus szolgáltatások területén.
– A rekordok részét képeznék egy globális metaadat-infrastrukturának.
– Ez a szemantikus kapcsolatok, közvetve a rekordokból elérhető
információtartalom bővülésével járna.
 Az RDF azóta sem vált a világhálón található tartalmak fő metanyelvévé. Ez lenne az
egyik előfeltétele egy ilyen katalógusnak.
5
Tématérkép ontológia:
Az ontológia definíciója tématérképes környezetben: "Az ontológia egy adott tématérképben
használt téma-, név-, előfordulás-, asszociáció- és szereptípusok összessége.” (Garshol, 2007)
Minden tématérkép alkalmazás hátterében egy ontológia fut. Egy egyszerű tématérkép
kidolgozása során nem biztos, hogy tudatosul.
A tématérkép technológia:
„A Tématérkép technológia arra szolgál, hogy tudást kódoljunk vele és ezt a kódolt tudást
releváns információs forrásokkal kapcsoljuk össze. A tématérképek diskurzusok tárgyát
megjelenítő témák, a tárgyak közti kapcsolatokat megjelentő asszociációk és a tárgyakat
megfelelő információs forrásokkal összekapcsoló előfordulások köré rendeződnek.” (ISO/IEC
13250-2 Data Model)
Szemantikus technológia (rokon a szemantikus webbel).
Multidiszciplináris fejlesztési terület. A könyvtárosok, informatikusok mellett a legtöbben
bölcsészek a fejlesztők közül!
A tématérképek TAO-ja!
• TOPICS
• ASSOCIATIONS
• OCCURENCES
Tématérkép alapfogalmai:
• Témák és tématípusok - dolgok megnevezése, szavakkal való reprezentációja;
• Asszociációk és asszociációtípusok - dolgok közötti kapcsolatok definiálása;
• Előfordulások és előfordulástípusok - dolgokról fellelhető információk helyei az
információs térben (feljegyzések, belső előfordulások, külső előfordulások);
• Nevek és névtípusok - azonos dolgok különböző nevei;
• Szerepek és szereptípusok - a dolgok által felvehető szerepek (Kovács Pál! „Te is
lehetsz állampolgár, adóalany, vagy kedves hallgató, mélyen tisztelt egybegyűlt, vagy
peres fél, vagy nyájas olvasó.” Kft.)
A tématérkép adatmodell:
• A tématérképek sokféleképpen megjeleníthetőek:
– tématérkép szintakszisokat használva fájlokban,
– adatbázisokban,
– futó programok belső adatszerkezeteiként,
– és mentálisan az emberi gondolkodásban is.
• Ezek a formátumok ugyanannak az absztrakt szerkezetnek a megjelenítésére
szolgálnak.
• Az ISO/IEC 13250-2 ezt a szerkezetet határozza meg egy adatmodell formájában.
Az adatmodell meghatározza
– a Tématérképek absztrakt szerkezetét, az információs készlet formalizálásával
és szöveges formában bizonyos mértékig az értelmezésüket is.
– a Tématérképek összeolvasztásának szabályait,
– néhány alapvető tárgyazonosítót.
Az adatmodell célja,
6
– hogy meghatározza a Tématérképek csereszabványos szintakszisának
értelmezését
– és hogy alapul szolgáljon a kanonizálást, lekérdezést, korlátozásokat stb.
meghatározó további szabványokhoz.
• Az adatmodell szabad teret enged a dolgok reprezentálásának.
Két speciális relációtípust definiál:
– Típus-eset kapcsolat
– Szupertípus-altípus kapcsolat
A típus-eset kapcsolat. (homo sapiens – Kanada miniszterelnöke)
• A tématípus olyan tárgy, amely egy tárgykészlet tagjaiban lévő azonosságokat
tömörít.
– Bármely tárgy, amely egy adott tématípus kiterjesztéséhez tartozik, annak a
tématípusnak az esete.
– Egy tématípus lehet egy másik tématípus esete.
– Nincs korlátozás, hogy egy tárgy hány tématípusnak lehet az esete.
• A típus-eset kapcsolat nem tranzitív. Azaz, ha B az A típus esete, és C a B típus esete,
ebből nem következik, hogy C esete A-nak. (A – emlős; B – homo sapiens; C – Kanada
miniszterelnöke)
A szupertípus-altípus kapcsolat
– Egy általánosabb típus (a szupertípus) és ennek a specifikusabb változata (az
altípus) közötti kapcsolat.
– Ha B altípusa A-nak, ebből az következik, hogy B minden esete A-nak is esete.
– Ennek fordítottja nem feltétlenül igaz.
– Egy típusnak akármennyi altípusa és szupertípusa lehet.
• A szupertípus-altípus kapcsolat tranzitív, ami azt jelenti, hogy ha B altípusa A-nak, és
C altípusa B-nek, akkor C altípusa A-nak is. (pl. A – élőlény; B – állat; C – kutya)
– Generikus hierarchialánc
Könyvtári tématérkép alkalmazások: (egy-két hazai példa)
• Beteljesületlen lehetőségek sora
• A kisszámú alkalmazás sokfélesége egyszerre reprezentálja a könyvtári munka
sokszínűségét és a tématérkép technológiákban rejlő lehetőségeket.
• Könyvtári példák vannak
– a katalógusok tématérképek segítségével való továbbfejlesztéséről,
– a metadatok hatékonyabb együttműködésének biztosításáról,
– teljes digitális könyvtári rendszerekről,
– a tájékoztató munkát segítő szakterületi útmutatókról és
– e-learning eszközökről
– A tématérkép alkalmazások előzményei jóval megelőzik a szemantikus web
koncepció megjelenését.
A Neumann Ház 1998 óta fejleszti a magyar internetkatalógust, a WebKat-ot
– A WebKat-hoz 2000 nyarára készült el a tezaurusz, amely a dokumentumok
tartalmi feltárását tette lehetővé.
– 2002-ben indult egy új keresőrendszer fejlesztése, amelynek fő motivációját
az interneten történő változások jelentették.
7
– Az új hierarchikus keresőrendszer megjelenítésére választották a tématérkép
szabványon alapuló szoftvert.
– A fejlesztők szerint az internethasználók igényei sokkal inkább a vizuális
élmények irányába halad.
– Ezért érezték szükségét annak, hogy a tezauruszban rögzített hierarchikus
relációkat vizuálisan is megjelenítsék.
– a szolgáltatás a tématérképeknek elsősorban a vizualizáció terén meglévő
előnyeit használja és viszonylag
– Kis hangsúlyt kap a fogalmak közti relációk redefiniálása.
Az OSZK Magyar Elektronikus Könyvtára is kísérletezett tématérkép alkalmazásokkal.
• Az OSZK tezauruszát is elkészítették tématérképben.
– Nem fejleszti tovább a tezauruszokban található relációkat,
– nem definiál újabb szemantikus kapcsolatokat a témák között,
• A fejlesztés érdemben nem javítja a tartalom használhatóságát.
MARCXTM formátum
– Katalógusrekordok tématérképesítését szolgálta
• koreai kutatók által fejlesztett,
• a MARC21 rekordok XTM-ben való leírását célozta.
• Végül nem jutott el a gyakorlati alkalmazások szintjéig.
• A bibliográfiai adatrekordok kezelésében több siker kísérte a MARC rekordok FRBR
modellel való megfeleltetését tématérképek segítségével.
• Az FRBR és a MARC21 elemei egy az egyben megfeleltethetők és kifejezhetők a
tématérkép adatmodell segítségével.
• Az eljárás során a MARC rekordokat egy FRBR fogalmakat tartalmazó ontológiában
formalizálják.
• A téma- és az asszociációtípusok az FRBR entitások voltak.
• A Koreai Nemzeti Könyvtár a gyakorlatban is kihasználta ezt a lehetőséget és a
katalógusát kísérleti jelleggel elkészítette ebben a formában.
A szemantikus web jövője:
• Következtetéseket lehetővé tevő metaadat-infrastruktúra a weben;
• Második generációs web, mely kiterjesztése a jelenlegi, első generációs webnek.
• A világháló lehetőségei megsokszorozódnának.
• A szemantikus web ereje a metaadatokban van.
Probléma:
• Egy globális hálózati metaadat infrastruktúra akadályai:
– Nem sikerült levinni az emberek szintjére a szemantikus webet
– Nem tudnak tömegek szemantikus-web kompatibilis metaadatokat
(ontológiákat) generálni
– Nincs megoldva a fogalmak egyértelmű azonosításának ügye (PSI tárak,
újrahasznosított URI-k)
8

Mais conteúdo relacionado

Semelhante a A.10 a szemantikus technológiak brigi

Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...
Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...
Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...Gábor Mikulás
 
Dudás Anikó: Nemcsak weben lenni, hanem webből lenni – A könyvtári adatok, a ...
Dudás Anikó: Nemcsak weben lenni, hanem webből lenni – A könyvtári adatok, a ...Dudás Anikó: Nemcsak weben lenni, hanem webből lenni – A könyvtári adatok, a ...
Dudás Anikó: Nemcsak weben lenni, hanem webből lenni – A könyvtári adatok, a ...Ambrus Attila József
 
Tudomanynap2007 úJabb
Tudomanynap2007 úJabbTudomanynap2007 úJabb
Tudomanynap2007 úJabbLajos Homor
 
A narratíva és az adatbázis
A  narratíva és az adatbázisA  narratíva és az adatbázis
A narratíva és az adatbázisLilla Katonás
 
Szemantikus web és a könyvtárak
Szemantikus web és a könyvtárakSzemantikus web és a könyvtárak
Szemantikus web és a könyvtárakhorvadam
 

Semelhante a A.10 a szemantikus technológiak brigi (6)

Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...
Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...
Gondolatok a könyvtári intelligens rendszerek fejlődési lehetőségeiről - roko...
 
Dudás Anikó: Nemcsak weben lenni, hanem webből lenni – A könyvtári adatok, a ...
Dudás Anikó: Nemcsak weben lenni, hanem webből lenni – A könyvtári adatok, a ...Dudás Anikó: Nemcsak weben lenni, hanem webből lenni – A könyvtári adatok, a ...
Dudás Anikó: Nemcsak weben lenni, hanem webből lenni – A könyvtári adatok, a ...
 
Tudomanynap2007 úJabb
Tudomanynap2007 úJabbTudomanynap2007 úJabb
Tudomanynap2007 úJabb
 
A narratíva és az adatbázis
A  narratíva és az adatbázisA  narratíva és az adatbázis
A narratíva és az adatbázis
 
Szemantikus web és a könyvtárak
Szemantikus web és a könyvtárakSzemantikus web és a könyvtárak
Szemantikus web és a könyvtárak
 
Web2
Web2Web2
Web2
 

Mais de Gyula Paksi-Tamás (20)

B13.tétel
B13.tételB13.tétel
B13.tétel
 
B11 tomi
B11   tomiB11   tomi
B11 tomi
 
B10.tétel
B10.tételB10.tétel
B10.tétel
 
B9 fruzsi
B9 fruzsiB9 fruzsi
B9 fruzsi
 
B7
B7B7
B7
 
B6 fruzsi
B6 fruzsiB6 fruzsi
B6 fruzsi
 
B5
B5B5
B5
 
B3 arculat image_pr
B3 arculat image_prB3 arculat image_pr
B3 arculat image_pr
 
B2
B2B2
B2
 
B1 informacios gazdasag_es_piac
B1 informacios gazdasag_es_piacB1 informacios gazdasag_es_piac
B1 informacios gazdasag_es_piac
 
B.14 művészeti.táj
B.14 művészeti.tájB.14 művészeti.táj
B.14 művészeti.táj
 
B.12 term.tud.
B.12 term.tud.B.12 term.tud.
B.12 term.tud.
 
B.8 társ.tud.táj
B.8 társ.tud.tájB.8 társ.tud.táj
B.8 társ.tud.táj
 
B.4 minőségi tartalomszolg.
B.4 minőségi tartalomszolg.B.4 minőségi tartalomszolg.
B.4 minőségi tartalomszolg.
 
A12
A12A12
A12
 
A11
A11A11
A11
 
A8.tétel
A8.tételA8.tétel
A8.tétel
 
A7 fruzsi
A7 fruzsiA7 fruzsi
A7 fruzsi
 
A6 tomi
A6   tomiA6   tomi
A6 tomi
 
A4
A4A4
A4
 

A.10 a szemantikus technológiak brigi

  • 1. A/10. A szemantikus technológiák: a szemantikus web lépcsős modellje, az RDF logika, a tématérképek adatmodellje A szemantikus világháló (Semantic Web) fő célja, hogy a világhálón elérhető temérdek információt számítógépes feldolgozásra alkalmasabbá tegye. Az irányzat jelszava, hogy a világhálón található információt a számítógépek ne csak olvasni, hanem értelmezni is tudják. Ehhez szükséges, hogy a hálón levő adatokhoz ún. metainformációt társítsunk, például egy képhez adjuk meg, hogy ki készítette, mi a címe, mit ábrázol stb. Ezen túlmenően a számítógépeket képessé kell tennünk következtetések elvégzésére, például ha egy képről ismert, hogy egy folyót ábrázol, akkor ebből gépi úton ki lehessen következtetni azt is, hogy víz látható rajta. A szemantikus világháló irányzatához szorosan kapcsolódik az ontológiák, azaz hierarchikus fogalmi rendszerek kutatása és fejlesztése. Az ontológiákon való következtetések alapját pedig az ún. leíró logikai (Description Logic) formalizmusok képezik. A World Wide Web konzorciumnak (W3C) a szemantikus világhálóhoz kötődő legújabb szabványa, az OWL nyelv, már leíró logikai alapokon nyugszik. Az ontológiai rendszerek és a metainformációk egyre nagyobb szerepet kapnak a világhálón kívüli információforrások, például a vállalati adat- és tudásbázisok kezelésében is. Az elérhető információ mennyisége ütemben nő, emiatt egyre nagyobb szükség van az adatforrások rendszerezésére, összekapcsolására. Lépcsős modellje: A szemantikus web felépítése - A lépcsős modell A szemantikus web a következtetéseket is lehetővé tevő metaadat-infrastruktúra a weben. Ennek legfőbb építőköveit a World Wide Web dolgozza ki és szabványosítja. Az ide vonatkozó legfontosabb ajánlások a Resource Description Framework (RDF), az RDF Schema (RDFS) és Web Ontology Language (OWL). A szemantikus web összképét az egymásra épülő célok lépcsős modelljével lehet szemléltetni. Ennek rétegei a következők: Consortium (W3C) 1. Az első szinten a Unicode és URI ajánlások biztosítják az egységes nemzetközi karakterformátumot és az egységes címezhetőséget. A szemantikus weben belül az URI-k használata jóval túlmutat a megszokott weblapcímeken. Egy személyt is azonosíthat mondjuk az e-mail címét tartalmazó URI, vagy egy intézetet a weblapjának a címe. Tulajdonságokat, állításfajtákat is URI-k azonosítanak. 2. Az XML réteg biztosítja, hogy a szemantikus web definíciókat egyéb XML alapú szabványokkal integrálhassuk. Az XML a névtér- és sémadefiníciókkal együtt lehetővé teszi, hogy egy XML dokumentum a létrehozásakor alkalmazott szintaktikai és 1
  • 2. szemantikus szabályokra hivatkozzon. Ezáltal egy önleíró, érvényesíthető dokumentumformátum jön létre. 3. Az RDF és RDFS réteg biztosítja, hogy állításokat tehessünk az objektumokról URI-k segítségével, és olyan szótárakat készítsünk, amelyekre ezen URI-k hivatkozhatnak. Az RDF hordozza a szemantikus tartalmat. 4. Az ontológiaréteg lehetőséget ad bonyolultabb szótárak felépítésére. Itt már a különböző fogalmak közötti összefüggések is megadhatók, hasonlóan egy tezauruszhoz. Le írják a szabályokat, amelyek alapján következtetések vonhatók le. 5. A digitális aláírás réteg a dokumentumok hitelességét igazolja. • Az egyes szintek egymásra épülnek. • Minden szint eggyel komplexebb, mint az alatta elhelyezkedő. • Mégis az egyes szintek önállóan fejleszthetők. A szemantikus web három különböző rétegből áll: • metaadatok: az erőforrások és tulajdonságok leírása (URI, XML, RDF); • sémák: a fogalmak hierarchikus leírása (RDFS, OWL, SKOS); • logikák: leíró logikák (OWL, RIF). A szemantikus web megvalósulásának előfeltétele, hogy a tartalmak létrehozói általánosan elfogadott szabványokhoz tartsák magukat a fejlesztések során. Az ontológiák: Az ontológiák lényegében speciális taxonómiák, amelyek amellett, hogy megmutatják a fogalmak egymáshoz képesti fogalmi hierarchiáját, a formális logikai szabályok megjelenítésével még többre képesek az emberi gondolkodás reprezentálásában. (Berners- Lee, 2001) Ontológia szintaxisok: – RDF/RDFS – OWL – SKOS – RIF – OWL: Web Ontology Language; • Ontológiák leírására szolgáló szintakszis; • Megkönnyíti a webes tartalmak értelmezését a gépek számára • Célja, hogy formális logikákon alapuló bonyolult szemantikai relációkat is lehessen a számítógép számára reprezentálni • Lehetővé teszi, hogy explicit módon ábrázoljuk egy meghatározott szókészlet kifejezéseinek jelentését, valamint ezek összefüggéseit I. RDF logika: • Az RDF (Recource Description Framework – Erőforrás-Leíró Keretrendszer) adatmodell alkalmas arra, hogy tetszőleges erőforrásokhoz metaadatokat kapcsoljon. Az RDF úgy definiálja az erőforrás fogalmát, hogy az bármi lehet, ami azonosítható URI-val. 2
  • 3. • Az RDF: háromszavas mondatokból, ún. tripletekből áll. A tripletekkel modellezhetők a világ dolgai. Az elképzelés szerint több alkalmazás együttesen leírja a világ valamennyi létezőjét. • Egyrészt egy adatmodell, amelynek elemei: • Erőforrások • Tulajdonságok • Literálok • Kijelentések • Másrészt egy XML alapú szintakszis • amellyel bináris relációk írhatók le, • amellyel a valóság írható le formálisan. • Az RDF adatmodell szerkezeti építőeleme a hármas (triplet) • Szubjektum vagy alany (subject) • Predikátum vagy állítmány (predicate) • Objektum vagy tárgy (object) E három együtt adja az állítást • Az RDF-fel kifejezhetők tématérképek. (DE adatvesztéssel) • Az Omnigator képes konvertálni a tématérképeket RDF-be. • Az RDF-et nem csak szemantikus web alkalmazásokhoz használják. • Az adatmodellből hiányzik a – scope, – a dolgok különböző neveken való kezelése, – az előfordulások témákhoz rendelése. RDF séma: Az RDF séma az objektumok leírásához osztályokat és osztálytulajdonságokat vezet be. Ezáltal a sémákon alapuló RDF leírások strukturáltabbá válnak, bár bonyolultabb összefüggések leírására csak a következő, ontológiai szinten lehetséges a szintén RDF-en alapuló OWL nyelv segítségével. Egy RDF séma megadja azt is, hogy egy osztály mely más osztályok kiterjesztése, valamint hogy milyen kapcsolatban állhatnak ezen osztályok példányai. Az osztályokhoz hasonlóan a kapcsolataikat is egy öröklésszerű hierarchiába szervezhetjük, valamint megadhatjuk az értékkészletüket és értelmezési tartományukat. • A sémák és az ontológiák a következtetésekhez szükséges háttértudást tartalmazzák. • Pl.: – osztály-alosztály (gerinces – emlős) – a tulajdonságok közt fennálló hierarchikus viszonyok (ismerőse – barátja), • A terminológia definiálásában is kitüntetett szerepük van az RDF sémáknak. • Az RDF sémák nem kínálnak ellenőrzött szótárt, csak megteremti annak a lehetőségét, hogy egy-egy alkalmazáson belül általánosan érvényes kijelentéseket tegyünk. • az RDF-hez kínál egy szabványos tipologizáló metódust. Az RDF gráfmodellje Az RDF az állításokat egy gráf csomópontjaival és éleivel modellezi, amelynek csomópontjainak halmazát a gráf triplettjeinek alanyai és tárgyai alkotják, és az élek halmazát az állítmányok. Az él iránya szignifikáns, és ennek mindig a tárgyra kell mutatnia. 3
  • 4. A RDF gráfok megrajzolásakor az URI-val azonosított csomópontokat ellipszissel ábrázoljuk, literálokat szögletes dobozzal reprezentáljuk. Fontos, hogy egy RDF-gráfban csak abszolút URI-k szerepelhetnek. RDF vs. Adatbázisok: Egyszerűbb adatbázisokban leírni a tartalmakat, DE! az RDF a következőkben jobb: – interoperabilitás; – adatok számítógépek közötti cseréje; – a strukturálatlan információk kezelésére az adatbázisok kevésbé alkalmasak; – új információt akarunk beilleszteni, aminek nincs oszlopa • ELLENBEN: – az adatbázisokban tárolt információk teljes mértékben leírhatók RDF-ben is Az RDF-et úgy tervezték, hogy bármiről lehessen vele állításokat tenni, ami azonosítható a weben. Az RDF olyan egységes keretet biztosít az információtartalom leírására, amelyben azok átvihetők egyik alkalmazásból a másikba. Nem csak azok az alkalmazások használhatják az információt, amelyek számára azt eredetileg ábrázolták, hanem a más 4
  • 5. célokra készült, későbbi alkalmazások is. Alkalmazások határain átnyúló tudásreprezentáció. Tárgyak azonosítása: – Azonosítás: Hogyan biztosítható, hogy a számítógépek és az emberek is ugyanazt értsék a dolgokon?  URI (Universal Resource Identifier) Pl. URL – személy: mailto:thmate@oszk.hu – cég: http://www.ki.oszk.hu – sport: http://hu.wikipedia.org/wiki/Tenisz – város: http://www.budapest.hu – Állításokat is csak URI-k között lehet tenni. – Az URI-kat elsősorban a számítógépek értik. A szemantikus web technológiákat ugyanis gépi visszakeresésre optimalizálták. – Az RDF webes erőforrásokat ír le. – Erőforrás minden, aminek van URI-ja. Aminek van URI-ja az „fent van a weben”. – Az URI-k literálok (karaktersorozatok), amelyek webes erőforrásokat azonosítanak. – Ha két metaadat-leírás ugyanazt az URI-t használja, akkor ugyanazt a dolgot azonosítja. – RDF már az 1990-es évek végén létezett. A szemantikus web elképzelést azonban csak 2001-hez kötik. Az RDF a szemantikus webnek csak az egyik rétege! A szemantikus web technológiák könyvtári alkalmazása az XML és az RDF implementálásával indult. Alkalmazhatóságuk pl.: – a tudáskezelés, tudásmenedzsment és metaadatok kezelése – az elektronikus dokumentumok kezelése – RDF-en alapuló folyóirat-kezelő rendszer – elektronikus disszertáció és szakdolgozat-kezelő alkalmazás Egy 2004-es kutatás kiindulási pontja, hogy a katalógusok el fognak mozdulni az irodalom feltárásától a weben található tartalmak értékelésének irányába – Ez merőben új szemléletet hoz majd az elektronikus szolgáltatások területén. – A rekordok részét képeznék egy globális metaadat-infrastrukturának. – Ez a szemantikus kapcsolatok, közvetve a rekordokból elérhető információtartalom bővülésével járna.  Az RDF azóta sem vált a világhálón található tartalmak fő metanyelvévé. Ez lenne az egyik előfeltétele egy ilyen katalógusnak. 5
  • 6. Tématérkép ontológia: Az ontológia definíciója tématérképes környezetben: "Az ontológia egy adott tématérképben használt téma-, név-, előfordulás-, asszociáció- és szereptípusok összessége.” (Garshol, 2007) Minden tématérkép alkalmazás hátterében egy ontológia fut. Egy egyszerű tématérkép kidolgozása során nem biztos, hogy tudatosul. A tématérkép technológia: „A Tématérkép technológia arra szolgál, hogy tudást kódoljunk vele és ezt a kódolt tudást releváns információs forrásokkal kapcsoljuk össze. A tématérképek diskurzusok tárgyát megjelenítő témák, a tárgyak közti kapcsolatokat megjelentő asszociációk és a tárgyakat megfelelő információs forrásokkal összekapcsoló előfordulások köré rendeződnek.” (ISO/IEC 13250-2 Data Model) Szemantikus technológia (rokon a szemantikus webbel). Multidiszciplináris fejlesztési terület. A könyvtárosok, informatikusok mellett a legtöbben bölcsészek a fejlesztők közül! A tématérképek TAO-ja! • TOPICS • ASSOCIATIONS • OCCURENCES Tématérkép alapfogalmai: • Témák és tématípusok - dolgok megnevezése, szavakkal való reprezentációja; • Asszociációk és asszociációtípusok - dolgok közötti kapcsolatok definiálása; • Előfordulások és előfordulástípusok - dolgokról fellelhető információk helyei az információs térben (feljegyzések, belső előfordulások, külső előfordulások); • Nevek és névtípusok - azonos dolgok különböző nevei; • Szerepek és szereptípusok - a dolgok által felvehető szerepek (Kovács Pál! „Te is lehetsz állampolgár, adóalany, vagy kedves hallgató, mélyen tisztelt egybegyűlt, vagy peres fél, vagy nyájas olvasó.” Kft.) A tématérkép adatmodell: • A tématérképek sokféleképpen megjeleníthetőek: – tématérkép szintakszisokat használva fájlokban, – adatbázisokban, – futó programok belső adatszerkezeteiként, – és mentálisan az emberi gondolkodásban is. • Ezek a formátumok ugyanannak az absztrakt szerkezetnek a megjelenítésére szolgálnak. • Az ISO/IEC 13250-2 ezt a szerkezetet határozza meg egy adatmodell formájában. Az adatmodell meghatározza – a Tématérképek absztrakt szerkezetét, az információs készlet formalizálásával és szöveges formában bizonyos mértékig az értelmezésüket is. – a Tématérképek összeolvasztásának szabályait, – néhány alapvető tárgyazonosítót. Az adatmodell célja, 6
  • 7. – hogy meghatározza a Tématérképek csereszabványos szintakszisának értelmezését – és hogy alapul szolgáljon a kanonizálást, lekérdezést, korlátozásokat stb. meghatározó további szabványokhoz. • Az adatmodell szabad teret enged a dolgok reprezentálásának. Két speciális relációtípust definiál: – Típus-eset kapcsolat – Szupertípus-altípus kapcsolat A típus-eset kapcsolat. (homo sapiens – Kanada miniszterelnöke) • A tématípus olyan tárgy, amely egy tárgykészlet tagjaiban lévő azonosságokat tömörít. – Bármely tárgy, amely egy adott tématípus kiterjesztéséhez tartozik, annak a tématípusnak az esete. – Egy tématípus lehet egy másik tématípus esete. – Nincs korlátozás, hogy egy tárgy hány tématípusnak lehet az esete. • A típus-eset kapcsolat nem tranzitív. Azaz, ha B az A típus esete, és C a B típus esete, ebből nem következik, hogy C esete A-nak. (A – emlős; B – homo sapiens; C – Kanada miniszterelnöke) A szupertípus-altípus kapcsolat – Egy általánosabb típus (a szupertípus) és ennek a specifikusabb változata (az altípus) közötti kapcsolat. – Ha B altípusa A-nak, ebből az következik, hogy B minden esete A-nak is esete. – Ennek fordítottja nem feltétlenül igaz. – Egy típusnak akármennyi altípusa és szupertípusa lehet. • A szupertípus-altípus kapcsolat tranzitív, ami azt jelenti, hogy ha B altípusa A-nak, és C altípusa B-nek, akkor C altípusa A-nak is. (pl. A – élőlény; B – állat; C – kutya) – Generikus hierarchialánc Könyvtári tématérkép alkalmazások: (egy-két hazai példa) • Beteljesületlen lehetőségek sora • A kisszámú alkalmazás sokfélesége egyszerre reprezentálja a könyvtári munka sokszínűségét és a tématérkép technológiákban rejlő lehetőségeket. • Könyvtári példák vannak – a katalógusok tématérképek segítségével való továbbfejlesztéséről, – a metadatok hatékonyabb együttműködésének biztosításáról, – teljes digitális könyvtári rendszerekről, – a tájékoztató munkát segítő szakterületi útmutatókról és – e-learning eszközökről – A tématérkép alkalmazások előzményei jóval megelőzik a szemantikus web koncepció megjelenését. A Neumann Ház 1998 óta fejleszti a magyar internetkatalógust, a WebKat-ot – A WebKat-hoz 2000 nyarára készült el a tezaurusz, amely a dokumentumok tartalmi feltárását tette lehetővé. – 2002-ben indult egy új keresőrendszer fejlesztése, amelynek fő motivációját az interneten történő változások jelentették. 7
  • 8. – Az új hierarchikus keresőrendszer megjelenítésére választották a tématérkép szabványon alapuló szoftvert. – A fejlesztők szerint az internethasználók igényei sokkal inkább a vizuális élmények irányába halad. – Ezért érezték szükségét annak, hogy a tezauruszban rögzített hierarchikus relációkat vizuálisan is megjelenítsék. – a szolgáltatás a tématérképeknek elsősorban a vizualizáció terén meglévő előnyeit használja és viszonylag – Kis hangsúlyt kap a fogalmak közti relációk redefiniálása. Az OSZK Magyar Elektronikus Könyvtára is kísérletezett tématérkép alkalmazásokkal. • Az OSZK tezauruszát is elkészítették tématérképben. – Nem fejleszti tovább a tezauruszokban található relációkat, – nem definiál újabb szemantikus kapcsolatokat a témák között, • A fejlesztés érdemben nem javítja a tartalom használhatóságát. MARCXTM formátum – Katalógusrekordok tématérképesítését szolgálta • koreai kutatók által fejlesztett, • a MARC21 rekordok XTM-ben való leírását célozta. • Végül nem jutott el a gyakorlati alkalmazások szintjéig. • A bibliográfiai adatrekordok kezelésében több siker kísérte a MARC rekordok FRBR modellel való megfeleltetését tématérképek segítségével. • Az FRBR és a MARC21 elemei egy az egyben megfeleltethetők és kifejezhetők a tématérkép adatmodell segítségével. • Az eljárás során a MARC rekordokat egy FRBR fogalmakat tartalmazó ontológiában formalizálják. • A téma- és az asszociációtípusok az FRBR entitások voltak. • A Koreai Nemzeti Könyvtár a gyakorlatban is kihasználta ezt a lehetőséget és a katalógusát kísérleti jelleggel elkészítette ebben a formában. A szemantikus web jövője: • Következtetéseket lehetővé tevő metaadat-infrastruktúra a weben; • Második generációs web, mely kiterjesztése a jelenlegi, első generációs webnek. • A világháló lehetőségei megsokszorozódnának. • A szemantikus web ereje a metaadatokban van. Probléma: • Egy globális hálózati metaadat infrastruktúra akadályai: – Nem sikerült levinni az emberek szintjére a szemantikus webet – Nem tudnak tömegek szemantikus-web kompatibilis metaadatokat (ontológiákat) generálni – Nincs megoldva a fogalmak egyértelmű azonosításának ügye (PSI tárak, újrahasznosított URI-k) 8