Semantisk fremtid?

Jeg jobber med et prosjekt i reiselivet, der vi forsøker å få til en mer dynamisk flyt av innhold på tvers av portaler. Målet er også å gjøre både bilder, produktinformasjon og redaksjonelt innhold tilpasset en verden som blir mer og mer glad i mashups. Det vil si automagisk kobling av ulike innholdselementer fra ulike kilder. Grunnlaget for slike koblinger kan være en felles forståelse av geografi. Eller en felles forståelse av ulike tjenester, opplevelser eller serviceprodukter innenfor reiselivet. Da kommer vi ikke utenom å begynne å snakke om det litt vage, mytiske begrepet Web 3.0 – eller semantisk web. 


I forbindelse med det forestående arbeidet har jeg laget en pedagogisk innføring til temaet. Litt for å strukturere tankene for meg selv. Litt for å dele dem med andre. Og litt for at eventuelle misforståelser skal kunne oppklares av mennesker som har mer kompetanse enn meg på dette feltet.
Til saken:

Web 3.0, også kalt semantisk web, handler om å gi data et meningsinnhold.

Vi skal på ferie. Jeg sier hytte, og mener feriehus. Du sier hytte, og mener campinghytte. Vi er uenige, men tror vi er enige. Eller du sier hytte, og jeg sier feriehus. Vi tror vi er uenige, men mener det samme. Begrepene, og det vi legger i dem, skaper misforståelser, og enighet der vi ikke burde er enige. Vi snakker forbi hverandre. Det gjør datamaskiner også.
Utgangspunktet mitt er å gjøre det enklere. To artikler på ulike nettsteder bruker ordene hytte og feriehus om det samme fenomenet. For å sikre relevant autofeeding bruker begge en felles kilde: Et bibliotek av forhåndsdefinerte kategorier som ligger åpent tilgjengelig på nett. Kategoriene har en unk ID (eller identifikator), og en definisjon: «frittstående bygning som kan leies til ferieformål». Om begge artiklene omhandler dette, oppstår det automagisk en krysslenke. To nettsteder refererer til hverandre.

Hvorfor er dette viktig?

Når en datamaskin forstår hva data betyr (og alle data er koblet mot det samme «meningsuniverset») kan den bygge inn intelligente søk, og vise informasjon i en relevant kontekst, i sanntid, uten manuell «lenking». Slike begreps- og relasjonsdefinisjoner er allerede vanlig i komplekse e-handels og logistikksystemer. Gjennom at man har blitt enig om en felles standard for geotagging ser man allerede en mengde tjenester som kobler bilder og sanntidsdata fra ulike kilder mot kartapplikasjoner. Men geoposisjonering er bare en av flere dimensjoner ved innhold. I det løpende nyhetsbildet på twitter brukes hashtags. Men hva med mer langsiktig aggregering av rike innholdsunivers? Her ligger min utfordring.
Web 3.0 åpner for en mengde spørsmål. For eksempel hvordan vil denne virkeligheten rulles ut? Fra toppen (les: de tunge kommersielle aktørene) og ned, eller fra nedenfra og opp? Og er alt dette uproblematisk? Dette kommer vi tilbake til….

Men vi lar denne (interessante) diskusjonen ligge. Tilbake til voksenopplæringen:

For å forstå hverandre trenger vi et språk. Et språk er, i praksis, at vi blir enige med hverandre om hva ulike ord betyr. På nettet beskriver vi noe med xml. Xml er språket datamaskinene snakker. Men ofte er dette språket ikke harmonisert på tvers av datamaskiner. Hvert system har utviklet sine egne begreper, og egne definisjoner. Semantisk web handler om å bli enige om et språk. I likhet med språkutviklingen, må dette være en organisk prosess. Men vi bør kanskje unngå en rekke stammespråk, og søke mot globale definisjoner og identifikatorer der disse allerede er etablert?


Ord skaper mening, men bare i begrenset grad. For å skape mer komplekse standarder  trenger vi også en gramatikk, slik at vi forstår hva ordene betyr når de står ved siden av hverandre. I vanlig språk tar vi dette for gitt.
Anders skriver om semantisk web.
Semantisk web skriver om Anders.
Ordene er de samme. I dette eksempelet har vi snudd om på subjekt og objekt. Hvem skriver? Vi blir forvirret. I semantisk web-sammenheng heter gramatikken RDF, som kan oversettes til Resource Description Framework. Det RDF gjør er å etablere enkle relasjoner mellom begreper. Modellen er enkel – informasjon uttrykkes i tripler: Subjekt, predikat og objekt.
Laksefiske (subjekt) «er et smalere konsept enn» (predikat) fiske (objekt).
Per (subjekt) «har skrevet» (predikat) denne artikkelen (objekt).
Mange vil ønske å gjøre denne logikken enda mere avansert. Og det er her de fleste faller av lasset, og ideen om en overstrukturering kommer innn. For å gjøre den kollektive organismen internett enda mere intelligent, er det oppfunnet et mer avansert språk, som kalles OWL (the web ontology language).

Rolv er onkelen min
Hva er en onkel? Denne relasjonen mellom meg og Rolv (som forøvrig jobber med semantikk) må defineres. Regelen for å kalle noen min onkel er at han er broren til en av mine foreldre. Slike regler formuleres i det som kalles SWRL (sematisk web rule language).

Svimmel? Jeg også.
Det blir man ofte, når man uforsker nye universer. Jeg mottar gjerne innspill på min forståelse av semantisk web, på gode verktøy, og tips til prosessen for å etablere en åpnere standard for reiselivet. Jeg synes i alt for stor grad at disse tingene er beskrevet og spesifisert i ingeniørspråk. Dette handler om språk, mer enn teknologi, slik jeg forstår det. Og jeg er bedre på språk enn på kode.

Jeg overlater de mest avanserte variantene av regler og relasjoner til e-handels og logistikksystemer. Mitt hovedanliggende er å finne en god, forenklet strategi for rikt innhold. Målet mitt i første omgang er å finne noen gode verktøy (tips anyone?) for å bygge (eller bruke en eksisterende) ontologi av begreper, med definisjoner og (slik jeg forstår) knytte dem mot en unik ID. Hvis alt tagges mot dette kan vi skape grunnlag for kontekstuell relevant informasjonsflyt. Den avanserte logikken og koblingen mot en internasjonal sfære får komme i andre rekke.


Drøm eller mareritt?


Inspirert av den bloggposten du nå leser, minner Carl Christian Grøndahl om farene for et fremtidig autoritært, frihetsberøvende rammeverk, et digitalt newsspeak som former virkeligheten vår uten av vi merker det selv, dominert av kommersielle elefanter.  Vi er altså inne i en kjernediskusjonen rundt internettet. Kaos eller struktur? Liberalt eller regelstyrt? Flytende eller fast? Tim Berners Lee, internettets far,  mener søkemotorene profiterer på kaos, som bare finnes fordi vi i dag ikke strukturerer dataene våre godt nok. Han er opptatt av begrepet Linked Data og mener det vil bidra til å koble ulike datakilder (eksempelvis i en data.gov) og åpner opp for at flere (ikke bare dem med markedsledende monsteralgoritmer) kan bruke, tweake og presentere dataene mer effektivt. James Hendler mener en ekstrem ide om et altomfattende meningsunivers har forstyrret for den opprinnelige visjonen, og tar til orde for lettvektsversjonen: Semantiske strukturer som strukturerer informasjon innenfor digitale økosystemer. Det er ganske i tråd med det jeg er opptatt av: Økt dynamikk mellom begrenset sfære av offisielle nettsteder, databasetjenester, e-handelsløsninger og sosiale medier – på reiselivsfeltet. En praktisk løsning, på et problem.

6 kommentarer om “Semantisk fremtid?

  1. Om du ønsker å forstå mer så vil jeg anbefale deg å ta en tur hit på onsdag: http://www.meetup.com/oslosemanticweb/calendar/12848037/

    Jeg ville også lest RDF artikkelen på Wikipedia litt mer grundig:
    «RDF er basert på idéen om å uttrykke informasjon i tripler: subjekt, predikat og objekt. Et eksempel på et trippel kan være setningen «Per er glad i Anne», der «Per» er subjektet, «er glad i» er predikatet og «Anne» er objektet. Til sammen vil triplene danne en graf, som kan beskrives ut fra sine kanter.»

    RDFS beskriver regler for struktur og OWL bygger videre på dette for å beskrive logiske koblinger. Ta en titt på http://en.wikipedia.org/wiki/Semantic_Web_Stack

    Du har rett i at dette er tungt, men noen av de som kan dette best i verden dukker opp onsdagens meetup så jeg håper du kommer.

    Det finnes enklere semantikk som er skrevet for personer med kun HTML kunnskap. Ville anbefalt deg å lese litt om microformats http://microformats.org/

    Dessuten er det et format som heter ActivityStreams som jeg syntes er veldig spennende. http://en.wikipedia.org/wiki/Activity_Streams

    Jeg mener at dette også er «Web 3» og det er bare snakk om noen måneder før vi vil se denne semantikken dukke opp i søkemotorer og standard i web browsere.

  2. Takk for at du tok utfordringen og kastet deg uti dette komplekse temaet, Anders!

    Jeg tror ikke den semantiske webben er så skummelt som Carl Christian tolker dette til. Det jeg tror er viktig å fokusere på (uten at jeg har så veldig stor greie på dette feltet), er begrepet «linked data» http://www.readwriteweb.com/archives/interview_with_tim_berners-lee_part_1.php.

    Altså at data som «hører» til hverandre er lenket sammen via tagger og stikkord (det er jo det vi allerede driver med på delicious, men på en enda mer avansert måte). Slik jeg har forstått det (via Tim Berners Lee), er at vi skal få en smartere web, at når vi søker på et spørsmål, eks. Hva er Norges nest største by, så får du svaret (nå får jeg en powerpoint om at Norges nest største by blir elektronisk…)

    Vel, jeg har en del lesing foran meg på dette feltet. Men mulig folka i Oslo Semantic Web meetup kan gi deg noen innspill? http://www.meetup.com/oslosemanticweb/

  3. Vi er nok langt mer enige med den oppdateringen ja, mulig jeg må justere litt hos meg, og når vi holder oss innenfor nisjer (eller digitale økosystemer) så er jeg jo helt på linje. Vi trenger bedre verktøy. Men jeg håper vi som samfunn skynder oss langsomt mot dette.
    Slik jeg leser innlegget ditt bærer preg av å beskrive en overordnet utvikling – og da blir det med en gang politisk, mens eksempelet med ditt konkrete arbeid er i en langt lavere skala. Min kommentar tok for seg dette som en ny måte å strukturerer web-en på, ikke nye verktøy i webben.

    Det er viktigere å få befolkningen opp på et godt «2.o-nivå» enn å kunne tilby løsninger som definerer mer enn vi skjønner. Dette ser vi allerede eksempler på bla i google, facebook med mer, også gjennom den type produkter jeg selv jobber med til daglig. Det fins en grense der dette kan gå fra å være nyttig til å bli farlig.

    Avsluttningsvis vil jeg påpeke at jeg er like redd for statlige elefanter som kommersielle elefanter.

  4. Viktig tema du dreg opp, og ein diskusjon reiselivet er nøydde til å ta. Svara er kanskje ikkje opplagde, men ein må starta ein stad.

    Utgangspunktet med xml er godt, men ikkje tilstrekkeleg. xml blir som å bruka det latinske alfabetet, absolutt ingen garanti for at me forstår kvarandre fordi om me er einige om syntaks.

    Men det er fleire mulege strategiar for ein betre semantisk samanheng også, og eg ville nok vore forsiktig med å setja i gang ontologiarbeid på høgste OWL-nivå – det er ein sikker måte å køyra seg fast på.

    Dessutan finst det eit anna alternativ, den andre standarden for semantisk teknologi som heiter Topic Maps (emnekart). Den har ein lågare terskel for å komma i gang. Problemet er at sjølv om standarden er populær i Norge, er den lite brukt i utlandet. Når me kan kopla emnekart til Linked Data, vil det bli eit stort løft for emnekart. Der er me ikkje enno.

    Eit viktig spørsmål er også top-down eller bottom-up. Svaret er kanskje midt mellom, ved å starta med eit utgangspunkt som t.d. Tellus-kategoriar, modifisera desse og så opna opp for brukargenerert tillegg (formell ontologi + tagging).

    Spennande er det uansett, og eg blir gjerne med på diskusjonen vidare 🙂

Leave a reply to carl christian Avbryt svar