Nov standard za strojno prepoznavanje vsebine novic na spletu

Vodilni svetovni mediji so pod okriljem Mednarodnega tiskovnega in telekomunikacijskega sveta (IPTC) razvili nov standard za strojno prepoznavanje vsebine spletnih dokumentov. Poimenovali so ga rNews, kar je okrajšava za readable News oziroma v neposrednem prevodu berljive novice.

International Press Telecommunications Council (IPTC), ki ima sedež v Londonu ter povezuje vodilne svetovne tiskovne agencije in medijske hiše, je prvo različico standarda rNews, torej z oznako 1.0, objavil oktobra lani.

Več vodilnih svetovnih medijev ga je že začelo uvajati, že novembra lani denimo ameriška medijska hiša The New York Times Company, je na torkovem predavanju na Institutu Jožef Stefan povedal vodilni arhitekt za semantične platforme v raziskovalno-razvojnem oddelku New York Timesa Evan Sandhaus.

Standard rNews prinaša nabor pravil za rabo semantičnega označevanja za dodajanje tako imenovanih meta podatkov, značilnih za novice, v HTML-kodo spletnih dokumentov. Semantično označevanje omogoča, da vsakemu delu spletne novice pripnejo točno določen pomen.

To omogoča, da se v omenjeno kodo strani, na kateri se nahaja spletna novica, vključi točno določen, standardiziran nabor znakov, ki potem računalnikom omogočajo, da prepoznajo, kaj je identifikacijska koda novice, kaj njen naslov, podnaslov, besedilo, kaj je zraven pripadajoča fotografija ali video, kdo je avtor, kdo vir ipd.

To doslej ni bilo mogoče. Povprečen spletni dokument je namreč danes zasnovan trinivojsko. Prvo raven predstavlja ena ali več podatkovnih baz, v kateri se nahajajo podatki za vsebino spletne strani.

Druga raven je nabor programske kode, napisana npr. s programskim jezikom PHP, ki na podlagi zahteve obiskovalca strani poišče podatke v bazi ter dinamično ustvari HTML-dokument za prikaz najdenih podatkov uporabnikov. Tretjo raven predstavlja sam HTML-dokument.

V tako zasnovani arhitekturi spletnih dokumentov prihaja do težave zaradi t.i. strukturiranih podatkov. Medij namreč lahko zelo podrobno strukturira svojo podatkovno bazo z novicami in jim tam določi identifikator, naslov, avtorja, datum objave, kraj opisanega dogodka in druge elemente.

Ko pa prenese te novice v HTML-dokument, postanejo ti meta podatki zaradi sedanje zasnove HTML-dokumentov za strojno opremo oziroma iskalnike neprepoznavni. To pomeni, da iz HTML-dokumentov ne znajo razločiti, kaj je naslov, kaj lokacija dogodka, še piše na spletni strani IPTC.

Posledično ni denimo mogoče opraviti naprednega iskanja, v katerem bi denimo poiskali vse novice, ki jih je napisal točno določen avtor o točno določeni znani osebnosti in ki so se zgodili v točno določenem kraju.

Standard rNews z uporabo formatov semantičnega označevanja, kot sta RDFa in HTML5 Microdata, poskuša rešiti to težavo. Če bodo mediji začeli uporabljati standard rNews, bodo lahko na primer spletna iskalna orodja pri vseh znala razbrati, kaj je naslov, kaj besedilo, kaj komentarji k novici itn.

Posledično bodo orodja uporabniku postregla z bistveno bolj natančnimi oziroma relevantnimi rezultati na njegovo iskalno poizvedbo, tako zunanjim bralcem pri iskanju novic kot denimo novinarjem pri iskanju sorodnih novic, fotografij in drugih vsebin, s katerimi lahko obogatijo novico.

V prid uveljavljanja standarda rNews gre tudi to, da so ga v okviru konzorcija Schema.org podprli tudi vodilni svetovni spletni iskalniki, kot so Google, Bing in Yahoo. Za Sandhausa ta poteza pomeni pomemben korak k uveljavljanju standarda rNews.

Sandhaus se te dni mudi v Sloveniji, ker se udeležuje uvodnega srečanja partnerjev mednarodnega znanstvenega projekta XLike, katerega nosilec je IJS in se ukvarja prav z omenjeno tematiko. Cilj projekta XLike je namreč razviti tehnologijo za strojno razumevanje osnovnih sporočil v besedilih na internetu. (STA)