Tiedonhaku- ja tiedonhallintamenetelmät Internetissä

Heikki Mikkonen

Heikki.Mikkonen@hut.fi










Sisällysluettelo

1. Lyhenteet ja termit
2. Johdanto
3. Menetelmiä tiedon etsimiseen
4. Avainsanahakuihin perustuvat hakukoneet
4.1 Alta Vista
4.1.1 Haku syntaksi
4.1.1.1 Operaattorit
4.1.1.2 Isot ja pienet kirjaimet
4.1.1.3 Villikortti
4.1.2 Haun kohdennus
4.1.2.1 WWW-dokumentin rakenne
4.1.2.2 Dokumentin osoite
4.1.2.3 Usenetin artikkelit
4.1.3 Haun tulosten järjestys
4.1.4 Tiedontuottajan mahdollisuus vaikuttaa dokumentin esiintymiseen hakuindeksissä
4.1.4.1 Alta Vista LiveTopics
4.1.4.1.1 Hakusanojen väliset relaatiot
5. Agenttipohjaiset järjestelmät
5.1 Letizia
5.1.1 Letizian hakumenetelmä
5.2 Amalthaea
5.2.1 Järjestelmän rakenne
5.2.1.1 Käyttöliittymä
5.2.1.2 WWW liityntä
5.2.1.3 Agentit
5.2.1.4 Tietoa suodattavat agentit
5.2.1.5 Tietoa keräävät agentit
6. Yhteenveto

1. Lyhenteet ja termit

Agentti, varsin itsenäisesti toimiva, oppiva ohjelma. "Käyttäjän asiamies", joka suorittaa tehtäviä ympäristönään tietoverkko.

Amalthea, agenttipohjainen MIT:in medialaboratoriossa kehitetty tiedonhakujärjestelmä Internetin globaalin tiedon etsimiseen.

Best first-haku, hakumenetelmä, jossa haku etenee lokaalisti saavutettavissa olevaan parhaaseen kohteeseen.

Genotyyppi, agentin olemuksen muuttuva, oppiva osuus.

Letizia, agenttipohjainen lokaalia Internet tietoa lajitteleva etsintäjärjestelmä.

Leveyssuuntainen haku, hakumenetelmä, jossa edetään taso kerrallaan.

MIT, Massachusetts Institute of Technology

Phenotyyppi, agentin olemuksen staattinen osuus, sisältää agentin ohjelmakoodin.

Syvyyssuuntainen haku, hakumenetelmä, jossa polkua käydään läpi alimmalle tasolle asti ja vasta sitten siirrytään viereiselle polulle.

Usenet, maailmanlaajuinen aihepiireittäin luokiteltu keskustelufoorumi.


2. Johdanto

Internet tarjoaa valtavan määrän lajittelematonta, luokittelematonta ja hajallaan sijaitsevaa tietoa. Internetissä julkaisijoita ovat niin yliopistot ja korkeakoulut kuin suuryritykset ja leikki-ikäiset lapsetkin. Halutun ja oleellisen tiedon löytäminen kohtuullisessa ajassa on verkon käyttäjille ensiarvoisen tärkeää. Tästä osoituksena onkin verkossa toimivien hakukoneiden valtava suosio. Esimerkiksi suosittuun Alta Vista hakukoneeseen tehdään joka päivä noin 30 miljoonaa kyselyä eli lähes jokainen Internetin käyttäjä tekee yhden kyselyn päivässä !

Halutun tiedon löytäminen alkaa olla yhä vaikeampaa. Tietoa on jatkuvasti tarjolla yhä enemmän ja enemmän. Suosituimmat hakumenetelmät perustuvat avainsanahakuihin. Vastauksena kyselyyn saa monesti suuren määrän viitteitä, joiden läpikäyminen vie valtavasti aikaa.

Uusia, älykkäämpiä menetelmiä kehitetään valikoimaan ja suodattamaan Internetin valtaisaa tietomäärää käyttäjien hyödyksi. Juuri näiden menetelmien kehittyminen on ensiarvoisen tärkeää Internetin menestystarinan jatkumiselle. Täydessä kaaoksessa olevasta tietomassasta ei käyttäjille ole juurikaan iloa.

Itse tiedon löytämisen lisäksi käyttäjällä on toinenkin ongelma: tiedon luotettavuuden arviointi. Internetissä kuka tahansa voi julkaista mitä tahansa, jolloin vastuu julkaisun laadun arvioinnista jää lukijalle.

3. Menetelmiä tiedon etsimiseen

Perinteiset tiedonhallintatyökalut Internetissä ovat avainsanahakuihin perustuvat hakukoneet sekä aihealueittain järjestetyt linkkikirjastot. Hakukoneet perustuvat verkkoa läpikäyviin hakurobotteihin, jotka keräävät dokumenttien osoitteita ja hakusanoja tietokantaan.

Linkkikirjastot on aihepiireittäin järjestettyjä. Lajittelusta huolehtivat ihmiset. Tästä johtuen linkkikirjastojen sisältämä linkkimäärä ei ole läheskään niin suuri kuin hakurobotteihin perustuvien hakukoneiden. Toisaalta linkkikirjastot tarjoavat luokitellun näkymän Internetin kaoottiseen tietoviidakkoon.

Oppivat ja älykkäät agenttijärjestelmät tekevät tuloaan Internetin hakuongelmaa helpottamaan. Agentit oppivat käyttäjän mieltymyksiä ja pystyvät käyttäjän profiilin perusteella sopeuttamaan toimintaansa. Monesti agenttijärjestelmät tarvitsevat avukseen globaalin näkymän Internetin tietoon, jonka niille tarjoaa hakukoneiden keräämät indeksoidut avainsanatietokannat.

Tässä työssä käsitellään hakurobottien tuottamia indeksoituja tietovarastoja ja niiden käyttöä sekä uudempia agenttipohjaisia menetelmiä. Käsityönä ylläpidettäviä linkkikirjastoja ei käsitellä. Kumpaakin käsiteltävää aihetta käydään syvällisemmin läpi esimerkkijärjestelmien valossa.

4. Avainsanahakuihin perustuvat hakukoneet

Seuraavassa käydään läpi erään avainsanahakuihin perustuvan hakukoneen ominaisuuksia sekä tiedonhakijan että tiedonjulkaisijan näkökulmasta. Esimerkiksi on valittu eräs suosituimmista hakukoneista : Alta Vista.

Alta Vistan hakuindeksi sisältää tällähetkellä viitteet 31 miljoonaan web-sivuun, jotka sijaitsevat 476 000 serverillä. Lisäksi hakuindeksissä on viitteet 4 miljoonaan Usenetin artikkeliin. Kyselyitä Alta Vistaan tehdään noin 30 miljoonaa vuorokaudessa.

4.1 Alta Vista

Alta Vista hakukoneella haetaan WWW-dokumentteja sekä Usenetin artikkeleita hakusanojen perusteella. Haun tuloksena palautetaan viiteet löydettyihin dokumentteihin sekä lyhennelmä dokumentin sisällöstä. Monesti lyhennelmä on lyhyt lainaus dokumentin alusta, ellei dokumentin tekijä ole erikseen muuta määritellyt.

4.1.1 Haku syntaksi

Alta Vista tarjoaa kaksi vaihtoehtoa hakujen tekemiseen. Oletusarvoinen on simple-haku ja vaihtoehtona on advanced-haku. Itseasiassa hakukone tekee kaikki haut käyttäen advanced-syntaksia. Simple-haut konvertoidaan advanced-syntaksiin ja suoritetaan vasta sitten. Seuraavassa käydään läpi advanced-hakujen syntaksi.

4.1.1.1 Operaattorit

Haussa on käytössä operaattorit AND, OR, NEAR ja NOT, joilla haettavia termejä voidaan yhdistää. Sulkuja voidaan käyttää kyselyn uudelleen ryhmittelemiseksi. Lainausmerkeillä yhdistetään useampi sana yhdeksi hakutermiksi. Operaattorin esiintyessä hakusanana on se suljettava lainausmerkkeihin.

atm AND Cisco

Sekä sana atm että Cisco tulee esiintyä dokumentissa. Esiintymispaikkoja ei määritellä tarkemmin.

Cisco AND ( atm OR frame relay )

Sanan Cisco sekä ainakin toisen sanoista atm ja frame relay tulee esiintyä dokumentissa. Operaattori OR sitoo heikommin kuin operaattori AND.

atm NOT fundamentals

Sanan atm tulee esiintyä dokumentissa mutta sanaa fundamentals ei saa esiintyä dokumentissa. Operaattori NOT sitoo heikommin kuin operaattori OR, joka on hieman kummallista. Yleensähän unaarinen operaattori NOT sitoo vahvemmin kuin binääriset operaattorit AND tai OR.

atm NEAR switch

Sanojen atm ja switch tulee esiintyä kymmenen sanan päässä toisistaan. Operaattori NEAR sitoo heikommin kuin operaattori NOT.

"atm switch”

Sanojen atm ja switch tulee esiintyä peräkkäin dokumentissa. Sanojen välissä saa olla vain white spaceja.

4.1.1.2 Isot ja pienet kirjaimet

Pienillä kirjaimilla kirjoitettu hakusana löytää kaikki mahdolliset isojen ja pienten kirjaimien kombinaatiot. Esimerkiksi hakusanalla suomi löydetään sanat suomi, Suomi, sUoMi jne. Jos hakusanassa käytetään isoja kirjaimia, tulee isojen ja pienten kirjaimien täsmätä haussa. Hakusanalla Suomi löydetään vain sana Suomi eikä mitään muita variantteja. Sanassa esiintyvä iso kirjain aiheuttaa hakusanan kaikkien kirjainten "koon" vertailun.

4.1.1.3 Villikortti

Villikorttina käytetään * - merkkiä. Tähti korvaa nollasta viiteen pientä kirjainta. Isoja kirjaimia ja numeroita ei voi korvata villikortilla. Villikortti voi esiintyä vasta neljäntenä merkkinä sanan alusta lukien.

4.1.2 Haun kohdennus

4.1.2.1 WWW-dokumentin rakenne

WWW-dokumentit sisältävät dokumentin rakenteesta kertovaa tietoa. Haku on mahdollista kohdistaa haluttuihin dokumentin komponentteihin.

title:helsinki

Haku tuottaa viittaukset dokumentteihin, joiden title kentässä esiintyy sana helsinki. Title ilmaisee HTML-kielessä dokumentin nimen.

image: nude.jpg

Haku tuottaa viittaukset dokumentteihin, jotka sisältävät kuvan nude.jpg.

4.1.2.2 Dokumentin osoite

url:home.html

Haku tuottaa viittaukset dokumentteihin, joiden osoite (url ) sisältää termin home.html

host:eunet.fi

Haku tuottaa tulokseksi sivut, joiden urlin host name osuus sisältää termin eunet.fi.

domain:fi

Haku tuottaa tulokseksi sivut, joiden domain on fi.

4.1.2.3 Usenetin artikkelit

from:pastori@hut.fi

Tuottaa artikkelit, joiden lähettäjä kentässä esiintyy termi pastori@hut.fi.

subject:”Mika Myllylä”

Tuottaa artikkelit, joiden otsikkokentässä esiintyy termi Mika Myllylä.

keywords: Disney

Tuottaa artikkelit, joiden avainsanalistassa esiintyy sana Disney.

summary: nuclear

Tuottaa artikkelit, joiden summary kentässä esiintyy sana nuclear.

4.1.3 Haun tulosten järjestys

Jos kyselyssä täytetään pelkkä haku kenttä, tuloksena saatavat viitteet eivät ole missään järjestyksessä. Advanced kyselyssä on toinen kenttä : Result Ranking Criteria. Tämän kentän perusteella haun tuloksen järjestetään. Huomattava on, että simple kysely toimii tässä asiassa eri tavalla. Siinä itse kysely on myös Ranking Criteria.

Search Criteria: atm AND Cisco

Result Ranking Criteria: Cisco

About 8000 matching documents

Tässä kyselyssä järjestyskriteerinä on sana Cisco. Löydetyt dokumentit saavat pisteitä sen mukaan kuinka “tärkeä” sana Cisco on ko. dokumentissa. Pisteitä tulee jos sana esiintyy heti dokumentin alussa ( title kentässä tai pääotsikossa ). Lisäksi pisteitä tulee sanan esiintymiskertojen perusteella.

Järjestyskriteeri kenttään voi myös laittaa sanoja, jotka eivät esiinny hakukriteereinä. Tällöin suoritetaan haun uudelleen filtteröinti ja dokumentit jotka eivät sisällä järjestyskriteerinä olevaa sanaa, karsitaan pois.

Search Criteria: atm AND Cisco

Result Ranking Criteria: Russia

About 300 matching documents

Eli järjestyskriteeri vaikuttaa palautettavien dokumenttien järjestyksen lisäksi myös palautettavien dokumenttien määrään.

4.1.4 Tiedontuottajan mahdollisuus vaikuttaa dokumentin esiintymiseen hakuindeksissä

Jos dokumentissa ei ole tarjolla erityistä informaatiota dokumentin luokittelemista varten, hakukone pyrkii käsittelemään kaikkia dokumentissa esiintyviä sanoja. Haun yhteydessä palautettava tiivistelmä otetaan yksinkertaisesti dokumentin alusta.

Dokumentin tekijän on kuitenkin mahdollista vaikuttaa luokitteluun. HTML-kielen meta-tagin avulla voidaan dokumentille antaa avainsanat, joiden perusteella haettaessa se löytyy. Lisäksi on mahdollista antaa lyhyt tiivistelmä.

<META name=”description”

content=”This document is about making engine replacement to Honda VF500F motorcycle”>

<META name=”keywords” content=”honda, engine, service,VF500F”>

Lyhennelmä kirjoitetaan kohtaan description/content ja avainsanat kohtaan keywords/content.

4.1.4.1 Alta Vista LiveTopics

LiveTopics on uusi järjestelmä, joka edelleenkäsittelee Alta Vista hakumoottorin palauttamia dokumenttiviitteitä. Tarve tämänkaltaiselle järjestelmälle on selkeä, sillä usein haut palauttavat suuren määrän (tuhansia) viitteitä, joiden läpikäyminen manuaalisesti ei ole mielekästä.

Ensimmäinen tapa käsitellä haettuja viitteitä on tarkentaa tehtyä hakua. LiveTopics laatii listan dokumenteissa esiintyneistä hakusanoista, joista käyttäjä voi päättää mitkä sanat ovat oleellisia ja mitkä ei-toivottuja. Haku uudella hakukriteerillä suoritetaan vain jo palautettujen dokumenttien joukkoon, ei koko Alta Vistan tietokantaan. Näin on mahdollista tehokkaasti redusoida palautettavien dokumenttien joukkoa.


Käyttöliittymä haun täsmentämistä varten

4.1.4.1.1 Hakusanojen väliset relaatiot

LiveTopics osaa myös rakentaa avainsanojen välisiä relaatiokaavioita. Yleensähän tietty joukko hakusanoja esiintyy yhdessä. Samassa dokumentissa voi esintyä useampia hakusanajoukkoja.

Relaationäytön ideana on esittää mitkä hakusanojoukot todennäköisesti esiintyvät samoissa dokumenteissa. Jos hakusanajoukkojen välillä on yhteysviiva, esiintyvät ko. joukot samoissa dokumenteissa. Jos viivaa ei ole, joukot esiintyvät vain eri dokumenteissa.


Dokumentissa esiintyvien hakusanojen relaatioiden esitys

5. Agenttipohjaiset järjestelmät

Termiä agentti käytetään tässä esityksessä tarkoittamaan nimenomaan tiedon etsintää ja lajittelua suorittavaa agenttia.

Agentin tehtävänä on suorittaa tietty tehtävä ja suoritusympäristönä on tietoverkko. Agentit ovat älykkäitä, oppivia olioita. Tehtävänsä suorittamiseksi ne tarvitsevat tavallisesti käyttäjältään joitakin perustietoja. Käyttäjän antamien tietojen lisäksi agentti oppii käyttäjän tapoja ja mieltymyksiä. Oppimiensa tietojen perusteella agentit voivat muuttaa käytöstään vastaamaan käyttäjän henkilökohtaisia tarpeita. Edelleen agentit pyrkivät olemaan mahdollisimman itsenäisiä, jolloin ne tarvitsevat vain vähän ohjausta käyttäjältään suorittaessaan tehtäviään.

Agenttijärjestelmät ovat vielä varsin uusia, eikä niistä toistaiseksi ole kehittynyt yhtä suosittuja tiedonhallinnan apuvalineitä Internettiin kuin hakusanoihin perustuvat hakukoneet ovat.

Seuraavassa esitellään kaksi agenttipohjaista järjestelmää: Letizia ja Amalthea. Letizia on käyttäjää lokaalissa navigoinnissa avustava agentti. Amalthea on apuvaline globaaliin Internetin tiedonhakuun. Apunaan Amalthea käyttää hakukoneiden tarjoamia indeksihakemistoja.

5.1 Letizia

Letizia on agentti, joka vaeltaa verkossa käyttäjän mukana. Kulkiessaan käyttäjän matkassa Letizia oppii käyttäjän tapoja ja mieltymyksiä. Letizia seuloo kulloinkin saavutettavissa olevia linkkejä käyttäen apunaan best-first hakua. Heuristiikana haussa käytetään käyttäjältä opittuja mieltymyksiä. Näin Letizia rakentaa listaa käyttäjää mahdollisesti kiinnostavista kohteista.


Letizia käy läpi linkkejä, jotka se voi saavuttaa kulloisestakin käyttäjän olinpaikasta.

Letizia toimii taustalla käyttäjää häiritsemättä. Se astuu auttamaan kun käyttäjä ei tiedä mihin suuntaan pitäisi jatkaa. Tällöin Letizia antaa käyttäjälle ehdotuksia seuraavista kohteista.

5.1.1 Letizian hakumenetelmä

Normaalit browserit rohkaisevat käyttäjää syvyyssuuntaiseen hakuun. Näin siksi, että edellisen tason linkit katoavat näkyvistä kun seuraavalle tasolle siirrytään. Toteuttaakseen leveyssuuntaisen haun käyttäjän olisi aina palattava edelliselle tasolle. Syvyyssuuntainen haku ei ole tiedon löytämisen kannalta tehokas vaan johtaa helposti eksymiseen.

Letizia puolestaan käyttää leveyssuuntaista hakua. Näin syvälle linkkihierarkiaan eksyneelle käyttäjälle on tarjolla ylemmän tason linkkejä Letizian valmiiksi tarkastamina.

5.2 Amalthaea

Amalthaea on MIT:in medialaboratoriossa kehitetty agenttipohjainen tiedonetsintäjärjestelmä. Amalthaean näkemys Internetin tietoon on globaali, se käyttää apunaan olemassaolevia tietoa indeksoivia hakukoneita. Amalthaea on henkilökohtainen hakujärjestelmä, se oppii käyttäjänsä tavoista ja tottumuksista. Käyttäjä voi myös explisiittisesti antaa palautetta järjestelmälle sekä luoda manuaalisesti haluamansa profiilin omaavia agentteja.

Amalthaea on käyttäjän, agenttien ja Internetin tiedon muodostama maailma, joka toimii markkinatalouden lakien mukaan. Agentit ovat keskenään kilpailevia ja heikoimmin menestyvät kuolevat pois jättäkseen tilaa uusille evoluution kehittämille agenteille. Agenttien menestyksen mittaa käyttäjän tyytyväisyys niiden palauttamaan tietoon.

5.2.1 Järjestelmän rakenne

Amalthaea koostuu viidestä perusosasta.


Amalthaean rakenne

5.2.1.1 Käyttöliittymä

Käyttöliittymän ensisijainen rooli on näyttää käyttäjälle haun tuloksena saatuja dokumentteja. Dokumentit on järjestetty ryhmiin. Lukiessaa dokumentteja käyttäjä voi antaa palautetta järjestelmälle. Käytössä on viisiportainen arvosteluasteikko. Käyttäjä voi myös vaikuttaa matalammalla tasolla kertoen järjestelmälle mitkä dokumenttia kuvaavista hakusanoista parhaiten kuvaavat ko. dokumenttia.

Käyttäjä voi myös luoda omia agenttejaan. Tämä onnistuu yksinkertaisesti tarjoamalla järjestelmälle dokumentti, jonka käyttäjä kokee hyödylliseksi. Järjestelmä analysoi dokumentin ja muodostaa uuden agentin hakemaan tietoa vastaavista aiheista.

Edelleen käyttäjä voi vaikuttaa järjestelmän toimintaan muuttamalla parametrien arvoja. Näillä parametreilla voi vaikuttaa mm. haettavien dokumenttien määrään, agenttien evoluution nopeuteen sekä käytössä olevien agenttien määrään.

5.2.1.2 WWW liityntä

Kaikki Amalthaean tuottama tieto on saavutettavissa WWW:n kautta käyttäen http, nntp, ftp ja gopher yhteyksiä. Järjestelmä on käyttänyt liityntään WWW Organisaation libwww kirjastoa. Uudemmassa versiossa ollaan kehittämässä Java pohjaista liityntää.

Kaikki haetut URLit talletetaan tietokantaan dokumenttia kuvaavan painotetun avainsanavektorin kanssa. Lisäksi talletetaan dokumentin yli laskettu tarkistussumma, josta voidaan myöhemmin päätellä onko dokumentti muuttunut.

5.2.1.3 Agentit

Amalthaeassa on kahden tyyppisiä agentteja: tietoa kerääviä agentteja sekä tietoa suodattavia agentteja. Agenttien ominaisuuden määräytyvät agentin genotyypin ja phenotyypin perusteella. Genotyyppi on osio joka kehittyy evoluutiossa. Käytännössä genotyypin muodostaa painotettu avainsanavektori, joka siis määrää millaisia dokumentteja ko. agentti hakee tai päästää lävitseen. Phenotyyppi määrää kuinka genotyypin sisältämää tietoa hyödynnetään. Phenotyyppi sisältää mm. agentin toimintaa ohjaavan ohjelmakoodin.

Uusia agentteja syntyy kolmella eri tavalla. Ensinnäkin risteytyksen kautta , jolloin kahden olemassa olevan agentin genotyypit yhdistetään. Toinen tapa on mutaatio, jolloin olemassa olevan agentin genotyyppiin tehdään satunnaisia “virheitä”. Kolmas tapa synnyttää uusia agentteja on käyttäjän tekemät agentit.

Agenttien elinikään ja niiden mahdollisuuteen tuottaa jälkeläisiä vaikuttaa niiden saamat pisteet. Käyttäjä antaa pisteitä saamilleen dokumenteille sen mukaan kuinka soveltuviksi ne katsoo. Pisteet annetaan agenteille, jotka ovat dokumentin hankkineet. Käyttäjä voi antaa myös negatiivisia pisteitä. Paljon pistetä omaavat agentit elävät pitkään ja voivat tuottaa paljon jälkeläisiä. Agentti tarvitsee elääkseen jatkuvasti uusia pisteitä. Jos pisteitä ei tule, agentti kuolee ja jättää tilaa uusille agenteille.

5.2.1.4 Tietoa suodattavat agentit

Informaatiota suodattavan agentin toiminta perustuu avainsanavektoriin. Agentti saa dokumentteja tietoa kerääviltä agenteilta. Saamilleen dokumenteille suodattaja laskee soveltuvuusarvon, joka kertoo kuinka hyvin dokumentti vastaa agentin avainsanavektoria. Jos vastaavuus on täydellinen, saa dokumentti soveltuvuusarvokseen 1. Jos käyttäjä pitää korkealla luotettavuusarvolla palautettua dokumenttia tarpeellisena eli antaa positiivisen palautteen, saa agentti paljon plus pisteitä. Jos käyttäjä antaa negatiivista palautetta korkealla luotettavuusarvolla palautetulle dokumentille, menettää agentti pisteitään. Pienemmillä luotettavuusarvoilla palautetun dokumentin aiheuttama riski on pienempi, mutta myös voittomahdollisuus on pienempi. Käyttäjälle esitettävässä listassa korkealla luotettavuusarvolla olevat dokumentit esitetään ensimmäisinä.

Saadessaan pisteitä käyttäjältä, tietoa suodattava agentti luovuttaa osan pisteistään tiedon toimittaneelle tiedonhakuagentille.


Informaatiota keräävän agentin genotyyppi ja phenotyyppi

5.2.1.5 Tietoa keräävät agentit

Tietoa keräävän agentin genotyyppi perustuu hakusanoihin sekä informaatiolähteen osoitteeseen (esim. hakukone). Agentin phenotyyppi sisältää ohjelmakoodin lisäksi historiatiedot yhteistyöstä eri suodatusagenttien kanssa. Näiden historiatietojen perusteella agentti löytää sille mieluisan yhteistyökumppanin ts. sen , jonka kanssa tehdyistä hauista sai parhaan pistesaaliin.

Tietoa keräävä agentti voi olla erikoistunut joko tiedon etsintään tai tiedon seurantaan. Tiedon seuranta tarkoittaa jonkin osoitteen säännöllistä seurantaa ja tietyn rajan ylittävien muutosten raportointia. Tiedon etsintä on normaalisti jonkin hakukoneen avulla tapahtuvaa kertaluonteista tiedon hakua.

6. Yhteenveto

Avainsanapohjaisten hakumenetelmät ovat edelleen kaikkein suosituimpia. Tulevaisuudessa tietomäärän kasvaessa avainsanahakuja tulee täydentää muilla menetelmillä, sillä hakujen palauttamien dokumenttien määrä kasvaa sietämättömän suureksi eikä tulokset useinkaan vastaa käyttäjän odotuksia. Avainsanahakua täydentämään onkin rakennettu järjestelmiä kuten Alta Vistan LiveTopics. Tällaisilla avainsanahaun tuloksia edelleen analysoivilla ja karsivilla järjestelmillä toteutetaan useampiportainen haku, jossa tulosjoukkoa voidaan redusoida hakua tarkentamalla.

Avainsanapohjaiset järjestelmät keräävät tietoa koko Internetistä ja niitä voisikin luonnehtia “brute force” ratkaisuiksi. Toisenlainen lähestyminen on ns. agenttijärjestelmät, joissa voiman sijaan käytetään älyä. Agenttien toiminta perustuu käyttäjän mieltymysten oppimiseen. Opittujen tietojen perusteella agentti osaa tarjota käyttäjälle mieluista tietoa. Agentti toimii tavallaan näkymättömänä avustajana, jolta käyttäjä voi halutessaan pyytää vinkkejä.

Kuinka agentti sitten tiedon löytää riippuu paljon ratkaisusta. Agentti voi käyttää hyväkseen esimerkiksi “suusta suuhun menetelmää”, jolloin käytetään hyödyksi muiden, samankaltaisen profiilin omaavien ihmisten tietoja. Agentti voi myös surffata käyttäjän mukana verkossa, tehden hieman laajempaa etsintää käyttäjän lukiessa sivuja. Monesti agentti käyttää apunaan hakukoneiden keräämiä indeksoituja tietokantoja.

Agentin tiedonhankintatapoja on paljon, oleellista on agentin kyky oppia käyttäjänsä tavoille ja sen itsenäisyys: agentti ei tarvitse paljoakaan käyttäjän opastusta.

Tekoälysovellusten kehittyessä myös Internetin tiedonhallintaongelmaan tullee nykyistä huomattavasti kehittyneempiä järjestelmiä. Henkilökohtaiset, käyttäjänsä tavat tuntevat agentit ovat tämän suuntauksen ensimmäisiä sovelluksia.

Tiedonetsimisen ongelmaan ollaan vähitellen heräämässä. Vielä vaikeampi ongelma on tiedon luotettavuuden arviointi, joka edelleenkin jää lukijan vastuulle. Ehkä tulevaisuus tuo tullessaan menetelmiä tamän ongelman ratkaisemiseksi.