Į pradžią > Technologijos > Apie išaugusius duomenų kiekius paieškos sistemose

Apie išaugusius duomenų kiekius paieškos sistemose

Šiandien perskaitęs Ričardo įrašą apie adresynus ir įrašų-sąrašų problemas, susimąsčiau apie tai, kokia neįsivaizduojama galybė informacijos yra sukaupta paieškos sistemose ir kaip greitai tie informacijos kiekiai auga. Ričardas savo įraše iškėlė klausimą dėl to, ar visas internete skelbiamas turinys yra kokybiškas. Tačiau mano nuomone, pagrindinis klausimas yra tas, ar verta paieškos sistemoms indeksuoti visą internete aptinkamą turinį ir kokia nauda iš suindeksuoto menkaverčio turinio informacijos ieškančiam vartotojui? Apie tai ir norėčiau daugiau pakalbėti.

Kai kas sako, kad interneto pradžia reikėtų laikyti Google sukūrimą 1998 metais. Tikriausiai tada niekas nė neįsivaizdavo, kad po daugiau nei 10 metų turėsime internete tiek nesuskaičiuojamo turinio. O pradžioje tais 1998 metais turinio buvo nei daug, nei mažai – 26 milijonai puslapių (žinoma, realiai jų buvo daugiau, bet būtent tiek buvo suindeksavusi Google). Per du metus, 2000 metais, suindeksuotų puslapių skaičius išaugo 40 kartų (pasiekė 1 milijardą). Po to įvyko lūžis ir duomenų kiekiai tiek išaugo, kad Google nusprendė nebeskaičiuoti, o šiuo metu net pati nežino, kiek suindeksuotų puslapių turi.

Kažkada Rokiškis rašė, kad Google tobulumas – neišpasakytas ir tai, kaip ši sistema sugeba atskirti kokybišką turinį nuo niekalo. Tai lyg ir patvirtina vienas iš Google inžinierių, paprastai paaiškinančių, kaip veikia ši paieškos sistema:

Tačiau vis dėlto man kyla dvejonių, ar tikrai Google (tiek ir kitos paieškos sistemos) sugeba informacijos ieškančiam vartotojui atrinkti būtent tai, ko jis tikisi surasti tame prie begalybės artėjančiame suindeksuotų puslapių lobyne. Atsimenu, dar pačioje Google susikūrimo pradžioje užtekdavo vos kelių minučių, o dažnai ir dar mažiau, kai įvedus į paieškos laukelį keletą žodžių galėdavai greitai tarp Google pateiktų rezultatų surasti tai, ko nori. Dabar gi viskas daug sudėtingiau. Rašydamas šį įrašą norėjau surasti diagramą, iliustruojančią išaugusį paieškos sistemose suindeksuotų puslapių skaičių. Einu į lietuviškąjį Google Vaizdai, suvedu frazę growth of indexed pages. Praleidžiu keletą minučių naršydamas po Google pateiktų rezultatų puslapius. Ne kažin ką randu. Keletą kartų tikslinu paieškos frazę. Growth of Google indexed pages (nieko, o pirmuose paieškos rezultatų puslapiuose daug nereikšmingų iliustracijų – vėliavos, kavos puodeliai, abstraktūs logotipai). Bandau to paties ieškoti nebe vaizduose – ir vėl gaunu arba nesusijusios informacijos, arba pasenusius duomenis. Praleidęs kokias 10 minučių paieškoms taip ir neradau ko norėjau.

Pavyzdys paprastas, bet tokių realybėje kiekvienas galime atrasti labai daug. Man atrodo, kad per pastarąjį dešimtmetį išaugus duomenų kiekiui paieškos sistemų algoritmai tiek neištobulėjo, kad sugebėtų apdoroti tokius kiekius sukauptos informacijos. Panašu, kad nei Google, nei kitai paieškos sistemai per gerą dešimtmetį nepavyko sukurti tobulo dirbtinio intelekto savo paieškos robotui (pvz., Googlebot). Tokį dirbtinio intelekto robotą, kuris galėtų suprasti, ko nori kiekvienas interneto vartotojas ir pateiktų rezultatus, pritaikytus būtent jam. Tokį robotą, kuris neitų indeksuodamas per praktiškai visas iš eilės internete aptinkamas nuorodas į puslapius, o atrinktų turinį.

Pavyzdžiui, galima pažiūrėti blogeriai.net srauto turinį. Absoliučią daugumą jo indeksuoja Google paieškos sistema. Tačiau ar tikrai absoliuti dauguma jo yra naudinga? Pavyzdžiui, vienas žmogus, nusipirkęs iPad’ą, parašo išsamią jo apžvalgą, o kitas tik įdeda video nuorodą. Abiejų straipsniai atsiranda informacijos apie iPad ieškančiojo paieškos rezultatuose. Tik kuris naudingesnis?

Kita vertus, kontekstinė reklama tarp paieškos rezultatų buvo ištobulinta gana neprastai. Ir kuo ilgiau žmogus ieškos reikiamos informacijos tarp paieškos rezultatų, tuo didesnė tikimybė, kad jis paspaus ant reklaminės nuorodos ir uždirbs pinigus paieškos sistemai. Kuo daugiau suindeksuotų puslapių turi paieškos sistema, tuo didesnė tikimybė, kad ji galės patenkinti didesnį ratą informacijos ieškančių žmonių? Tačiau kas užtikrins, kad mes rasime būtent tai, ko ieškome? Kas turi užtikrinti ieškomos informacijos kokybę: atsirinkti turi pats vartotojas ar tai turi padaryti paieškos sistema?..

Panašūs įrašai:

  1. Slaptažodžių ir prisijungimo duomenų saugojimo būdai
  2. Apie bendruomenių internete kuriamą turinį
  3. WordPress perkėlimas į naują domeną
  4. Apie kūrinius, pinigus ir autorių bei vartotojų požiūrių skirtumus
  5. Apie megapikselius, fotoaparatus ir telefonus bei marketingo triukus
Kategorijos: Technologijos Žymos:
  1. 2010.07.15 9:23 | #1

    Aš irgi pastebėjau tą problemą, tačiau prieš kokius metus galvojau, kad tik ieškoti ir naudotis Google nemoku. Dabar vis dėlto ne mano gebėjimuose įvesti tinkamą užklausą problema, o piktavalių SEO ir per didelio kiekio nenaudingo turinio, kuris užgožia vertąjį dėmesio…
    My recent post Adresynų- įrašų-sąrašų problemos ir informacijos amžius

  1. Atsekčių dar nėra.