Što je tražilica i kako radi. Kako rade tražilice Što je tražilica

Tražilica ili jednostavno “tražilica” je ona koja pretražuje internetske stranice prema zahtjevu korisnika. Najpoznatija tražilica na svijetu je Google, u Rusiji najpopularnija Yandex, a jedna od najstarijih tražilica je Yahoo. U arhitekturi tražilice može se razlikovati pretraživač- jezgra sustava, predstavljena skupom programskih modula; baze podataka ili indeks, koji pohranjuje informacije o svim internetskim resursima poznatim tražilici; i skup stranica koje su ulazne točke korisnika u sustav (www.google.com, www.yandex.ru, ru.yahoo.com itd.). Sve to odgovara klasičnoj trorazinskoj arhitekturi informacijskih sustava: postoji korisničko sučelje, poslovna logika, koju u ovom slučaju predstavlja implementacija algoritama pretraživanja, i baza podataka.

Specifičnosti pretraživanja interneta

Na prvi pogled, pretraživanje interneta ne razlikuje se puno od običnog traženja informacija, na primjer, od obrade u bazu podataka ili od zadatka pronalaženja datoteke u . Tako su mislili i tvorci prvih tražilica na Internetu, no s vremenom su shvatili da su bili u zabludi...

Prva razlika između internetskog pretraživanja i običnog je u tome što algoritam pretraživanja iste baze podataka pretpostavlja da je njezina struktura unaprijed poznata tražilici i autoru zahtjeva. Na internetu, iz očitih razloga, to nije slučaj. Internetske stranice ne tvore direktorijsku strukturu, već mrežu, što također utječe na algoritme pretraživanja, a format podataka objavljenih na internetskim resursima nitko ne kontrolira.

Druga razlika, kao jedna od posljedica prve, je da se zahtjev ne prikazuje kao skup vrijednosti parametara (kriterija pretraživanja), već kao tekst koji je osoba napisala na svom prirodnom jeziku. Dakle, prije nego što počnete tražiti, ipak morate razumjeti što točno tražitelj želi. Napominjem da to nije na drugome da razumije, već na računalu.

Treća razlika je manje očita, ali ne manje temeljna: u katalogu ili bazi podataka svi su elementi jednaki. Na internetu postoji konkurencija, a samim time i podjela na “pouzdanije pružatelje informacija” i izvore koji su po statusu bliski “informacijskom smeću”. Tako ljudi klasificiraju resurse, au njih spadaju i tražilice.

I na kraju, treba dodati da su područje pretraživanja milijarde stranica, svaka od nekoliko kilobajta ili više. Dnevno se dodaje oko deset milijuna stranica i isto toliko se ažurira. Sve to prezentirano je u raznim digitalnim formatima. Nažalost, čak ni moderne tehnologije i resursi kojima raspolažu lideri tržišta usluga pretraživanja na Internetu ne dopuštaju im da svu tu raznolikost obrade „u hodu“ iu potpunosti.

Što je tražilica

Prije svega, važno je uvidjeti još jednu i vjerojatno najznačajniju razliku između rada tražilice na Internetu i rada bilo kojeg drugog informacijskog sustava koji pretražuje razne imenike i baze podataka. Internetska tražilica ne traži informacije među onim što se nalazi na internetu u trenutku zaprimanja zahtjeva, već pokušava oblikovati odgovor na temelju vlastite pohrane informacija - baze podataka zvane indeks, gdje pohranjuje dosje svega poznatog na njega i povremeno ga ažurira. Drugim riječima, tražilica ne radi s izvornikom, već s projekcijom raspona valjanih vrijednosti pretraživanja. Sve najnovije promjene na Internetu mogu se odraziti u rezultatima pretraživanja tek nakon što su relevantne stranice indeksirano- dodano u indeks tražilice. Dakle, sustav pretraživanja u prvoj aproksimaciji sastoji se od tražilice, baze podataka ili indeksa (indeksa) i ulaznih točaka u sustav.

Sada ukratko o tome od čega se sastoji tražilica:

Pauk ili pauk (pauk). Aplikacija koja preuzima stranice s internetskim resursima. Pauk ne "puzi" nigdje - on samo traži sadržaj stranica na isti način kao što to čini obični internetski preglednik, šaljući HTTP zahtjev poslužitelju i primajući odgovor od njega. Nakon što se sadržaj stranice preuzme, šalje se alatu za indeksiranje i indeksiranju, koji su opisani u nastavku.

Indeksator (indeksator). Indeksator vrši inicijalnu analizu sadržaja preuzete stranice, ističe glavne dijelove (naslov stranice, opis, poveznice, zaglavlja, itd.) i sve to rastavlja na dijelove baze podataka pretraživanja - smješta u indeks tražilice. Ovaj proces se zove indeksiranje internetskih izvora, otuda i naziv samog podsustava. Na temelju rezultata početne analize, indekser također može odlučiti da stranica uopće nije "vrijedna" indeksiranja. Razlozi za takvu odluku mogu biti različiti: stranica nema naziv, točna je kopija druge stranice koja je već u indeksu ili sadrži poveznice na resurse zabranjene zakonom.

Puzavac (puzavac). Ova "životinja" je pozvana da "puzi" duž linkova dostupnih na stranici koju preuzima pauk. Alat za indeksiranje analizira staze koje vode od trenutne stranice do drugih odjeljaka stranice ili do stranica vanjskih internetskih izvora i određuje daljnji redoslijed kojim će pauk zaobići niti World Wide Weba. To je alat za indeksiranje koji pronalazi nove stranice za tražilicu i prosljeđuje ih pauku. Rad indeksiranja izgrađen je na temelju algoritama pretraživanja na grafovima u širinu i dubinu.

Podsustav za obradu i izdavanje rezultata (Search Engine i Results Engine). Najvažniji dio svake tražilice. Programeri drže u strogoj tajnosti algoritme za rad ovog podsustava tvrtke jer su poslovna tajna. Upravo je ovaj dio tražilice odgovoran za primjerenost odgovora tražilice na korisnikov upit. Ovdje postoje dvije glavne komponente:
- podsustav rangiranja. Rangiranje- to su stranice internetskih stranica prema njihovoj relevantnosti za određeni upit. Relevantnost stranice- to je, pak, stupanj usklađenosti sadržaja stranice sa značenjem zahtjeva, a tražilica tu vrijednost određuje samostalno, na temelju ogromnog broja parametara. Rangiranje je najmisteriozniji i najkontroverzniji dio "umjetne inteligencije" tražilice. Na rangiranje stranice, osim strukture i sadržaja (sadržaja), također utječu: broj i kvaliteta poveznica koje vode na ovu stranicu s drugih stranica; starost domene same stranice; priroda ponašanja korisnika koji pregledavaju stranicu i mnogi drugi čimbenici.
- Podsustav za izdavanje rezultata. Zadaci ovog podsustava uključuju interpretaciju korisničkog zahtjeva, njegov prijevod na jezik strukturiranih indeksnih upita i formiranje stranica s rezultatima pretraživanja. Uz analizu samog teksta upita, tražilica također može uzeti u obzir:
  - Kontekst zahtjeva, formirana na temelju značenja zahtjeva koje je prethodno podnio korisnik. Na primjer, ako korisnik često posjećuje stranice o automobilskim temama, tada kao odgovor na zahtjev s riječju "Volga" ili "Oka", vjerojatno želi dobiti informacije o automobilima tih marki, a ne o tome gdje su Rusi istog imena počinju svoj tok i gdje teku rijeke. To se zove personalizirano pretraživanje, kada je izlaz za isti zahtjev za različite korisnike značajno različit.
  - Korisničke postavke, o čemu ona (tražilica) može “nagađati”, raščlanjivanje poveznica koje je odabrao korisnik na stranicama rezultata pretraživanja. Ovo je još jedan način prilagođavanja konteksta zahtjeva: korisnik svojim radnjama na neki način govori stroju što točno želi pronaći. U pravilu, tražilice pokušavaju dodati stranice u rezultate pretraživanja koje su relevantne za upit, ali se odnose na sasvim drugačija područja života. Recimo da je korisnik zainteresiran za filmove i stoga često odabire poveznice na stranice s najavama filmova, čak i ako te stranice nisu sasvim relevantne za izvorni upit. Prilikom formiranja odgovora na njegov sljedeći zahtjev, sustav može dati prednost stranicama s opisima filmova u čijem se naslovu nalaze riječi iz teksta zahtjeva.
  - Regija, što je vrlo važno kod obrade komercijalnih upita vezanih uz kupnju roba i usluga od lokalnih dobavljača. Ako ste zainteresirani za rasprodaje i popuste i nalazite se u Moskvi, onda vas najvjerojatnije uopće ne zanima koje se promocije na ovu temu održavaju u Sankt Peterburgu, ako to niste izričito naveli u tekstu zahtjeva. Prije svega, informacije o prodaji u Moskvi trebale bi se pojaviti u rezultatima pretraživanja. Stoga moderne tražilice dijele upite na geo-ovisan i geoneovisni. Najvjerojatnije, ako tražilica odluči da je vaš upit geo-ovisan, tada mu automatski dodaje atribut regije, koji pokušava odrediti iz informacija o vašem internetskom davatelju.
  - Vrijeme. Tražilice ponekad moraju analizirati kada su se događaji opisani na stranici dogodili. Uostalom, informacije konstantno zastarijevaju, a korisniku su prvenstveno potrebni linkovi na najnovije vijesti, aktualne prognoze i najave događaja koji još nisu završili ili bi trebali doći u budućnosti. Razumijevanje da relevantnost stranice ovisi o vremenu i usporedba s trenutkom kada je upit izvršen također zahtijeva priličnu količinu inteligencije tražilice.
  Zatim, tražilica traži najbliže značenje ključni upit u indeksu i generira rezultate sortiranjem veza silaznim redoslijedom njihove relevantnosti. Svaka ključna riječ u indeksu ima zasebno rangiranje stranica koje su relevantne za nju. Sustav ne pokreće za svaku kombinaciju slova i brojki novi zahtjev za ključem, već to radi na temelju analize učestalosti pojedinih zahtjeva korisnika. Tražilica također može miješati rangiranje iz različitih ključnih riječi u rezultatima pretraživanja ako smatra da to korisniku treba.

Opća načela tražilice

Morate shvatiti da su usluge pretraživanja interneta vrlo, vrlo isplativ posao. Ne morate ulaziti u detalje o tome kako žive tvrtke kao što su Google i Yandex, budući da je većina njihove dobiti prihod od kontekstualnog oglašavanja. A kako je pretraživanje na internetu izuzetno isplativ posao, onda je i konkurencija među takvim tvrtkama vrlo ozbiljna. Što određuje konkurentnost na tržištu internetskog pretraživanja? Odgovor je kvaliteta rezultata tražilice. Logično je da što je veći, to sustav ima više novih korisnika, a kontekstualno oglašavanje koje se nalazi na stranicama ovog izdanja je vrijednije. Programeri tražilica ulažu mnogo truda kako bi "očistili" svoje rezultate pretraživanja od svakojakog informativnog smeća, popularno nazvanog spam (spam). Više detalja o tome kako se to radi raspravljat će se u zasebnom članku, ali ovdje ću dati opća načela ponašanja tražilice, formulirana u obliku zaključaka iz svega gore navedenog.

Tražilica, u obliku svojih pauka i pretraživača, neprestano skenira internet u potrazi za novim stranicama i ažuriranjem postojećih stranica, budući da se nebitne informacije niže vrednuju.

Tražilica povremeno ažurira rangiranje resursa prema njihovoj relevantnosti za ključne upite, jer se nove stranice neprestano pojavljuju u indeksu. Taj se postupak naziva ažuriranje rezultata pretraživanja.

Zbog ogromne količine informacija objavljenih na World Wide Webu i ograničenih resursa same tražilice, tražilica uvijek pokušava preuzeti samo ono (po njenom mišljenju) potrebno. U svom arsenalu ima sve vrste filtara koji odsijecaju mnogo nepotrebnog već u fazi indeksiranja ili izbacuju neželjenu poštu iz indeksa na temelju rezultata ažuriranja rezultata pretraživanja.

Moderne tražilice pri analizi upita nastoje uzeti u obzir ne samo tekst samog upita, već i njegovo okruženje: kontekst i preferencije korisnika, koje smo ranije spomenuli, kao i vrijeme postavljanja upita, regiji, i još mnogo toga.

Na relevantnost određene stranice utječu ne samo njezini unutarnji parametri (struktura, sadržaj), već i vanjski parametri, kao što su poveznice na stranicu s drugih stranica i ponašanje korisnika prilikom pregledavanja iste.

Rad tražilica se stalno poboljšava. Idealan rad tražilice (za osobu) moguć je samo ako će sve odluke o indeksiranju i rangiranju donositi komisija sastavljena od velikog broja stručnjaka iz svih područja i područja ljudskog djelovanja. Budući da je to nerealno, takva se komisija zamjenjuje ekspertnim sustavima, heurističkim algoritmima pretraživanja i drugim elementima umjetne inteligencije. Vjerojatno bi i rad svih ovih podsustava mogao dati adekvatnije rezultate kada bi bilo moguće obraditi apsolutno sve podatke koji su javno dostupni na internetu, ali i to je praktički nemoguće. Nesavršena umjetna inteligencija i ograničeni resursi dva su glavna razloga zašto se rezultati pretraživanja ne sviđaju uvijek korisnicima, no sve se to rješava vremenom. Danas je, po mom mišljenju, rad najpoznatijih i najvećih tražilica u potpunosti usklađen s potrebama i očekivanjima njihovih korisnika.

Generator prodaje

Vrijeme za čitanje: 13 minuta

Materijal ćemo vam poslati:

Iz ovog članka ćete naučiti:

Kako su radile prve tražilice?
Kako rade moderne tražilice
Na kojim principima se temelji rad svake tražilice?
Koje formule koriste tražilice u svom radu
Kako su stranice rangirane
Koji su principi tražilice Yandex

Prije nego što se upustite u SEO-promociju stranice, važno je proučiti principe rada tražilica kako biste na kraju postigli željene rezultate. Ovo znanje će biti korisno za razvoj individualne strategije za optimizaciju internetskog resursa za određene ključne riječi i pomoći će da ga dovedete na vrh rezultata pretraživanja.

Na kojim se načelima temelji rad prvih tražilica

U ranim danima interneta samo se mali broj korisnika mogao spojiti na njega. Količina dostupnih informacija također je bila ograničena. U to vrijeme internet su uglavnom koristili zaposlenici istraživačkih organizacija. Traženje informacija na webu nije bilo popularno kao danas.

Prvi pokušaj organiziranja pristupa elektroničkim podacima putem Interneta napravio je pretraživač Yahoo!, koji se pojavio 1994. godine. Programeri tvrtke stvorili su otvoreni katalog web stranica, veze na koje su grupirane po relevantnim temama. S porastom broja izvora u bazi, postalo je potrebno dodati opciju pretraživanja u katalogu. To još nije bila tražilica u nama poznatom obliku, jer je tražila informacije u internoj bazi podataka stranica, a ne na svim postojećim internetskim resursima.

Ovakvi direktoriji linkova nekada su bili vrlo popularni, ali danas su izgubili na važnosti jer se broj stranica stalno povećava. Primjerice, najveći od modernih imenika na Internetu, DMOZ (drugi naziv je Open Directory Project), uključuje oko 5 milijuna stranica, dok baza podataka tražilice Google sadrži više od 8 milijardi poveznica.

Godine 1994. pojavila se prva prava tražilica WebCrawler.

Godine 1995. stvorene su još dvije tražilice: Lycos i AltaVista. Najnovija tražilica dugo je zauzimala vodeću poziciju u području online pretraživanja informacija.

Godine 1997. studenti Sveučilišta Stanford Sergey Brin i Larry Page razvili su tražilicu Google, koja je postala najpopularnija tražilica na svijetu.

Također 1997. godine počela je s radom tražilica Yandex, koja je popularna u Runetu.

Kako danas funkcioniraju tražilice?

Ako niste programer i vaša profesija nema veze s IT-om, zašto trebate razumjeti kako funkcioniraju tražilice? Činjenica je da takozvani organski promet dolazi na web stranicu tvrtke putem tražilica - to su korisnici koji su sami pronašli vaš internetski resurs pomoću ključnih riječi u Yandexu ili Googleu. Organski promet slastan je komad kolača (ciljane publike). Što je viša njegova razina, veća je konverzija i prodaja stranice.

Kako bi korisnici lako pronašli vaš internetski resurs, važno ga je ispuniti pravim sadržajem. Tražilice ovisno o kvaliteti sadržaja rangiraju stranice što utječe na njihovo mjesto u rezultatima pretraživanja. Ispada da znajući kako tražilice indeksiraju internetske resurse, možete optimizirati njihov sadržaj i promovirati ih na TOP.

S druge strane, tražilice se mogu koristiti za analizu radnji korisnika. Proučiti što traže, koje informacije, robe ili usluge su im sada relevantne. Ako je prema statistikama Yandexa moguće stvoriti sliku o postupcima korisnika Runeta, onda je prema Googleu moguće stvoriti sliku globalnog Interneta.

Osnovni koncept s kojim radi svaka tražilica je indeks pretraživanja - određena struktura podataka koja odražava informacije o dokumentima i mjestu ključnih riječi u njima.

Načela rada mnogih tražilica vrlo su slična. Glavna razlika leži u pristupu rangiranju web mjesta (način na koji su resursi poredani u rezultatima pretraživanja).

Svakodnevno ogroman broj korisnika traži razne informacije putem tražilica.

Na primjer, popularni upiti za pretraživanje su:

"Sažetak za pisanje":

"Kupiti":

Kako bi se povećala brzina tražilice, arhitektura pretraživanja sastoji se od dva elementa:

osnovno pretraživanje;
metapretraživanje.

Osnovna pretraga- program koji pretražuje unutar svog dijela indeksa i daje korisniku sve poveznice koje odgovaraju traženom upitu.

Metapretraživanje- program koji prilikom obrade zahtjeva utvrđuje lokaciju korisnika i izdaje gotov rezultat pretrage, ako je ključna riječ popularna, ali ako prije nije bilo takvih zahtjeva, tada se osnovna pretraga povezuje s radom, koji obrađuje poveznice u bazi podataka koristeći strojno učenje i izdaje njihov popis korisniku.

Tražilica istovremeno analizira korisnika i sam upit za pretraživanje prema sljedećim kriterijima:

duljina;
definicija;
popularnost;
konkurentnost;
sintaksa;
geografija.

Postoje sljedeće vrste zahtjeva:

navigacija;
informativni;
transakcijski;
multimedija;
Općenito;
službeno.

Nakon što je upit za pretraživanje analiziran prema parametrima i klasificiran prema jednoj od navedenih vrsta, tražilica odabire funkciju rangiranja.

Tražilice ne otkrivaju podatke o poretku upita za pretraživanje, tako da je primjer na gornjoj slici samo pretpostavka stručnjaka za SEO.

Poznavanje vrsta zahtjeva neophodno je za odabir strategije za promociju web stranice. Na primjer, ako korisnik unese općeniti upit, tražilica će mu dati poveznice raznih vrsta (komercijalne, multimedijske, informativne itd.). Ako istovremeno promovirate svoju komercijalnu web stranicu na opći zahtjev i želite je dovesti u prvih deset rezultata pretraživanja, tada s velikom vjerojatnošću nećete ući u TOP, već samo u broju mjesta za reklame Internetski resursi, određeni formulom za rangiranje u tražilici. Ispada da je puno teže promovirati web mjesto u prve redove u rezultatima pretraživanja za općenite upite pretraživanja nego za druge vrste.

Tražilica Yandex koristi strojno učenje od 2009. godine. Matrixnet- poseban algoritam koji rangira stranice za određene upite.

Osnovno načelo ovog algoritma je sljedeće: Odjel za procjenu prikuplja primarne informacije za procjenu učinkovitosti formule za rangiranje. Zaposlenici ovog odjela na temelju eksperimentalne formule procjenjuju uzorak internetskih izvora prema određenim parametrima:

1. vitalan- službeni internetski resurs tvrtke ili ne. To može biti web mjesto, stranica na društvenoj mreži ili informacije o autoritativnim izvorima.

2. Korisno(ocjena 5) - stranica koja pruža sve potrebne informacije za upit za pretraživanje. Na primjer, korisnik unese "banner fabric" u okvir za pretraživanje. Kako bi algoritam procijenio resurs kao koristan, on mora sadržavati sljedeće informacije:

što je tkanina za transparente;
tehnički podaci;
Fotografija;
vrste;
Cjenik;
Dodatne informacije.

Primjeri upita koji ulazi u TOP rezultata pretraživanja:

3. Relevantno+(ocjena 4) - ova ocjena označava da informacije na stranici odgovaraju upitu za pretraživanje.

4. Relevantno-(ocjena 3) - stranica ne odgovara u potpunosti upitu za pretraživanje. Na primjer, ako je upit "čuvari galaksije emisije" tražilica prikazuje poveznice na stranice o filmu, ali bez rasporeda prikazivanja ili sa zastarjelim rasporedom.

5. Nebitno(ocjena 2) - stranica ne odgovara na upit za pretraživanje. Na primjer: korisnik traži informacije o jednom hostelu, a tražilica mu da stranicu sasvim drugog hostela.

Da biste promovirali web mjesto za općenite ili informativne upite pretraživanja, morate optimizirati njegov sadržaj na takav način da tražilica dodjeljuje ocjenu "korisno" tijekom rangiranja.

Na čemu se temelji princip rada svake tražilice?

Tražilica tradicionalno omogućuje:

Načela tražilice temelje se na interakciji tri glavna elementa. Najprije se vrši pretraga na unosu korisnika ključne riječi ili fraze, zatim unutra proces matematičkog oblikovanja rezultati su grupirani po vezama i stranicama. I konačno, za čitanje informacija s odabranih internetskih izvora koristi se robot za pretraživanje ili drugim alatima. Glavni roboti za pretraživanje koji su trenutno popularni:

pretraživač weba(drugi naziv je "crawler") - program koji "šeta" na webu. Posjećuje samo ona mjesta gdje pronađe barem minimalno podudaranje s onim što je navedeno u upitu za pretraživanje. Rad počinje popisom adresa iz dostupnih baza podataka ili indeksom.
Indeks."Crawler" sve primljene informacije prosljeđuje indeksu pretraživanja. Stoga potonji uvijek ima ažurne informacije o pronađenim mjestima i web stranicama. Ako se ažuriranja preuzmu na resurs ili stranicu, ta se informacija također ažurira u indeksu.
Tražilica (poslužitelj) je poseban softver čija je glavna funkcija analiza podataka prikupljenih u indeksu pretraživanja. Algoritam tražilice radi na principu podržavanja samo konačnih rezultata pretraživanja internetskih izvora. Tražilica sama odlučuje kako će stranice rasporediti u rezultatima pretraživanja.

Svaka tražilica ima za cilj pružiti korisniku najrelevantnije i najkorisnije stranice koje odgovaraju upitu za pretraživanje. U tehničkom smislu to se zove "relevantnost odgovora". Na primjer, za promociju internetske trgovine od velike je važnosti usklađenost sadržaja objavljenog na njoj s potrebama korisnika. Optimizacija web stranice će povećati njenu poziciju u rezultatima pretraživanja.

Razmotrite glavne karakteristike internetskih tražilica i načela njihovog rada:

potpunost- ključna karakteristika tražilice. Izračunava se kao omjer broja dokumenata odabranih na zahtjev korisnika i ukupnog broja dokumenata na webu koji odgovaraju traženom upitu. Na primjer, na internetu postoji 200 stranica na kojima se koristi izraz "kako odabrati hladnjak", tražilica je vratila samo 40 za ovaj upit, dakle, potpunost pretraživanja je 0,2. Što je viši rezultat potpunosti, veća je vjerojatnost da će korisnik pronaći ono što je tražio (pod pretpostavkom da su te informacije dostupne na webu).
Točnost- druga, ali ne manje važna karakteristika tražilice. Prikazuje korespondenciju pronađenih dokumenata korisnikovom upitu za pretraživanje. Recimo da u našem primjeru postoji 200 stranica za upit "kako odabrati hladnjak", 80 od njih sadrži izraz "kako odabrati hladnjak", a ostatak ima samo zasebne riječi (na primjer, "kako ergonomski postaviti kuhinjski set i odaberite mjesto za hladnjak" ). U ovom slučaju, točnost pretraživanja bit će jednaka: 80 / 200 = 0,4. Što je veća točnost pretrage, to će korisnik brže pronaći ono što mu treba, a na tom putu će se susresti s manje različitih “spama”.
Relevantnost- Još jedan važan parametar tražilice. Odražava vrijeme koje je proteklo između objave materijala na Internetu i njegovog unosa u bazu indeksa tražilice. Primjerice, nekoliko sati nakon pada zrakoplova velik je broj korisnika pretraživao internet u potrazi za informacijama o incidentu. Unatoč činjenici da je prošlo malo vremena od objave prvih poruka na ovu temu, tražilice su ih uspjele indeksirati i korisnici su mogli saznati detalje katastrofe.
Ubrzati Rad tražilice izravno ovisi o njegovoj otpornosti na opterećenja. Na primjer, prema OOO Rambler Internet Holding, tražilica svaki dan obradi oko 60 upita za pretraživanje u sekundi. Ova brzina je osigurana skraćenim vremenom obrade svakog pojedinog korisničkog zahtjeva.
vidljivost predstavljanje rezultata čini tražilicu prilagođenom korisniku. Tražilica može pronaći stotine pa čak i tisuće stranica po upitu za pretraživanje. Ako zahtjev nije sasvim ispravan, tada čak i prva stranica rezultata pretraživanja može dobiti stranice koje ne odgovaraju sasvim onome što korisnik želi pronaći. Kao rezultat toga, osoba je prisiljena filtrirati informacije unutar primljenog popisa. Odvojeni elementi stranice izdavanja tražilice pomažu vam u kretanju rezultatima pretraživanja. Detaljna objašnjenja na stranici rezultata pretraživanja, na primjer, za Yandex, možete pogledati na poveznici http://help.yandex.ru/search/?id=481937.

Kako bi se stranica s velikom vjerojatnošću našla na prvoj stranici rezultata pretraživanja potrebno je:

Koristite sidrene veze koje preusmjeravaju korisnike s tematskih internetskih stranica na web stranicu vaše tvrtke. To povećava vidljivost internetskog izvora za tražilicu, jer ne samo tekst s vezom na web mjesto, već i njegov URL mogu ući u rezultate pretraživanja.
Koristite meta oznake zajedno s dobro odabranim ključnim riječima. Ovo će sažetak stranice učiniti jedinstvenijim i učinkovitijim.
Primijenite naslov Title.
Ispravno sastavite semantičku jezgru stranice. Nije dovoljno raspodijeliti ključne riječi po sadržaju stranice, važno je to učiniti pažljivo i nenametljivo. Nemojte uključivati ključne riječi u svaku rečenicu. Tražilica bi to mogla ocijeniti kao spam.
Upotrijebite URL stranice (adresu njezine lokacije na webu). Pravilno pisanje adrese utječe na njezino rangiranje u tražilici.

O principima rada svih tražilica jednostavnim riječima

Tražilica je poseban program s web sučeljem prilagođenim korisniku, pomoću kojeg korisnici mogu brzo i jednostavno pretraživati potrebne informacije na webu. Razmotrite načelo rada bilo koje tražilice bez odlaska u detalje i tehničku terminologiju.

Kako bi tražilica korisniku mogla pružiti popis poveznica na stranice koje sadrže informacije o upitu za pretraživanje, mora poznavati sadržaj sadržaja svih odjeljaka svake stranice. Kako tražilica prikuplja te podatke?

Internet je posebna mreža koja se sastoji od pojedinačnih stranica koje se međusobno povezuju. Tražilica ne mora ići na svaku od njih, dovoljno je imati informacije o stranicama i direktorijima s najvišim ocjenama kako bi se akumulirali podaci o stranici za kasnije učitavanje.

Tražilica, naime, kreira indeks u kojem su na poseban način grupirane adrese svih internetskih stranica. Ako se na webu pojavi nova stranica koju drugi izvori ne navode, tražilici će je biti teško pronaći kako bi je indeksirao i dodao u svoju bazu podataka.

Nakon što tražilica generira popis stranica, počinje proces indeksiranja (posao preuzimanja svih podataka s njih). Uz pomoć programa posebno stvorenih za tu svrhu, tražilica bilježi nove informacije ili prepisuje stare, brišući nebitne podatke. Rad na indeksiranju stranica na Internetu je u tijeku.

Programi prikupljaju podatke u privremenu pohranu. Tamo se nakupljaju do određene količine, nakon čega se pokreće proces ažuriranja, čiji je glavni princip aktualizacija informacija u glavnoj bazi podataka tražilice.

Indeks tražilice sadrži ogroman broj stranica. Kada korisnik unese upit u traku za pretraživanje, tražilica odabire relevantne poveznice iz svoje baze podataka. Drugim riječima, sastavlja popis stranica na čijim se stranicama spominju ključne riječi koje je naveo korisnik.

Budući da je interna baza tražilice ogromna, rezultati pretraživanja mogu sadržavati desetke stranica. Kako ih tražilica rangira? Po kojem principu određuje koje će stranice prvo prikazati korisniku? Sve stranice su poredane prema sadržaju koji odgovara upitu za pretraživanje. Što je veća cjelovitost informacija sadržanih na stranici, to će stranica biti bliža vrhu popisa.

Trenutno tražilice koriste strojno učenje za rangiranje stranica u SERP-u. Načelo rada ovog procesa može se razmotriti na apstraktnom primjeru.

Recimo da trebamo istrenirati robota da razlikuje zrele i nezrele jabuke. Program za određivanje svojstava voća fokusira se na njegove karakteristike:

boja;
veličina;
tvrdoća;
sadržaj šećera;
sadržaj kiseline.

Za analizu robot dobiva dvije jabuke: nezrelu i gotovu. Uspoređuje ih. Zatim treniramo stroj – pokazujemo koje su karakteristike jabuke pozitivne, a koje negativne. Objašnjavamo po kojem se skupu parametara voće može klasificirati kao zrelo ili ne.

Dakle, imamo algoritam za analizu jabuka, pomoću kojeg ih robot može samostalno sortirati. Sada možete dati ne dva voća, već mnogo više, stroj će ih podijeliti na zrele i nezrele.

Sličan princip rada svojstven je radu tražilice. Postoje stručnjaci uključeni u podučavanje strojeva algoritmima za sortiranje sadržaja. Najprije samostalno analiziraju stranice koje su uvrštene u rezultate pretraživanja za traženi upit, dijeleći ih na relevantne i nerelevantne. Zatim se robot obučava sortirati stranice.

Relevantnost stranica je pokazatelj u obliku razlomka. Svakoj stranici dodijeljena je vlastita vrijednost relevantnosti. Zatim se svi resursi poredaju silaznim redoslijedom ovog pokazatelja. Najrelevantnije stranice dolaze na TOP rezultata pretraživanja.

Uz glavni algoritam sortiranja, tražilice koriste razne dodatne koji također mogu utjecati na rezultate pretraživanja. Na primjer, mogu se koristiti za filtriranje beskrupuloznih stranica koje koriste različite "sive" sheme za promociju.

Osnovni principi tražilica: formule

Svaka tražilica koristi svoje jedinstvene algoritme za pretraživanje i rangiranje stranica i stranica, ali principi rada za sve tražilice su isti.

Proces traženja informacija koje odgovaraju zahtjevu korisnika sastoji se od nekoliko faza: prikupljanje podataka na internetu, indeksiranje stranica, pretraživanje po ključnim riječima i rangiranje rezultata. Pogledajmo pobliže svaku fazu.

Prikupljanje podataka.

Nakon što je stranica spremna, morate se pobrinuti da roboti tražilice znaju za njen izgled. Možete postaviti vanjske poveznice na svoj internetski resurs ili koristiti druge metode. Čim robot uđe na stranicu, prikupljat će podatke o svakoj stranici. Taj se proces naziva puzanje. Prikupljanje informacija sa stranice događa se ne samo nakon njenog stvaranja. Robot će povremeno pregledavati internetske izvore kako bi provjerio relevantnost informacija i ažurirao dostupne podatke.

I za vas i za bota (robota) takva bi interakcija trebala biti obostrano korisna i ugodna. Vi, kao vlasnik stranice, zainteresirani ste da bot brzo obavlja svoj posao, bez preopterećenja poslužitelja, a pritom prikuplja podatke sa svih stranica što je potpunije moguće. Također je važno da bot učini sve što je brže moguće kako bi prešao na prikupljanje podataka sa sljedeće stranice na svojoj listi. Sa svoje strane, možete provjeriti radi li stranica, nema problema s navigacijom, nema 404 stranice itd.

Indeksiranje.

Čak i ako je robot posjetio vašu stranicu više od jednom, to ne znači da će internetski resurs odmah postati vidljiv tražilici i da će se pojaviti u rezultatima pretraživanja. Nakon prikupljanja podataka, sljedeća faza procesa obrade stranice je njeno indeksiranje (stvaranje invertirane datoteke indeksa za svaku stranicu). Indeks je potreban za brzo pretraživanje. U pravilu se sastoji od popisa riječi iz teksta i podataka o njima (pozicija u tekstu, težina i sl.).

Nakon dovršetka indeksiranja, stranica i pojedinačne stranice pojavljuju se u rezultatima tražilice za korisničke upite pretraživanja. Obično proces indeksiranja ne oduzima puno vremena.

Traži informacije.

U ovoj fazi informacije se izravno traže upitima korisnika. Najprije tražilica analizira upit, utvrđuje težinu svake od ključnih riječi. Zatim traži podudaranja prema obrnutim indeksima, odabire sve dokumente u bazi podataka tražilice koji odgovaraju upitu za pretraživanje.

Usklađenost dokumenta sa zahtjevom utvrđuje se posebnom formulom:

sličnost(Q,D) = SUM(w qk * w dk),

gdje simulacija (Q,D)- sličnost upita Q dokument D; w qk- težina k-te riječi u upitu; w dk- težina k-te riječi u dokumentu.

Dokumenti koji su najsličniji korisnikovom upitu odražavaju se u rezultatima pretraživanja.

Rangiranje.

U posljednjoj fazi tražilica grupira rezultate tako da korisnik prvo vidi poveznice na najrelevantnije stranice. Svaka tražilica ima svoju jedinstvenu formulu rangiranja, koja uzima u obzir utjecaj sljedećih parametara:

težina stranice (citatni indeks, PageRank);
autoritet domene;
relevantnost teksta za upit;
relevantnost tekstova vanjskih poveznica za upit;
kao i mnogi drugi faktori rangiranja.

Na primjer, razmotrite pojednostavljenu formulu rangiranja:

Ra(x) = (m * Ta(x) + p*La(x)) * F(PRa),

Gdje Ra(x)- konačna usklađenost dokumenta a zahtjev x, Porez)- relevantnost teksta (šifre) dokumenta a zahtjev x, La(x)- relevantnost teksta poveznica iz drugih dokumenata na dokument a zahtjev x, PR- indikator autoriteta stranice a, konstanta u odnosu na x,
F(PRa) je monotono neopadajuća funkcija, i F(0) = 1, može se pretpostaviti da F(PRa) = (1 + q * PRa), m, str, q su neki koeficijenti.

Dakle, na poziciju stranice u rezultatima pretraživanja utječu različiti čimbenici koji su i povezani s upitom za pretraživanje i nisu povezani s njim.

Princip rada sustava za pretraživanje informacija: kriteriji rangiranja

Ako želite da vaš internetski resurs bude među prva tri ili barem prvih deset u rezultatima pretraživanja, morate poznavati principe rada tražilica i kriterije rangiranja kako biste stalno optimizirali stranicu za njihove zahtjeve. Postoje dvije glavne skupine takvih kriterija:

Kriteriji tražilice teksta.

Tražilica u ovom slučaju rangira stranice na temelju kvalitete njihovog tekstualnog sadržaja. Optimizacija ove komponente web mjesta uključuje rad sa semantičkom jezgrom u fazi stvaranja i popunjavanja internetskog resursa.

Tražilica će, obrađujući zahtjev korisnika, prikazati najrelevantnije rezultate na prvoj stranici broja. U procesu pretraživanja dokumenata, tražilica analizira ispravnost popunjavanja naslovne fraze (naslov), opis stranice (opis) i prisutnost ključnog upita u naslovima (H1, H2, itd.).

Kriteriji tražilice bez teksta.

Tražilica radi na analizi ovih kriterija nakon što je stranica objavljena i indeksirana. Glavno načelo rangiranja prema kriterijima ove skupine nije ocjenjivanje kvalitete njihovog sadržaja, već profila vanjske veze.

Tražilica analizira broj poveznica na web mjesto s drugih internetskih izvora, ocjenjuje njihovu vjerodostojnost, pregledava registracije u imenicima. Ako povučemo analogiju, tražilica, poput banke koja odluči dati kredit tvrtki, prikuplja recenzije o tome od izvođača, dobavljača i drugih vjerovnika.

Poznavanje rada tražilica pomoći će vam u stvaranju i optimiziranju web stranica koje će lako zauzeti prva mjesta u rezultatima pretraživanja i tamo dugo ostati jer odgovaraju korisničkim upitima pretraživanja.

Princip rada Yandex tražilice

Rad tako velikih i poznatih tražilica kao što su Google i Yandex temelji se na sustavu klastera. Oni grupiraju sve informacije u određena područja, vezana uz određeni klaster. Za indeksiranje stranica i pojedinačnih stranica te prikupljanje podataka s njih koriste se posebni roboti za indeksiranje. Postoje dvije vrste: glavni robot za indeksiranje (dizajniran za prikupljanje podataka iz redovito ažuriranih internetskih izvora) i robot za indeksiranje (potreban za ažuriranje popisa indeksiranih stranica i njihovih indeksa u najkraćem mogućem vremenu). Kako bi tražilica Yandex što potpunije prikupljala informacije na Internetu, baza pretraživanja i programski kod redovito se ažuriraju:

Baza podataka o traženju ažurira se nekoliko puta mjesečno, a korisnici dobivaju ažurirane podatke iz internetskih izvora prilikom unosa upita u redak za pretraživanje. Ove podatke dodaje glavni robotski skener.
Ažuriranje programskog koda ili, kako ga programeri nazivaju, "motor" dizajniran je za pronalaženje i otklanjanje nedostataka u radu algoritama koji rangiraju stranice u rezultatima pretraživanja. Yandex obično upozorava korisnike o nadolazećim promjenama.

Glavna prednost tražilice Yandex, koja objašnjava njegovu popularnost u Runetu, je mogućnost pronalaženja različitih oblika riječi, uzimajući u obzir morfološke značajke ruskog jezika. Geografsko ciljanje i formula za pretraživanje omogućuju vam da dobijete najtočniji tekst na izlazu. Yandex također ima svoju jedinstvenu stranicu i algoritam za rangiranje stranica. Neosporna prednost sustava je brzina obrade korisničkih upita za pretraživanje i stabilan rad poslužitelja.

Kao što je već spomenuto, prilikom indeksiranja resursa, tražilica gleda na dinamičke veze, čija prisutnost može uzrokovati da bot odbije odrediti indeks stranice.

Yandex se temelji na analizi tekstualnog sadržaja u dokumentima s različitim ekstenzijama (.pdf, .rtf, .doc, .xls, .ppt itd.).

U procesu indeksiranja internet resursa tražilica preuzima podatke iz datoteke robots.txt, pri čemu su podržani atribut Allow i neke od meta oznaka, a meta oznake Revisit-After i Keywords nisu uzete u obzir.

Isječci (kratki opisi tekstualnih dokumenata) sastoje se od fraza na stranici koju tražite, tako da nije potrebno upisivati oznake u opis, ali se po potrebi mogu postaviti.

Prema mnogim programerima, kod indeksiranih dokumenata određuje se automatski, tako da meta oznaka za kodiranje ne igra veliku ulogu.

Yandex posvećuje veliku pozornost pokazatelju posljednje promjene informacija (Last-Modified). Ako poslužitelj prestane slati te podatke tražilici, tada će se indeksiranje stranice provoditi mnogo rjeđe.

Ako internetski resurs ima vlastita "ogledala" (na primjer, http://www.site.ru , http://site.ru , https://www.site.ru), morate se uvjeriti da tražilica nije indeksirana. Ako to nije moguće, tada je moguće spojiti takve stranice unošenjem odgovarajućih izmjena u dokument robots.txt.

Nakon što internetski resurs uđe u Yandex.Catalog, tražilica će ga klasificirati kao mjesto koje zahtijeva posebnu pozornost, što će utjecati na njegovu promociju. Ovo će također pojednostaviti postupak određivanja predmeta stranice, što je nedvojbeno plus, jer će imati značajnu vanjsku vezu.

Yandex programeri ne otkrivaju IP adrese svojih robota. Ipak, u log datotekama na raznim stranicama možete pronaći tekstualne oznake koje pripadaju robotima ove tražilice.

Najvažniji od svih robota za pretraživanje je glavni. Značaj stranice za Yandex ovisi o rezultatima njegovog rada na indeksiranju stranica.

Svaki robot ima svoj raspored za indeksiranje internetskih izvora. Vrijeme rada različitih robota sa svakim mjestom u bazi podataka tražilice možda se neće poklapati.

Uz glavne robote, tražilica ima dodatne koji redovito posjećuju stranice internetskih izvora kako bi provjerili njihovu dostupnost. Na primjer, to su roboti Yandex.Catalog i Yandex oglašivačke mreže.

Tražilica Yandex fokusira se na sljedeće ključne pokazatelje vanjske optimizacije:

TCI (Public Subject Citation Index) - pokazuje prosječan broj poveznica koje pristupaju stranici. Ne utječe izravno na rezultate rangiranja; koristi se za određivanje položaja u tematskoj skupini Yandex.Catalog. Koristi se u promociji internetskih resursa.
WCI (weighted citation index) je poseban algoritam dizajniran za brojanje vanjskih poveznica na stranicu. Od iznimne je važnosti kada tražilica rangira stranice.
Prisutnost stranice u Yandex.Catalogue.
Ukupan broj indeksiranih stranica stranice.
Učestalost indeksiranja sadržaja internetskog izvora.
Prisutnost i odsutnost poveznica sa stranice, prisutnost stranice u filtrima pretraživanja.

Indeks citiranosti je temelj tematskog i ponderiranog indeksa citiranja.

Indeks citata(CI) - pokazatelj broja citata (ili referenci na izvor), pomaže u određivanju koji se od novonastalih dokumenata odnosi na ranije objave. IC se koristi i za analizu članaka i autora (na primjer, u znanstvenom okruženju).

U Yandexu, kao iu drugim tražilicama, indeks citiranja smatra se brojem povratnih poveznica ne uzimajući u obzir poveznice sa sljedećih tipova stranica: nemoderirani imenici, oglasne ploče, mrežne konferencije, stranice statistike poslužitelja, XSS veze itd., čiji se broj može stalno povećavati bez sudjelovanja vlasnika resursa.

Treba pojasniti da se u Aport katalogu IC smatra ponderiranim indeksom citiranja.

Za izračun ovog indeksa koristi se graf veza: ako su stranice vrhovi grafa, a veze na druge stranice su veze vrhova ili rubova grafa, tada se graf veza pojavljuje kao dijagram prikazan na slici:

Gdje su A, B, ..., F određene stranice u indeksu tražilice Yandex, a strelice označavaju smjerove poveznica između njih (jednosmjerne ili dvosmjerne).

Indeks citiranosti igra veliku ulogu u rangiranju dokumenata od strane tražilice, ali konačni rezultati ovise više od ovog pokazatelja.

Vjeruje se da indeks citiranja karakterizira značaj publikacije, ali u isto vrijeme ne odražava strukturu veza stranice, kao rezultat toga, resursi s različitim brojem vanjskih veza mogu biti indeksirani na isti način.

Kako bi se uklonio ovaj nedostatak, koristi se ponderirani indeks citiranja, koji karakterizira ne samo količinu, već i kvalitetu referentnih izvora. Korištenje pretraživanja linkova i statične popularnosti linkova olakšava rad tražilicama, spašavajući ih od raznih tekstualnih neželjenih poruka. Google tražilica koristi PageRank, koji je sličan ponderiranom indeksu citata.

Za izračun VCI-a, kao i drugih čimbenika koji utječu na rangiranje, koristi se referentni grafikon. Vlasnik web mjesta može samostalno procijeniti VCI svog internetskog izvora provjerom njegove PageRank vrijednosti koristeći bilo koju od dostupnih online usluga. Ali treba imati na umu da Yandex indeks sadrži samo dokumente na ruskom jeziku i samo nekoliko popularnih dokumenata stranih, tako da će se vrijednost Yandex VIC razlikovati od Google PageRank-a.

Po definiciji, internetska tražilica je sustav za traženje informacija koji nam pomaže pronaći informacije na World Wide Webu. To olakšava globalnu razmjenu informacija. Ali internet je nestrukturirana baza podataka. Eksponencijalno raste i postao je ogromno skladište informacija. Pronalaženje informacija na Internetu težak je zadatak. Postoji potreba za alatom za upravljanje, filtriranje i izdvajanje ovih informacija o oceanu. U tu svrhu služi tražilica.

Kako radi tražilica?

Internetske tražilice su mašine koje pretražuju i dohvaćaju informacije na Internetu. Većina njih koristi arhitekturu alata za indeksiranje. Oni ovise o svojim modulima kolosijeka. Programi za indeksiranje, koji se nazivaju i pauci, mali su programi koji indeksiraju web stranice.

Alati za indeksiranje posjećuju početni skup URL-ova. Oni rudare URL-ove koji se pojavljuju na indeksiranim stranicama i šalju te informacije modulu indeksiranja. Alat za indeksiranje odlučuje koje će stranice sljedeće posjetiti i daje te URL-ove alatima za indeksiranje.

Teme koje pokrivaju različite tražilice razlikuju se ovisno o algoritmima koje koriste. Neke su tražilice programirane za pretraživanje stranica za određenu temu, dok alati za indeksiranje drugih mogu posjetiti što više mjesta.

Modul za indeksiranje izvlači informacije sa svake stranice koju posjećuje i dodaje URL u bazu podataka. To rezultira ogromnom tablicom pretraživanja, s popisa URL-ova koji upućuju na stranice s informacijama. Tablica prikazuje stranice koje su bile pokrivene tijekom indeksiranja.

Modul analize još je jedan važan dio arhitekture tražilice. Stvara indeks korisnosti. Uslužni program indeksa može odobriti pristup stranicama zadane duljine ili stranicama koje sadrže određeni broj slika.

Tijekom procesa pretraživanja i indeksiranja, tražilica sprema stranice koje dohvaća. Privremeno se pohranjuju u pohranu stranice. Tražilice održavaju predmemoriju stranica koje posjećuju kako bi ubrzale dohvaćanje već posjećenih stranica.

Modul upita tražilice prima upite korisnika u obliku ključnih riječi. Modul za rangiranje sortira rezultate.

Arhitektura alata za indeksiranje ima mnogo varijacija. Mijenjaju se u arhitekturi distribuirane tražilice. Ove se arhitekture sastoje od sakupljača i brokera. Sakupljači prikupljaju informacije o indeksiranju s web poslužitelja, dok brokeri pružaju mehanizam indeksiranja i sučelje za upite. Brokeri indeksiraju ažuriranje na temelju informacija dobivenih od sakupljača i drugih brokera. Oni mogu filtrirati informacije. Mnoge tražilice danas koriste ovu vrstu arhitekture.

Tražilice i rangiranje stranica

Kada kreiramo upit u tražilici, rezultati se prikazuju određenim redoslijedom. Većina nas ima tendenciju posjećivati stranice s najboljim narudžbama i ignorirati one posljednje. To je zato što mislimo da je prvih nekoliko stranica relevantnije za naš upit. Dakle, svi su zainteresirani za rangiranje svojih stranica u prvih deset rezultata tražilice.

Riječi navedene u sučelju upita tražilice su ključne riječi koje su tražile tražilice. Oni su popis stranica povezanih sa traženim ključnim riječima. Tijekom ovog procesa tražilice dohvaćaju one stranice na kojima se te ključne riječi često pojavljuju. Oni traže odnose između ključnih riječi. Lokacija ključnih riječi također se uzima u obzir, kao i rang stranice koja ih sadrži. Ključnim riječima koje se pojavljuju u naslovima stranica ili URL-ovima daje se veća težina. Stranice koje imaju veze koje upućuju na njih čine ih još popularnijima. Ako mnoge druge stranice povezuju na stranicu, ona se smatra vrijednom i relevantnijom.

Postoji algoritam rangiranja koji koristi svaka tražilica. Algoritam je računalna formula dizajnirana za pružanje relevantnih stranica na zahtjev korisnika. Svaka tražilica može imati drugačiji algoritam rangiranja koji analizira stranice u bazi podataka tražilice kako bi odredio odgovarajuće odgovore na upite pretraživanja. Tražilice indeksiraju različite informacije na različite načine. To ima za posljedicu da određeni upit isporučen dvjema različitim tražilicama može prikazati stranice različitim redoslijedom ili dohvatiti različite stranice. Popularnost web stranice determinante su relevantnosti. Klikovna popularnost stranice još je jedan čimbenik koji određuje njezin rang. Ovo je mjera koliko se često stranica posjećuje.

Webmasteri pokušavaju prevariti algoritme tražilice kako bi poboljšali poziciju svoje stranice u SERP-u. Ispunjavanje stranica web mjesta ključnim riječima ili korištenje meta oznaka za prevaru strategija rangiranja tražilice. Ali tražilice su dovoljno pametne! Oni poboljšavaju svoje algoritme tako da spletke webmastera ne utječu na rezultate pretraživanja.

Morate razumjeti da čak i stranice nakon prvih nekoliko na popisu mogu sadržavati točno one informacije koje ste tražili. Ali budite uvjereni da će vam dobre tražilice uvijek donijeti vrlo relevantne stranice u najboljem redu!

Najpopularniji web servis danas je tražilica. Ovdje je sve razumljivo, jer su vremena kada su predstavnici prvih korisnika Interneta mogli promatrati nove stavke na mreži davno prošla.

Toliko se informacija pojavljuje i gomila da je čovjeku postalo vrlo teško pronaći upravo onu koja bi mu trebala. Zamislite kako bi izgledalo pretraživanje interneta kada bi običan korisnik morao tražiti informacije koje ne razumijem gdje. Ne razumijem točno gdje, jer ručnim pretraživanjem nećete pronaći puno informacija.

Tražilica, što je to?

Dobro je ako korisnik već poznaje stranice koje bi mogle imati potrebne informacije, ali što drugo učiniti? Kako bi se čovjeku olakšalo pronalaženje potrebnih informacija na internetu, izmišljene su tražilice ili jednostavno tražilice. Tražilica obavlja jednu vrlo važnu funkciju, bez koje Internet ne bi bio onakav kakvim smo ga navikli vidjeti - to je traženje informacija na mreži.

Sustav pretraživanja- ovo je posebna web stranica ili na drugi način stranica koja korisnicima na njihov zahtjev daje hiperlinkove na stranice, stranice koje odgovaraju na zadani upit pretraživanja.

Točnije rečeno, to je pretraživanje informacija na Internetu koje se odvija zahvaljujući softversko-hardverskom funkcionalnom sklopu te web sučelju za interakciju s korisnicima.

Za ljudsku interakciju s tražilicom kreirano je web sučelje, odnosno vidljiva i razumljiva ljuska. Ovakav pristup programera tražilica olakšava pretraživanje mnogim ljudima. Tražilicama se u pravilu pretražuje internet, ali postoje i tražilice za FTP servere, određene vrste robe na svjetskoj mreži ili informacije o vijestima ili druge smjernice pretraživanja.

Pretraživanje se može provesti ne samo na tekstualnom sadržaju web stranica, već i na drugim vrstama informacija koje osoba može pretraživati: slike, video zapisi, zvučne datoteke itd.

Kako tražilica vrši pretraživanje?

Sama pretraga na Internetu, baš kao i pregledavanje web stranica, moguća je uz pomoć internet preglednika – preglednika. Tek nakon što je korisnik postavio svoj upit u traku za pretraživanje, izravno se provodi samo pretraživanje.

Svaka tražilica sadrži softverski dio na kojem se temelji cijela tražilica, naziva se tražilica - to je programski paket koji pruža mogućnost pretraživanja informacija. Nakon kontaktiranja tražilice, formiranja upita za pretraživanje od strane osobe i unosa istog u traku za pretraživanje, tražilica generira stranicu s popisom rezultata pretraživanja, a najrelevantniji, prema tražilici, nalaze se ovdje više.

Relevantnost pretraživanja - traženje najrelevantnijih materijala prema zahtjevu korisnika i postavljanje hiperveza na njih na stranici s rezultatima pretraživanja s točnijim rezultatima iznad ostalih. Sama raspodjela rezultata naziva se rangiranjem mjesta.

Dakle, kako tražilica priprema svoje materijale za izdavanje i kako tražilica traži informacije? Prikupljanje informacija na mreži omogućuje robot jedinstven za svaku tražilicu ili na drugi način bot, koji ima i niz drugih sinonima poput crawlera ili pauka, a sam sustav pretraživanja može se podijeliti u tri faze :

Prva faza rada tražilice uključuje skeniranje stranica na globalnoj mreži i prikupljanje kopija web stranica na vlastitim poslužiteljima. Time se stvara ogromna količina informacija koje još nisu obrađene i nisu prikladne za rezultate pretraživanja.

Druga faza rada tražilice svodi se na sređivanje informacija primljenih ranije, u prvoj fazi, s web stranica. Provodi se takvo sortiranje koje će u najkraćem vremenu favorizirati vrlo kvalitetnu pretragu kakvu korisnici i očekuju od tražilice. Faza se naziva indeksiranje, što znači da su stranice već pripremljene za izdavanje, a trenutna baza će se smatrati indeksom.

Treća je faza koja utvrđuje rezultate pretraživanja, nakon primitka zahtjeva od vašeg klijenta, na temelju ključnih riječi ili blizu ključnih riječi navedenih u zahtjevu. To pridonosi odabiru najrelevantnijih informacija za zahtjev i njegovom naknadnom izdavanju. Budući da ima puno informacija, tražilica vrši rangiranje prema svojim algoritmima.
Najbolja tražilica je ona koja može dati materijal koji najtočnije odgovara zahtjevu korisnika. Ali čak i ovdje mogu postojati rezultati na koje su utjecali ljudi zainteresirani za promociju svoje stranice, takve se stranice, iako ne uvijek, često pojavljuju u rezultatima pretraživanja, ali ne zadugo.

Iako su svjetski lideri već identificirani u mnogim regijama, tražilice nastavljaju razvijati svoje kvalitetno pretraživanje. Što bolju pretragu mogu pružiti, to će je više ljudi koristiti.

Kako koristiti tražilicu?

Što je tražilica i kako radi već je jasno, ali kako je ispravno koristiti? Većina web-mjesta uvijek ima traku za pretraživanje, a pokraj nje nalazi se gumb Traži ili Traži. U traku za pretraživanje upisuje se upit, nakon čega je potrebno pritisnuti tipku za pretraživanje ili, što je češći slučaj, pritisnuti tipku Enter na tipkovnici i za nekoliko sekundi dobit ćete rezultat upita u obliku liste.

Ali dobiti točan odgovor na upit za pretraživanje nije uvijek moguće prvi put. Kako traženje onoga što želite ne bi postalo bolno, morate pravilno sastaviti upit za pretraživanje i slijediti dolje opisane preporuke.

Ispravno sastavite upit za pretraživanje

Slijedi nekoliko savjeta za korištenje tražilice. Pridržavajući se nekih trikova i pravila prilikom traženja informacija u tražilici, moguće je mnogo brže doći do željenog rezultata. Slijedite ove smjernice:

Pravilno pisanje riječi osigurava maksimalan broj podudaranja sa željenim informacijskim objektom (Iako su moderne tražilice već naučile ispravljati pravopisne pogreške, ovaj savjet ne treba zanemariti).
Korištenjem sinonima u upitu može se pokriti širi raspon pretraživanja.
Ponekad promjena riječi u tekstu upita može donijeti više rezultata. Reformirajte upit.
Unesite specifičnost u upit, koristite točna pojavljivanja fraza koje bi trebale odrediti glavnu bit pretraživanja.
Eksperimentirajte s ključnim riječima. Korištenje ključnih riječi i fraza može pomoći u prepoznavanju glavne točke, a tražilica će vratiti relevantniji rezultat.

Dakle, što je tražilica - ovo nije ništa drugo nego prilika da pronađete informacije od interesa i obično ih koristite potpuno besplatno, naučite nešto, shvatite nešto ili izvucite pravi zaključak za sebe. Mnogi ljudi više ne zamišljaju svoj život bez glasovne pretrage, u kojoj ne morate upisivati tekst, samo trebate izgovoriti svoj zahtjev, a mikrofon je ovdje ulazni uređaj. Sve to svjedoči o stalnom razvoju tehnologija pretraživanja na internetu i potrebi za njima.

Tražilica je baza podataka specifičnih informacija na Internetu. Mnogi korisnici vjeruju da čim unesu upit u tražilicu, cijeli Internet se odmah pretraži, ali to uopće nije tako. Internet skeniranje se događa stalno, mnogi programi, podaci o stranicama unose se u bazu podataka, gdje se prema određenim kriterijima sve stranice i sve njihove stranice raspoređuju u razne liste i baze podataka. Odnosno, to je vrsta podatkovne datoteke, a pretraga se ne odvija na Internetu, već na ovoj datoteci.

Google je najpopularnija tražilica na svijetu.

Uz tražilicu, Google nudi mnoge dodatne usluge, softver i hardver, uključujući uslugu pošte, preglednik Google Chrome, najveću youtube videoteku i mnoge druge projekte. Google samouvjereno kupuje mnoge projekte koji donose veliku zaradu. Većina usluga nije usmjerena na izravnog korisnika, već na zaradu na internetu i integrirana je s fokusom na interese europskih i američkih korisnika.

Mail je tražilica popularna uglavnom zbog usluge pošte.

Postoje mnoge dodatne usluge, od kojih je ključ mail Mail, trenutno Mail posjeduje društvenu mrežu Odnoklassniki, vlastitu mrežu My World, uslugu Money-mail, mnoge online igre, tri gotovo identična preglednika s različitim imenima. Sve aplikacije i usluge imaju puno reklamnog sadržaja. Društvena mreža "VKonatkte" blokira izravne prijelaze na usluge pošte, svađajući se s velikim brojem virusa.

Wikipedia.

Wikipedia je referentni sustav koji se može pretraživati.

Neprofitna tražilica koja postoji na privatnim donacijama, stoga ne puni stranice reklamama. Višejezični projekt čiji je cilj stvoriti potpunu referentnu enciklopediju na svim jezicima svijeta. Nema određenih autora, popunjavaju ga i vode volonteri iz cijelog svijeta. Svaki korisnik može napisati i urediti članak.

Službena stranica je www.wikipedia.org.

Youtube je najveća video biblioteka.

Video hosting s elementima društvene mreže, gdje svaki korisnik može dodati video. Od trenutka kada ih je preuzeo Google Ink, posebna registracija za YouTube nije potrebna, dovoljno je registrirati se u Google mail servisu.

Službena stranica je youtube.com.

Yahoo! je druga najvažnija tražilica na svijetu.

Postoje i dodatni servisi od kojih je najpoznatiji Yahoo mail. U sklopu poboljšanja kvalitete tražilice Yahoo Microsoftu prenosi podatke o korisnicima i njihovim upitima. Iz tih podataka formira se ideja o interesima korisnika, kao i tržište reklamnog sadržaja. Yahoo tražilica, kao i, bavi se apsorpcijom drugih tvrtki, na primjer, Yahoo posjeduje uslugu pretraživanja Altavista i stranicu za e-trgovinu Alibaba.

Službena stranica je www.yahoo.com.

WDL je digitalna knjižnica.

Knjižnica prikuplja knjige kulturne vrijednosti u digitalnom obliku. Glavni cilj je povećati razinu kulturnog sadržaja interneta. Ulaz u knjižnicu je besplatan.

Službena stranica je www.wdl.org/ru/.

Bing je tražilica tvrtke Microsoft.

Službena web stranica je www.baidu.com.

Tražilice u Rusiji

Rambler je "proamerička" tražilica.

Izvorno je nastao kao medijski Internet portal. Kao i mnoge druge tražilice, ima usluge pretraživanja slika, video datoteke, karte, vremensku prognozu, odjeljak s vijestima i još mnogo toga. Izdavači također nude besplatni preglednik Rambler-Nichrome.

Službena stranica je www.rambler.ru.

Nigma je inteligentna tražilica.

Praktičnija tražilica zbog prisutnosti mnogih filtara i postavki. Sučelje vam omogućuje da uključite ili isključite predložene slične vrijednosti u pretraživanje kako biste dobili bolje rezultate. Također, kada primate rezultat pretraživanja, omogućuje vam korištenje informacija iz drugih velikih tražilica.

Službena stranica je www.nigma.ru.

Aport - online katalog proizvoda.

U prošlosti je tražilica, ali nakon zaustavljanja razvoja i inovacija, brzo izgubila tlo i . Trenutno je Aport trgovačka platforma na kojoj je predstavljena roba više od 1500 tvrtki.

Službena stranica je www.aport.ru.

Sputnik je nacionalna tražilica i internet portal.

Kreirao Rostelecom. Trenutno je u fazi testiranja.

Službena web stranica je www.sputnik.ru.

Metabot je tražilica u razvoju.

Zadaci Metabota su kreiranje tražilice za sve ostale tražilice, kreiranje pozicija za izdavanje rezultata, uzimajući u obzir podatke cijele liste tražilica. Odnosno, to je tražilica za tražilice.

Službena stranica je www.metabot.ru.

Tražilica je suspendirana.

Službena stranica je www.turtle.ru.

KM - multiportal.

U početku je stranica bila multi-portal, a kasnije je uvedena tražilica. Pretraživanje se može provesti i unutar stranice i na svim praćenim Runet stranicama.

Službena stranica je www.km.ru.

Gogo - ne radi, preusmjerava na tražilicu.

Službena stranica je www.gogo.ru.

Ruski multiportal, koji nije baš popularan, treba unaprijediti. Tražilica uključuje vijesti, TV, igre, kartu.

Službena stranica je www.zoneru.org.

Tražilica ne radi, programeri predlažu korištenje tražilice.