Šta je pretraživač i kako radi. Kako rade pretraživači Šta je pretraživač

Tražilica ili jednostavno „tražilica“ je ona koja traži internetske stranice u skladu sa zahtjevom korisnika. Najpoznatiji pretraživač na svijetu je Google, najpopularniji u Rusiji je Yandex, a jedan od najstarijih pretraživača Yahoo. U arhitekturi pretraživača može se razlikovati pretraživač- jezgro sistema, predstavljeno skupom softverskih modula; baza podataka ili index, koji pohranjuje informacije o svim Internet resursima poznatim pretraživaču; i skup lokacija koje su ulazne tačke korisnika na sistem (www.google.com, www.yandex.ru, ru.yahoo.com, itd.). Sve to odgovara klasičnoj trostepenoj arhitekturi informacionih sistema: postoji korisnički interfejs, poslovna logika, koja je u ovom slučaju predstavljena implementacijom algoritama pretraživanja, i baza podataka.

Specifičnosti pretraživanja interneta

Na prvi pogled, pretraživanje Interneta se ne razlikuje mnogo od običnog pronalaženja informacija, na primjer, od obrade u bazu podataka ili od zadatka pronalaženja datoteke u . Tako su mislili i programeri prvih pretraživača na internetu, ali su vremenom shvatili da su pogriješili...

Prva razlika između pretraživanja Interneta i uobičajene je u tome što algoritam pretraživanja za istu bazu podataka pretpostavlja da je njena struktura unaprijed poznata pretraživaču i autoru zahtjeva. Na internetu, iz očiglednih razloga, to nije slučaj. Internet stranice ne čine strukturu direktorija, već mrežu, što utiče i na algoritme pretraživanja, a format podataka objavljenih na Internet resursima niko ne kontroliše.

Druga razlika, kao jedna od posljedica prve, je u tome što se zahtjev ne predstavlja kao skup vrijednosti parametara (kriterijuma pretraživanja), već kao tekst koji je osoba napisala na svom prirodnom jeziku. Stoga, prije nego što počnete s pretraživanjem, još uvijek morate razumjeti šta tačno tražilac želi. Napominjem da nije na drugom da razumije, već na kompjuteru.

Treća razlika je manje očigledna, ali ne manje fundamentalna: u katalogu ili bazi podataka, svi elementi su jednaki. Na internetu postoji konkurencija, a samim tim i podjela na „pouzdanije pružaoce informacija“ i izvore koji su po statusu bliski „informacionom smeću“. Ovako ljudi klasifikuju resurse, a tako i pretraživači.

I kao zaključak, treba dodati da je područje pretraživanja milijarde stranica, svaka po nekoliko kilobajta ili više. Dnevno se dodaje oko deset miliona stranica i isto toliko se ažurira. Sve je to predstavljeno u raznim digitalnim formatima. Nažalost, čak i moderne tehnologije i resursi koji su na raspolaganju liderima tržišta usluga pretraživanja na Internetu ne dozvoljavaju im da obrađuju svu ovu raznolikost "u hodu" iu potpunosti.

Šta je pretraživač

Prije svega, važno je shvatiti još jednu i vjerovatno najznačajniju razliku između rada pretraživača na Internetu i rada bilo kojeg drugog informacionog sistema koji pretražuje u raznim imenicima i bazama podataka. Internet pretraživač ne traži informacije među onim što se nalazi na Internetu u trenutku kada je zahtjev zaprimljen, već pokušava formirati odgovor na osnovu vlastitog skladišta informacija - baze podataka koja se zove indeks, gdje pohranjuje dosije svega poznatog. na njega i povremeno ga ažurira. Drugim riječima, tražilica ne radi s originalom, već s projekcijom raspona važećih vrijednosti pretraživanja. Sve najnovije promjene na Internetu mogu se odraziti u rezultatima pretrage tek nakon što su relevantne stranice indeksirano- dodato u indeks pretraživača. Dakle, sistem pretraživanja u prvoj aproksimaciji se sastoji od pretraživača, baze podataka ili indeksa (indeksa) i ulaznih tačaka u sistem.

Sada ukratko o tome od čega se sastoji pretraživač:

Pauk ili pauk (pauk). Aplikacija koja preuzima stranice internetskih resursa. Pauk nigdje ne „puzi“ – samo traži sadržaj stranica na isti način kao i običan internet pretraživač, šaljući HTTP zahtjev serveru i primajući odgovor od njega. Nakon što se sadržaj stranice preuzme, šalje se indekseru i pretraživaču, koji su opisani u nastavku.

Indekser (indeksator). Indekser vrši početnu analizu sadržaja preuzete stranice, ističe glavne dijelove (naslov stranice, opis, linkove, naslove, itd.) i sve to dekomponuje u sekcije baze podataka pretraživanja - smješta u indeks tražilice. Ovaj proces se zove indeksiranje Internet resursa, otuda i naziv samog podsistema. Na osnovu rezultata početne analize, indeksator takođe može odlučiti da stranica uopšte nije „dostojna“ indeksiranja. Razlozi za takvu odluku mogu biti različiti: stranica nema naziv, tačna je kopija druge stranice koja se već nalazi u indeksu ili sadrži linkove ka resursima zabranjenim zakonom.

Crawler (puzalica). Ova "životinja" je dizajnirana da "puzi" kroz veze dostupne na stranici koju je pauk preuzeo. Crawler analizira putanje koje vode od trenutne stranice do drugih dijelova stranice, ili do stranica vanjskih Internet resursa, i određuje daljnji redoslijed kojim će pauk zaobići niti World Wide Weba. To je pretraživač koji pronalazi nove stranice za pretraživač i prosljeđuje ih pauku. Rad crawler-a izgrađen je na osnovu algoritama pretraživanja na grafovima u širinu i dubinu.

Podsistem za obradu i izdavanje rezultata (Search Engine and Results Engine). Najvažniji dio svake tražilice. Algoritme za rad ovog podsistema kompanije programeri čuvaju u strogoj tajnosti, jer su poslovna tajna. Upravo je ovaj dio tražilice odgovoran za adekvatnost odgovora pretraživača na upit korisnika. Ovdje postoje dvije glavne komponente:
- podsistem rangiranja. Rasponu- ovo su stranice internetskih stranica u skladu s njihovom relevantnošću za određeni upit. Relevantnost stranice- ovo je, pak, stupanj usklađenosti sadržaja stranice sa značenjem zahtjeva, a tražilica samostalno određuje ovu vrijednost, na osnovu ogromnog broja parametara. Rangiranje je najmisteriozniji i najkontroverzniji dio "vještačke inteligencije" pretraživača. Na rang stranice, pored njene strukture i sadržaja (sadržaja), utiču i: broj i kvalitet linkova koji vode na ovu stranicu sa drugih sajtova; starost domene samog sajta; priroda ponašanja korisnika koji pregledavaju stranicu i mnogi drugi faktori.
- Podsistem za izdavanje rezultata. Zadaci ovog podsistema uključuju interpretaciju korisničkog zahtjeva, njegovo prevođenje na jezik strukturiranih indeksnih upita i formiranje stranica s rezultatima pretraživanja. Osim raščlanjivanja samog teksta upita, pretraživač može uzeti u obzir i:
  - Kontekst zahtjeva, formirana na osnovu značenja zahtjeva koje je korisnik prethodno postavio. Na primjer, ako korisnik često posjećuje stranice o automobilskim temama, onda u odgovoru na zahtjev s riječju "Volga" ili "Oka", vjerojatno želi dobiti informacije o automobilima ovih marki, a ne o tome gdje su Rusi iz istim imenom počinju svoj tok i gdje teku rijeke. To se zove personalizovana pretraga, kada se izlaz za isti zahtjev za različite korisnike značajno razlikuje.
  - Korisničke postavke, o čemu on (pretraživač) može da „pogađa“, analiziranje linkova koje je izabrao korisnik na stranicama rezultata pretrage. Ovo je još jedan način prilagođavanja konteksta zahtjeva: korisnik svojim radnjama na neki način govori mašini šta tačno želi da pronađe. Po pravilu, pretraživači pokušavaju da dodaju stranice u rezultate pretrage koje su relevantne za upit, ali se odnose na sasvim različite oblasti života. Recimo da je korisnik zainteresovan za filmove i stoga često bira veze ka stranicama sa najavama filmova, čak i ako ove stranice nisu baš relevantne za originalni upit. Prilikom formiranja odgovora na njegov sljedeći zahtjev, sistem može dati prednost stranicama sa opisima filmova u čijim naslovima se nalaze riječi iz teksta zahtjeva.
  - Region, što je veoma važno prilikom obrade komercijalnih upita vezanih za kupovinu robe i usluga od lokalnih dobavljača. Ako vas zanimaju rasprodaje i popusti i nalazite se u Moskvi, onda vas najvjerovatnije uopće ne zanimaju koje se promocije na ovu temu održavaju u Sankt Peterburgu, ako to niste izričito naveli u tekstu zahtjeva. Prije svega, informacije o prodaji u Moskvi trebale bi se pojaviti u rezultatima pretraživanja. Dakle, moderni pretraživači dijele upite na geo ovisni i geoindependent. Najvjerovatnije, ako pretraživač odluči da je vaš upit geo-zavisan, tada mu automatski dodaje atribut regiona koji pokušava utvrditi iz informacija o vašem Internet provajderu.
  - Vrijeme. Pretraživači ponekad moraju analizirati kada su se desili događaji opisani na stranici. Uostalom, informacije stalno zastarevaju, a korisniku su prije svega potrebni linkovi na najnovije vijesti, trenutne prognoze i najave događaja koji još nisu završeni ili bi trebali doći u budućnosti. Razumijevanje da relevantnost stranice zavisi od vremena, i poređenje sa trenutkom kada je upit izvršen, također zahtijeva priličnu količinu inteligencije od pretraživača.
  Zatim, pretraživač traži najbliže po značenju ključni upit u indeksu i generira rezultate sortiranjem veza u opadajućem redoslijedu prema njihovoj relevantnosti. Svaka ključna riječ u indeksu ima zaseban rang stranica koje su za nju relevantne. Ne za svaku kombinaciju slova i brojeva, sistem pokreće novi zahtjev za ključem, već to čini na osnovu analize učestalosti zahtjeva određenih korisnika. Pretraživač također može miješati rangiranje iz različitih ključnih riječi u rezultatima pretraživanja ako smatra da je korisniku to potrebno.

Opšti principi pretraživača

Morate shvatiti da su usluge pretraživanja interneta vrlo, vrlo profitabilan posao. Ne morate ulaziti u detalje o tome kako kompanije kao što su Google i Yandex žive, jer najveći dio njihovog profita je prihod od kontekstualnog oglašavanja. A kako je pretraživanje na internetu izuzetno profitabilan posao, onda je konkurencija među takvim kompanijama vrlo ozbiljna. Šta određuje konkurentnost na tržištu internet pretraživanja? Odgovor je kvalitet rezultata pretraživača. Logično je da što je veći, sistem ima više novih korisnika, a kontekstualno oglašavanje koje se nalazi na stranicama upravo ovog broja vrednije. Programeri pretraživača ulažu mnogo truda da "očisti" svoje rezultate pretraživanja od svih vrsta informativnog smeća, popularno nazvanog spam (spam). Više detalja o tome kako se to radi bit će razmotreno u posebnom članku, ali ovdje ću dati opće principe ponašanja tražilice, formulirane u obliku zaključaka iz svega navedenog.

Pretraživač, u obliku svojih paukova i crawlera, neprestano skenira internet u potrazi za novim stranicama i ažuriranjem postojećih, jer se nebitne informacije manje cijene.

Pretraživač povremeno ažurira rangiranje resursa prema njihovoj relevantnosti za ključne upite, jer se nove stranice stalno pojavljuju u indeksu. Ovaj proces se zove ažuriranje rezultata pretrage.

Zbog ogromne količine informacija objavljenih na World Wide Webu i ograničenih resursa samog pretraživača, pretraživač uvijek pokušava preuzeti samo najpotrebnije (po njegovom mišljenju). U svom arsenalu ima sve vrste filtera koji odrežu mnogo nepotrebnog već u fazi indeksiranja ili izbacuju neželjenu poštu iz indeksa na osnovu rezultata ažuriranja rezultata pretraživanja.

Moderni pretraživači prilikom analize upita nastoje uzeti u obzir ne samo tekst samog upita, već i njegovo okruženje: kontekst i preferencije korisnika, koje smo ranije spomenuli, kao i vrijeme upita, region, i još mnogo toga.

Na relevantnost određene stranice utiču ne samo njeni unutrašnji parametri (struktura, sadržaj), već i eksterni parametri, kao što su linkovi na stranicu sa drugih sajtova i ponašanje korisnika prilikom pregleda.

Rad pretraživača se stalno unapređuje. Idealan rad pretraživača (za osobu) moguć je samo ako će sve odluke o indeksiranju i rangiranju donositi komisija koju čini veliki broj stručnjaka iz svih oblasti i područja ljudske djelatnosti. Budući da je to nerealno, takvu komisiju zamjenjuju ekspertni sistemi, heuristički algoritmi pretraživanja i drugi elementi umjetne inteligencije. Vjerovatno bi i rad svih ovih podsistema mogao dati adekvatnije rezultate kada bi bilo moguće obraditi apsolutno sve podatke koji su javno dostupni na Internetu, ali je i to praktično nemoguće. Nesavršena umjetna inteligencija i ograničeni resursi dva su glavna razloga zašto rezultati pretraživanja ne zadovoljavaju uvijek korisnike, ali se sve to rješava vremenom. Danas je, po mom mišljenju, rad najpoznatijih i velikih pretraživača u potpunosti usklađen sa potrebama i očekivanjima njihovih korisnika.

Sales Generator

Vrijeme čitanja: 13 minuta

Mi ćemo vam poslati materijal:

Iz ovog članka ćete naučiti:

Kako su radili prvi pretraživači?
Kako rade moderni pretraživači
Na kojim principima se zasniva rad svakog pretraživača?
Koje formule koriste pretraživači u svom radu
Kako se sajtovi rangiraju
Koji su principi Yandex pretraživača

Prije nego što se upustite u SEO-promociju stranice, važno je proučiti principe rada pretraživača kako biste na kraju postigli željene rezultate. Ovo znanje će biti korisno za razvoj individualne strategije za optimizaciju internetskog resursa za određene ključne riječi i pomoći će mu da se dovede na vrh rezultata pretraživanja.

Koji principi su u osnovi rada prvih pretraživača

U ranim danima Interneta, samo mali broj korisnika je mogao da se poveže na njega. Količina dostupnih informacija također je bila ograničena. U to vrijeme internet su uglavnom koristili zaposleni u istraživačkim organizacijama. Pretraživanje informacija na webu nije bilo toliko popularno kao danas.

Prvi pokušaj organizovanja pristupa elektronskim podacima putem interneta napravio je pretraživač Yahoo!, koji se pojavio 1994. godine. Programeri kompanije kreirali su otvoreni katalog stranica, linkovi do kojih su grupisani prema relevantnim temama. S porastom broja resursa u bazi podataka, postalo je potrebno dodati opciju pretraživanja u katalog. To još nije bio pretraživač u nama poznatom obliku, jer je tražio informacije na internoj bazi podataka sajtova, a ne na svim postojećim internet resursima.

Nekada su takvi direktoriji linkova bili veoma popularni, a danas su izgubili na aktuelnosti, jer se broj sajtova stalno povećava. Na primjer, najveći od modernih direktorija na Internetu, DMOZ (drugo ime je Open Directory Project), uključuje oko 5 miliona lokacija, dok baza podataka Google pretraživača sadrži više od 8 milijardi linkova.

1994. godine pojavio se prvi pravi WebCrawler pretraživač.

Godine 1995. stvorena su još dva pretraživača: Lycos i AltaVista. Najnovija tražilica dugo je zauzimala vodeću poziciju u području online pronalaženja informacija.

1997. godine, studenti Univerziteta Stanford Sergey Brin i Larry Page razvili su Google pretraživač, koji je postao najpopularniji pretraživač na svijetu.

Takođe 1997. godine počeo je sa radom Yandex pretraživač, koji je popularan u Runetu.

Kako danas rade pretraživači?

Ako niste programer i vaša profesija nema nikakve veze sa IT, zašto morate da razumete kako rade pretraživači? Činjenica je da takozvani organski promet dolazi na web stranicu kompanije putem pretraživača - to su korisnici koji su sami pronašli vaš internetski resurs koristeći ključne riječi u Yandexu ili Google-u. Organski promet je ukusan dio kolača (ciljne publike). Što je viši nivo, veća je konverzija i prodaja stranice.

Kako bi korisnici lako pronašli vaš Internet resurs, važno je da ga popunite pravim sadržajem. Pretraživači, u zavisnosti od kvaliteta sadržaja, rangiraju sajtove, što utiče na njihovo mesto u rezultatima pretrage. Ispostavilo se da znajući kako pretraživači indeksiraju internetske resurse, možete optimizirati njihov sadržaj i promovirati ih na TOP.

S druge strane, pretraživači se mogu koristiti za analizu radnji korisnika. Da prouče šta traže, koje informacije, robe ili usluge su im sada relevantne. Ako je, prema statistici Yandexa, moguće formirati sliku o akcijama korisnika Runeta, onda je prema Google-u moguće formirati sliku globalnog Interneta.

Osnovni koncept s kojim svaki pretraživač radi je indeks pretraživanja - određena struktura podataka koja odražava informacije o dokumentima i lokaciji ključnih riječi u njima.

Principi rada mnogih pretraživača su vrlo slični. Glavna razlika leži u pristupu rangiranju sajta (način na koji su resursi poredani u rezultatima pretrage).

Svakodnevno veliki broj korisnika traži razne informacije koristeći pretraživače.

Na primjer, popularni upiti za pretraživanje su:

"Apstrakt za pisanje":

"Kupi":

Da bi se povećala brzina pretraživača, arhitektura pretraživanja sastoji se od dva elementa:

osnovna pretraga;
metasearch.

Osnovna pretraga- program koji pretražuje unutar svog dijela indeksa i daje korisniku sve linkove koji odgovaraju upitu za pretraživanje.

Metatraga- program koji prilikom obrade zahtjeva određuje lokaciju korisnika i izdaje gotov rezultat pretrage, ako je ključna riječ popularna, ali ako takvih zahtjeva ranije nije bilo, onda se osnovna pretraga povezuje s radom, koji obrađuje veze u bazi podataka koristeći mašinsko učenje i izdaje njihovu listu korisniku.

Pretraživač istovremeno analizira korisnika i sam upit za pretraživanje prema sljedećim kriterijima:

dužina;
definicija;
popularnost;
konkurentnost;
sintaksa;
geografija.

Postoje sljedeće vrste zahtjeva:

navigacija;
informativni;
transakcijski;
multimedija;
general;
službeni.

Nakon što je upit za pretraživanje raščlanjen po parametrima i klasifikovan prema jednom od navedenih tipova, pretraživač bira funkciju rangiranja.

Pretraživači ne otkrivaju informacije o rangiranju upita za pretraživanje, tako da su primjer na gornjoj slici samo pretpostavke SEO stručnjaka.

Za odabir strategije promocije web stranice potrebno je poznavanje vrsta zahtjeva. Na primjer, ako korisnik unese opći upit, onda će mu pretraživač dati linkove različitih tipova (komercijalne, multimedijalne, informativne, itd.). Ako istovremeno promovirate svoju komercijalnu stranicu na opći zahtjev i želite je dovesti u prvih deset rezultata pretraživanja, onda s velikom vjerovatnoćom nećete ući u TOP, već samo po broju komercijalnih mjesta Internet resursi, određeni formulom rangiranja pretraživača. Ispostavilo se da je mnogo teže promovirati web stranicu do prvih redova u rezultatima pretraživanja za opće upite nego za druge tipove.

Yandex pretraživač koristi mašinsko učenje od 2009. Matrixnet- poseban algoritam koji rangira stranice za određene upite.

Osnovni princip ovog algoritma je sledeći: Odeljenje za procenu prikuplja primarne informacije za procenu efikasnosti formule za rangiranje. Zaposlenici ovog odjela, na osnovu eksperimentalne formule, procjenjuju uzorak internetskih resursa prema određenim parametrima:

1. Vital- službeni internetski resurs kompanije ili ne. To može biti web stranica, stranica na društvenoj mreži ili informacije o autoritativnim resursima.

2. Korisno(ocjena 5) - stranica koja pruža sve potrebne informacije za upit za pretraživanje. Na primjer, korisnik u polje za pretragu unese "tkaninu banera". Da bi algoritam procijenio resurs kao koristan, on mora sadržavati sljedeće informacije:

šta je tkanina za banere;
specifikacije;
Photo;
vrste;
cjenovnik;
Dodatne informacije.

Primjeri upita koji dospiju u VRH rezultata pretraživanja:

3. Relevantno+(ocjena 4) - ovaj rezultat pokazuje da se informacije na web stranici podudaraju s upitom za pretraživanje.

4. Relevantno-(ocjena 3) - stranica ne odgovara u potpunosti upitu za pretraživanje. Na primjer, ako upit "čuvari galaksije prikazuje" pretraživač prikazuje linkove na stranice o filmu, ali bez rasporeda emisija ili sa zastarjelim rasporedom.

5. Nebitno(ocjena 2) - stranica ne odgovara na upit za pretraživanje. Na primjer: korisnik traži informacije o jednom hostelu, a pretraživač mu daje stranicu potpuno drugog.

Da biste promovirali web stranicu za opće ili informativne upite za pretraživanje, potrebno je da optimizirate njen sadržaj na način da pretraživač dodjeljuje ocjenu „korisno“ tokom rangiranja.

Na čemu se zasniva princip rada svakog pretraživača?

Pretraživač tradicionalno omogućava:

Principi pretraživača zasnovani su na interakciji tri glavna elementa. Prvo se vrši pretraga na unesenom korisniku ključne riječi ili fraze, zatim unutra proces matematičke formacije rezultati su grupirani po vezama i stranicama. I konačno, za čitanje informacija sa odabranih internetskih resursa, koristi se robot za pretragu ili drugi alat. Glavni roboti za pretragu koji su trenutno popularni:

web crawler(drugo ime je "crawler") - program koji "šeta" po webu. Posjećuje samo one stranice na kojima pronađe barem minimalno podudaranje s onim što je navedeno u upitu za pretraživanje. Rad počinje listom adresa iz dostupnih baza podataka ili indeksom.
Indeks."Crawler" prosljeđuje sve primljene informacije u indeks pretraživanja. Dakle, potonji uvijek ima ažurne informacije o pronađenim stranicama i web stranicama. Ako se ažuriranja preuzmu na resurs ili stranicu, tada se i ove informacije ažuriraju u indeksu.
Pretraživač (server) je poseban softver čija je glavna funkcija analizirati informacije prikupljene u indeksu pretraživanja. Algoritam pretraživača radi na principu podržavanja samo konačnih rezultata pretraživanja internetskih resursa. Tražilica sama odlučuje kako će distribuirati stranice u rezultatima pretraživanja.

Svaka tražilica ima za cilj da korisniku pruži najrelevantnije i najkorisnije stranice koje odgovaraju upitu za pretraživanje. U tehničkom smislu, to se zove "relevantnost odgovora". Na primjer, za promociju online trgovine od velike je važnosti usklađenost sadržaja objavljenog na njoj potrebama korisnika. Optimizacija web stranice će povećati njenu poziciju u rezultatima pretraživanja.

Razmotrite glavne karakteristike internet pretraživača i principe njihovog rada:

potpunost- ključna karakteristika pretraživača. Izračunava se kao omjer broja dokumenata odabranih na zahtjev korisnika i ukupnog broja dokumenata na webu koji odgovaraju upitu za pretragu. Na primjer, na Internetu postoji 200 stranica na kojima se koristi fraza "kako odabrati frižider", pretraživač je za ovaj upit vratio samo 40, stoga je kompletnost pretrage 0,2. Što je veći rezultat kompletnosti, veća je vjerovatnoća da će korisnik pronaći ono što je tražio (pod pretpostavkom da su ove informacije dostupne na webu).
Preciznost- druga, ali ne manje važna karakteristika pretraživača. Prikazuje korespondenciju pronađenih dokumenata korisnikovom upitu za pretraživanje. Recimo da u našem primjeru postoji 200 stranica za upit "kako odabrati frižider", od kojih 80 sadrži izraz "kako odabrati frižider", a ostale samo imaju odvojene riječi (na primjer, "kako ergonomski postaviti kuhinjski set i odaberite mjesto za frižider"). U ovom slučaju, tačnost pretraživanja će biti jednaka: 80 / 200 = 0,4. Što je tačnost pretrage veća, korisnik će brže pronaći ono što mu je potrebno, a na putu će naići na manje različitog „spama“.
Relevantnost- Još jedan važan parametar pretraživača. Odražava vrijeme proteklo između objavljivanja materijala na Internetu i njegovog ulaska u indeksnu bazu pretraživača. Na primjer, nekoliko sati nakon pada aviona, veliki broj korisnika je pretražio internet za informacije o incidentu. Uprkos činjenici da je prošlo malo vremena od objavljivanja prvih poruka na ovu temu, pretraživači su uspeli da ih indeksiraju, a korisnici su uspeli da saznaju detalje katastrofe.
Brzina Rad tražilice direktno ovisi o njegovoj otpornosti na opterećenja. Na primjer, prema OOO Rambler Internet Holdingu, pretraživač svaki dan obrađuje oko 60 upita za pretraživanje u sekundi. Ova brzina je osigurana skraćenim vremenom obrade svakog pojedinačnog zahtjeva korisnika.
vidljivost predstavljanje rezultata čini pretraživač lakšim za korišćenje. Pretraživač može da pronađe stotine, pa čak i hiljade sajtova pomoću upita za pretragu. Ako zahtjev nije sasvim ispravan, onda čak i prva stranica rezultata pretraživanja može dobiti stranice koje se ne podudaraju baš s onim što korisnik želi pronaći. Kao rezultat toga, osoba je prisiljena filtrirati informacije unutar primljene liste. Odvojeni elementi stranice za izdavanje tražilice pomažu vam da se krećete po rezultatima pretraživanja. Detaljna objašnjenja na stranici rezultata pretraživanja, na primjer, za Yandex, mogu se pogledati na linku http://help.yandex.ru/search/?id=481937.

Da bi se web stranica sa velikom vjerovatnoćom našla na prvoj stranici rezultata pretraživanja, potrebno je:

Koristite sidrene veze koje preusmjeravaju korisnike sa tematskih internet stranica na web stranicu vaše kompanije. Ovo povećava vidljivost internetskog resursa za tražilicu, jer u rezultate pretraživanja može ući ne samo tekst sa vezom do stranice, već i njen URL.
Koristite meta tagove zajedno sa dobro odabranim ključnim rečima. Ovo će učiniti sažetak stranice jedinstvenijim i učinkovitijim.
Primijenite naslov Naslov.
Ispravno sastavite semantičko jezgro stranice. Nije dovoljno distribuirati ključne riječi po sadržaju stranice, važno je to učiniti pažljivo i nenametljivo. Nemojte uključivati ključne riječi u svaku rečenicu. Pretraživač ovo može ocijeniti kao neželjenu poštu.
Koristite URL stranice (adresu njegove lokacije na webu). Pravilno pisanje adrese utiče na njeno rangiranje od strane pretraživača.

O principima rada svih pretraživača jednostavnim riječima

Pretraživač je poseban program s web sučeljem prilagođenim korisniku, pomoću kojeg korisnici mogu brzo i jednostavno pretraživati potrebne informacije na webu. Razmotrite princip rada bilo koje tražilice bez ulaska u detalje i tehničku terminologiju.

Da bi tražilica korisniku pružila listu linkova na stranice koje sadrže informacije o upitu za pretraživanje, mora znati sadržaj sadržaja svih sekcija svake stranice. Kako pretraživač prikuplja ove podatke?

Internet je posebna mreža koja se sastoji od pojedinačnih stranica koje se međusobno povezuju. Pretraživač ne mora ići na svaku od njih, dovoljno je imati informacije o stranicama i direktorijima s najvišim ocjenama kako bi se akumulirali podaci o stranicama za kasnije postavljanje.

Pretraživač, naime, kreira indeks u kojem su adrese svih Internet stranica grupisane na poseban način. Ako se na Webu pojavio novi sajt koji nije referenciran drugim resursima, pretraživaču će biti teško da ga pronađe kako bi ga indeksirao i dodao u svoju bazu podataka.

Nakon što pretraživač generira listu stranica, počinje proces indeksiranja (rad preuzimanja svih podataka sa njih). Uz pomoć programa posebno kreiranih za tu svrhu, pretraživač bilježi nove informacije ili prepisuje stare, brišući nebitne informacije. Rad na indeksiranju sajtova na Internetu je u toku.

Programi prikupljaju podatke u privremenoj memoriji. Tamo se akumuliraju do određene količine, nakon čega se pokreće proces ažuriranja, čiji je glavni princip aktualizacija informacija u glavnoj bazi podataka tražilice.

Indeks pretraživača sadrži ogroman broj stranica. Kada korisnik unese upit u traku za pretragu, pretraživač bira relevantne veze iz svoje baze podataka. Drugim riječima, sastavlja listu stranica na čijim stranicama se pominju ključne riječi koje je odredio korisnik.

Budući da je interna baza tražilice ogromna, rezultati pretrage mogu sadržavati desetine stranica. Kako ih pretraživač rangira? Po kom principu određuje koje stranice u prvom redu treba prikazati korisniku? Sve stranice su sortirane prema sadržaju koji odgovara upitu za pretraživanje. Što je veća kompletnost informacija sadržanih na stranici, to će stranica biti bliže vrhu liste.

Trenutno, pretraživači koriste mašinsko učenje za rangiranje stranica u SERP-ovima. Princip rada ovog procesa može se razmotriti na apstraktnom primjeru.

Recimo da trebamo obučiti robota da razlikuje zrele i nezrele jabuke. Program za određivanje svojstava voća fokusira se na njegove karakteristike:

boja;
veličina;
tvrdoća;
sadržaj šećera;
sadržaj kiseline.

Za analizu, robotu se daju dvije jabuke: nezrele i spremne. On ih poredi. Zatim treniramo mašinu – pokazujemo koje su karakteristike jabuke pozitivne, a koje negativne. Objašnjavamo po kom skupu parametara se voće može klasifikovati kao zrelo ili ne.

Dakle, imamo algoritam za analizu jabuka, pomoću kojeg robot može samostalno da ih sortira. Sada možete dati ne dva ploda, već mnogo više, mašina će ih podijeliti na zrele i nezrele.

Sličan princip rada svojstven je radu tražilice. Postoje stručnjaci uključeni u učenje algoritama mašina za sortiranje sadržaja. Prvo, nezavisno analiziraju stranice koje su bile uključene u rezultate pretraživanja za upit za pretraživanje, dijeleći ih na relevantne i irelevantne. Zatim je robot obučen da sortira stranice.

Relevantnost stranica je indikator u obliku razlomka. Svakoj stranici je dodijeljena drugačija vrijednost relevantnosti. Zatim se svi resursi sortiraju u opadajućem redoslijedu ovog indikatora. Najrelevantnije stranice dolaze na VRH rezultata pretrage.

Osim glavnog algoritma za sortiranje, pretraživači koriste razne dodatne koji također mogu utjecati na rezultate pretraživanja. Na primjer, mogu se koristiti za filtriranje beskrupuloznih stranica koje koriste različite "sive" sheme za promociju.

Osnovni principi pretraživača: formule

Svaki pretraživač koristi svoje jedinstvene algoritme za pretraživanje i rangiranje stranica i sajtova, ali principi rada za sve pretraživače su isti.

Proces traženja informacija koje odgovaraju zahtjevu korisnika sastoji se od nekoliko faza: prikupljanje podataka na Internetu, indeksiranje stranica, pretraživanje po ključnim riječima i rangiranje rezultata. Pogledajmo detaljnije svaku fazu.

Prikupljanje podataka.

Nakon što je stranica spremna, morate biti sigurni da roboti tražilice znaju za njen izgled. Možete postaviti eksterne veze na svoj Internet resurs ili koristiti druge metode. Čim robot uđe na stranicu, prikupit će podatke na svakoj stranici. Ovaj proces se zove puzanje. Prikupljanje informacija sa stranice se događa ne samo nakon njenog kreiranja. Robot će povremeno pretraživati internetske resurse kako bi provjerio relevantnost informacija i ažurirao dostupne podatke.

I za vas i za bota (robota), takva interakcija bi trebala biti obostrano korisna i ugodna. Vi, kao vlasnik sajta, ste zainteresovani da bot radi svoj posao brzo, bez preopterećenja servera, uz što potpunije prikupljanje podataka sa svih stranica. Takođe je važno da bot uradi sve što je brže moguće kako bi prešao na prikupljanje podataka sa sledećeg sajta na svojoj listi. Sa svoje strane, možete provjeriti da li stranica radi, da nema problema sa navigacijom, nema 404 stranica itd.

Indeksiranje.

Čak i ako je robot posjetio vašu stranicu više puta, to ne znači da će internetski resurs odmah postati vidljiv tražilici i da će se pojaviti u rezultatima pretraživanja. Nakon prikupljanja podataka, sljedeća faza procesa obrade stranice je njeno indeksiranje (kreiranje invertirane indeksne datoteke za svaku stranicu). Indeks je potreban za brzo pretraživanje. U pravilu se sastoji od liste riječi iz teksta i informacija o njima (pozicije u tekstu, težina itd.).

Nakon što je indeksiranje završeno, stranica i pojedinačne stranice pojavljuju se u rezultatima tražilice za upite pretraživanja korisnika. Obično proces indeksiranja ne traje mnogo vremena.

Potražite informacije.

U ovoj fazi, informacije se direktno traže upitima korisnika. Prvo, pretraživač analizira upit, određuje težinu svake ključne riječi. Zatim traži podudaranja po invertiranim indeksima, odabire sve dokumente u bazi podataka tražilice koji odgovaraju upitu za pretraživanje.

Usklađenost dokumenta sa zahtjevom utvrđuje se posebnom formulom:

similatiry(Q,D) = SUM(w qk * w dk),

gdje simulacija (Q,D)- sličnost upita Q dokument D; w qk- težina k-te riječi u upitu; w dk- težina k-te riječi u dokumentu.

Dokumenti koji su najsličniji upitu korisnika odražavaju se u rezultatima pretraživanja.

Rasponu.

U posljednjoj fazi, pretraživač grupiše rezultate tako da korisnik prvo vidi linkove do najrelevantnijih stranica. Svaki pretraživač ima svoju jedinstvenu formulu rangiranja, koja uzima u obzir uticaj sledećih parametara:

težina stranice (indeks citata, PageRank);
autoritet domena;
relevantnost teksta za upit;
relevantnost tekstova eksternih veza za upit;
kao i mnogi drugi faktori rangiranja.

Na primjer, razmotrite pojednostavljenu formulu rangiranja:

Ra(x) = (m * Ta(x) + p*La(x)) * F(PRa),

Gdje Ra(x)- konačnu usklađenost dokumenta a zahtjev x, porez(x)- relevantnost teksta (šifra) dokumenta a zahtjev x, La(x)- relevantnost teksta linkova iz drugih dokumenata na dokument a zahtjev x, PR- indikator autoriteta stranice a, konstanta u odnosu na X,
F(PRa) je monotono neopadajuća funkcija, i F(0) = 1, može se pretpostaviti da F(PRa) = (1 + q * PRa), m, str, q su neki koeficijenti.

Dakle, na mjesto stranice u rezultatima pretrage utječu različiti faktori koji su i povezani sa upitom za pretraživanje, ali i nisu povezani s njim.

Princip rada sistema za pronalaženje informacija: kriterijumi rangiranja

Ako želite da vaš internet resurs bude među prva tri ili barem deset rezultata pretrage, potrebno je da poznajete principe pretraživača i kriterijume rangiranja kako biste sajt stalno optimizovali za njihove zahteve. Postoje dvije glavne grupe takvih kriterija:

Kriterijumi tražilice teksta.

Pretraživač u ovom slučaju rangira stranice na osnovu kvaliteta njihovog tekstualnog sadržaja. Optimizacija ove komponente stranice uključuje rad sa semantičkom jezgrom u fazi kreiranja i popunjavanja internetskog resursa.

Pretraživač, koji obrađuje zahtjev korisnika, prikazat će najrelevantnije rezultate na prvoj stranici izdanja. U procesu pretraživanja dokumenata, pretraživač analizira ispravnost popunjavanja naslovne fraze (naslov), opisa stranice (opis) i prisutnost ključnog upita u naslovima (H1, H2, itd.).

Kriteriji pretraživača bez teksta.

Pretraživač radi na analizi ovih kriterija nakon što je stranica objavljena i indeksirana. Osnovni princip rangiranja prema kriterijumima ove grupe nije procena kvaliteta njihovog sadržaja, već profila eksterne veze.

Pretraživač analizira broj linkova na stranicu sa drugih internetskih resursa, procjenjuje njihov kredibilitet, pregledava registracije u imenicima. Ako povučemo analogiju, onda pretraživač, poput banke koja odluči dati kredit nekom preduzeću, prikuplja recenzije o tome od izvođača radova, dobavljača i drugih kreditora.

Poznavanje načina rada pretraživača pomoći će vam da kreirate i optimizirate web stranice koje će lako zauzeti prve pozicije u rezultatima pretraživanja i ostati tamo dugo, jer odgovaraju upitima za pretraživanje korisnika.

Princip rada Yandex pretraživača

Rad tako velikih i poznatih pretraživača kao što su Google i Yandex zasniva se na sistemu klastera. Grupiraju sve informacije u određenim oblastima, vezane za određeni klaster. Za indeksiranje stranica i pojedinačnih stranica i prikupljanje podataka sa njih koriste se posebni roboti za indeksiranje. Oni su dva tipa: glavni robot robot (dizajniran za prikupljanje podataka sa redovno ažuriranih internet resursa) i robot robot (potreban za ažuriranje liste indeksiranih sajtova i njihovih indeksa u najkraćem mogućem roku). Kako bi Yandex tražilica prikupljala informacije na Internetu što je potpunije moguće, baza pretraživanja i programski kod se redovno ažuriraju:

Baza podataka o pretraživanju ažurira se nekoliko puta mjesečno, dok korisnici dobijaju ažurirane podatke sa Internet resursa prilikom unosa upita u liniju za pretragu. Ove podatke dodaje glavni robotski skener.
Ažuriranje programskog koda ili, kako ga programeri nazivaju, "motor" je dizajniran da pronađe i otkloni nedostatke algoritama koji rangiraju stranice u rezultatima pretrage. Yandex obično upozorava korisnike o nadolazećim promjenama.

Glavna prednost Yandex tražilice, koja objašnjava njegovu popularnost u Runetu, je mogućnost pronalaženja različitih oblika riječi, uzimajući u obzir morfološke karakteristike ruskog jezika. Geotargetiranje i formula za pretragu vam omogućavaju da dobijete najpreciznije formulacije na izlazu. Yandex također ima svoj jedinstveni algoritam za rangiranje stranica i stranica. Neosporna prednost sistema je brzina obrade korisničkih upita za pretraživanje i stabilan rad servera.

Kao što je već spomenuto, prilikom indeksiranja resursa, tražilica gleda na dinamičke veze, čije prisustvo može uzrokovati da bot odbije odrediti indeks stranice.

Yandex se zasniva na analizi tekstualnog sadržaja u dokumentima sa različitim ekstenzijama (.pdf, .rtf, .doc, .xls, .ppt, itd.).

U procesu indeksiranja internet resursa, pretraživač preuzima podatke iz datoteke robots.txt, dok su atribut Allow i neki od meta tagova podržani, a meta tagovi Revisit-After i Keywords nisu uzeti u obzir.

Isječci (kratki opisi tekstualnih dokumenata) sastoje se od fraza na stranici koju tražite, tako da upisivanje oznaka u opis uopće nije potrebno, ali se mogu postaviti ako je potrebno.

Prema mnogim programerima, kod indeksiranih dokumenata se određuje automatski, tako da meta tag kodiranja ne igra veliku ulogu.

Yandex posvećuje veliku pažnju indikatoru posljednje promjene informacija (Last-Modified). Ako server prestane da prenosi ove podatke tražilici, indeksiranje stranice će se obavljati mnogo rjeđe.

Ako internetski resurs ima svoja „ogledala“ (na primjer, http://www.site.ru , http://site.ru , https://www.site.ru), morate se uvjeriti da pretraživač nije indeksiran. Ako to nije moguće, onda je moguće zalijepiti takve stranice zajedno unošenjem odgovarajućih izmjena u dokument robots.txt.

Nakon što internetski resurs uđe u Yandex.Catalog, tražilica će ga klasificirati kao web mjesto koje zahtijeva posebnu pažnju, što će uticati na njegovu promociju. Time će se pojednostaviti i procedura određivanja predmeta stranice, što je nesumnjivo plus, jer će imati značajnu eksternu vezu.

Yandex programeri ne otkrivaju IP adrese svojih robota. Ipak, u log datotekama na raznim stranicama možete pronaći tekstualne oznake koje pripadaju robotima ovog pretraživača.

Najvažniji od svih robota za pretraživanje je glavni. Značaj stranice za Yandex ovisi o rezultatima njegovog rada na indeksiranju stranica.

Svaki robot ima svoj raspored za indeksiranje Internet resursa. Vrijeme rada različitih robota sa svakom od stranica u bazi podataka tražilice se možda neće podudarati.

Osim glavnih robota, pretraživač ima i dodatne koji redovno posjećuju stranice internetskih resursa kako bi provjerili njihovu dostupnost. Na primjer, to su roboti Yandex.Catalog i Yandex reklamne mreže.

Yandex pretraživač fokusira se na sljedeće ključne pokazatelje eksterne optimizacije:

TCI (Public Subject Citation Index) - pokazuje prosječan broj linkova koji pristupaju stranici. Ne utiče direktno na rezultate rangiranja, već se koristi za određivanje pozicija u tematskoj grupi Yandex.Catalog. Koristi se u promociji Internet resursa.
WCI (weighted citation index) je poseban algoritam dizajniran da prebroji broj vanjskih linkova na stranicu. To je od najveće važnosti prilikom rangiranja stranica od strane pretraživača.
Prisustvo stranice u Yandex.Catalogue.
Ukupan broj indeksiranih stranica.
Učestalost indeksiranja sadržaja internetskog resursa.
Prisustvo i odsustvo linkova sa sajta, prisustvo sajta u filterima za pretragu.

Indeks citiranosti je u osnovi tematskog i ponderiranog indeksa citiranosti.

Indeks citiranja(CI) - indikator broja citata (ili referenci na izvor), pomaže da se utvrdi koji se od novonastalih dokumenata odnose na ranije publikacije. IC se koristi i za analizu članaka i autora (na primjer, u naučnom okruženju).

U Yandexu, kao iu drugim pretraživačima, indeks citiranja se smatra brojem povratnih veza bez uzimanja u obzir linkova sa web lokacija sljedećih tipova: nemoderirani direktoriji, oglasne ploče, mrežne konferencije, stranice sa statistikom servera, XSS veze itd., čiji se broj može stalno povećavati bez učešća vlasnika resursa.

Treba pojasniti da se u Aport katalogu IC smatra ponderisanim indeksom citata.

Za izračunavanje ovog indeksa koristi se graf veza: ako su stranice vrhovi grafa, a veze ka drugim stranicama veze vrhova ili ivica grafa, tada se graf veza pojavljuje kao dijagram prikazan na slici:

Gdje su A, B, ..., F određene stranice u indeksu Yandex pretraživača, a strelice pokazuju smjerove veza između njih (jednosmjerne ili dvosmjerne).

Indeks citiranosti igra veliku ulogu u rangiranju dokumenata od strane pretraživača, ali konačni rezultati zavise ne samo od ovog indikatora.

Vjeruje se da indeks citiranja karakterizira značaj publikacije, ali istovremeno ne odražava strukturu linkova stranice, zbog čega se resursi s različitim brojem vanjskih veza mogu indeksirati na isti način.

Da bi se otklonio ovaj nedostatak, koristi se ponderisani indeks citiranja, koji karakteriše ne samo količinu, već i kvalitet referentnih resursa. Korištenje pretraživanja linkova i popularnosti statičkih linkova olakšava rad pretraživačima, čuvajući ih od raznih neželjenih tekstova. Google pretraživač koristi PageRank, koji je sličan ponderiranom indeksu citiranja.

Za izračunavanje VCI, kao i drugih faktora koji utiču na rangiranje, koristi se referentni graf. Vlasnik stranice može samostalno procijeniti VCI svog Internet resursa tako što će provjeriti njegovu vrijednost PageRank koristeći bilo koju od dostupnih online usluga. Ali treba imati na umu da Yandex indeks sadrži samo dokumente na ruskom jeziku i samo nekoliko popularnih dokumenata iz stranih, tako da će se vrijednost Yandex VIC-a razlikovati od Google PageRank-a.

Po definiciji, internet pretraživač je sistem za pronalaženje informacija koji nam pomaže da pronađemo informacije na World Wide Webu. Ovo olakšava globalnu razmjenu informacija. Ali internet je nestrukturirana baza podataka. Eksponencijalno raste i postao je ogromno skladište informacija. Pronalaženje informacija na Internetu je težak zadatak. Postoji potreba za alatom za upravljanje, filtriranje i izdvajanje ovih informacija o oceanu. Ovoj svrsi služi pretraživač.

Kako radi pretraživač?

Internet pretraživači su mašine koje pretražuju i preuzimaju informacije na Internetu. Većina njih koristi arhitekturu indeksera indeksiranja. Zavise od svojih modula staze. Crawlers, koji se nazivaju i pauci, mali su programi koji indeksiraju web stranice.

Pokretači posjećuju početni skup URL-ova. Oni kopaju URL-ove koji se pojavljuju na indeksiranim stranicama i šalju ove informacije modulu za indeksiranje. Pokretač odlučuje koje stranice će sljedeće posjetiti i daje te URL-ove pretraživačima.

Teme koje pokrivaju različite tražilice razlikuju se ovisno o algoritmima koje koriste. Neki pretraživači su programirani da pretražuju sajtove za određenu temu, dok drugi pretraživači mogu da posete što je više mesta moguće.

Modul za indeksiranje izvlači informacije sa svake stranice koju posjeti i dodaje URL u bazu podataka. Ovo rezultira ogromnom tabelom pretraživanja, od liste URL-ova koji upućuju na stranice sa informacijama. Tabela prikazuje stranice koje su bile pokrivene tokom indeksiranja.

Modul analize je još jedan važan dio arhitekture pretraživača. Kreira indeks korisnosti. Uslužni program za indeksiranje može odobriti pristup stranicama određene dužine ili stranicama koje sadrže određeni broj slika na sebi.

Tokom procesa indeksiranja i indeksiranja, pretraživač pohranjuje stranice koje preuzme. Oni su privremeno pohranjeni u skladištu stranice. Pretraživači održavaju predmemoriju stranica koje posjećuju kako bi ubrzali pronalaženje već posjećenih stranica.

Modul upita tražilice prima upite za pretraživanje od korisnika u obliku ključnih riječi. Modul za rangiranje sortira rezultate.

Arhitektura indeksera indeksera ima mnogo varijacija. Oni se mijenjaju u arhitekturi distribuiranog pretraživača. Ove arhitekture se sastoje od kolekcionara i brokera. Sakupljači prikupljaju informacije o indeksiranju sa web servera, dok brokeri pružaju mehanizam za indeksiranje i interfejs za upite. Brokeri indeksiraju ažuriranje na osnovu informacija dobijenih od sakupljača i drugih brokera. Oni mogu filtrirati informacije. Mnogi pretraživači danas koriste ovu vrstu arhitekture.

Pretraživači i rangiranje stranica

Kada kreiramo upit u tražilici, rezultati se prikazuju određenim redoslijedom. Većina nas ima tendenciju da posjećuje stranice s najvećom narudžbom i ignorira posljednje. To je zato što mislimo da je prvih nekoliko stranica relevantnije za naš upit. Dakle, svi su zainteresovani da svoje stranice rangiraju u prvih deset rezultata pretraživača.

Riječi navedene u interfejsu upita tražilice su ključne riječi koje su tražili tražilice. Oni su lista stranica koje se odnose na tražene ključne riječi. Tokom ovog procesa, pretraživači preuzimaju one stranice na kojima se te ključne riječi često pojavljuju. Oni traže odnose između ključnih riječi. Lokacija ključnih riječi se također uzima u obzir, kao i rang stranice koja ih sadrži. Ključne riječi koje se pojavljuju u naslovima stranica ili URL-ovima imaju veću težinu. Stranice koje imaju veze koje upućuju na njih čine ih još popularnijim. Ako se mnoge druge stranice povezuju na stranicu, ona se smatra vrijednom i relevantnijom.

Postoji algoritam za rangiranje koji koristi svaki pretraživač. Algoritam je kompjuterizovana formula dizajnirana da obezbedi relevantne stranice na zahtev korisnika. Svaki pretraživač može imati drugačiji algoritam za rangiranje koji analizira stranice u bazi podataka motora kako bi odredio odgovarajuće odgovore na upite za pretraživanje. Pretraživači indeksiraju različite informacije na različite načine. Ovo ima za posledicu da određeni upit koji se isporučuje na dva različita pretraživača može dohvatiti stranice u različitim redosledima ili dohvatiti različite stranice. Popularnost web stranice su determinante relevantnosti. Popularnost web lokacije putem klikova je još jedan faktor koji određuje njen rang. Ovo je mjera za to koliko često se stranica posjećuje.

Webmasteri pokušavaju da prevare algoritme pretraživača kako bi poboljšali poziciju svoje stranice u SERP-ovima. Punjenje stranica web stranice ključnim riječima ili korištenje meta tagova za zavaravanje strategija rangiranja na pretraživačima. Ali pretraživači su dovoljno pametni! Oni poboljšavaju svoje algoritme tako da mahinacije webmastera ne utječu na rezultate pretraživanja.

Morate shvatiti da čak i stranice nakon prvih nekoliko na listi mogu sadržavati upravo one informacije koje ste tražili. Ali budite sigurni da će vam dobri pretraživači uvijek donositi visoko relevantne stranice na vrhu!

Najpopularnija web usluga danas je tražilica. Ovdje je sve razumljivo, jer su vremena kada su predstavnici prvih korisnika interneta mogli promatrati nove artikle na mreži davno prošla.

Pojavljuje se i nakuplja toliko informacija da je čovjeku postalo jako teško pronaći upravo onu koja bi mu trebala. Zamislite kako bi bilo pretraživati internet kada bi običan korisnik morao tražiti informacije koje ne razumijem gdje. Ne razumijem tačno gdje, jer ručnom pretragom nećete naći puno informacija.

Pretraživač, šta je to?

Dobro je ako korisnik već poznaje stranice koje mogu imati potrebne informacije, ali šta drugo učiniti? Kako bi čovjeku olakšali život u pronalaženju potrebnih informacija na Internetu, izmišljene su tražilice ili jednostavno tražilice. Pretraživač obavlja jednu vrlo važnu funkciju, bez koje Internet ne bi bio isti kakav smo navikli vidjeti - to je potraga za informacijama na mreži.

Sistem pretraživanja- ovo je posebna web stranica ili na drugi način stranica koja korisnicima pruža hiperveze do stranica, stranica koje odgovaraju na zadati upit pretraživanja, na njihov zahtjev.

Da budemo malo precizniji, radi se o potrazi za informacijama na Internetu, koja se odvija zahvaljujući softverskom i hardverskom funkcionalnom setu i web interfejsu za interakciju sa korisnicima.

Za ljudsku interakciju sa pretraživačem kreiran je web interfejs, odnosno vidljiva i razumljiva ljuska. Ovaj pristup programera pretraživača olakšava pretraživanje mnogim ljudima. U pravilu, internet se pretražuje pomoću pretraživača, ali postoje i tražilice za FTP servere, određene vrste robe na World Wide Webu, ili informacije o vijestima ili drugim smjerovima pretraživanja.

Pretraživanje se može vršiti ne samo na tekstualnim sadržajima web lokacija, već i na drugim vrstama informacija koje osoba može tražiti: slike, video zapisi, zvučni fajlovi itd.

Kako se pretraživanje vrši od strane pretraživača?

Samo pretraživanje na internetu, baš kao i pretraživanje web stranica, moguće je uz pomoć internet pretraživača – pretraživača. Tek nakon što korisnik postavi svoj upit u traci za pretraživanje, sama pretraga se vrši direktno.

Svaka tražilica sadrži softverski dio na kojem se temelji cijela tražilica, zove se tražilica - ovo je softverski paket koji pruža mogućnost pretraživanja informacija. Nakon kontaktiranja tražilice, formiranja upita za pretraživanje od strane osobe i unošenja u traku za pretraživanje, tražilica generira stranicu sa listom rezultata pretraživanja, a najrelevantniji se, prema tražilici, nalaze više ovdje.

Relevantnost pretrage - traženje najrelevantnijih materijala prema zahtjevu korisnika i postavljanje hiperlinkova na njih na stranici rezultata pretrage sa preciznijim rezultatima iznad ostalih. Sama distribucija rezultata naziva se rangiranje sajta.

Dakle, kako pretraživač priprema svoje materijale za izdavanje i kako pretraživač traži informacije? Prikupljanje informacija na mreži olakšava robot jedinstven za svaku tražilicu ili na drugi način bot, koji ima i niz drugih sinonima poput crawlera ili pauka, a sam sistem pretraživanja može se podijeliti u tri faze :

Prva faza rada pretraživača uključuje skeniranje sajtova na globalnoj mreži i prikupljanje kopija web stranica na sopstvenim serverima. Ovo formira ogromnu količinu informacija koje još nisu obrađene i nisu prikladne za rezultate pretraživanja.

Druga faza rada pretraživača svodi se na dovođenje u red informacija dobijenih ranije, u prvoj fazi, sa stranica. Provodi se takvo sortiranje koje će u najkraćem vremenu pogodovati vrlo kvalitetnoj pretrazi koju korisnici zapravo očekuju od tražilice. Faza se naziva indeksiranje, što znači da su stranice već pripremljene za izdavanje, a trenutna baza podataka će se smatrati indeksom.

To je treća faza koja određuje rezultate pretrage, nakon što dobijete zahtjev od vašeg klijenta, na osnovu ključnih riječi ili u blizini ključnih riječi navedenih u zahtjevu. To doprinosi odabiru najrelevantnijih informacija za zahtjev, te njihovom naknadnom izdavanju. S obzirom da ima mnogo informacija, pretraživač vrši rangiranje u skladu sa svojim algoritmima.
Najbolji pretraživač je onaj koji može dati materijal koji najtačnije odgovara na zahtjev korisnika. Ali čak i ovdje mogu postojati rezultati na koje su utjecali ljudi zainteresirani za promociju svoje stranice, takve stranice, iako ne uvijek, često se pojavljuju u rezultatima pretraživanja, ali ne zadugo.

Iako su svjetski lideri već identificirani u mnogim regijama, pretraživači nastavljaju razvijati kvalitetnu pretragu. Što bolju pretragu mogu pružiti, više ljudi će je koristiti.

Kako koristiti pretraživač?

Šta je pretraživač i kako radi već je jasno, ali kako ga pravilno koristiti? Većina sajtova uvek ima traku za pretragu, a pored nje je dugme Pronađi ili Pretraži. U traku za pretragu se unosi upit, nakon čega je potrebno pritisnuti dugme za pretragu ili, što je češće slučaj, pritisnuti taster Enter na tastaturi i za nekoliko sekundi dobićete rezultat upita u obliku liste.

Ali dobijanje tačnog odgovora na upit za pretragu nije uvek moguće prvi put. Kako potraga za onim što želite ne bi postala bolna, morate pravilno sastaviti upit za pretraživanje i slijediti dolje opisane preporuke.

Pravilno sastavite upit za pretragu

Slijedi nekoliko savjeta za korištenje tražilice. Pridržavanje nekih trikova i pravila prilikom pretraživanja informacija u tražilici omogućit će mnogo brže postizanje željenog rezultata. Slijedite ove smjernice:

Pravilno pisanje riječi osigurava maksimalan broj podudaranja sa željenim informacijskim objektom (iako su moderni pretraživači već naučili kako da ispravljaju pravopisne greške, ovaj savjet ne treba zanemariti).
Korištenjem sinonima u upitu može se pokriti širi raspon pretraživanja.
Ponekad promjena riječi u tekstu upita može donijeti bolji rezultat, stoga preformulirajte upit.
Unesite specifičnost u upit, koristite tačna pojavljivanja fraza koje bi trebalo da odrede glavnu suštinu pretrage.
Eksperimentirajte s ključnim riječima. Upotreba ključnih riječi i fraza može pomoći da se identificira glavna stvar, a pretraživač će vratiti relevantniji rezultat.

Dakle, što je tražilica - ovo nije ništa drugo nego prilika da pronađete informacije koje vas zanimaju i obično ih potpuno besplatno koristite, nešto naučite, nešto shvatite ili izvučete pravi zaključak za sebe. Mnogi ljudi više ne zamišljaju svoj život bez glasovne pretrage, u kojoj ne morate kucati tekst, samo trebate izgovoriti svoj zahtjev, a mikrofon je ovdje ulazni uređaj. Sve to svjedoči o stalnom razvoju tehnologija pretraživanja na Internetu i potrebi za njima.

Pretraživač je baza podataka specifičnih informacija na Internetu. Mnogi korisnici vjeruju da čim unesu upit u tražilicu, odmah počinju skenirati cijeli internet, ali to uopće nije slučaj. Internet skeniranje se dešava konstantno, mnogi programi, podaci o sajtovima se unose u bazu podataka, gde se, prema određenim kriterijumima, svi sajtovi i sve njihove stranice distribuiraju u razne liste i baze podataka. To jest, to je neka vrsta datoteke s podacima, a pretraga se ne odvija na Internetu, već na ovoj datoteci.

Google je najpopularniji pretraživač na svijetu.

Pored pretraživača, Google nudi mnoge dodatne usluge, softver i hardver, uključujući mail servis, Google Chrome pretraživač, najveću youtube videoteku i mnoge druge projekte. Google samouvjereno kupuje mnoge projekte koji donose velike zarade. Većina usluga nije usmjerena na direktnog korisnika, već na zaradu na internetu i integrirana je s fokusom na interese europskih i američkih korisnika.

Mail je pretraživač popularan uglavnom zbog usluge pošte.

Postoji mnogo dodatnih usluga, od kojih je ključ mail Mail, trenutno Mail posjeduje društvenu mrežu Odnoklassniki, svoju mrežu My World, Money-mail servis, mnoge online igre, tri gotovo identična pretraživača s različitim nazivima. Sve aplikacije i usluge imaju puno reklamnog sadržaja. Društvena mreža "VKonatkte" blokira direktne prijelaze na Mail servise, svađajući se s velikim brojem virusa.

Wikipedia.

Wikipedia je referentni sistem koji se može pretraživati.

Neprofitni pretraživač koji postoji na privatne donacije, stoga ne puni stranice reklamama. Višejezični projekat čiji je cilj stvaranje kompletne referentne enciklopedije na svim jezicima svijeta. Nema određenih autora, popunjavaju ga i vode volonteri iz cijelog svijeta. Svaki korisnik može i napisati i urediti članak.

Zvanična stranica je www.wikipedia.org.

Youtube je najveća videoteka.

Video hosting sa elementima društvene mreže, gdje svaki korisnik može dodati video. Od trenutka kada ih je nabavio Google Ink, nije potrebna posebna registracija za YouTube, dovoljno je da se registrujete na Google mail servisu.

Zvanična stranica je youtube.com.

Yahoo! je drugi najvažniji pretraživač na svijetu.

Postoje i dodatne usluge, od kojih je najpoznatiji Yahoo mail. Kao dio poboljšanja kvaliteta pretraživača, Yahoo prenosi podatke o korisnicima i njihovim zahtjevima Microsoftu. Iz ovih podataka formira se predstava o interesima korisnika, kao i o tržištu reklamnih sadržaja. Yahoo pretraživač, kao i, bavi se apsorpcijom drugih kompanija, na primjer, Yahoo posjeduje uslugu pretraživanja Altavista i stranicu za e-trgovinu Alibaba.

Zvanična stranica je www.yahoo.com.

WDL je digitalna biblioteka.

Biblioteka prikuplja knjige kulturne vrijednosti u digitalnom obliku. Glavni cilj je povećanje nivoa kulturnog sadržaja interneta. Pristup biblioteci je besplatan.

Službena stranica je www.wdl.org/ru/.

Bing je pretraživač iz Microsofta.

Službena web stranica je www.baidu.com.

Pretraživači u Rusiji

Rambler je "proamerički" pretraživač.

Prvobitno je kreiran kao medijski internet portal. Kao i mnoge druge tražilice, ima usluge pretraživanja slika, video fajlova, mapa, vremenske prognoze, vijesti i još mnogo toga. Izdavači takođe nude besplatni pretraživač Rambler-Nichrome.

Zvanična stranica je www.rambler.ru.

Nigma je inteligentna tražilica.

Pogodniji pretraživač zbog prisustva mnogih filtera i postavki. Interfejs vam omogućava da uključite ili isključite predložene slične vrijednosti u pretraživanju kako biste dobili bolje rezultate. Takođe, kada dobijete rezultat pretrage, omogućava vam da koristite informacije iz drugih velikih pretraživača.

Službena stranica je www.nigma.ru.

Aport - online katalog robe.

U prošlosti je pretraživač, ali nakon što su razvoj i inovacije prekinuti, brzo izgubio tlo pod nogama i . Aport je trenutno trgovačka platforma na kojoj je predstavljena roba više od 1500 kompanija.

Službena stranica je www.aport.ru.

Sputnjik je nacionalni pretraživač i internet portal.

Kreirao Rostelecom. Trenutno je u fazi testiranja.

Službena web stranica je www.sputnik.ru.

Metabot je pretraživač u razvoju.

Zadaci Metabota su kreiranje pretraživača za sve ostale pretraživače, kreiranje pozicija za izdavanje rezultata, uzimajući u obzir podatke čitave liste pretraživača. To jest, to je pretraživač za pretraživače.

Zvanična stranica je www.metabot.ru.

Pretraživač je obustavljen.

Službena stranica je www.turtle.ru.

KM - multiportal.

U početku je stranica bila multi-portal s naknadnim uvođenjem tražilice. Pretraživanje se može vršiti i unutar stranice i na svim praćenim web lokacijama Runeta.

Službena stranica je www.km.ru.

Gogo - ne radi, preusmjerava na pretraživač.

Službena stranica je www.gogo.ru.

Ruski multiportal, koji nije baš popularan, treba poboljšati. Pretraživač uključuje vijesti, TV, igrice, mapu.

Zvanična stranica je www.zoneru.org.

Tražilica ne radi, programeri predlažu korištenje tražilice.