검색 엔진이란 무엇이며 어떻게 작동합니까? 검색 엔진 작동 방식 검색 엔진이란

검색 엔진 또는 간단히 "검색 엔진"은 사용자의 요청에 따라 인터넷 페이지를 검색하는 엔진입니다. 세계에서 가장 유명한 검색 엔진은 Google이고 러시아에서 가장 인기 있는 검색 엔진은 Yandex이며 가장 오래된 검색 엔진 중 하나는 Yahoo입니다. 검색 엔진의 아키텍처에서 다음을 구별할 수 있습니다. 검색 엔진- 소프트웨어 모듈 세트로 표현되는 시스템의 핵심; 데이터베이스 또는 인덱스, 검색 엔진에 알려진 모든 인터넷 리소스에 대한 정보를 저장합니다. 및 진입점사용자를 시스템(www.google.com, www.yandex.ru, ru.yahoo.com 등)에 연결합니다. 이 모든 것은 정보 시스템의 고전적인 3단계 아키텍처에 해당합니다. 사용자 인터페이스, 비즈니스 로직(이 경우 검색 알고리즘 구현으로 표현됨) 및 데이터베이스가 있습니다.

인터넷 검색 사양

언뜻 보기에 인터넷 검색은 예를 들어 처리에서 데이터베이스로 처리하거나 에서 파일을 찾는 작업과 같은 일반적인 정보 검색과 크게 다르지 않습니다. 인터넷의 첫 번째 검색 엔진 개발자도 그렇게 생각했지만 시간이 지남에 따라 그들이 틀렸다는 것을 깨달았습니다 ...

인터넷 검색과 일반 검색의 첫 번째 차이점은 동일한 데이터베이스에 대한 검색 알고리즘이 해당 구조가 검색 엔진과 요청 작성자에게 미리 알려져 있다고 가정한다는 것입니다. 인터넷에서는 명백한 이유로 그렇지 않습니다. 인터넷 페이지는 디렉토리 구조가 아니라 검색 알고리즘에도 영향을 미치는 네트워크이며 인터넷 리소스에 게시되는 데이터의 형식은 누구도 통제할 수 없습니다.

첫 번째 결과 중 하나인 두 번째 차이점은 요청이 매개변수 값 집합(검색 기준)이 아니라 사람이 자연어로 작성한 텍스트로 표시된다는 것입니다. 따라서 검색을 시작하기 전에 요청자가 정확히 무엇을 원하는지 이해해야 합니다. 다른 사람이 이해하는 것이 아니라 컴퓨터를 위한 것임을 알려드립니다.

세 번째 차이점은 덜 명확하지만 덜 근본적인 것은 아닙니다. 카탈로그나 데이터베이스에서 모든 요소는 동일합니다. 인터넷에는 경쟁이 존재하고, 결과적으로 보다 "신뢰할 수 있는 정보 제공자"와 "정보 쓰레기"에 가까운 출처로 분할됩니다. 이것이 사람들이 리소스를 분류하는 방법이며 검색 엔진도 리소스에 속합니다.

그리고 결론적으로, 검색 영역은 수십억 페이지, 각각 몇 킬로바이트 이상이라는 것을 추가해야합니다. 매일 약 천만 페이지가 추가되고 동일한 숫자가 업데이트됩니다. 이 모든 것이 다양한 디지털 형식으로 제공됩니다. 불행히도 인터넷에서 검색 서비스 시장의 리더가 마음대로 사용할 수 있는 최신 기술과 리소스로도 이러한 모든 다양성을 "즉시" 완전하게 처리할 수 없습니다.

검색 엔진이란 무엇입니까

우선, 인터넷에서 검색 엔진의 작동과 다양한 디렉토리 및 데이터베이스에서 검색하는 다른 정보 시스템의 작동 사이에 가장 중요한 차이점을 하나 더 인식하는 것이 중요합니다. 인터넷 검색 엔진은 요청을 받은 시점에 인터넷에 있는 정보 중에서 정보를 찾지 않고 자체 정보 저장소를 기반으로 답변을 구성하려고 시도합니다. 주기적으로 업데이트합니다. 즉, 검색 엔진은 원본과 작동하지 않고 유효한 검색 값 범위의 투영으로 작동합니다. 인터넷의 모든 최신 변경 사항은 관련 페이지가 표시된 후에만 검색 결과에 반영될 수 있습니다. 인덱싱된- 검색 엔진 색인에 추가되었습니다. 따라서 첫 번째 근사에서 검색 시스템은 검색 엔진, 데이터베이스 또는 색인(인덱스) 및 시스템에 대한 진입점으로 구성됩니다.

이제 검색 엔진이 무엇으로 구성되어 있는지 간략하게 설명합니다.

  • 거미 또는 거미(거미).인터넷 리소스 페이지를 다운로드하는 응용 프로그램입니다. 스파이더는 어디에서나 "크롤링"하지 않습니다. 일반 인터넷 브라우저와 동일한 방식으로 페이지의 콘텐츠를 요청하고 서버에 HTTP 요청을 보내고 응답을 받습니다. 페이지 콘텐츠가 다운로드되면 아래에 설명된 인덱서 및 크롤러로 전송됩니다.

  • 인덱서(인덱서).인덱서는 다운로드한 페이지의 콘텐츠에 대한 초기 분석을 수행하고 주요 부분(페이지 제목, 설명, 링크, 제목 등)을 강조 표시하고 이 모든 것을 검색 데이터베이스의 섹션으로 분해하여 검색 엔진 인덱스에 배치합니다. 이 과정을 인터넷 리소스 인덱싱, 따라서 하위 시스템 자체의 이름입니다. 초기 분석 결과에 따라 인덱서는 페이지가 인덱싱될 "가치"가 전혀 없다고 결정할 수도 있습니다. 그러한 결정의 이유는 다를 수 있습니다. 페이지에 이름이 없거나, 이미 색인에 있는 다른 페이지의 정확한 사본이거나, 법으로 금지된 리소스에 대한 링크가 포함되어 있습니다.

  • 크롤러(크롤러).이 "동물"은 거미가 다운로드한 페이지에서 사용할 수 있는 링크를 통해 "크롤링"하도록 설계되었습니다. 크롤러는 현재 페이지에서 사이트의 다른 섹션 또는 외부 인터넷 리소스 페이지로 이어지는 경로를 분석하고 스파이더가 World Wide Web의 스레드를 우회하는 추가 순서를 결정합니다. 검색 엔진의 새 페이지를 찾아 스파이더에 전달하는 것은 크롤러입니다. 크롤러의 작업은 폭과 깊이의 그래프에 대한 검색 알고리즘을 기반으로 구축됩니다.

  • 결과 처리 및 발행을 위한 하위 시스템(검색 엔진 및 결과 엔진).모든 검색 엔진의 가장 중요한 부분. 회사의 이 하위 시스템 작동을 위한 알고리즘은 영업 비밀이기 때문에 개발자가 엄격하게 기밀로 유지합니다. 사용자 쿼리에 대한 검색 엔진 응답의 적절성을 책임지는 것은 검색 엔진의 이 부분입니다. 여기에는 두 가지 주요 구성 요소가 있습니다.
    • 순위 하위 시스템. 범위- 이것은 특정 쿼리에 대한 관련성에 따른 인터넷 사이트의 페이지입니다. 페이지 관련성- 이것은 차례로 페이지 내용과 요청의 의미를 준수하는 정도이며 검색 엔진은 수많은 매개 변수를 기반으로이 값을 독립적으로 결정합니다. 순위는 검색 엔진의 "인공 지능"에서 가장 신비하고 논란이 많은 부분입니다. 페이지의 순위는 구조 및 콘텐츠(콘텐츠) 외에도 다음의 영향을 받습니다. 다른 사이트에서 이 페이지로 연결되는 링크의 수와 품질; 사이트 자체의 도메인 나이; 페이지를 탐색하는 사용자 행동의 특성 및 기타 여러 요인.

    • 결과를 발행하기 위한 서브시스템.이 하위 시스템의 작업에는 사용자 요청의 해석, 구조화된 색인 쿼리 언어로의 번역, 검색 결과 페이지의 형성이 포함됩니다. 쿼리 텍스트 자체를 구문 분석하는 것 외에도 검색 엔진은 다음을 고려할 수도 있습니다.
      • 요청 컨텍스트, 형성 사용자가 이전에 요청한 내용의 의미를 기반으로. 예를 들어, 사용자가 자동차 주제에 관한 사이트를 자주 방문하는 경우 "Volga" 또는 "Oka"라는 단어가 포함된 요청에 대한 응답으로 러시아인의 위치가 아니라 이러한 브랜드의 자동차에 대한 정보를 얻고자 할 것입니다. 같은 이름이 흐름을 시작하고 강이 흐르는 곳에서 시작합니다. 그것은이라고 개인화된 검색, 다른 사용자에 대한 동일한 요청에 대한 출력이 크게 다른 경우.

      • 사용자 기본 설정, 그것에 대해 (검색 엔진)이 "추측"할 수 있습니다. 사용자가 선택한 링크 구문 분석검색결과 페이지에서 이것은 요청의 컨텍스트를 조정하는 또 다른 방법입니다. 사용자는 자신의 행동을 통해 정확히 자신이 찾고자 하는 것을 기계에 알려줍니다. 일반적으로 검색 엔진은 검색어와 관련이 있지만 삶의 완전히 다른 영역과 관련된 페이지를 검색 결과에 추가하려고 합니다. 사용자가 영화에 관심이 있어 영화 공지가 있는 페이지로 연결되는 링크를 선택하는 경우가 많다고 가정해 보겠습니다. 이러한 페이지는 원래 검색어와 관련성이 높지 않은 경우에도 마찬가지입니다. 그의 다음 요청에 대한 응답을 구성할 때 시스템은 요청 텍스트의 단어가 있는 제목에 영화 설명이 있는 페이지를 우선적으로 제공할 수 있습니다.

      • 지역, 이는 현지 공급업체로부터 상품 및 서비스 구매와 관련된 상업적 문의를 처리할 때 매우 중요합니다. 판매 및 할인에 관심이 있고 모스크바에 있는 경우 요청 텍스트에 명시적으로 표시하지 않은 경우 상트페테르부르크에서 이 주제에 대한 어떤 프로모션이 개최되는지에 관심이 없을 가능성이 큽니다. 우선, 모스크바에서의 판매에 대한 정보가 검색 결과에 나타나야 합니다. 따라서 현대 검색 엔진은 쿼리를 다음과 같이 나눕니다. 지역 의존적그리고 지리적 독립. 검색 엔진이 귀하의 쿼리가 지역에 따라 다르다고 판단하면 자동으로 지역 속성을 추가하고 인터넷 제공자에 대한 정보에서 결정하려고 합니다.

      • 시간. 검색 엔진은 페이지에 설명된 이벤트가 발생한 시간을 분석해야 하는 경우가 있습니다. 결국 정보는 지속적으로 구식이 되고 있으며 사용자는 주로 최신 뉴스, 현재 예측 및 아직 끝나지 않았거나 미래에 발생해야 하는 이벤트에 대한 발표에 대한 링크가 필요합니다. 페이지의 관련성은 시간에 달려 있다는 것을 이해하고 쿼리가 실행된 순간과 비교하려면 검색 엔진의 상당한 양의 인텔리전스가 필요합니다.

      다음으로 검색 엔진은 가장 가까운 의미를 찾습니다. 핵심 쿼리색인에서 관련성 내림차순으로 링크를 정렬하여 결과를 생성합니다. 색인의 각 키워드에는 관련 페이지의 별도 순위가 있습니다. 문자와 숫자의 모든 조합에 대해 시스템이 새 키 요청을 시작하는 것은 아니지만 특정 사용자 요청의 빈도 분석을 기반으로 이를 수행합니다. 검색 엔진은 사용자가 필요하다고 생각하는 경우 검색 결과에서 다른 키워드의 순위를 혼합할 수도 있습니다.

검색 엔진의 일반 원칙

인터넷 검색 서비스는 매우 수익성이 높은 사업이라는 것을 이해해야 합니다. Google 및 Yandex와 같은 회사의 수익의 대부분이 문맥 광고에서 발생하기 때문에 어떻게 살고 있는지에 대해 자세히 설명할 필요가 없습니다. 그리고 인터넷 검색은 수익성이 매우 높은 사업이기 때문에 그러한 회사 간의 경쟁은 매우 심각합니다. 인터넷 검색 시장의 경쟁력을 결정짓는 것은 무엇입니까? 답은 검색 엔진 결과의 품질입니다. 높을수록 시스템에 더 많은 새 사용자가 있고 바로 이 문제의 페이지에 배치된 문맥 광고의 가치가 더 높다는 것은 논리적입니다. 검색 엔진 개발자는 일반적으로 스팸(스팸)이라고 하는 모든 종류의 정보 쓰레기로부터 검색 결과를 "정리"하기 위해 많은 노력을 기울입니다. 이것이 수행되는 방법에 대한 자세한 내용은 별도의 기사에서 논의되지만 여기에서는 위의 모든 것에서 결론의 형태로 공식화 된 검색 엔진 동작의 일반 원칙을 제공 할 것입니다.

  1. 스파이더 및 크롤러 형태의 검색 엔진은 관련 없는 정보가 더 낮게 평가되기 때문에 새 페이지를 찾기 위해 인터넷을 지속적으로 검색하고 기존 페이지를 업데이트합니다.

  2. 검색 엔진은 새 페이지가 인덱스에 지속적으로 표시되기 때문에 주요 쿼리와의 관련성에 따라 리소스 순위를 주기적으로 업데이트합니다. 이 프로세스를 검색 결과 업데이트라고 합니다.

  3. World Wide Web에 게시된 엄청난 양의 정보와 검색 엔진 자체의 제한된 리소스로 인해 검색 엔진은 항상 필요한 만큼만 다운로드하려고 합니다. 이미 인덱싱 단계에서 불필요한 많은 부분을 차단하거나 검색 결과 업데이트 결과를 기반으로 인덱스에서 스팸을 제거하는 모든 종류의 필터가 무기고에 있습니다.

  4. 최신 검색 엔진은 쿼리를 분석할 때 쿼리 자체의 텍스트뿐만 아니라 쿼리의 환경(앞서 언급한 사용자의 컨텍스트와 선호도, 쿼리 시간, 지역, 그리고 훨씬 더.

  5. 특정 페이지의 관련성은 내부 매개변수(구조, 콘텐츠)뿐만 아니라 다른 사이트에서 페이지로 연결되는 링크 및 페이지를 볼 때의 사용자 행동과 같은 외부 매개변수의 영향을 받습니다.

검색 엔진의 작업은 지속적으로 개선되고 있습니다. 검색 엔진(사람을 위한)의 이상적인 작업은 인덱싱 및 순위 지정에 관한 모든 결정이 인간 활동의 모든 영역과 영역에서 많은 수의 전문가로 구성된 위원회에서 내리는 경우에만 가능합니다. 이것이 비현실적이기 때문에 이러한 수수료는 전문가 시스템, 휴리스틱 검색 알고리즘 및 기타 인공 지능 요소로 대체됩니다. 아마도 이러한 모든 하위 시스템의 작동은 인터넷에서 공개적으로 사용할 수 있는 모든 데이터를 절대적으로 처리할 수 있다면 더 적절한 결과를 제공할 수 있지만 이것도 실제로 불가능합니다. 불완전한 인공 지능과 제한된 리소스는 검색 결과가 항상 사용자를 기쁘게 하는 것은 아니지만 이 모든 것이 시간이 지나면 처리되는 두 가지 주요 이유입니다. 오늘날 제 생각에는 가장 유명하고 큰 검색 엔진의 작업은 사용자의 요구와 기대와 완전히 일치합니다.

판매 생성기

읽기 시간: 13분

자료를 보내드립니다:

이 기사에서 다음을 배우게 됩니다.

  • 최초의 검색 엔진은 어떻게 작동했습니까?
  • 최신 검색 엔진의 작동 방식
  • 검색 엔진의 작업은 어떤 원칙을 기반으로 합니까?
  • 검색 엔진이 작업에 사용하는 공식
  • 사이트 순위 지정 방법
  • Yandex 검색 엔진의 원칙은 무엇입니까

사이트의 SEO 프로모션에 참여하기 전에 결국 원하는 결과를 얻기 위해 검색 엔진이 작동하는 원리를 연구하는 것이 중요합니다. 이 지식은 특정 키워드에 대한 인터넷 리소스를 최적화하기 위한 개별 전략을 개발하는 데 유용하고 검색 결과의 맨 위에 표시하는 데 도움이 됩니다.

최초의 검색 엔진 작업의 기초가 되는 원칙


인터넷 초기에는 소수의 사용자만 연결할 수 있었습니다. 이용할 수 있는 정보의 양도 제한적이었습니다. 그 당시 인터넷은 주로 연구기관의 직원들에게 사용되었습니다. 웹에서 정보를 검색하는 것은 오늘날만큼 인기가 없었습니다.

인터넷을 통해 전자 데이터에 대한 액세스를 구성하려는 첫 번째 시도는 1994년에 등장한 Yahoo! 검색 엔진에 의해 이루어졌습니다. 회사의 개발자는 관련 주제별로 그룹화된 링크가 있는 개방형 사이트 카탈로그를 만들었습니다. 데이터베이스의 리소스 수가 증가함에 따라 카탈로그에 검색 옵션을 추가해야 했습니다. 기존의 모든 인터넷 리소스가 아니라 사이트의 내부 데이터베이스에서 정보를 검색했기 때문에 아직 우리에게 친숙한 형태의 검색 엔진이 아닙니다.

이러한 링크 디렉토리는 과거에 매우 인기가 있었지만 오늘날에는 사이트 수가 지속적으로 증가하기 때문에 관련성을 잃었습니다. 예를 들어, 인터넷에서 가장 큰 최신 디렉토리인 DMOZ(다른 이름은 Open Directory Project)에는 약 5백만 개의 사이트가 포함되어 있는 반면 Google 검색 엔진 데이터베이스에는 80억 개 이상의 링크가 포함되어 있습니다.

1994년에는 최초의 실제 WebCrawler 검색 엔진이 등장했습니다.


1995년에는 Lycos와 AltaVista라는 두 개의 검색 엔진이 더 만들어졌습니다. 최신 검색 엔진은 오랫동안 온라인 정보 검색 분야에서 선도적인 위치를 차지했습니다.

1997년 스탠포드 대학의 학생인 Sergey Brin과 Larry Page가 개발한 Google 검색 엔진은 세계에서 가장 인기 있는 검색 엔진이 되었습니다.

또한 1997년에는 Runet에서 인기 있는 Yandex 검색 엔진이 작동하기 시작했습니다.

오늘날 검색 엔진은 어떻게 작동합니까?

당신이 프로그래머가 아니고 당신의 직업이 IT와 관련이 없다면 검색 엔진이 어떻게 작동하는지 이해해야 하는 이유는 무엇입니까? 사실 소위 유기적 인 트래픽은 검색 엔진을 통해 회사 웹 사이트에옵니다. 이들은 Yandex 또는 Google의 키워드를 사용하여 인터넷 리소스를 찾은 사용자입니다. 유기적 트래픽은 (대상 고객) 파이의 맛있는 조각입니다. 레벨이 높을수록 사이트의 전환 및 판매가 높아집니다.

사용자가 인터넷 리소스를 쉽게 찾을 수 있도록 올바른 콘텐츠로 채우는 것이 중요합니다. 검색 엔진은 콘텐츠의 품질에 따라 사이트 순위를 매기고 검색 결과에서의 위치에 영향을 미칩니다. 검색 엔진이 인터넷 리소스를 인덱싱하는 방법을 알면 콘텐츠를 최적화하고 TOP으로 승격할 수 있습니다.

반면에 검색 엔진을 사용하여 사용자 행동을 분석할 수 있습니다. 그들이 무엇을 찾고 있는지, 어떤 정보, 상품 또는 서비스가 현재 그들과 관련이 있는지 연구합니다. Yandex 통계에 따르면 Runet 사용자의 행동에 대한 그림을 형성하는 것이 가능하다면 Google에 따르면 글로벌 인터넷의 그림을 형성하는 것이 가능합니다.


모든 검색 엔진이 작동하는 기본 개념은 문서에 대한 정보와 문서 내 키워드 위치를 반영하는 특정 데이터 구조인 검색 색인입니다.

많은 검색 엔진의 작동 원리는 매우 유사합니다. 주요 차이점은 사이트 순위 접근 방식(검색 결과에서 리소스가 정렬되는 방식)에 있습니다.


매일 수많은 사용자가 검색 엔진을 사용하여 다양한 정보를 찾고 있습니다.

예를 들어 인기 있는 검색어는 다음과 같습니다.

"쓰기 요약":


"구입하다":


검색 엔진의 속도를 높이기 위해 검색 아키텍처는 두 가지 요소로 구성됩니다.

  • 기본 검색;
  • 메타 검색.

기본 검색- 색인의 해당 부분 내에서 검색하고 검색 쿼리와 일치하는 모든 링크를 사용자에게 제공하는 프로그램입니다.

메타서치- 요청을 처리할 때 사용자의 위치를 ​​파악하고 기성 검색 결과를 발행하는 프로그램, 키워드가 인기가 있는 경우, 그러나 이전에 이러한 요청이 없었다면 기본 검색이 작업에 연결됨, 기계 학습을 사용하여 데이터베이스의 링크를 처리하고 사용자에게 링크 목록을 발행합니다.

검색 엔진은 다음 기준에 따라 사용자와 검색어 자체를 동시에 분석합니다.

  • 길이;
  • 정의;
  • 인기;
  • 경쟁력;
  • 통사론;
  • 지리학.

다음과 같은 유형의 요청이 있습니다.

  • 항해;
  • 정보 제공;
  • 거래;
  • 멀티미디어;
  • 일반;
  • 공식적인.

검색 쿼리가 매개 변수로 구문 분석되고 나열된 유형 중 하나에 따라 분류된 후 검색 엔진은 순위 기능을 선택합니다.


검색 엔진은 검색어 순위에 대한 정보를 공개하지 않으므로 위 그림의 예는 SEO 전문가의 가정일 뿐입니다.

웹사이트 홍보 전략을 선택하려면 요청 유형에 대한 지식이 필요합니다. 예를 들어 사용자가 일반 쿼리를 입력하면 검색 엔진은 다양한 유형(상업, 멀티미디어, 정보 제공 등)의 링크를 제공합니다. 동시에 일반 요청에 따라 상업 사이트를 홍보하고 검색 결과의 상위 10위 안에 들게 하려는 경우 높은 확률로 TOP에 들어가지 않고 상업을 위한 장소의 수에서만 검색 엔진 순위 공식에 의해 결정되는 인터넷 리소스. 일반 검색어는 다른 유형보다 검색 결과의 첫 번째 줄에 사이트를 홍보하는 것이 훨씬 더 어려운 것으로 나타났습니다.

Yandex 검색 엔진은 2009년부터 기계 학습을 사용하고 있습니다. 매트릭스넷- 특정 쿼리에 대한 사이트 순위를 지정하는 특수 알고리즘.


이 알고리즘의 기본 원리는 다음과 같습니다. 평가자는 순위 공식의 효율성을 평가하기 위해 기본 정보를 수집합니다. 이 부서의 직원은 실험 공식을 기반으로 특정 매개 변수에 따라 인터넷 리소스 샘플을 평가합니다.

1. 중요- 회사의 공식 인터넷 리소스 여부. 이것은 웹사이트, 소셜 네트워크의 페이지 또는 권위 있는 리소스에 대한 정보일 수 있습니다.

2. 유용하다(점수 5) - 검색어에 필요한 모든 정보를 제공하는 사이트. 예를 들어, 사용자는 검색 상자에 "배너 패브릭"을 입력합니다. 알고리즘이 리소스를 유용한 것으로 평가하려면 다음 정보를 포함해야 합니다.

  • 배너 패브릭이란 무엇입니까?
  • 명세서;
  • 사진;
  • 종류;
  • 가격표;
  • 추가 정보.

검색 결과의 TOP에 들어가는 쿼리의 예:


3. 관련성+(점수 4) - 이 점수는 사이트의 정보가 검색어와 일치함을 나타냅니다.

4. 관련-(점수 3) - 사이트가 검색어와 완전히 일치하지 않습니다. 예를 들어, "가디언즈 오브 갤럭시 쇼"라는 검색어가 검색 엔진에 표시되는 영화에 대한 페이지에 대한 링크는 표시되지만 상영 일정이 없거나 일정이 오래되었습니다.

5. 관련 없음(점수 2) - 사이트가 검색어에 응답하지 않습니다. 예를 들어, 사용자가 한 호스텔에 대한 정보를 찾고 있는데 검색 엔진은 그에게 완전히 다른 페이지를 제공합니다.

일반 또는 정보 검색 쿼리에 대해 사이트를 홍보하려면 검색 엔진이 순위 중에 "유용한" 등급을 지정하는 방식으로 콘텐츠를 최적화해야 합니다.

검색 엔진의 작동 원리는 무엇입니까?


검색 엔진은 전통적으로 다음을 허용합니다.

검색 엔진의 원리는 세 가지 주요 요소의 상호 작용을 기반으로 합니다. 먼저 사용자가 입력한 검색을 수행합니다. 키워드 또는 구문, 다음에서 수학적 형성 과정결과는 링크 및 사이트별로 그룹화됩니다. 마지막으로 선택한 인터넷 리소스에서 정보를 읽기 위해 사용됩니다. 검색 로봇또는 다른 도구. 현재 인기 있는 주요 검색 로봇:

  • 웹 크롤러(다른 이름은 "크롤러") - 웹에서 "걷는" 프로그램. 검색 쿼리에 지정된 것과 최소한 일치하는 항목을 찾은 사이트만 방문합니다. 작업은 사용 가능한 데이터베이스 또는 색인의 주소 목록으로 시작됩니다.
  • 색인."크롤러"는 수신된 모든 정보를 검색 색인에 전달합니다. 따라서 후자는 항상 발견된 사이트 및 웹 페이지에 대한 최신 정보를 가지고 있습니다. 업데이트가 리소스나 페이지에 다운로드되면 이 정보도 인덱스에서 업데이트됩니다.
  • 검색 엔진(서버)검색 색인에 수집된 정보를 분석하는 것이 주요 기능인 특수 소프트웨어입니다. 검색 엔진 알고리즘은 인터넷 리소스에 대한 최종 검색 결과만 지원한다는 원칙에 따라 작동합니다. 검색 엔진 자체가 검색 결과에서 페이지를 배포하는 방법을 결정합니다.

모든 검색 엔진은 검색어와 일치하는 가장 관련성이 높고 유용한 사이트를 사용자에게 제공하는 것을 목표로 합니다. 이를 기술적으로 "응답 관련성"이라고 합니다. 예를 들어, 온라인 상점의 홍보를 위해 게시된 콘텐츠가 사용자의 요구와 일치하는지 여부는 매우 중요합니다. 웹사이트 최적화는 검색 결과에서의 위치를 ​​높일 것입니다.

인터넷 검색 엔진의 주요 특성과 작업 원칙을 고려하십시오.

  • 완전성- 검색 엔진의 주요 특성. 검색 쿼리와 일치하는 웹상의 전체 문서 수에 대한 사용자의 요청에 따라 선택한 문서 수의 비율로 계산됩니다. 예를 들어, "냉장고 선택 방법"이라는 문구가 사용된 인터넷 페이지가 200개 있는데 검색 엔진은 이 쿼리에 대해 40개만 반환하므로 검색 완성도는 0.2입니다. 완성도 점수가 높을수록 사용자가 찾고 있던 것을 찾을 가능성이 높아집니다(이 정보가 웹에서 제공된다고 가정).
  • 정확성- 두 번째이지만 검색 엔진의 덜 중요한 특성입니다. 사용자의 검색어에 대한 검색된 문서의 일치를 표시합니다. 이 예에서 "냉장고 선택 방법" 쿼리에 대한 200페이지가 있고 그 중 80페이지에는 "냉장고 선택 방법"이라는 문구가 포함되어 있고 나머지는 별도의 단어(예: "인체 공학적으로 부엌 세트와 냉장고 위치를 선택하십시오" ). 이 경우 검색 정확도는 80 / 200 = 0.4와 같습니다. 검색의 정확도가 높을수록 사용자는 필요한 것을 더 빨리 찾을 수 있고 그 과정에서 마주하게 될 "스팸"은 줄어듭니다.
  • 관련성- 검색 엔진의 또 다른 중요한 매개변수입니다. 그것은 인터넷에 자료를 게시하고 검색 엔진의 색인 기반에 진입하는 데 경과된 시간을 반영합니다. 예를 들어, 비행기 추락 사고 몇 시간 후에 많은 사용자가 웹에서 사건에 대한 정보를 검색했습니다. 이 주제에 대한 첫 번째 메시지가 게시된 후 시간이 거의 지나지 않았음에도 불구하고 검색 엔진은 해당 메시지를 색인화했으며 사용자는 재난의 세부 사항을 찾을 수 있었습니다.
  • 속도검색 엔진의 작업은 부하에 대한 저항에 직접적으로 의존합니다. 예를 들어 OOO Rambler Internet Holding에 따르면 검색 엔진은 매일 초당 약 60개의 검색 쿼리를 처리합니다. 이 속도는 각 개별 사용자 요청의 처리 시간을 줄임으로써 보장됩니다.
  • 시계결과를 제시하면 검색 엔진이 사용자에게 친숙해집니다. 검색 엔진은 검색어로 수백, 수천 개의 사이트를 찾을 수 있습니다. 요청이 정확하지 않은 경우 검색 결과의 첫 번째 페이지에서도 사용자가 찾고자 하는 것과 완전히 일치하지 않는 페이지가 나타날 수 있습니다. 결과적으로 사람은 수신된 목록 내에서 정보를 필터링해야 합니다. 검색 엔진 발행 페이지의 개별 요소는 검색 결과를 탐색하는 데 도움이 됩니다. Yandex와 같은 검색 결과 페이지에 대한 자세한 설명은 링크에서 볼 수 있습니다. http://help.yandex.ru/search/?id=481937.

사이트가 검색 결과의 첫 페이지에 높은 확률로 표시되려면 다음을 수행해야 합니다.

  1. 주제별 인터넷 사이트에서 회사 웹 사이트로 사용자를 리디렉션하는 앵커 링크를 사용하십시오. 이렇게 하면 사이트에 대한 링크가 있는 텍스트뿐만 아니라 URL도 검색 결과에 들어갈 수 있으므로 검색 엔진에 대한 인터넷 리소스의 가시성이 높아집니다.
  2. 잘 선택된 키워드와 함께 메타 태그를 사용하십시오. 이렇게 하면 사이트 요약이 더 독특하고 효과적입니다.
  3. 제목 제목을 적용합니다.
  4. 사이트의 시맨틱 코어를 올바르게 구성하십시오. 사이트의 콘텐츠 전체에 키워드를 배포하는 것만으로는 충분하지 않으며 신중하고 눈에 거슬리지 않게 하는 것이 중요합니다. 모든 문장에 키워드를 포함하지 마십시오. 검색 엔진은 이것을 스팸으로 평가할 수 있습니다.
  5. 사이트의 URL(웹에서 해당 위치의 주소)을 사용합니다. 주소의 올바른 철자는 검색 엔진의 순위에 영향을 줍니다.

간단한 단어로 모든 검색 엔진의 작동 원리에 대해

검색 엔진은 사용자가 웹에서 필요한 정보를 빠르고 쉽게 검색할 수 있는 사용자 친화적인 웹 인터페이스를 갖춘 특수 프로그램입니다. 세부 사항 및 기술 용어로 이동하지 않고 검색 엔진의 작동 원리를 고려하십시오.

검색 엔진이 검색 쿼리에 대한 정보가 포함된 페이지에 대한 링크 목록을 사용자에게 제공하려면 각 사이트의 모든 섹션 콘텐츠 콘텐츠를 알아야 합니다. 검색 엔진은 이 데이터를 어떻게 수집합니까?

인터넷은 서로 연결되는 개별 페이지로 구성된 특수 네트워크입니다. 검색 엔진은 각각에 갈 필요가 없으며 나중에 업로드하기 위해 페이지 데이터를 축적하기 위해 가장 높은 등급의 사이트 및 디렉토리에 대한 정보를 갖는 것으로 충분합니다.

실제로 검색 엔진은 모든 인터넷 페이지의 주소가 특별한 방식으로 그룹화된 색인을 만듭니다. 다른 리소스에서 참조하지 않는 새 사이트가 웹에 나타나면 검색 엔진이 해당 사이트를 인덱싱하고 데이터베이스에 추가하기 위해 해당 사이트를 찾기가 어려울 것입니다.

검색 엔진이 페이지 목록을 생성한 후 인덱싱 프로세스(페이지에서 모든 데이터를 다운로드하는 작업)가 시작됩니다. 이 목적을 위해 특별히 만들어진 프로그램의 도움으로 검색 엔진은 새로운 정보를 기록하거나 오래된 정보를 덮어써 관련 없는 정보를 삭제합니다. 인터넷에서 인덱싱 사이트에 대한 작업이 진행 중입니다.

프로그램은 임시 저장소에 데이터를 수집합니다. 거기에서 일정량까지 누적 된 후 업데이트 프로세스가 시작되며 주요 원칙은 검색 엔진의 기본 데이터베이스에서 정보를 구현하는 것입니다.

검색 엔진 색인에는 엄청난 수의 페이지가 포함되어 있습니다. 사용자가 검색 창에 쿼리를 입력하면 검색 엔진은 데이터베이스에서 관련 링크를 선택합니다. 즉, 사용자가 지정한 키워드를 언급하는 페이지의 사이트 목록을 컴파일합니다.

검색 엔진의 내부 기반이 방대하기 때문에 검색 결과에는 수십 페이지가 포함될 수 있습니다. 검색 엔진은 어떻게 순위를 매기나요? 어떤 원칙에 따라 사용자에게 처음에 표시할 페이지를 결정합니까? 모든 페이지는 검색어와 일치하는 콘텐츠별로 정렬됩니다. 페이지에 포함된 정보의 완성도가 높을수록 페이지가 목록의 맨 위에 더 가까워집니다.

현재 검색 엔진은 기계 학습을 사용하여 SERP의 페이지 순위를 매깁니다. 이 프로세스의 작동 원리는 추상적 인 예에서 고려할 수 있습니다.

익은 사과와 덜 익은 사과를 구별하기 위해 로봇을 훈련시켜야 한다고 가정해 봅시다. 과일의 특성을 결정하는 프로그램은 과일의 특성에 중점을 둡니다.

  • 색깔;
  • 크기;
  • 경도;
  • 설탕 함량;
  • 산 함량.


분석을 위해 로봇에는 덜 익은 사과와 준비된 사과 두 개가 제공됩니다. 그는 그들을 비교합니다. 그런 다음 우리는 기계를 훈련합니다. 우리는 사과의 어떤 특성이 긍정적이고 부정적인지를 보여줍니다. 과일을 익은 것으로 분류할 수 있는 매개변수 세트를 설명합니다.

따라서 로봇이 독립적으로 사과를 분류할 수 있는 사과 분석 알고리즘이 있습니다. 이제 두 개의 과일을 줄 수는 없지만 훨씬 더 많은 것을 기계가 익은 과일과 덜 익은 과일로 나눕니다.

유사한 작동 원리가 검색 엔진의 작업에 내재되어 있습니다. 콘텐츠 정렬을 위한 알고리즘 교육에 관련된 전문가가 있습니다. 먼저, 검색어에 대한 검색 결과에 포함된 페이지를 독립적으로 분석하여 관련성 페이지와 관련성이 없는 페이지로 나눕니다. 그런 다음 로봇은 페이지를 정렬하도록 훈련됩니다.

페이지 관련성은 분수 형태의 지표입니다. 각 페이지에는 다른 관련성 값이 할당됩니다. 그런 다음 모든 리소스가 이 표시기의 내림차순으로 정렬됩니다. 가장 관련성이 높은 사이트가 검색 결과의 TOP에 올라갑니다.

기본 정렬 알고리즘 외에도 검색 엔진은 검색 결과에 영향을 줄 수 있는 다양한 추가 알고리즘을 사용합니다. 예를 들어, 프로모션을 위해 다른 "회색" 구성표를 사용하는 파렴치한 사이트를 필터링하는 데 사용할 수 있습니다.

검색 엔진의 기본 원칙: 수식


각 검색 엔진은 페이지와 사이트를 검색하고 순위를 매기기 위해 고유한 알고리즘을 사용하지만 모든 검색 엔진의 작동 원리는 동일합니다.

사용자의 요청과 일치하는 정보를 검색하는 프로세스는 인터넷에서 데이터 수집, 사이트 인덱싱, 키워드로 검색 및 결과 순위 지정의 여러 단계로 구성됩니다. 각 단계를 자세히 살펴보겠습니다.

  1. 데이터 수집.

사이트가 준비되면 검색 엔진 로봇이 사이트의 모양을 알 수 있도록 해야 합니다. 인터넷 리소스에 대한 외부 링크를 배치하거나 다른 방법을 사용할 수 있습니다. 로봇은 사이트에 들어가자마자 각 페이지에서 데이터를 수집합니다. 이 프로세스를 크롤링이라고 합니다. 사이트에서 정보 수집은 생성 후에만 발생하는 것이 아닙니다. 로봇은 주기적으로 인터넷 리소스를 탐색하여 정보의 관련성을 확인하고 사용 가능한 데이터를 업데이트합니다.

당신과 봇(로봇) 모두에게 이러한 상호작용은 상호 유익하고 편안해야 합니다. 사이트 소유자인 귀하는 봇이 서버에 과부하를 주지 않고 신속하게 작업을 수행하는 동시에 모든 페이지에서 가능한 한 완전히 데이터를 수집하는 데 관심이 있습니다. 봇이 목록의 다음 사이트에서 데이터를 수집하기 위해 가능한 한 빨리 모든 작업을 수행하는 것도 중요합니다. 귀하의 경우 사이트가 작동하는지, 탐색 문제가 없는지, 404 페이지가 없는지 등을 확인할 수 있습니다.

  1. 인덱싱.

로봇이 귀하의 사이트를 두 번 이상 방문한 경우에도 인터넷 리소스가 검색 엔진에 즉시 표시되고 검색 결과에 표시된다는 의미는 아닙니다. 데이터를 수집한 후 사이트 처리 프로세스의 다음 단계는 색인화(각 페이지에 대해 역 색인 파일 생성)입니다. 빠른 검색을 위해 색인이 필요합니다. 일반적으로 텍스트의 단어 목록과 그에 대한 정보(텍스트의 위치, 무게 등)로 구성됩니다.

인덱싱이 완료되면 사이트 및 개별 페이지가 사용자 검색어에 대한 검색 엔진 결과에 나타납니다. 일반적으로 인덱싱 프로세스에는 많은 시간이 걸리지 않습니다.

  1. 정보를 검색합니다.

이 단계에서 사용자의 검색어에 대한 정보를 직접 검색합니다. 먼저 검색 엔진이 쿼리를 분석하고 각 키워드의 가중치를 결정합니다. 그런 다음 역 색인으로 일치 항목을 검색하고 검색 쿼리와 일치하는 검색 엔진 데이터베이스의 모든 문서를 선택합니다.

문서의 요청 준수 여부는 다음과 같은 특수 공식에 의해 결정됩니다.

유사(Q,D) = SUM(w qk * w dk),

어디 시뮬레이션(Q,D)- 쿼리 유사성 문서 ; ㅁㅁ- 쿼리에서 k 번째 단어의 가중치; w dk- 문서에서 k 번째 단어의 가중치.

사용자의 검색어와 가장 유사한 문서가 검색 결과에 반영됩니다.

  1. 범위.

마지막 단계에서 검색 엔진은 사용자가 가장 관련성이 높은 페이지에 대한 링크를 먼저 볼 수 있도록 결과를 그룹화합니다. 각 검색 엔진에는 다음 매개변수의 영향을 고려한 고유한 순위 공식이 있습니다.

  • 페이지 가중치(인용 색인, PageRank);
  • 도메인 기관;
  • 쿼리에 대한 텍스트의 관련성;
  • 쿼리에 대한 외부 링크 텍스트의 관련성;
  • 뿐만 아니라 많은 다른 순위 요소.

예를 들어 다음과 같은 단순화된 순위 공식을 고려하십시오.

아르 자형(x) = (m * T(x) + p*L(x)) * F(PRa),

어디에 라(x)- 문서의 최종 적합성 요구 엑스, 세)- 문서의 텍스트(코드)의 관련성 요구 엑스, 라(x)- 문서에 대한 다른 문서의 링크 텍스트의 관련성 요구 엑스, 홍보- 페이지 권한 표시기 , 상대 상수 엑스,
F(PRa)는 단조롭게 감소하지 않는 함수이고, F(0) = 1, 다음과 같이 가정할 수 있습니다. F(PRa) = (1 + q * 프라), , , 일부 계수입니다.

따라서 검색 결과에서 페이지의 위치는 검색 쿼리와 관련이 있고 관련이 없는 다양한 요소의 영향을 받습니다.

정보 검색 시스템의 작동 원리: 순위 기준

인터넷 리소스가 검색 결과의 상위 3개 또는 최소 10개에 오도록 하려면 요구 사항에 맞게 사이트를 지속적으로 최적화하기 위해 검색 엔진의 원리와 순위 기준을 알아야 합니다. 이러한 기준에는 두 가지 주요 그룹이 있습니다.

  • 텍스트 검색 엔진 기준.

이 경우 검색 엔진은 텍스트 콘텐츠의 품질에 따라 페이지의 순위를 지정합니다. 이 사이트 구성 요소의 최적화에는 인터넷 리소스를 만들고 채우는 단계에서 의미론적 핵심 작업이 포함됩니다.

사용자의 요청을 처리하는 검색 엔진은 문제의 첫 페이지에 가장 관련성이 높은 결과를 표시합니다. 문서를 검색하는 과정에서 검색 엔진은 제목 문구(제목), 페이지 설명(설명) 작성의 정확성 및 제목(H1, H2 등)에 주요 쿼리의 존재를 분석합니다.

  • 텍스트가 아닌 검색 엔진 기준.

검색 엔진은 사이트가 게시되고 색인이 생성된 후 이러한 기준에 대한 분석 작업을 수행합니다. 이 그룹의 기준에 따라 순위를 매기는 주요 원칙은 콘텐츠의 품질을 평가하는 것이 아니라 외부 링크 프로필을 평가하는 것입니다.

검색 엔진은 다른 인터넷 리소스의 사이트 링크 수를 분석하고 신뢰성을 평가하며 디렉토리의 등록을 확인합니다. 비유를 하자면, 은행이 회사에 대출을 제공하기로 결정한 것과 같은 검색 엔진은 계약자, 공급업체 및 기타 채권자로부터 이에 대한 리뷰를 수집합니다.

검색 엔진이 작동하는 방식을 알면 사용자 검색어에 해당하므로 검색 결과에서 쉽게 첫 번째 위치를 차지하고 오랫동안 머물 수 있는 웹 사이트를 만들고 최적화하는 데 도움이 됩니다.

Yandex 검색 엔진의 작동 원리

Google 및 Yandex와 같은 크고 잘 알려진 검색 엔진의 작업은 클러스터 시스템을 기반으로 합니다. 특정 클러스터에 연결된 특정 영역의 모든 정보를 그룹화합니다. 사이트 및 개별 페이지의 색인을 생성하고 해당 페이지에서 데이터를 수집하기 위해 특수 크롤러 로봇이 사용됩니다. 기본 크롤러 로봇(정기적으로 업데이트되는 인터넷 리소스에서 데이터를 수집하도록 설계됨)과 크롤러 로봇(인덱싱된 사이트 목록 및 해당 인덱스를 가능한 한 최단 시간에 업데이트해야 함)의 두 가지 유형이 있습니다. Yandex 검색 엔진이 인터넷에서 가능한 한 완전히 정보를 수집할 수 있도록 검색 기반 및 프로그램 코드가 정기적으로 업데이트됩니다.

  1. 검색 정보 데이터베이스는 한 달에 여러 번 업데이트되는 반면 사용자는 검색 라인에 쿼리를 입력할 때 인터넷 리소스에서 업데이트된 데이터를 받습니다. 이 데이터는 메인 로봇 스캐너에 의해 추가됩니다.
  2. 프로그램 코드를 업데이트하거나 프로그래머가 이를 "엔진"이라고 하는 것은 검색 결과에서 페이지의 순위를 지정하는 알고리즘의 단점을 찾아 제거하도록 설계되었습니다. Yandex는 일반적으로 향후 변경 사항에 대해 사용자에게 경고합니다.

Runet에서의 인기를 설명하는 Yandex 검색 엔진의 주요 장점은 러시아어의 형태학적 특징을 고려하여 다양한 단어 형태를 찾는 기능입니다. 지역 타겟팅 및 검색 공식을 사용하면 출력에서 ​​가장 정확한 문구를 얻을 수 있습니다. Yandex에는 고유한 페이지 및 사이트 순위 알고리즘도 있습니다. 이 시스템의 확실한 장점은 사용자 검색어 처리 속도와 서버의 안정적인 운영입니다.

이미 언급했듯이 리소스를 인덱싱할 때 검색 엔진은 동적 링크를 확인하며 이 링크가 있으면 봇이 사이트 인덱스 결정을 거부할 수 있습니다.

Yandex는 다양한 확장자(.pdf, .rtf, .doc, .xls, .ppt 등)가 있는 문서의 텍스트 콘텐츠 분석을 기반으로 합니다.

인터넷 리소스를 인덱싱하는 과정에서 검색 엔진은 robots.txt 파일에서 데이터를 가져오지만 Allow 속성과 일부 메타 태그가 지원되며 Revisit-After 및 Keywords 메타 태그는 고려되지 않습니다.

스니펫(텍스트 문서의 짧은 설명)은 찾고 있는 페이지의 구문으로 구성되므로 설명에 태그를 작성할 필요는 전혀 없지만 필요에 따라 설정할 수 있습니다.

많은 개발자들에 따르면 인덱싱된 문서의 코드는 자동으로 결정되므로 인코딩 메타 태그는 큰 역할을 하지 않습니다.

Yandex는 마지막 정보 변경(Last-Modified)의 지표에 큰 관심을 기울입니다. 서버가 이 데이터를 검색 엔진으로 전송하는 것을 중단하면 사이트 인덱싱이 훨씬 덜 자주 수행됩니다.

인터넷 리소스에 자체 "미러"가 있는 경우(예: http://www.site.ru , http://site.ru , https://www.site.ru) 검색 엔진이 인덱싱되지 않았습니다. 이것이 불가능한 경우 robots.txt 문서를 적절하게 변경하여 이러한 사이트를 함께 붙일 수 있습니다.

인터넷 리소스가 Yandex.Catalog에 들어가면 검색 엔진은 해당 사이트를 프로모션에 영향을 미치는 특별한 주의가 필요한 사이트로 분류합니다. 이것은 또한 중요한 외부 링크가 있기 때문에 의심 할 여지없이 플러스 사이트의 주제를 결정하는 절차를 단순화합니다.

Yandex 개발자는 로봇의 IP 주소를 공개하지 않습니다. 그럼에도 불구하고 다양한 사이트의 로그 파일에서 이 검색 엔진의 로봇에 속하는 텍스트 표시를 찾을 수 있습니다.

모든 검색 로봇 중 가장 중요한 것은 메인 로봇입니다. Yandex 사이트의 중요성은 페이지 인덱싱 작업 결과에 따라 다릅니다.

각 로봇에는 인터넷 리소스 인덱싱을 위한 고유한 일정이 있습니다. 검색 엔진 데이터베이스의 각 사이트에서 서로 다른 로봇의 작업 시간이 일치하지 않을 수 있습니다.

주요 로봇 외에도 검색 엔진에는 인터넷 리소스 페이지를 정기적으로 방문하여 가용성을 확인하는 추가 로봇이 있습니다. 예를 들어 Yandex.Catalog 및 Yandex 광고 네트워크의 로봇입니다.

Yandex 검색 엔진은 다음과 같은 외부 최적화의 주요 지표에 중점을 둡니다.

  1. TCI(Public Subject Citation Index) - 사이트에 액세스하는 평균 링크 수를 보여줍니다. 순위 결과에 직접적인 영향을 미치지 않으며 Yandex.Catalog 주제 그룹의 위치를 ​​결정하는 데 사용됩니다. 인터넷 리소스 홍보에 사용됩니다.
  2. WCI(가중 인용 색인)는 사이트에 대한 외부 링크 수를 계산하도록 설계된 특수 알고리즘입니다. 검색 엔진으로 페이지 순위를 매길 때 가장 중요합니다.
  3. Yandex.Catalogue의 사이트 존재.
  4. 인덱싱된 총 사이트 페이지 수입니다.
  5. 인터넷 리소스의 콘텐츠를 인덱싱하는 빈도입니다.
  6. 사이트의 링크 유무, 검색 필터에 사이트가 있는지 여부.

인용 색인은 주제별 및 가중 인용 색인의 기초가 됩니다.

인용 색인(CI) - 인용 횟수(또는 출처에 대한 참조)를 나타내는 지표로, 새로 생성된 문서 중 이전 출판물을 참조하는 문서를 결정하는 데 도움이 됩니다. IC는 기사 및 저자 분석(예: 과학 환경)에 모두 사용됩니다.

Yandex에서 다른 검색 엔진과 마찬가지로 인용 색인은 조정되지 않은 디렉토리, 게시판, 네트워크 회의, 서버 통계 페이지, XSS 링크 등 유형 사이트의 링크를 고려하지 않고 백링크 수로 간주됩니다. 그 수는 자원 소유자의 참여 없이 지속적으로 증가할 수 있습니다.

Aport 카탈로그에서 IC는 가중 인용 색인으로 간주된다는 점을 분명히 해야 합니다.

이 인덱스를 계산하기 위해 링크 그래프가 사용됩니다. 사이트가 그래프 꼭짓점이고 다른 사이트에 대한 링크가 그래프 꼭짓점 또는 모서리의 링크인 경우 링크 그래프는 그림에 표시된 다이어그램으로 나타납니다.


여기서 A, B, ..., F는 Yandex 검색 엔진 색인의 특정 사이트이고 화살표는 이들 사이의 링크 방향(단방향 또는 양방향)을 나타냅니다.

인용 색인은 검색 엔진의 문서 순위에서 큰 역할을 하지만 최종 결과는 이 지표 이상에 달려 있습니다.

인용 색인은 출판물의 중요성을 특성화하지만 동시에 사이트의 링크 구조를 반영하지 않기 때문에 결과적으로 외부 링크 수가 다른 리소스도 동일한 방식으로 색인화할 수 있다고 믿어집니다.

이러한 단점을 없애기 위해 가중 인용 지수가 사용되는데, 이는 참조 자원의 양뿐만 아니라 품질도 특성화합니다. 링크 검색 및 정적 링크 인기도의 사용은 검색 엔진의 작업을 용이하게 하여 다양한 텍스트 스팸으로부터 검색 엔진을 저장합니다. Google 검색 엔진은 가중 인용 색인과 유사한 PageRank를 사용합니다.

VCI와 순위에 영향을 미치는 기타 요인을 계산하기 위해 참조 그래프가 사용됩니다. 사이트 소유자는 사용 가능한 온라인 서비스를 사용하여 PageRank 값을 확인하여 인터넷 리소스의 VCI를 독립적으로 추정할 수 있습니다. 그러나 Yandex 색인에는 러시아어 문서만 포함되어 있고 외국 문서의 인기 문서는 몇 개뿐이므로 Yandex VIC의 값은 Google PageRank와 다를 수 있다는 점을 염두에 두어야 합니다.


정의에 따르면 인터넷 검색 엔진은 World Wide Web에서 정보를 찾는 데 도움이 되는 정보 검색 시스템입니다. 이것은 정보의 글로벌 교환을 용이하게 합니다. 그러나 인터넷은 구조화되지 않은 데이터베이스입니다. 기하급수적으로 성장하고 있으며 거대한 정보 저장소가 되었습니다. 인터넷에서 정보를 찾는 것은 어려운 작업입니다. 이 해양 정보를 관리, 필터링 및 추출하는 도구가 필요합니다. 검색 엔진이 이러한 목적을 수행합니다.

검색 엔진은 어떻게 작동합니까?

인터넷 검색 엔진은 인터넷에서 정보를 검색하고 검색하는 엔진입니다. 대부분은 크롤러 인덱서 아키텍처를 사용합니다. 트랙 모듈에 의존합니다. 스파이더라고도 하는 크롤러는 웹 페이지를 크롤링하는 작은 프로그램입니다.

크롤러는 초기 URL 집합을 방문합니다. 크롤링된 페이지에 나타나는 URL을 마이닝하고 이 정보를 크롤러 모듈로 보냅니다. 크롤러는 다음에 방문할 페이지를 결정하고 해당 URL을 크롤러에 제공합니다.

다른 검색 엔진에서 다루는 주제는 사용하는 알고리즘에 따라 다릅니다. 일부 검색 엔진은 특정 주제에 대한 사이트를 검색하도록 프로그래밍되어 있는 반면, 다른 크롤러는 가능한 한 많은 장소를 방문할 수 있습니다.

인덱싱 모듈은 방문하는 각 페이지에서 정보를 추출하고 URL을 데이터베이스에 추가합니다. 그 결과 정보 페이지를 가리키는 URL 목록에서 거대한 조회 테이블이 생성됩니다. 이 표는 크롤링 중에 처리된 페이지를 보여줍니다.

분석 모듈은 검색 엔진 아키텍처의 또 다른 중요한 부분입니다. 유틸리티 인덱스를 생성합니다. 색인 유틸리티는 주어진 길이의 페이지 또는 특정 수의 그림이 포함된 페이지에 대한 액세스 권한을 부여할 수 있습니다.

크롤링 및 인덱싱 과정에서 검색 엔진은 검색한 페이지를 저장합니다. 페이지의 저장소에 임시로 저장됩니다. 검색 엔진은 이미 방문한 페이지의 검색 속도를 높이기 위해 방문한 페이지의 캐시를 유지합니다.

검색 엔진 쿼리 모듈은 키워드 형태로 사용자로부터 검색 쿼리를 수신합니다. 순위 모듈은 결과를 정렬합니다.

크롤러 인덱서 아키텍처에는 다양한 변형이 있습니다. 분산 검색 엔진 아키텍처에서 변경됩니다. 이러한 아키텍처는 수집기와 브로커로 구성됩니다. 수집기는 웹 서버에서 인덱싱 정보를 수집하는 반면 브로커는 인덱싱 메커니즘과 쿼리 인터페이스를 제공합니다. 브로커는 수집기 및 기타 브로커로부터 받은 정보를 기반으로 업데이트를 색인화합니다. 정보를 필터링할 수 있습니다. 오늘날 많은 검색 엔진이 이러한 유형의 아키텍처를 사용합니다.

검색 엔진 및 페이지 순위

검색 엔진에서 쿼리를 생성하면 결과가 특정 순서로 표시됩니다. 우리 대부분은 상위 주문 페이지를 방문하고 마지막 페이지를 무시하는 경향이 있습니다. 상위 몇 페이지가 쿼리와 더 관련이 있다고 생각하기 때문입니다. 따라서 모든 사람은 상위 10개 검색 엔진 결과에서 페이지 순위를 지정하는 데 관심이 있습니다.

검색 엔진 쿼리 인터페이스에 나열된 단어는 검색 엔진에서 요청한 키워드입니다. 요청된 키워드와 관련된 페이지 목록입니다. 이 과정에서 검색 엔진은 해당 키워드가 자주 나타나는 페이지를 검색합니다. 그들은 키워드 간의 관계를 찾습니다. 키워드가 포함된 페이지의 순위와 마찬가지로 키워드의 위치도 고려됩니다. 페이지 제목이나 URL에 나타나는 키워드에 더 많은 가중치가 부여됩니다. 해당 페이지를 가리키는 링크가 있는 페이지는 페이지를 더욱 유명하게 만듭니다. 다른 많은 사이트가 페이지에 링크되어 있으면 해당 페이지가 더 가치 있고 관련성이 높은 것으로 간주됩니다.

모든 검색 엔진이 사용하는 순위 알고리즘이 있습니다. 알고리즘은 사용자 요청에 따라 관련 페이지를 제공하도록 설계된 컴퓨터화된 공식입니다. 각 검색 엔진은 검색 쿼리에 대한 적절한 응답을 결정하기 위해 엔진 데이터베이스의 페이지를 분석하는 다른 순위 알고리즘을 가질 수 있습니다. 검색 엔진은 다양한 방법으로 다양한 정보를 색인화합니다. 이것은 두 개의 다른 검색 엔진에 전달된 특정 쿼리가 다른 순서로 페이지를 가져오거나 다른 페이지를 검색할 수 있다는 효과가 있습니다. 웹사이트의 인기도는 관련성을 결정하는 요소입니다. 사이트의 클릭률 인기도는 순위를 결정하는 또 다른 요소입니다. 사이트를 방문하는 빈도를 측정한 것입니다.

웹마스터는 SERP에서 사이트의 위치를 ​​높이기 위해 검색 엔진 알고리즘을 속이려고 합니다. 사이트 페이지를 키워드로 채우거나 메타 태그를 사용하여 검색 엔진 순위 전략을 속이는 것. 그러나 검색 엔진은 충분히 똑똑합니다! 웹마스터의 음모가 검색 결과에 영향을 미치지 않도록 알고리즘을 개선합니다.

목록의 처음 몇 페이지 이후의 페이지에도 찾고 있던 정보가 정확히 포함될 수 있음을 이해해야 합니다. 그러나 좋은 검색 엔진은 항상 관련성이 높은 페이지를 최상위 순서로 가져오므로 안심하십시오!

오늘날 가장 인기 있는 웹 서비스는 검색 엔진입니다. 첫 번째 인터넷 사용자의 대표가 네트워크의 새로운 항목을 관찰할 수 있었던 시대는 오래 전에 지나갔기 때문에 여기에서는 모든 것을 이해할 수 있습니다.

너무 많은 정보가 나타나고 축적되어 사람이 필요한 정보를 정확히 찾는 것이 매우 어려워졌습니다. 일반 사용자가 내가 이해하지 못하는 정보를 찾아야 하는 경우 인터넷에서 검색하는 방법을 상상해 보십시오. 수동 검색으로 많은 정보를 찾을 수 없기 때문에 정확히 어디에 있는지 이해하지 못합니다.

검색 엔진, 무엇입니까?

사용자가 필요한 정보가 있을 수 있는 사이트를 이미 알고 있으면 좋지만 그 외에는 어떻게 해야 합니까? 인터넷에서 필요한 정보를 찾는 사람의 삶을 더 쉽게 만들기 위해 검색 엔진 또는 단순히 검색 엔진이 발명되었습니다. 검색 엔진은 하나의 매우 중요한 기능을 수행합니다. 이 기능이 없으면 인터넷은 우리가 보는 데 익숙하지 않을 것입니다. 이것은 네트워크에서 정보를 검색하는 것입니다.

검색 시스템- 이것은 특별한 웹 사이트 또는 사용자의 요청에 따라 주어진 검색 쿼리에 응답하는 사이트인 페이지에 대한 하이퍼링크를 사용자에게 제공하는 사이트입니다.

조금 더 정확하게 말하면, 그것은 소프트웨어와 하드웨어 기능 세트와 사용자와 상호 작용하기 위한 웹 인터페이스 덕분에 수행되는 인터넷에서 정보를 검색하는 것입니다.

검색 엔진과의 인간 상호 작용을 위해 웹 인터페이스, 즉 가시적이고 이해할 수있는 쉘이 만들어졌습니다. 검색 엔진 개발자의 이러한 접근 방식은 많은 사람들이 더 쉽게 검색할 수 있도록 합니다. 일반적으로 검색 엔진을 사용하여 검색하는 것은 인터넷이지만 FTP 서버용 검색 엔진, World Wide Web의 특정 유형의 상품, 뉴스 정보 또는 기타 검색 방향도 있습니다.

검색은 사이트의 텍스트 콘텐츠뿐만 아니라 사람이 검색할 수 있는 다른 유형의 정보(이미지, 비디오, 사운드 파일 등)에서도 수행할 수 있습니다.

검색 엔진은 검색을 어떻게 수행합니까?

웹 사이트 탐색과 마찬가지로 인터넷 검색 자체는 인터넷 브라우저(브라우저)를 사용하여 가능합니다. 사용자가 검색창에 검색어를 설정한 후에야 검색 자체가 직접 수행됩니다.

모든 검색 엔진에는 전체 검색 엔진의 기반이 되는 소프트웨어 부분이 포함되어 있으며 이를 검색 엔진이라고 합니다. 이는 정보 검색 기능을 제공하는 소프트웨어 패키지입니다. 검색 엔진에 연락하여 사람이 검색 쿼리를 작성하고 검색 창에 입력하면 검색 엔진은 검색 결과 목록이있는 페이지를 생성하며 검색 엔진에 따르면 가장 관련성이 높은 페이지가 여기에 있습니다.

검색 관련성 - 사용자의 요청에 가장 관련성이 높은 자료를 검색하고 검색 결과 페이지에 하이퍼링크를 배치하여 다른 자료보다 더 정확한 결과를 제공합니다. 결과의 바로 분포를 사이트 순위라고 합니다.

그렇다면 검색 엔진은 발행을 위해 자료를 어떻게 준비하고 검색 엔진은 정보를 검색합니까? 네트워크의 정보 수집은 각 검색 엔진에 고유한 로봇 또는 다른 방식으로 크롤러 또는 스파이더와 같은 다른 많은 동의어를 가진 봇에 의해 촉진되며 검색 시스템 자체는 세 단계로 나눌 수 있습니다. :

검색 엔진 작업의 첫 번째 단계에는 글로벌 네트워크에서 사이트를 스캔하고 자체 서버에서 웹 페이지 사본을 수집하는 것이 포함됩니다. 이것은 아직 처리되지 않았으며 검색 결과에 적합하지 않은 엄청난 양의 정보를 형성합니다.

검색 엔진 작업의 두 번째 단계는 첫 번째 단계에서 사이트에서 이전에 받은 정보를 정리하는 것으로 축소됩니다. 이러한 정렬이 수행되어 최단 시간에 사용자가 검색 엔진에서 실제로 기대하는 매우 높은 품질의 검색을 선호합니다. 이 단계를 인덱싱이라고 하며, 이는 페이지가 이미 발행 준비가 되어 있고 현재 데이터베이스가 인덱스로 간주됨을 의미합니다.

클라이언트로부터 요청을 받은 후, 요청에 명시된 키워드 또는 주변 키워드를 기반으로 검색 결과를 결정하는 세 번째 단계입니다. 이는 요청에 가장 관련성이 높은 정보를 선택하고 후속 발급에 기여합니다. 정보가 많기 때문에 검색 엔진은 알고리즘에 따라 순위를 지정합니다.
최고의 검색 엔진은 사용자의 요청에 가장 정확하게 응답하는 자료를 제공할 수 있는 엔진입니다. 그러나 여기에서도 사이트 홍보에 관심이 있는 사람들의 영향을 받은 결과가 있을 수 있습니다. 이러한 사이트는 항상 그런 것은 아니지만 검색 결과에 자주 나타나지만 오래 지속되지는 않습니다.

이미 많은 지역에서 세계적인 리더가 확인되었지만 검색 엔진은 계속해서 양질의 검색을 개발하고 있습니다. 그들이 제공할 수 있는 더 나은 검색, 더 많은 사람들이 그것을 사용할 것입니다.

검색 엔진을 사용하는 방법?

검색 엔진이란 무엇이며 작동 방식은 이미 명확하지만 올바르게 사용하는 방법은 무엇입니까? 대부분의 사이트에는 항상 검색 표시줄이 있으며 그 옆에는 찾기 또는 검색 버튼이 있습니다. 쿼리가 검색 표시줄에 입력된 후 검색 버튼을 눌러야 하거나 더 자주 키보드의 Enter 키를 누르면 몇 초 안에 쿼리 결과를 받게 됩니다. 목록의 형태.

그러나 검색 쿼리에 대한 정확한 답변을 얻는 것이 처음에는 항상 가능한 것은 아닙니다. 고통스럽지 않고 싶은 것을 검색하려면 검색어를 올바르게 작성하고 아래에 설명된 권장 사항을 따라야 합니다.

검색어를 올바르게 작성하십시오.

다음은 검색 엔진을 사용하기 위한 몇 가지 팁입니다. 검색 엔진에서 정보를 검색할 때 몇 가지 트릭과 규칙을 따르면 원하는 결과를 훨씬 빨리 얻을 수 있습니다. 다음 지침을 따르십시오.

  1. 단어의 적절한 철자는 원하는 정보 개체와 일치하는 최대 수를 보장합니다(현대 검색 엔진은 이미 철자 오류를 수정하는 방법을 배웠지만 이 조언을 무시해서는 안 됩니다).
  2. 쿼리에서 동의어를 사용하면 더 넓은 검색 범위를 다룰 수 있습니다.
  3. 때때로 쿼리 텍스트에서 단어를 변경하면 더 나은 결과를 얻을 수 있으므로 쿼리를 다시 작성하십시오.
  4. 쿼리에 특이성을 부여하고 검색의 핵심을 결정해야 하는 구의 정확한 발생을 사용합니다.
  5. 키워드로 실험하십시오. 키워드와 구문을 사용하면 요점을 식별하는 데 도움이 될 수 있으며 검색 엔진은 보다 관련성 높은 결과를 반환합니다.

검색 엔진이란 무엇입니까? 이것은 관심있는 정보를 찾고 일반적으로 완전히 무료로 사용하고, 무언가를 배우고, 무언가를 이해하거나, 올바른 결론을 도출 할 수있는 기회에 불과합니다. 많은 사람들이 더 이상 음성 검색이 없는 삶을 상상하지 않습니다. 텍스트를 입력할 필요 없이 요청을 말하면 됩니다. 여기서 마이크는 입력 장치입니다. 이 모든 것은 인터넷 검색 기술의 끊임없는 발전과 그 필요성을 증명합니다.

검색 엔진은 인터넷에 있는 특정 정보의 데이터베이스입니다. 많은 사용자는 검색 엔진에 쿼리를 입력하자마자 즉시 전체 인터넷 검색을 시작한다고 생각하지만 전혀 그렇지 않습니다. 인터넷 검색은 지속적으로 발생하며 많은 프로그램, 사이트에 대한 데이터가 데이터베이스에 입력되며 특정 기준에 따라 모든 사이트와 모든 페이지가 다양한 목록과 데이터베이스에 배포됩니다. 즉, 일종의 데이터 파일이며, 검색은 인터넷이 아닌 이 파일에서 이루어진다.

Google은 세계에서 가장 인기 있는 검색 엔진입니다.

검색 엔진 외에도 Google은 메일 서비스, Google Chrome 브라우저, 가장 큰 YouTube 비디오 라이브러리 및 기타 여러 프로젝트를 포함하여 많은 추가 서비스, 소프트웨어 및 하드웨어를 제공합니다. 구글은 큰 이익을 가져다주는 많은 프로젝트를 자신있게 인수하고 있다. 대부분의 서비스는 직접 사용자를 대상으로 하는 것이 아니라 인터넷에서 돈을 버는 것을 목표로 하며 유럽 및 미국 사용자의 이익에 중점을 두고 통합됩니다.

메일은 주로 메일 서비스로 인해 인기 있는 검색 엔진입니다.

메일 메일이 핵심인 많은 추가 서비스가 있습니다. 현재 메일은 Odnoklassniki 소셜 네트워크, 자체 My World 네트워크, Money-mail 서비스, 많은 온라인 게임, 이름이 다른 세 개의 거의 동일한 브라우저를 소유하고 있습니다. 모든 애플리케이션과 서비스에는 많은 광고 콘텐츠가 있습니다. 소셜 네트워크 "VKonatkte"는 많은 바이러스와 논쟁하면서 메일 서비스로의 직접 전환을 차단합니다.

위키피디아.

Wikipedia는 검색 가능한 참조 시스템입니다.

개인 기부에 존재하는 비영리 검색 엔진이므로 페이지를 광고로 채우지 않습니다. 전 세계 모든 언어로 완전한 참조 백과사전을 만드는 것이 목표인 다국어 프로젝트. 특정 저자가 없으며 전 세계의 자원 봉사자가 작성하고 관리합니다. 각 사용자는 기사를 작성하고 편집할 수 있습니다.

공식 페이지는 www.wikipedia.org입니다.

유튜브는 가장 큰 비디오 라이브러리입니다.

각 사용자가 비디오를 추가할 수 있는 소셜 네트워크 요소가 있는 비디오 호스팅. Google Ink에 인수된 순간부터 YouTube에 별도의 등록이 필요하지 않으며 Google 메일 서비스에 등록하면 됩니다.

공식 페이지는 youtube.com입니다.

야후! 세계에서 두 번째로 중요한 검색 엔진입니다.

추가 서비스가 있으며 그 중 가장 유명한 것은 Yahoo 메일입니다. 검색 엔진의 품질 향상의 일환으로 Yahoo는 사용자 및 요청에 대한 데이터를 Microsoft에 전송합니다. 이러한 데이터로부터 사용자의 이익에 대한 아이디어와 광고 콘텐츠 시장이 형성됩니다. 야후 검색 엔진은 물론 다른 회사의 흡수에 종사하고 있습니다. 예를 들어 야후는 알타비스타 검색 서비스와 알리바바 전자 상거래 사이트를 소유하고 있습니다.

공식 페이지는 www.yahoo.com입니다.

WDL은 디지털 라이브러리입니다.

도서관은 문화적 가치가 있는 도서를 디지털 형태로 수집합니다. 주요 목표는 인터넷의 문화 콘텐츠 수준을 높이는 것입니다. 도서관 이용은 무료입니다.

공식 페이지는 www.wdl.org/ru/입니다.

Bing은 Microsoft의 검색 엔진입니다.

공식 웹사이트는 www.baidu.com입니다.

러시아의 검색 엔진

Rambler는 "친미" 검색 엔진입니다.

원래 미디어 인터넷 포털로 만들어졌습니다. 다른 많은 검색 엔진과 마찬가지로 이미지 검색 서비스, 비디오 파일, 지도, 일기 예보, 뉴스 섹션 등이 있습니다. 게시자는 무료 브라우저인 Rambler-Nichrome도 제공합니다.

공식 페이지는 www.rambler.ru입니다.

Nigma는 지능형 검색 엔진입니다.

많은 필터와 설정으로 인해 더 편리한 검색 엔진. 인터페이스를 사용하면 검색에 제안된 유사한 값을 포함하거나 제외하여 더 나은 결과를 얻을 수 있습니다. 또한 검색 결과를 수신하면 다른 주요 검색 엔진의 정보를 사용할 수 있습니다.

공식 페이지는 www.nigma.ru입니다.

Aport - 온라인 상품 카탈로그.

과거에는 검색 엔진이었지만 개발과 혁신이 중단된 후 빠르게 기반을 잃고 . 현재 Aport는 1500개 이상의 회사의 상품이 제공되는 거래 플랫폼입니다.

공식 페이지는 www.aport.ru입니다.

스푸트니크는 국가 검색 엔진이자 인터넷 포털입니다.

Rostelecom에서 만들었습니다. 현재 테스트 단계에 있습니다.

공식 웹 사이트는 www.sputnik.ru입니다.

Metabot은 개발 중인 검색 엔진입니다.

Metabot의 임무는 다른 모든 검색 엔진에 대한 검색 엔진을 만들고 전체 검색 엔진 목록의 데이터를 고려하여 결과를 발행하기 위한 위치를 만드는 것입니다. 즉, 검색 엔진을 위한 검색 엔진입니다.

공식 페이지는 www.metabot.ru입니다.

검색 엔진이 일시 중지되었습니다.

공식 페이지는 www.turtle.ru입니다.

KM - 다중 포털.

처음에 이 사이트는 검색 엔진의 후속 도입과 함께 다중 포털이었습니다. 검색은 사이트 내 및 추적된 모든 Runet 사이트에서 수행할 수 있습니다.

공식 페이지는 www.km.ru입니다.

Gogo - 작동하지 않고 검색 엔진으로 리디렉션됩니다.

공식 페이지는 www.gogo.ru입니다.

별로 인기가 없는 러시아 멀티포털은 개선이 필요하다. 검색 엔진에는 뉴스, TV, 게임, 지도가 포함됩니다.

공식 페이지는 www.zoneru.org입니다.

검색 엔진이 작동하지 않습니다. 개발자는 검색 엔진을 사용할 것을 제안합니다.

유사한 게시물