SEO / / 2024. 5. 30. 16:05

구글 검색엔진이 어떻게 작동하는지 알아 보자

반응형

목차

    구글 검색엔진의 작동 



    1. Crawling - 크롤링 - 정보수집

          구글 크롤링 과정

           1. 시작점 - 이미 알고 있는 웹 페이지 목록이나 웹마스터가 제출한 사이트맵을 기반으로 시작

           2. 링크 따라가기 - 웹 페이지를 방문하고 링크를 따라 이동 및 크롤링

           3. 정보수집 - 각 웹 페이지의 컨텐츠와 링크 정보를 수집하고, robots.txt 파일을 확인 하여 크롤링 허용 여부를 판단.
             *robot.txt 는 웹사이트 루트 디렉토리에 위치하는 텍스트 파일로, 특정 페이지의 수집 가능 여부를 봇에게 전달.
               -역활
                 서버부하 감소
                 개인정보 보호
               - robots.txt  내부 내용
                 User-agent: [봇 이름]
                    [봇 이름] 은 크롤링 규칙을 적용할 봇의 이름을 지정. 모든 봇이면 '*' 
                 Allow: [크롤링 허용 경로]
                 Disallow: [크롤링 제한 경로]              

    robots.txt 예문
    User-agent: *
    Allow: /
    Disallow: /private/
    allow: / 로 모든 경로에 대한 크롤링 허요, disallow: /private/ 으로 /private/경로는 비 허용

               robots.txt 소개 및 가이드: https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=ko

     

    robots.txt 소개 및 가이드 | Google 검색 센터  |  문서  |  Google for Developers

    robots.txt는 크롤러 트래픽을 관리하는 데 사용됩니다. robots.txt 소개 가이드에서 robots.txt 파일의 정의와 사용 방법을 알아보세요.

    developers.google.com

           4. 구글 인덱스 저장
                크롤링 된 정보를 저장.

    • Googlebots (crawlers) discover new & updated web pages
      구글봇 (크롤러, 프로그램)들이 새로운 그리고 업데이트간 웹사이트를 확인.
    • Follow links to find other pages
      해당 사이트내의 링크를 찾아서 다른 페이지로 이동
    • Store page information
      해당 페이지 정보를 저장

    2. Indexing - 색인화/정보 저장

         구글 인덱스는 방대한 양의 웹 페이지 정보를 저장/관리 하여 사용자가 원하는 정보를 찾게끔 하는 역활을 수행

    • Analyze page content (text, images, videos)
      페이지 컨텐츠를 분석 (글, 이미지, 영상)
    • Organize information in the Google Index (database)
      구글 인덱스 데이터 베이스에 정리 저장
       웹 페이지의 URL
       웹 페이지의 제목
       웹 페이지의 콘텐츠 요약
       웹 페이지에 포함된 키워드
       웹 페이지의 최종 업데이트 날짜
       웹 페이지의 언어
       웹 페이지의 접근성 정보 (예: robots.txt 파일) 
    • Consider factors like keywords, relevance, & quality
      키워드나 연과성 및 품질을 고려 함.

    3. Serving Search Results - 검색결과 제공

    • User enters a search query
      사용자가 검색 질문 입력
    • Google's algorithms analyze the query
      구글 알고리즘이 질문을 분석
    •  Retrieve relevant pages from the Index
      연관된 페이지를 인덱스에서 가져 온다.
    • Rank pages based on various factors (relevance, quality, user experience)
      페이지를 여러가지 조건 기준으로 순위화 과정을 거침. (유사성, 품질, 사용자 경험등)
    • Display the ranked results to the user
      순위화된 페이지를 유저에게 송출
    구글 쿼리(검색어) 처리 알고리즘
    Hummingbird 전체 의미 파악, 동의어 관련 검색어 문맥등 고려 검색 결과 제공
    2013년 8월에 첫 도입, 벌새 처럼 빠르고 정확하게 검색 결과를 제공한다는 의도

    주요특징:
     의미론적 검색 강화 - 검색어와 일치 하는 단어를 찾는 것이 아닌, 검색어의 의미와 의도를 파악 관련성 높은 검색 결과 제공
     자연어 처리 능력 향상 - 일상적인 언어의 검색 의도 파악 및 답 제공
     지식 그래프 연동 - 검색 결과 페이지에 지식 그래프 정보 표시, 관련된 정보 습득에 도움
     대화형 검색 지원 - 음성 검색, 질문 형식 검색 등 대화형 검색 지원 강화

    영향:
      검색 결과 정확도 향상, 롱테일 키워드 검색 강화, 콘텐프 마케팅 중요성 증가, 음성 검색 최적화 필요성 증가

    RankBrain 머신 러닝 기술 활용 쿼리(질문)과 웹 페이지의 의미를 분석하고 관련/연과성 파악 평가
    2015년 첫 도입, 쿼지(질문)에 대한 의도 파악 및 관련성 평가 후 결과 제공하는 인공지능 기반 알고리즘.

    주요기능:
    검색어 이해 - 의미와 의도 파악, 모호한 검색어에 대한 추론
    검색 결과 순위 조정 - 관련성 평가 만족도 상승을 위한 순위 조정
    지속적인 학습 - 사용자 검색 패턴 과 피드백 분석, 학습 후 성능 향상.

    작동 방식:
    1. 벡터 변환: 검색어와 웹페이지 수학 벡터화
    2. 유사도 계산: 벡터에 대한 유사도 계산 후 관련성 평가
    3. 순위 조정: 관련성 점수 및 기타요소를 종합하여 순위 조정

    중요성: 모호한 검색어 처리, 새로운 검색어 처리, 만족도 향상.
    BERT 자연어 처리 (NLP) 기술, 쿼리 (질문)과 문맥을 더 잘 이해, 검색 결과 정확도 상승
    BERT(Bidirectional Encoder Representations from Transformers), 2018년 첫 도입
    자연어 처리 (NLP)
       자연어는 인간의 언어를 칭하고, 해당 알고리즘은 인간의 언어에 대한 컴퓨터의 이해 (명령)을 분석, 생성하는 알고리즘.
     
    특징:
     신경망 아키텍쳐 기반 - Transformer, 문장 내 단어 간의 관계를 모델링 후 문맥 파악
     양방향 학습 - 문맥 앞뒤 모두 고려 하여 단어 의미 파악. 
     사전 학습 - 대규모 텍스트 데이터를 사용하여 사전 학습
     미세 조정 - 특정 작업에 맞게 미세 조정 가능

    참고자료:
    BERT 논문: https://arxiv.org/abs/1810.04805
    BERT 설명 블로그: https://blog.naver.com/handuelly/222301180682?viewType=pc
    Panda 저품질 컨텐츠 제외, 고품질 컨텐츠 우선 노출 알고리즘
    2011년 2월 첫 도입. 사이트 검색결과 내 송출되는 랭킹 사이트의 품질 검토 후 순위 조정

    해당 알고리즘의 영향
         컨텐츠 팜 감소
         뉴스 웹사이트 및 소셜 네트워킹 사이트 순위 상승 됨
         광고가 많은 웹사이트 순위 하락

    작동 방식: 
          컨텐츠 품질 확인: 독창성, 유용성, 정보의 정확성, 문법 및 맞춤법 오류 등 평가
          사용자 경험: 사이트 디자인, 로딩 속도, 사이트 편의성, 광고 배치 등 요소 평가
          신뢰성 : 평판, 전문성, 링크 프로필 등 고려 신뢰성 평가     

    Penguin 스팸 링크 감지, 링크 조작을 통해 검색 순위 시도 방지
    2012년 첫 도입. 현재도 지속적인 업데이트를 하고 있으며 현재까지도 중요한 부분을 차지하고 있음.

    작동 방식:

     1. 링크프로필 분석
     2. 스팸 링크 감지
     3. 웹사이트 순위 조정

    업데이트 이력
    Penguin 1.0 (2012년 4월) - 첫 도입
    Penguin 2.0 (2013년 5월) - 스팸 링크 기능 개선, 정교화
    Penguin 3.0 (2014년 10월) - 감지 기능 개선, 순위 조정 방식 변경
    Penguin 4.0 (2016년 9월) - 실시간 스팸 링크 감지, 웹사이트 순위 반영 방식 변경

    웹사이트 보호 방법
     1. 부자연스러운 링크 구축 하지 않기
     2. 양질 컨텐츠 제작
     3. 정기적인 링크 프로필 검토 (사이트내 적용된 링크 확인)

    Additional Processes - 추가적인 과정

    Ranking Algorithms - 랭킹 알고리즘

    - Constantly updated to improve search quality
      지속적으로 업데이트 하여 검색 결과의 품질을 향상

    - Consider hundreds of factors (e.g., relevance, freshness, location, user intent)

       수백가지의 고려 조건들이 있다 (예: 유사성/연관성, 참신함, 지역, 사용자의 의도 등)

    Personalization - 개인화, 사용자 맞춤

    - Tailor search results based on user's location, search history, & preferences
      사용자의 지리적 위치 및 과거 기록과 선호도에 따라서 검색결과를 조정.

     

    Spam Filtering -스팸 필터링

    - Identify & remove low-quality or manipulative pages from results.
      저질 혹은 복사된 페이지를 검색 익덱스화된 정보 자료에서 제거 한다.
      (AI 컨텐츠가 여기에서 많이 제외)

     

     

     

    반응형

    'SEO' 카테고리의 다른 글

    SEO는?  (1) 2024.05.30
    • 네이버 블로그 공유
    • 네이버 밴드 공유
    • 페이스북 공유
    • 카카오스토리 공유