[Search Engine] 크롤링(Crawling)과 인덱싱(Indexing)의 차이
검색 엔진에서 나오는 용어인 크롤링(Crawling)과 인덱싱(Indexing)의 차이에 대한 내용
환경
- 웹
크롤링(Crawling)과 인덱싱(Indexing)
크롤링(Crawling)
크롤링(Crawling)
: 크롤러나 봇(Bot)을 통해서 웹에 있는 웹 페이지들과 컨텐츠들을 찾아다니는 작업- 각 검색 엔진 회사들은 자기들만의 크롤링을 하는 봇(Bot)이 있으며 이를 통해서 웹 페이지들을 크롤링한다.
- 사이트 루트에
robots.txt
파일을 통해서 크롤링을 막을 수 있다.
인덱싱(Indexing)
인덱싱(Indexing)
: 크롤러나 봇(Bot)을 통해서 발견한 웹 페이지나 컨텐츠의 내용을 읽어서 해당 정보들을 검색 엔진에 구조화하여 저장하는 작업- 각 검색 엔진은 발견한 웹 페이지나 컨텐츠를 구조화하여 각 검색 엔진에 맞게 인덱싱한다.
- 페이지 소스안에
<meta name="robots" content="noindex">
태그를<head></head>
태그안에 넣어서 인덱싱을 막을 수 있다.
<head>
<meta charset="utf-8">
...
<meta name="robots" content="noindex">
...
</head>
주의사항
이슈
<meta name="robots" content="noindex">
태그가 추가되어 있더라도robots.txt
파일에 의해서 접근이 막혀있다면 페이지 자체를 확인할 수 없기 때문에noindex
태그가 적용되지 않을 수 있다.
해결 방법
<meta name="robots" content="noindex">
태그가 추가된 페이지라면robots.txt
파일에서 제외해 크롤러가 페이지를 읽어들여서<meta name="robots" content="noindex">
태그를 확인할 수 있도록 해야한다.- 관련 링크: https://developers.google.com/search/docs/advanced/crawling/block-indexing?hl=ko
참고자료
- https://www.google.com/intl/en/search/howsearchworks/crawling-indexing/
- https://en.wikipedia.org/wiki/Search_engine_indexing
- https://www.geeksforgeeks.org/difference-between-crawling-and-indexing-in-search-engine-optimization-seo/
- https://developers.google.com/search/docs/advanced/crawling/block-indexing?hl=ko