상세 컨텐츠

본문 제목

알고리즘, 페이지랭크(PageRank)란?

카테고리 없음

by SL_secondlife 2023. 2. 22. 17:09

본문

반응형

구글 SEO를 공부하다보면 페이지랭크(Pagerank)라는 알고리즘에 대하여 듣게 됩니다. 그럼 과연 이 페이지랭크라는것은 무엇일까요?

페이지랭크(PageRank)는 구글 검색 엔진에서 사용하는 알고리즘 중 하나로, 링크 분석(link analysis)을 기반으로 하는 웹 페이지의 상대적인 중요도를 측정하는 방법입니다. 

링크 분석은 웹 페이지 간의 하이퍼링크 구조를 분석하여 각 웹 페이지의 중요도를 결정합니다.

 

아주 단순한 개념이기는 합니다.

각 웹 페이지에 대해 해당 페이지로 링크를 걸어준 다른 웹 페이지들의 수를 세는 방식으로 중요도를 결정하는 개념이라고 할 수 있습니다.

"즉 다른 웹페이지에서 나의 웹페이지를 링크 걸어 주는것"

 

페이지랭크 알고리즘을 개발한 사람은?

페이지 랭크(PageRank) 알고리즘을 개발한 사람은 구글(Google)의 공동 창업자인 래리 페이지(Larry Page)와 세르게이 브린(Sergey Brin)입니다. 

https://en.wikipedia.org/wiki/Larry_Page  https://en.wikipedia.org/wiki/Sergey_Brin

이 두명의 천재에 대해서는 차후에 다루도록 하겠습니다.

 

래리 페이지와 세르게이 브린은 스탠포드 대학교에서 박사 과정을 수료한 후, 1998년 구글을 창업했습니다. 이후, 구글은 검색 엔진 시장에서 대성공을 거두면서, 페이지 랭크 알고리즘은 구글의 핵심 기술 중 하나가 되었습니다.

 

이 알고리즘을 개발한 이유는, 당시 검색 엔진에서 검색 결과를 제공하는 방식이 문제점이 있었기 때문입니다.

 

당시 검색 엔진은 검색어와 일치하는 웹페이지를 찾아내는 것이 전부였습니다. 

하지만, 이 방식은 검색어의 출현 빈도수만으로 검색 결과를 정렬하기 때문에, 검색 결과의 정확성이나 신뢰성이 떨어지는 문제점이 있었습니다. 

또한, 검색 결과를 조작하는 검색 엔진 최적화(SEO) 기법이 발달하면서, 검색 결과의 질이 더욱 떨어지는 문제가 발생했습니다.

검색 결과를 조작하는 방법 중에 블랙햇 블로그 들도 한몫을 했습니다.

이러한 문제점을 개선하기 위해 일치하는 검색어 대신에 웹페이지의 인기도를 측정하여 검색 결과의 순위를 결정하도록 설계를 하게 됩니다.

 

래리 페이지(Larry Page)와 세르게이 브린(Sergey Brin)이 개발한 페이지 랭크(PageRank) 알고리즘에 대한 원본 논문은 "The Anatomy of a Large-Scale Hypertextual Web Search Engine"입니다.

 

페이지 랭크 논문

아래는 이 논문에서 발췌한 페이지 랭크 알고리즘에 대한 설명입니다.

"PageRank interprets a hyperlink from page A to page B as a vote, by page A, for page B. The more votes that are cast for a page, the more important the page must be. Also, the importance of the page casting the vote determines how important the vote itself is. PageRank thinks of links as votes, where a page linking to another page is casting a vote. Votes cast by important pages are given more weight, and help to make other pages more important."
(페이지랭크는 페이지 A에서 페이지 B로의 하이퍼링크를, 페이지 A가 페이지 B에 대한 투표로 해석합니다.
페이지에 투표된 횟수가 많을수록 해당 페이지가 중요하다고 간주됩니다.
또한, 투표한 페이지의 중요도가 투표 그 자체의 중요도를 결정합니다.
페이지는 링크를 투표로 생각하며, 한 페이지에서 다른 페이지로 링크하는 것은 투표를 의미합니다.
중요한 페이지에서 투표한 것은 가중치가 높아지며, 다른 페이지를 더욱 중요하게 만들어줍니다.)

각 웹 페이지에 대해 해당 페이지로 링크를 걸어준 다른 웹 페이지들의 수를 세는 방식으로 중요도를 결정합니다. 또한 해당 페이지로 연결해주는 다른 웹 페이지들의 중요도도 고려합니다. 즉, 링크를 많이 받고, 링크를 걸어주는 페이지의 중요도가 높을수록 해당 페이지의 중요도가 높아지게 됩니다.

 

간단히 다시 정리하자면,

이미 유명한(중요한페이지)페이지에서 나의 페이지로 링크를 건다면, 그 링크를 건 이유는 나의 페이지가 그만큼 좋은 내용이라고 생각한다는 뜻입니다.

 

우리가 논문을 낼때 참고문헌을 엄청나게 참고하는 이유는 그 문헌들이 굉장히 좋은 퀄리티를 가지고 있기 때문에 그 문헌들을 참고 하게 되는...그런 이유와 같다고 볼수 있습니다.

 

페이지 랭크 알고리즘의 페이지 인기도 특정과정

1. 모든 웹페이지는 동일한 초기값(여기서는 0.25)으로 시작합니다.

 

2. 각 웹페이지는 다른 웹페이지로의 링크 수를 고려하여, 해당 웹페이지로 링크

웹페이지 A는 웹페이지 B와 C로 링크가 걸려 있으므로, B와 C의 초기값인 0.25를 더한 값인 0.5가 A의 인기도가 됩니다.

 

3.이후, 각 웹페이지는 해당 웹페이지로 링크를 건 다른 웹페이지들의 인기도를 모두 더한 값을 해당 웹페이지의 새로운 인기도로 설정합니다.

웹페이지 A는 웹페이지 B와 C로 링크가 걸려 있으므로, B와 C의 인기도를 모두 더한 값인 0.8이 A의 새로운 인기도가 됩니다.

 

4.위의 과정을 여러 번 반복하면, 각 웹페이지의 인기도가 수렴하게 되고, 최종적으로 각 웹페이지의 인기도를 나타내는 값이 결정됩니다.

이러한 방식으로 페이지 랭크 알고리즘은 웹페이지의 인기도를 고려하여 검색 결과의 순위를 결정하게 됩니다.

페이지 랭크 알고리즘은 이후에 다양한 변형과 발전을 거쳐, 현재의 검색 엔진에서도 사용되는 기본적인 알고리즘이 되었습니다.

 

 

 

 

반응형

댓글 영역