네이버관련자료

네이버 검색 중복문서 판독의 허와실

ttahha 2015. 2. 18. 07:58
인스타,블로그,페이스북,트위터


앞으로 발전하게 되겠지만 아직은 내글이나 내블로그에서 황당한 경험을 하는 블로거가 국내에 상당히 많다

이문제를 꼬집은 장병수 칼럼니스트의 글을 옮겨보았다.

누구라도 외면하기 힘든 문제이며 마치 벽에 부딪친 느낌을 지울 수 없다..


"네이버 블로그를 운영하고 있다면 한두 번 정도는 경험했을 법한 일이다. 블로그에 올린 글이 검색에 보이지 않는 것. 포스트 제목 전체를 복사해서 검색창에 불여넣기를 해서 찾아봐도 없으면 검색에 반영되지 않은 것이다.

네이버 고객센터에 문의하면 출처 검색 기능을 이용해서 찾아보라는 답변을 한다. 출처 검색은 네이버 검색 반영 결과와는 다른 별도 서비스다. 검색에는 없어도 출처 검색에는 보인다. 이럴 경우라면 2가지를 알아보면 원인을 알 수 있다.

먼저 네이버 검색 규정 위반으로 검색 제한 조치를 받은 경우다. 이런 경우는 대부분 사람에 의한 신고다.

다음으로는 당사자 글을 누군가 몰래 훔쳐가서 네이버 블로그나 카페, 웹문서에 올렸고 그 복사본이 원본으로 인식됐을 때다. 이 경우라면 정말 허망하겠지만 네이버에 연락을 취해야 한다.

네이버 리브라(Libra) 알고리즘의 핵심은 품질 좋은 콘텐츠를 찾아서 먼저 보여주는 것이다. 그런데 아직까지 구글만큼 신뢰도가 높지 않다. 솔직히 사람이 신고하지 않으면 해결 안 되는 경우가 더 많은 것 같다. 중복 문서 판독 정확도를 알아보기 위해 몇 가지 테스트를 해봤다.

◇ 먼저 워드프레스에서 네이버. 필자는 블로그 2개를 운영 중이다. 하나는 네이버 블로그, 다른 하나는 워드프레스로 만든 반응형 웹이다. 워드프레스에서 먼저 발행한 글을 네이버 블로그로 가져가 그대로 올리면 검색에는 네이버 블로그가 먼저 반영된다. 이럴 때에는 네이버 블로그 글이 원문으로 인식된다.

다시 말해 네이버 블로그를 운영하는 누군가에 의해 내 글이 네이버 블로그로 옮겨질 때 시간 영향을 받게 된다는 걸 알 수 있다. 워드프레스 글이 먼저 검색이 반영된 이후 네이버 블로그로 옮겨갈 때에는 네이버 글은 중복에 의해 검색에 노출되지 않는다.

다음은 네이버에서 워드프레스. 네이버 블로그에 글을 올리면 거의 실시간 검색에 반영되기 때문에 다른 외부 블로그로 이동시켜봐야 중복 문서에 걸릴 확률이 높다. 여기에서 흥미로운 사실은 외부에서 가져온 글은 언제든 환영하면서 네이버 내부 글을 다른 외부 플랫폼으로 가져가는 걸 싫어한다는 사실이다.

그리고 또 한 가지 흥미로운 사실은 포스트 제목을 조금 수정해서 올려보면 2개 모두 검색에 노출되는 경우를 보게 된다. 이 정도로 허술하다는 얘기다. 본문은 전혀 수정하지 않았음에도 타이틀 변경만으로도 중복 문서가 뚫린다.

리브라의 핵심은 신뢰도가 높은 작가가 쓴 글에 대해 높은 평가를 해주겠다는 것이다. 그런데 신뢰도 측정 기준이 무엇인지 모호하다. 구글플러스와 페이스북에선 소셜 반응도(social interaction)를 평가해서 뉴스피드 최적화(NFO)를 가동한다. 예를 들어 공유, 좋아요, +1, 댓글, 친구 태그 등 반응이 활발한 글이 좋은 글로 평가받는 식이다. 물론 계정 운영자 프로필에 대한 평가가 가장 높다.

네이버 내부 블로그에 대한 평가는 비교적 쉽다. 물론 이것도 공정하지는 않지만. 공감과 댓글, 엮인 글, 포스트별 체류시간, 방문자 수, 콘텐츠 관련성(content relevant), 계정 역사(이력), 프로필 종합점수 등으로 평가하면 되지만 네이버는 지금 이런 시스템이 없는 것 같다.

문제는 외부 플랫폼을 사용하고 있는 작가에 대한 평가다. 지금까지 살펴본 바로는 방문자 수(클릭) 기준으로 신뢰도를 결정하는 것으로 보인다. 말하자면 같은 글을 발견했을 때 해당 게시물이 네이버 검색에 반영된 후부터 어느 문서에서 더 많은 클릭이 발생하느냐에 따라 순위를 정한다. 이렇게 하다보니 진짜 원문이 뒤로 밀려나 버리는 문제가 있다.

물론 위 내용은 개인적 테스트를 통한 것인 만큼 네이버가 공식 로직은 아니다. 네이버 검색에 대한 정확한 기준을 알려주지 않는 이상 아무도 단정할 수는 없다. 하지만 확실한 것 하나는 네이버 검색 중복문서 판독 자체에는 문제가 많다는 것이다."