아주 오래 전에, Ms. Anscombe님이 (지금은 탈퇴하셨다고 뜨네요) 통계로 보는 PGR 관련해서 몇 가지 깊은 분석을 하신 일이 있었습니다. 검색해 보니 그게 2009년 10월쯤의 일이군요. 그 정도로 깊게 할 자신은 없고, 이번에도 역시 가볍게 써 보고자 합니다. 아니, 정말로 가볍게요.
통계라고 해 봤자 결국 분석할 수 있는 요소는 세 가지 요소 외에는 남는 게 없습니다. 추천 수, 조회 수, 그리고 댓글 수. 그나마도 댓글 수가 가장 많은 글로 소팅(Sorting)하는 기능은 PGR에 없는 관계로, 저 둘만 가지고 이야기를 해야겠네요. 어디까지 이야기해 볼 수 있을까요.
일단 먼저 전체 글 수를 체크해 봤습니다. 무슨 이유인지는 모르겠으나, PGR의 자유게시판의 글 번호가 가끔 가다가 번호가 넘어가는 경우가 있어서, 2페이지 이후부터 주소창에 뜨는 'page=얼마' 부분에 적당히 큰 값을 집어넣고 거기에 한 페이지에서 볼 수 있는 글 수인 23을(이것도 생각해 보면 참 의문거리입니다. 왜 딱 5의 배수인 20개 혹은 25개로 떨어지거나 PGR21에 맞는 21개가 아닌 한 페이지에 23개의 글일까요?) 곱해서 전체 글 수를 보았습니다.
전체 1530페이지입니다. 왠일인지 글의 최소 번호는 757번이군요(2007년 3월 6일자). 오래 된 글은 자동으로 삭제되는 시스템인 모양입니다. 여하간 현재 자유게시판에 남아 있는 총 글의 수는 1530 곱하기 23을 해서... 무려 35190개. 그냥 계산하기 편하게 3만 5천 개로 합시다.
추천 버튼이 언제부터 생겼는지는 기억이 전혀 안 납니다. 근데 추천수로 리스트를 찍어보면, 10개 이상의 추천을 받은 글 중 07년 12월 글이 감지됩니다. 그 때도 추천 버튼이 있었나 봅니다? 그래서 추천 관련 통계를 내기 위한 목적으로 계산할 때는 범위를 다시 잡아야 할 필요가 있다고 판단하여, 2007년 11월 11일 메딕아빠님의 수능 축사(...)를 기준으로 - 그게 이 글을 쓰기 위해 검색한 시점에서 딱 1450번째 페이지의 마지막 글이었습니다. 지금 이 글은 그때 검색하고 하루 지나서 쓰는 글이라서 - 잡아서 다시 글 수를 계산해 보면, 33350개. 대충 10만의 1/3 가량이 되겠군요. 언뜻 보면, 놓고 보니 위에서 잡았던 3만 5천 개와 그리 큰 차이도 나지 않는 것 같습니다? 그러나 저대로 계산하면, 계산값의 대략 5% 정도가 부풀려지거나 빠지게 될 가능성이 있습니다. 이건 좀 차이가 크죠. 그래서 추천 관련 통계는 33333.33333333개(...)로 계산해 봅니다.
사실 제가 할 수 있는 거라고는 줄 세우기 정도밖에는 없어요. 어쩌면 비판의 요소가 될 이런 글을 쓰는 이유라면, 평소에 다들 PGR 필력과 글쓰기 버튼의 무거움을 이야기하잖습니까. 과연 어느 정도로 필력이 좋은 글이 자주 나타나길래, 또 얼마나 많은 글이 좋은 글이라는 평가를 받고 있는가를 보기 위해서 그걸 수치상으로 조금이라도 체감해보고자 하는 것이 이 글의 목적입니다. 단, 전제조건이 하나 있다면, 많은 추천수를 받은 글이 좋은 글이다라는 전제조건이 깔려 있죠. 또한 많은 조회수를 받은 글이 많은 추천수를 받은 좋은 글인가? 이 명제를 검증해보고자 하는 의미도 있습니다. 기회가 되면 키워드 같은 걸로 정말 쩌는 퀄리티의 글을 한 번 만들어보고 싶지만, 지금은 제 나름대로 할 일이 바쁘기도 해서... 개인적인 프로젝트를 하나 잡고 있거든요.
...뭔가 인트로가 좀 심하게 잡아늘여졌지만, 상관없겠죠.
1) 조회수 기준
조회수를 높이기 위한 가장 큰 요소는 바로 캐치프레이즈입니다. 그것이 현 이슈가 되었건, 아니면 제 식으로 표현해서 쌈빡한(...) 이태백이 울고 갈 표현이건. 그 외에 공지글이나, 다수의 어그로를 끌 만한(...) 글도 조회수가 높겠죠. 조회수를 가지고 분석을 해 본 결과는 이렇습니다.
A. 상위 30개의 글은 1만 5천 건 이상의 조회수를 기록.
정확히 하면 29개입니다. 자유게시판 조회수 30위의 글이 14971의 조회수로 1만 5천 건 달성에 불과 29건의 조회만을 남겨두고 있는 뭐 그런 상황이거든요. 0.1%인 상위 35개의 글을 기준으로 보면, 14800건이 컷이 됩니다(역시 상위 35위 글이 14796건이지만, 이 정도는 그냥 오차 처리합니다). 즉 현재로서 조회수 상위 0.1%를 기록하려면 1만 5천 건의 조회수를 받아야 한다는 결론이 나오네요.
B. 조회수 1만 컷까지의 글 수는 정확히 240개입니다. 240을 3만 5천으로 나누면 대략 0.0069로, 약 0.7%의 글만이 조회수 1만을 기록하고 있다는 이야기가 되겠군요. 즉 대충 145개의 글 중 하나꼴로 조회수가 1만을 넘어가는 겁니다. 이렇게 적고 보니 의외로 조회수 1만을 초과하는 게 많다는 생각이 드는군요(...)
C. 1530페이지를 반으로 나눈 765페이지에 있는 글의 조회수의 평균으로 전체 조회수의 평균을 추정해보고자 합니다. 물론 좋은 방법은 아니긴 한데, 시간을 오래 잡아먹지 않고 최대한 빠르게 근사치를 추정할 수 있다는 장점이 있죠. 십의 자리까지만 나타내려고 하고 있었는데, 그러다 보니 이건 뭐 구질구질하게 일일이 더해서 23으로 나눌 필요도 없이 1초만에 딱 결과가 나왔습니다(...) 평균 조회수는 3090건. 중복해서 클릭하면 조회수가 더 올라가는 - 즉, 예를 들어서 제가 글 A를 읽고 나중에 또 A를 읽으면 조회수가 한 번이 아닌 두 번이 되는 - 뭐 그런 시스템인지 아닌지를 몰라서 제가 함부로 이야기할 수는 없겠습니다만 아무리 적게 잡아도 2천 명이 넘는 사람이 자유게시판에 올라온 글을 읽고 간다고 볼 수 있겠군요.
D. 가장 조회를 많이 받은 글은 놀랍게도 공지글이 아니라 순두부님의 탕수사학 개론(...)이었습니다. 2위인 게시판 규정 공지보다 무려 6만 3천 건이나 더 읽힌, 그야말로 데이터 분석상의 아웃라이어의 살아 있는 표본(...)이죠. 더 놀라운 것은 3위가 비속어 공지가 아닌 숭례문 단청 복원에 관한 해명글이라는 건데요, 숭례문이라는 것의 상징성과 이슈라는 점이 덧붙여져서 여기저기 퍼진 결과 이런 결과가 나온 것으로 보입니다. 여담으로 순두부님은 탕수사학 개론 주해(...)로 조회수 상위 10건의 글에 자신의 이름을 둘이나 박아놓는 기염을 토하셨습니다(...) 이런 욕심쟁이.
E. 조회수와 추천수의 상관관계는 분명 양의 상관관계가 존재하는 게 당연해 보이는데... 왠일인지, 정말 희한하게도, 그 상관관계가 전혀 보이지 않았습니다. 당장 조회수 기준으로 찍어보았을 때 1페이지의 글 중에서 추천수 10 이상인 글이 딱 4개뿐이에요. 2페이지에서도 3개. 이로 미루어볼 때, 좀 과하게 말씀드리자면 추천수를 높이고 싶으신 분들은 명문장을 쓰는 것보다는 현재의 시사 문제나 뜨거운 감자를 논하는 게 더 낫다는 결론이 나오는군요. 물론 1페이지 글 중 추천수 10 이상인 두 개는 순두부님 탕수육 작품... 에이! 하늘은 왜 나를 낳고 또 순두부님을 낳았단 말인가!
2) 추천수 기준
PGR의 자유게시판의 퀄리티를 밑도끝도없이 높이면서 동시에 글쓰기 버튼도 함께 밑도끝도없이 무겁게 만든다는(...) 명문. 과연 자유게시판에서는 얼마나 많은 명문이 감지되었을지, 한 번 보시죠.
A. 추천수가 한 건이라도 있는 글은 총 7693개(...)의 글로, 전체 글의 약 23.1%를 차지하고 있습니다. 자추한 거 아니냐구요? 그거 저도 해 봤는데... 자기 글은 자기가 추천할 수 없다는 메시지만 뜨더랍니다(...) 즉 추천을 한 건이라도 받았을 확률은 어림잡아 23%, 대충 글 네 개 중 하나는 최소 1의 추천수를 기대해볼 수 있다(기대해 "볼 수 있다"지 "확실하다"가 아닙니다)는 말이 됩니다.
A-1. 앞서 조회수 상위 50건의 글 중 추천수를 하나라도 받은 글은 29개입니다. 비율이 23%에서 58%로 두 배 이상 늘었군요. n이 30 이상이니 귀무가설 검정이고 뭐고 제껴두고 자동으로 이런 결론이 나옵니다. "좋은 글"이라는 것의 정의를 추천수를 하나라도 받은 글이라고 정의할 때, 조회수가 아주 높을수록 - 여기서 말하는 아주 높을수록이라는 것은 조회수 상위 0.2%를 말합니다 - 좋은 글일 가능성이 높다는 건 타당하다.
B. 그렇다면 컷을 좀 올려 봅시다. 추천수가 5건 이상인 글을 좋은 글이라고 가정했을 때, PGR에서 좋은 글이라 할 수 있는 비율은 어느 정도일까요? 놀랍게도, 추천수가 5건 이상 - 헷갈리실까봐 덧붙이면 5건인 글도 포함해서 - 인 글의 수는 불과 1145개로, 약 3.43%에 불과합니다. 어마어마하게 비율이 풍선 빠지듯이 줄어든 셈이죠.
B-1. 조회수 상위 50건의 글 중 추천수 5건 이상인 글은 13개에 불과합니다. 그래도 26%의 비율로 만만치는 않군요. 후술하겠지만 추천수 컷을 10건으로 올리면 조회수 상위 50건 중 해당되는 글은 8개. 분명히 평균보다는 높습니다만, 아주 좋은 상관관계를 가진 것은 아니라는 결론이 나오게 되네요.
B-2. 조회수 5건 이상의 글들에 한정해서 가운데값을 잡아 보면, 즉 추천수로 따졌을 때 1145/2인 상위 573위의 글은, 추천수가 8건이었습니다. 즉 추천수가 8건 이상이라면 정말 괜찮은 글을 하나 써 냈다고 자부하셔도 충분하리라는 생각이 드는군요.
C. 추천수가 10건 이상인 글의 개수는 428건입니다. 이제 여러분이 추천수 10건 이상인 소위 말하는 추게로 갈 만한 글의 비율은 1.3%로 줄어들었습니다. 정말 솔직히 말씀드리겠습니다만 이게 쓰면서 저 나름대로 묘한 자부심이 드는 게, 다른 게시판 이야기입니다만 제가 글을 몇 번 게임게시판에 올렸던 게 에게에 간 일이 몇 번 있었거든요(비록 닉을 좀 이리저리 바꾸기는 했습니다만). 이 정도면 나도 한 필력하나 하는 뭐 그런(...) 자부심 되겠습니다. 흐흐흐.
D. 추천수 15건 이상인 글은 236건입니다. 상위 0.7%. 즉 15건의 추천수를 받으셨다는 것은 넘치고 넘치는 자유게시판의 글 중에서 진주를 하나 만들어내셨다는 의미가 됩니다. 퀄리티로 0.7% 안에 드셨다는 것은, 물론 단순한 1:1 비교를 하면 좀 곤란할 여지가 있겠습니다마는, 조회수로 따지면 조회수 1만 건 이상급의 엄청난 임팩트를 남겼다는 것과 다를 바가 없는 이야기입니다. 흠... 갑자기 논문 쓸 때 따지는 임팩트 팩터가 떠오르는 건 왜일까요(...) 이 참에 한번 고안해볼까...
E. 추천수 20건 이상의 글은 153건으로 상위 0.46%.
F. 추천수 26건 이상의 글이 딱 101개입니다. 달마시안인가(...) 27건으로 자르면 98개. 즉 추천수를 30개 이상 받았다면 그건 PGR 자유게시판 역대 100위의 글 중 하나가 된다는 그런 영예가 주어지는 겁니다. 저 본인으로서는 졸렬하나마 저번에 썼던 무궁화호 팁으로 추천수 28회를 달성하야 상위 100위 글 중 하나에 마크되는 영광을(...) 데헷★
G. 상위 50개로 자르면, 추천수의 컷은 39가 됩니다(추천수 39 이상인 글이 총 49개). 이미 이 순간 0.15% 안에 들어가는, 그야말로 명문장의 완성이지요.
H. 추천수 50 이상을 받은 글은 총 29개로 0.087%인데, 이 명글의 반열에 오르신 분들 중에 욕심스럽게도 두 자리를 차지하고 계신 분이 세 분이나 계셨습니다. Eternity님, 순두부님, 그리고 절름발이이리님. 이렇게 세 분이서 추천수 50 이상의 글을 두 개나 작성하신 굇수급 필력을 보여주신 거죠. 욕심쟁이.
I. 최다 추천수는 역시 최다 조회수의 영광을 차지했던 탕수사학개론으로 어바웃 450건. 2위와의 격차가 무려 150건이라는 어마어마한 임팩트를 몰고 오셨습니다.
J. 피라미드식으로 나타내 보면 다음과 같습니다.
글 1개 (0.003%)
--- 300건 이상 (총 1개, 누적도수 0.003%) ---
글 2개 (0.006%)
--- 200건 이상 (총 3개, 누적도수 0.009%) ---
글 5개 (0.015%)
--- 100건 이상 (총 8개, 누적도수 0.024%) ---
글 21개 (0.063%)
--- 50건 이상 (총 29개, 누적도수 0.087%) ---
글 59개 (0.159%)
--- 30건 이상 (총 82개, 누적도수 0.246%) ---
글 71개 (0.213%)
--- 20건 이상 (총 153개, 누적도수 0.459%) ---
글 275개 (0.825%)
--- 10건 이상 (총 428개, 누적도수 1.284%) ---
글 717개 (2.151%)
--- 5건 이상 (총 1145개, 누적도수 3.435%) ---
이하.
3) 기타
A. 자유게시판의 마지막 글인 2007년 3월 6일부터... 그냥 계산하려고 했더니 PGR이 정상화되지 않았던 적이 몇 번 있었군요. 게시판 닫았던 한 달과 서버이전 한 달? 뭐 하여간 60일을 빼면 적당하겠군요. 근사적으로 계산해 보았을 때 2282일에서 60일을 뺀 2222일(...)로 전체 글 수인 35000을 나누어 보았을 때, 대략 하루 평균 15.75개. 기간이 좀 길게 잡혔을 가능성이 있으니 하루에 16개의 글이 올라온다고 보면 됩니다. 조회수 1만을 초과하는 글이 9일~10일에 한 번꼴로 올라온다는 이야기가 되는데... 이렇게 놓고 보니 정말로 짧다는 느낌이 드는군요.
B. 추천수가 20건 이상 되는 추게로를 외치게 만드는 글이 뜨는 주기는 13.6일 정도가 됩니다. 그러니까 대략 2주에 하나꼴로 PGR 자유게시판에 아주 좋은 글이 올라오게 된다는 이야기가 됩니다. 2주에 하나... 사스가 PGR(...)
Y. 이 글은 상기 밝혔듯이, 줄 세우기로 경쟁이나 분란을 유발하려는 것이 목적이 아니며, 좋은 글이 얼마나 많이, 또 얼마나 자주 있는가를 봄으로써 글쓰기 버튼의 무거움이 과연 어느 정도였는가를 글을 읽으시는 분들이 한 번씩 생각해 보도록 함이 목적입니다. 또한 많은 조회수를 기록한 글이 과연 많은 추천을 받는 좋은 글인가에 대한 명제를 검증해 보는 것이 목적이었고, 제 결론은 "그럴 수도 있겠으나 기대하지 않는 것이 좋다"는 것이었습니다. 워낙 요즘 사회가 경쟁 사회다 보니 이런 말을 안 덧붙일 수가 없겠더라구요. 어디까지나 재미 삼아서 읽으시고 제가 이 글을 작성하는 목적을 오해하지 마시기를(...) 간곡히 부탁드립니다.
Z. 이 글은 어떠한 책도 참고하지 않고 자체적으로 최대한 빠르게 근사치로 달려가기 위한 통계를 사용했으며, 따라서 이 글의 내용을, 특히 이 글에서 사용한 방법을 '통계학적으로' 신뢰하는 건 금물이라고 말해 두고 싶군요. 말하자면, 제가 쓴 글은 통계학에 입문하거나 통계 관련 교양서적을 쓰기 위해 들어가기에는 적절할지언정 통계학 수업에 쓰일 교과서에 들어가기에는 적절하지 않다고 해 두죠. 당장 아웃라이어(표본에서 관찰 범위를 크게 벗어나는 값)를 잘라내지도 않았고, 기간분석이나 주기분석 등을 전혀 하지 않고 단편적으로 찍으면 보이는(...) 값들을 논한 글이니 말입니다. 이과생이시라면 제가 무슨 말을 하는지 아실 겁니다. 이건 정말 중요한 이야기에요. 응용수학부터 시작해서 실험물리학 실험화학 특히 분석화학 등등 여러 곳에서 바로 적용되어야 할 말일 테니 말입니다. 이과생이 아니시거나 이게 무슨 뜻인지 잘 모르시겠다면, 철저하게 지금까지 읽으셨던 내용을 "흥미거리"라는 선으로 끝내 두시길 권고합니다.
통합규정 1.3 이용안내 인용
"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
추천수와 조회수가 비슷하지 않은 경향인 이유로 보는 것중 하나가 추천수가 많은 명문들은 대부분 키베의 대상이 되지 않을 정도로 의견이 일치(이 글 대박이다)되기 때문인것 같습니다... 키베로 파이어가 되면 덧글이 늘어나고 그러면 사람들의 의견이 궁금해서라도 눈팅이라도 하는 사람이 늘어난다 봅니다....
몇 개 덧붙이자면,
1. 피지알이 비정상 상태여서 글쓰기가 되지 않았던 기간은 꽤 깁니다. 거기에 더해서 두 달? 정도의 글이 날아간 적도 있습니다.(30넘은 추천을 받은 제 글도 날라갔기에...) 전자는 글 쓰기가(정확히는 피지알 접속이) 안 된 거고, 후자는 쓰여졌던 글이 날아간 겁니다.
2. 한때 모든 글에 추천을 눌러주시는 분이 있었습니다. 그리고 그런 분이 있다는 것을 알고 추천을 누르시는 분도 있었고... 그래서 추천수가 1, 2, 3으로 갈수록 숫자가 확확 줄어듭니다.
더해서, 조회수의 경우 어떤 글이냐도 중요하지만 언제 썼느냐도 중요합니다. 특히나 아주 많은, 순위권에 해당될 정도의 조회수를 기록하는건 시기의 영향을 많이 받죠.
그래서 본문에 주기 분석을 이야기했던 거죠. 시기도 시기지만, PGR 역시 휴면기가 있고 불타오를 때가 있으니만큼 그 기간에 대해서는 당연히 조회수 등에 차이가 생길 게 뻔한데, 그걸 분석하자면 구간을 나누고, 평균을 잡고, 표준편차에 따른 상위 n%를 봐야 하죠. 시간이 오래 걸려서 못 하고 있었을 따름입니다.