PGR21.com 배너 1

- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2015/12/23 12:01:25
Name Colorful
Subject [일반] 논문의 오자 개수
이 글은 존 D. 배로 저자의 '당신이 모르는 줄도 모르는 100가지 수학이야기'라는 책에서 한 가지 챕터를 발췌한 내용입니다. 각 챕터마다 제목-명구-본문순으로 되어있습니다. 2001년 출판등록된책이라 올드한 이야기일수도 있겠네요

/


<논문의 오자 개수>

[누군가가 폭탄을 소지하고 비행기에 탈 확률은 약 1,000분의 1이라고 어느 글에서 읽었다. 그래서 나는 비행기에 탈 때마다 폭탄을 소지하기 시작했다. 두 사람이 폭탄을 소지하고 비행기에 탈 확률은 엄청나게 낮다고 보기 때문이다. _익명의 저자]

나는 1977년 7월 4일 미국 독립기념일을 생생하게 기억한다. 영국은 몇 년 만에 최고로 더웠고, 나는 옥스퍼드에서 박사학위를 위한 구술시험을 치렀다. 의미가 약간 다르긴 했지만, '독립'은 나의 시험과도 상당한 관련이 있었다. 시험관들이 가장 먼저 던진 질문이 내 논문의 주제인 우주론과 전혀 무관한, 독립적인 질문이었던 것이다. 통계학에 관한 질문이었다. 한 시험관은 내 논문에서 오자 32개를 발견했다(워드프로세서와 맞춤법 검사기가 없던 시절이다.). 또 다른 시험관은 23개를 발견했다. 그리하여 질문은 이러했다. 두 시험관이 발견하지 못한 오자가 얼마나 더 있겠는가? 잠깐동안 두 시험관이 찾아낸 오자들을 비교해보니, 두 사람이 공통으로 발견한 오자는 16개였다. 아마 독자들은 믿기 어렵겠지만, 이 정보를 알고, 두 시험관이 각자 독립적으로 논문을 검토했으므로 한 사람이 오자를 발견할 확률은 다른 사람이 오자를 발견할 확률과 무관하다고 전제하면, 시험관들의 질문에 대답할 수 있다.
시험관 1과 시험관 2가 오자를 각자 A개와 B개 발견했고, 두 사람이 공통으로 발견한 오자는 C개라고 해보자. 이때 시험관 1이 오자를 발견할 확률은 a, 시험관 2가 오자를 발견할 확률은 b라고 가정하자. 만일 논문에 들어 있는 오자의 총수가 T라면, A=aT이고 B=bT이다. 그런데 두 시험관이 독립적으로 논문을 검토했다면, 우리는 C=abT라는 핵심적인 사실도 알 수 있다. 따라서 AB=abTT=CT이다. 그러므로 T=AB/C, 다시말해 논문에 들어 있는 오자의 총수 T는 a와 b가 얼마이든 상관없이 AB/C이다. 두 시험관이 찾아낸 오자의 개수는(공통으로 찾아낸 오자들은 한 번씩만 세어야 하므로) A+B-C이므로, 그들이 못 찾은 오자의 개수는 T-(A+B-C), 즉(A-C)(B-C)/C이다. 풀어서 이야기하면, 시험관들이 못 찾은 오자의 개수는, 시험관 1만 발견한 오자의 개수 곱하기 시험관 2만 발견한 오자의 개수 나누기 두 사람 다 발견한 오자의 개수이다. 곰곰이 생각해보면 충분히 납득할 만한 결론이다. 만일 두 시험관이 오자를 많이 찾았는데 공통으로 찾은 오자가 없다면, 그들은 오자를 찾는 데 그리 능하지 않은 것이고, 따라서 두 사람 다 못 찾은 오자가 훨씬 더 많을 가능성이 높다. 내 논문의 경우에는 A=32, B=23, C=16이었으므로, 발견되지 않은 오자의 개수는 7로 예측되었다.
이런 유형의 논증은 다양한 상황어 써먹을 수 있다. 여러 전문가들이 각각 독립적으로 원유 매장 지점들을 찾는다고 해보자. 이들이 발견하지 못한 매장 지점들이 얼마나 더 있을까? 또는 여러 관찰자들이 숲에서 24시간 내내 관찰하여 어떤 동물이나 새의 개체수를 보고한다고 해보자. 이들이 관찰하지 못한 동물이나 새가 몇 마리나 더 있을까?
문학작품 분석에서도 이와 유사한 문제가 발생했다. 1976년에 스탠퍼드 대학의 통계학자 두 명은 월리엄 세익스피어의 모든 작품에 쓰인 단어의 개수를 세고 여러 번 쓰인 단어들을 고려하면서 위와 똑같은 방식으로 논증하여 그가 아는 어휘의 규모를 추정했다. 셰익스피어는 총 90만 단어로 작품들을 썼다. 그의 전집에 등장하는 서로 다른 단어는 총31,534개인데, 이 중에서 14,376개는 단 한 번, 4,343개는 단 두 번, 2,292개는 단 세 번 등장한다. 통계학자들은 셰익스피어가 작품에 써먹지 않은 단어를 적어도 35,000개는 알고 있었다고 추정했다. 결론적으로 셰익스피어의 어휘규모는 약 66,500단어였을 것이다. 그런데 놀랍게도 당신의 어휘 역시 이 정도 규모이다.

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
치맛살
15/12/23 12:15
수정 아이콘
재밌게 읽었습니다.
안스브저그
15/12/23 12:17
수정 아이콘
익명의 저자부분은 조건부 확률 개념을 생각하면 오류를 범하고 있네요.
Colorful
15/12/23 13:38
수정 아이콘
저도 저 부분을 생각해 봤는데, 1000분의 1이라는 확률이 모든 경우의 수를 포함해서 나온 숫자 아닌가요?
그러니까 저 목적을 가지고 탄 폭탄의 숫자까지 포함 되지 않을까요?
그러면 저 사람말도 일리가 있어보이는데요
안스브저그
15/12/23 14:19
수정 아이콘
본문 그대로라면 누군가가 폭탄을 소지하고, 비행기에 탈 확률이 1/1000분이라고 나와있기에. 나의 폭탄 소지확률이 1/1000이고 다른 누군가의 폭탄 소지확률도 1/1000인 서로 독립인 사건이라고 해석하는게 매끄럽죠.

비행기에 탄 사람중 한명이라도 폭탄을 소지한 사람이 있을 확률은 1/1000이다라고 했을 경우에 colorful님 말씀대로 해석하는게 매끄럽습니다.

그렇지만 이 경우에도 다른 사람이 폭탄을 소지한 채로 비행기에 타고 있을 확률이 극적으로 낮아진다고 보기에는 어렵습니다. 두 사건이 동시에 일어날 확률을 독립시행으로 계산해 놓고, 해석을 함에 있어서 서로 영향을 주고 받는 사건으로 간주했기 때문입니다.

내가 항상 폭탄을 소지하고 탑승하기 때문에, '나를 포함하여' 두 사람이 폭탄을 소지하고 탑승할 확률은 어떤 한 사람이 폭탄을 소지하고 탑승할 확률 1/1000이 되는 것이지 1/1000의 확률로 폭탄을 소지할 확률이 있는 일반적인 경우가 두번 중첩되는 경우가 아니라는 것입니다.

타율인 3할인 두 타자가 연속안타를 뽑아낼 확률을 계산하는 걸 예시로 들어보겟습니다.

3할인 두타자가 일반적으로 연속안타를 칠 확률은 0.09입니다.

하지만 앞타자가 안타를 쳤을때 뒷타자가 안타를 칠 확률이 0.09로 극적으로 떨어지지 않습니다. 두 타자의 타격기록은 독립시행에 가깝기 때문입니다. 이 경우 연속안타가 나올 확률은 3할이죠. 0.09로 떨어진다면 야구는 축구만큼이나 점수가 나지 않을겁니다.

익명의 저자는 앞타자인 내가 10할의 타자이므로 후속타자의 안타 확률을 9푼이라고 주장하네요. 궤변의 한 종류입니다. 아니면 번역이 매끄럽지 않거나요.
IRENE_ADLER.
15/12/23 14:48
수정 아이콘
나와 내가 아닌 사람은 독립적인 사건이기 때문에 서로 영향을 끼치지 않습니다. 나를 제외하고 나머지 사람들이 폭탄을 가지고 탑승할 확률은 여전히 1000분의 1이죠.

예전에 야구에서 해설들이 많이 저질렀던 오류랑 비슷하죠. 3할타율의 타자가 오늘 2타수 무안타니까 세번째 타석에서 안타를 기록할 확률이 높다는 식의 헛소리...
Phlying Dolphin
15/12/23 12:17
수정 아이콘
아주 재미있는 이야기입니다. 후속연구로 오자를 발견할 시험관을 추가시킨다면 전체 오자 수가 어떻게 변할 지 경험식을 만들 수도 있겠네요. 아무래도 오자마다 발견확률이 다를 텐데 그것까진 고려가 안 되어 있으니까요.
김연우
15/12/23 12:23
수정 아이콘
재밌네요. 천천히 읽어보면 분명 학교 다니면서 배운 내용임에도, 글을 읽기전까지는 저런 생각을 유도 못했네요./

그나저나 맨 마지막에 '그런데 놀랍게도...'에서 이야기한 놀랍게도는, 셰익스피어랑 현대인의 어휘량이 비슷하다는게 놀랍다는 것이겠지요? 대문호의 어휘력이나 일반 현대인의 어휘력이 비슷하다는 의미로
몽키매직
15/12/23 12:25
수정 아이콘
추정 자체가 허점이 많기 때문에 도출된 결론은 그냥 재미로 넘길 내용이니 진지하게 받아들이시면 곤란....
tempo stop
15/12/23 12:38
수정 아이콘
자기가 아는 단어를 100% 활용해서 책을 쓴거라고 가정해야 그렇게 되겠죠.
실제로는 훌쩍 뛰어넘는다고 봐야겠죠? 시대차이가 나는데도.
또는 반대로 어휘갯수는 같은데 아는단어를 다 써가면서 저작활동을 했다고 해도 그것도 엄청 대단한거고요.
(보통 사람들은 글을 쓸때 항상 쓰는 단어만 쓰게 되죠. 어휘력과는 별개로.)
15/12/24 00:36
수정 아이콘
셰익스피어는 단어를 만들면서 글을 쓰던 사람이라..
폭풍허세
15/12/23 12:40
수정 아이콘
이과 망했으면
다다다닥
15/12/23 13:14
수정 아이콘
망해라 이과..
Thursday
15/12/23 18:19
수정 아이콘
이거 무척 재미있네요 헉헉
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
64075 [일반] 알파고는 상용화가 될까요? [28] minyuhee7168 16/03/13 7168 0
64074 [일반] 만약 알파고가 아직은 그저 올빼미 새끼일 뿐이라면...? [41] Neanderthal11404 16/03/13 11404 11
64073 [일반] 이탈리아 함선 이야기(1) - 약 한사발 들이킨 Guidoni 항모 계획안 [9] 레이오네4430 16/03/13 4430 5
64072 [일반] [야구] kt위즈 오정복 음주운전 적발 [21] 이홍기6302 16/03/13 6302 0
64070 [일반] 알파고가 자체적으로 평가한 이번 4국의 패착에 대한 간단한 설명 [63] 큐브18501 16/03/13 18501 2
64068 [일반] [스포일러 살짝포함] 육룡이 나르샤 : 척사광. 만화 킹덤의 치우를 떠오르게 만드는 고려의 소드마스터 척준경의 후예. [8] 마음속의빛6497 16/03/13 6497 2
64067 [일반] [바둑] 인공지능의 도전 제4국 - 이세돌 불계승 [260] 낭천25070 16/03/13 25070 8
64066 [일반] 혁신을 둘러싼 유럽의 고민: 왜 미국을 따라 잡을 수 없을까? [20] santacroce9602 16/03/13 9602 22
64065 [일반] 대성인가 이수인가, 중국의 민족논리와 계급논리 [11] 후추통7563 16/03/13 7563 1
64064 [일반] 바둑을 아예 모르는 분들을 위한 바둑의 기초 [22] 루윈10762 16/03/13 10762 26
64060 [일반] <삼국지> 맹획은 이민족이 아니다. [9] 靑龍6903 16/03/13 6903 1
64056 [일반] 힐러리 클린턴의 토론 스타일 [27] 삭제됨8580 16/03/13 8580 0
64055 [일반] [SF 단편] 궁극의 질문 [42] 마스터충달6528 16/03/13 6528 10
64054 [일반] [혐?] 태어나서 가장 더럽다는 생각이 드는 뉴스를 보았습니다 [45] 삭제됨12473 16/03/13 12473 1
64053 [일반] 지금 막 시그널이 끝났습니다.(스포주의) [114] 페이커센빠이12334 16/03/12 12334 8
64052 [일반] 독일언론에서 긁어오기 - 알파고(3) [13] 표절작곡가11456 16/03/12 11456 8
64050 [일반] 인공신경망과 알파고 - 인공신경망이란 무엇인가? (데이터 주의) [15] 65C0211635 16/03/12 11635 22
64049 [일반] 남녀 성비 불균형은 사회적 재앙을 초래할까? [51] santacroce14629 16/03/12 14629 39
64048 [일반] 서울시, 도철 성남여주선 운영 불허에 개통 연기 불똥 [16] 군디츠마라7367 16/03/12 7367 4
64047 [일반] [단편소설] 바둑의 미래 [29] 토니토니쵸파7077 16/03/12 7077 16
64046 [일반] 알파고 문제 - 꿈보다 해몽이라는 것 [23] 푸구루죽죽7616 16/03/12 7616 3
64045 [일반] [바둑] 인공지능의 도전 제3국 - 알파고 불계승 [114] 낭천16234 16/03/12 16234 0
64043 [일반] 워킹!! 감상문 [19] 좋아요4231 16/03/12 4231 2
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로