선거 통계 · 쉽게 읽기
같은 후보가 멀리 떨어진 두 동네에서 표를 한 표도 안 틀리고 똑같이 받았다. 누군가는 5억분의 1 확률이라며 조작이라 했다. 정말 그럴까. 직접 만져보면서 확인해 보자.
먼저, 생일 이야기
"나랑 생일 같은 사람"을 찾으면 확률은 1/365로 아주 낮다. 그런데 질문을 바꿔보자. "이 방 안에 생일 같은 짝이 한 쌍이라도 있나?" 23명이면 그 확률이 벌써 절반을 넘는다. 50명이면 거의 확실하다.
비결은 비교 횟수다. 23명이면 짝지을 수 있는 조합이 253가지나 된다. 한 명씩 보면 드물지만, 모든 짝을 한꺼번에 보면 겹치는 쌍이 나오는 게 오히려 자연스럽다. 슬라이더를 올려보자.
선거로 옮기면 · 현실 스케일
한 후보의 득표수를 동네별로 늘어놓는다. 득표는 0표에서 2,500표 사이로 현실처럼 넓게 퍼진다. 아래 막대 하나가 득표값 한 칸이고, 같은 값을 받은 동이 둘 이상이면 노랗게 차오른다. 동네 수를 끌어올려 보자.
조작은 전혀 없다. 무작위로 표를 뿌렸을 뿐이다. 동네가 적으면 겹침이 거의 없다가, 수백 수천 개로 늘면 같은 표 쌍이 쏟아진다. 실제 선관위 데이터의 단일후보 동일값 7,653건도 이 무작위 예측과 거의 같은 수준이다.
같은 데이터를 두 가지로 물을 수 있다. 미리 두 동네를 콕 찍고 묻느냐, 아니면 다 펼쳐놓고 같은 쌍을 찾느냐. 확률이 완전히 달라진다.
길에서 만난 특정 한 사람이 나랑 생일 같을 확률 같은 것. 낮다.
송도 사례는 누가 미리 예언한 게 아니라 결과를 다 펼쳐놓고 같은 쌍을 골라낸 것이다. 그러니 적용할 확률은 아래쪽, "전체에서 찾기"다. "5억분의 1"은 위쪽 숫자를 들고 와 전체인 척한 것이다.
한 걸음 더 · 작은 표의 미스터리
날카로운 사람은 여기서 멈추지 않는다. 100표 이상 같은 경우는 우연 예측보다 조금 더 많이 나왔다. 통계적으로 진짜 초과다. 그럼 조작일까. 아니다. 비교 기준이 살짝 잘못 깔린 것이다.
우연 예측을 만들 때 들쭉날쭉한 실제 표를 매끄러운 곡선으로 펴서 계산했다. 그런데 표는 정수다. 99표, 100표, 101표처럼 칸칸이 딱 떨어진다. 매끄럽게 펴면 한 칸에 뭉쳐있던 표가 옆으로 흩어진다. 그러면 "딱 같은 값"이 될 확률이 실제보다 낮게 계산된다. 그래서 진짜 데이터가 예측을 넘어 보이는 것이다.
결정적인 단서는 따로 있다. 이 초과는 작은 표에서만 크고, 표가 커질수록 사라진다. 만약 누가 큰 표를 복제했다면 정반대로 큰 표에서 초과가 커져야 한다. 방향이 반대다. 그래서 조작이 아니라 계산 모형의 한계로 본다.
가장 의심스러운 사례
송도1동과 송도2동. 박찬대 3,030표, 유정복 1,440표가 똑같다. 여기까지만 보면 섬뜩하다. 그런데 같은 표의 나머지 칸을 펼쳐보자.
| 항목 | 송도1동 | 송도2동 | |
|---|---|---|---|
| 선거인수 | 4,548 | ≠ | 4,540 |
| 투표수 | 4,546 | ≠ | 4,539 |
| 박찬대 | 3,030 | = | 3,030 |
| 유정복 | 1,440 | = | 1,440 |
| 이기붕 | 61 | ≠ | 47 |
| 무효표 | 15 | ≠ | 22 |
| 기권자수 | 2 | ≠ | 1 |
같은 건 두 칸뿐이다. 선거인수도, 투표수도, 군소후보도, 무효표도, 기권자수도 전부 다르다. 누가 데이터를 복사하거나 통째로 바꿔치웠다면 모든 칸이 같아야 한다. 실제 데이터에서 모든 후보 득표가 통째로 일치한 경우는 0건이다. 복제 흔적이 없다.
정리
"두 동네가 같을 확률 5억분의 1"은 비교 대상을 두 곳으로 착각한 숫자다. 실제 분모는 612만 쌍이다. 그 안에서 같은 표는 수학적 필연이다.
작은 표에서 보이는 약간의 초과는 들쭉날쭉한 정수를 매끄럽게 펴서 계산한 모형의 한계다. 큰 표로 갈수록 초과가 사라지는데, 이는 조작 가설과 정반대 방향이다.
가장 의심스러운 사례조차 겹친 두 칸만 같고 나머지는 전부 다르다. 복제였다면 행 전체가 같아야 한다. 그런 경우는 단 한 건도 없었다.