최근 연합뉴스에서 내놓은 한 통계 보도가 논란이다. 장애인 콜택시를 2시간 이상 기다리는 경우가 많다는 김예지 국민의힘 의원 발언과 관련, 장애인 콜택시 운영업체(서울시설공단)의 탑승 통계를 분석한 ‘팩트체크’ 기사였다. 기사에 따르면 지난해 서울시 장애인 콜택시의 평균 대기시간은 32분이었고, 일 평균 탑승 건수 3,344건 중 2시간 넘게 기다린 사례는 35건 정도였다. 기사의 제목과 전체적인 논조를 고려할 때, 이 기사는 객관적인 데이터를 바탕으로 장애인 콜택시 대기시간이 사람들의 생각만큼 길지 않다는 ‘팩트’를 제시하는 듯 보였다.
하지만 여러 언론사 및 장애 당사자들로부터 현장 상황을 읽지 못한 보도라는 지적이 쏟아졌다. 이용자가 기다리다 지쳐 호출을 취소하고 다른 교통수단을 이용한 경우는 ‘평균 대기시간’에 포함되지 않았기 때문이다. 배차 시간을 예측하기 힘든 장애인 콜택시가 과연 장애인들의 일상적 교통수단으로 이용되고 있는지에 대한 검증도 없었고, 비장애인의 콜택시 대기시간과 비교할 때 30분이 얼마나 긴 시간인지도 고려되지 않았다.
없는 숫자를 만들어 쓴 것도 아닌데 왜 이런 문제가 발생했을까? 해당 기사는 표면적인 수치에만 집중하면서 통계의 빈 부분과 통계에 담기지 못한 맥락들은 챙기지 못했다. 현란한 숫자로 가득한 기사는 신뢰감을 주지만, 우리는 그 신뢰감을 경계할 필요가 있다. 책 『숫자에 속지 않고 숫자 읽는 법』은 뉴스에 등장하는 각종 자극적인 수치와 통계 속에서 믿을 만한 숫자와 믿지 못할 숫자를 가려내는 법을 알려준다.
통계는 객관적인 자료처럼 보이지만 사실 그렇지 않다. 여러 조합으로 데이터를 분석하다 보면 입맛에 맞는 결과를 도출할 수 있다. 극단적인 결과를 ‘이상치(Outlier)’로 분류해 아예 빼 버리는 방법도 있다. 작성 과정에서부터 의도가 개입되었다는 논란에 시달리는 통계도 있다.
측정 기준이 달라져 통계에 변화가 일어나는 경우도 있다. 책에 따르면, 코로나19가 처음 발생한 뒤 오랫동안 미국 대부분의 주에서는 검사를 통해 양성으로 확진되었을 때만 코로나19 관련 사망으로 인정했다. 그러다 2020년 6월 26일에 몇몇 주에서 ‘개연적 사망(증상은 있었지만 검사를 통해 확진되지는 않은 환자의 사망)’도 포함하기로 결정했다. 실제 사망자 수에 보다 가까운 수치를 얻기 위해서였다. 그러자 사망률 그래프가 갑자기 치솟는 것처럼 보였다.
또한 데이터의 범위를 어떻게 설정하느냐에 따라 그래프는 완전히 다른 방향을 가리킬 수 있다. 아동빈곤 문제가 개선되었다고 말하고 싶다면 통계에서 아동빈곤이 특별히 높았던 연도를 시작점으로 잡아 근거로 쓸 수 있고, 이에 반대하는 입장이라면 아동빈곤이 특히 낮았던 연도를 시작점으로 잡으면 된다. 이렇게 목적에 부합하는 부분만을 취사선택하는 ‘체리피킹’ 행위는 매우 흔하게 일어난다.
통계는 언론 보도에 꼭 필요하지만, 어떤 수치를 어떻게 보도하느냐에 따라 기사의 논조가 완전히 달라질 수 있다. 그러므로 숫자가 아닌 그 숫자가 놓여있는 맥락을 주의 깊게 살피는 노력이 필요하다. 우리가 통계를 통해 얻고자 하는 것은 수치 자체가 아니라 수치 너머의 진실이기 때문이다.
[독서신문 김혜경 기자]