[스포탈코리아] 다음은 2018시즌 KBO 리그에서 가장 높은 타율을 기록하고 있는 선수들의 명단이다(4월 5일 경기 종료 기준).
김주찬 0.464
양의지 0.444
박용택 0.425
세 선수 모두가 빼어난 활약을 펼치고 있지만, 이들의 현재 성적을 두고 “4할 타자의 재림”이라 받아들이는 사람은 아마 없을 것이다. 표본의 크기, 즉 샘플 사이즈(Sample Size)가 충분하지 않기 때문이다. 4월 5일까지 KBO 리그의 각 구단들은 최대 11경기밖에 시즌을 진행하지 않았다. 위 선수들이 소화한 타석의 수는 이 시점에서 아직 50타석에도 미치지 못했다. 이렇게 적은 기회만을 확인한 채로 결론을 내리는 것은 전형적인 ‘성급한 일반화의 오류’에 해당한다. 주사위를 두 번 던져서 두 번 모두 숫자 1이 나왔다는 이유로 주사위가 편향되어 있거나 숫자 1만 나온다고 주장할 수 없는 것과 같은 이치다.
문제는 모든 선수들이 충분한 기회를 제공받지는 못한다는 데 있다. 하나의 프로 구단이 정식으로 등록할 수 있는 선수의 수는 모두 65명. 이 가운데 1군에서 활약할 수 있는 선수는 27명에 불과하다. 이 27명 또한 선발로 출전할 선수들과 벤치에 대기할 선수들로 나뉘어 차등적으로 기회를 제공받게 된다.
모든 선수에게 무한정으로 기회를 제공할 수 없는 이상, 우리는 마련할 필요가 있다. 다시 말해 “몇 타석 이상을 채워야 해당 기록을 신뢰할 수 있게 되는가”에 대한 답이 필요하다는 것이다. 야구에 대한 객관적 지식 추구가 발달한 미국에서는 그 답을 찾기 위한 시도가 10년 전부터 활발히 이어져왔다.
MLB에서의 샘플 사이즈
2007년, 칼럼니스트 러셀 칼튼은 ‘피자 커터’라는 필명으로 <525,600 minutes: How do you measure a player in a year?(52만 2600분: 어떻게 하면 선수를 1년 안에 가늠할 수 있을까?)>라는 글을 발표했다. 칼튼은 이 글에서 각각의 타격 기록들이 ‘안정화(stabilize)’되기까지 필요로 하는 타석의 수를 제시했다.
칼튼이 말하는 ‘안정화된 상태’란 한 선수의 기록이 임의로 선택한 표본과 이를 제외한 나머지 표본에서 서로 비슷한 수치를 유지하는 상태를 뜻한다.* 예를 들어, A라는 타자가 600타석을 소화했는데 무작위로 추출한 300타석과 나머지 300타석에서 비슷한 삼진 비율을 기록했다면 우리는 A의 삼진 비율이 300타석 단위에서 안정화된다고 간주할 수 있다. 만약 다른 선수들의 성적에서도 이와 유사한 경향이 관찰된다면, 삼진 비율은 300타석 이상의 샘플 사이즈에서 ‘믿을 수 있는’ 값을 제공하는 지표인 셈이다.
* 이때 ‘비슷한 수치’는 두 기록의 상관계수(R)가 0.7 이상인 경우를 의미한다.
이후로도 세이버메트리션들은 정밀해진 방법론과 표본 설계를 통해 한층 발전된 답안들을 제시해왔다. 2012년에는 러셀 칼튼 본인이 지난 2007년 저작의 한계를 자인하며 베이스볼 프로스펙터스(Baseball Prospectus)에 ‘개정판’을 기고하기도 했다. 아래는 칼튼이 개정판에서 밝힌 각 기록의 최소 샘플 사이즈이다. 예컨대, 삼진 비율은 60타석 이상의 데이터가 모였을 때 비로소 유의미한 해석이 가능해지는 지표라는 것이다.
삼진 비율 – 60타석
볼넷 비율 – 120타석
홈런 비율 – 170타석
출루율 – 460타석
장타율 – 320타수
순장타율 – 160타수
타율 – 910타수
BABIP – 820 Balls In Play
이후로 새로운 후속 연구들이 등장하면서 샘플 사이즈의 구체적인 수치는 조금씩 변화해왔다. 예를 들어 삼진 비율이 60타석만 넘어도 안정화되었다고 보는 글도 있지만, 150타석이 필요하다는 분석 또한 존재한다.
그러나 변하지 않는 것도 있다. 바로 각각의 기록이 안정화되는 순서다. 언제나 삼진보다는 볼넷이, 볼넷보다는 홈런이 더 큰 샘플 사이즈를 필요로 한다. 그 뒤를 장타율과 출루율이 잇는다. 타율이나 BABIP의 경우에는 수백 타석이 넘도록 널뛰기를 이어 가기도 한다.
이 같은 순서는 세이버메트리션들이 기존에 믿어왔던 내용과도 크게 다르지 않다. 보로스 맥크라켄이 투수 개인의 BABIP가 불안정한 지표임을 밝혀낸 이래, 세이버메트리션들은 ‘변하지 않는 안정적인 지표’를 찾기 위한 노력을 계속해왔다. 그 답으로 가장 먼저 대두된 것이 삼진과 볼넷 비율이었다. 홈런 또한 나름의 안정성을 인정받았다. 반면 그 불안정함이 다른 어느 지표보다도 확연하게 드러났던 타율은 선수 평가의 척도로서 지녔던 경쟁력을 크게 상실하고 말았다.
KBO 리그의 샘플 사이즈
그렇다면 KBO 리그의 샘플 사이즈는 어떨까? 언뜻 봐서는 “야구는 어디서든 똑같다”라는 말처럼 MLB의 샘플 사이즈와 크게 다를 이유가 없어 보인다. KBO 리그 역시 스트라이크가 세 개면 삼진이, 볼이 네 개면 볼넷이, 외야수가 잡지 못한 공이 담장을 넘어가면 홈런이 되는 리그다. 순장타율과 타율, BABIP 같은 기록들의 계산 공식 또한 다르지 않다.
아래는 2009년부터 2017년까지의 모든 타석을 토대로 산출해낸 KBO 리그의 샘플 사이즈다. 산출과정에서는 위 기간 동안 1200타석 이상을 기록한 타자들을 삼았다. 여기서 1200은 600타석을 나머지 600타석과 비교하는 데 필요한 최소한의 타석 수다. 다만 계산 과정에서 오류를 발생시킬 가능성이 높은 동명이인 김재현, 이진영, 이병규를 모두 제외해 실제로는 121명의 표본을 바탕으로 계산에 들어갔다. 샘플 사이즈의 단위는 20타석으로 잡았고, ‘안정적’의 기준은 R=0.7보다 조금 더 엄격하게 R²>=0.5로 설정했다. 타석은 모두 랜덤으로 추출했다.
<표1>은 이렇게 계산한 ‘타석 수에 따른 각 지표들의 안정화 양상’을 전부 담아내고 있다. 그 아래에는 R²가 0.5보다 커지는 지점, 즉 KBO 리그의 최소 샘플 사이즈만을 따로 정리해서 MLB의 샘플 사이즈와 동일선상에서 비교해볼 수 있도록 했다. 여기서는 앞서 다룬 지표들 외에도 종합 타격 지표인 OPS와 wOBA를 추가로 기재했다.
삼진 비율 – 200타석
볼넷 비율 – 400타석
홈런 비율 – 220타석
출루율 – 420타석
장타율 – 300타수
순장타율 – 240타수
타율 – 580타수
BABIP – X
OPS – 340타석
wOBA – 420타석
각각의 샘플 사이즈 수치는 결코 절대적이지 않다. 이는 분석 기법과 그 표본에 따라 충분히 달라질 수 있는 부분이다. 다만 안정화의 ‘순서’는 주목할 만하다. MLB의 어느 연구에서나 이 순서는 동일하게 나타났기 때문이다. KBO 리그의 안정화 순서 역시 ‘순장타율 -> 장타율 -> 출루율 -> 타율, BABIP’까지는 MLB와 동일하다. 순장타율의 안정화 속도가 조금 느리고 타율의 안정화 속도가 조금 빠르지만, 이 정도 차이는 MLB의 연구들 사이에서도 목격된 바 있다.
주목해야 하는 부분은 대표적인 ‘안정적’ 지표로 여겨졌던 삼진과 볼넷 비율의 늦은 안정화 시점이다. 이들은 본래 ‘둥근 공이 둥근 배트에 맞는’ 간섭 효과 없이, 오직 야구공의 위치와 궤적 그리고 타자의 헛스윙 여부만으로 결과가 결정되기 때문에 안정적인 경향을 띨 수밖에 없는 지표들이다. 그러나 KBO 리그의 삼진 비율은 안정성을 획득하기까지 200타석이나 되는 데이터를 필요로 한다. 볼넷 비율은 한술 더 떠서 최소 400타석의 데이터가 필요하다. 이 결과를 대체 어떻게 해석해야 할까?
홈 플레이트 주변에서 답을 찾다
삼진과 볼넷은 오로지 홈 플레이트 주위에서 결정되는 사건들이다. 따라서 우리의 의심은 KBO 리그와 MLB의 홈 플레이트 주변의 차이점을 모색하는 데서 출발해야 한다.
먼저 생각해볼 수 있는 것은 심판의 볼 판정이다. MLB는 시즌이 끝나면 심판진의 스트라이크 콜들을 데이터베이스로 만들어 활용한다. 이를 통해 심판들 간의 차이를 줄이고, 둥글던 스트라이크 존의 네 모퉁이에도 ‘각’을 잡아가는 등의 효과를 누리고 있다. 그러나 KBO 리그에서는 아직 비슷한 조치가 이뤄지지 않고 있다. 우리는 오히려 선수 출신 해설자들이 자주 언급하는 “심판의 존을 파악하는 것이 중요하다”는 충고를 통해 심판들 간의 볼 판정 차이가 공공연히 존재한다는 사실을 간접적으로 확인하게 된다.
이처럼 일관성이 부족한 스트라이크 존은 삼진과 볼넷의 안정성에도 악영향을 끼친다. 이 같은 문제의식은 야구공작소에서 이전에 게재한 <타고투저 현상, 범인은 스트라이크 존이 아니다>에서도 드러난 바 있다.
볼넷의 불안정성을 초래한 또 다른 원인은 KBO 리그와 MLB의 볼넷 비율 차이에서도 찾을 수 있다. 스트라이크 존이 확연히 넓어졌던 작년을 제외하면, 2009년부터 2016년까지 KBO 리그의 전체 볼넷 비율은 항상 9% 이상이었다. 반면 MLB의 볼넷 비율은 같은 기간 한 번도 9%를 초과하지 않았다. 따라서 맘먹은 대로 스트라이크를 던질 수 있는 투수가 그리 많지 않은 KBO 리그에서는, 볼넷의 상당수가 소위 ‘어이없는 볼질’로 인해 발생했다는 해석이 가능하다. 제구력이 안정되지 못한 투수가 많은 KBO 리그의 환경이 볼넷 비율의 불안정성을 키웠다는 것이다.
MLB에서는 샘플 사이즈에 대한 연구가 10년이 넘도록 활발하게 진행되어왔다. 반대로 KBO에서는 이에 대한 연구가 미진했던 것이 사실이다. 이 글 또한 논의와 연구가 진전된 훗날 다시 살펴본다면 담고 있는 오류가 적지 않을 것이다.
그러나 한 가지 사실만큼은 분명하다. 한국과 미국의 야구가 이처럼 근본적인 차이를 내포하고 있는 것이 사실이라면, MLB라는 환경을 토대로 도출된 연구결과들을 검토 없이 그대로 KBO 리그에 적용시켜서는 곤란하다는 사실이다.
야구공작소
박광영 칼럼니스트 / 에디터=이의재
자문: 야구공작소 박기태, 오주승, 홍기훈
기록 참조: STATIZ.com, Fangraphs, baseballprospectus
김주찬 0.464
양의지 0.444
박용택 0.425
세 선수 모두가 빼어난 활약을 펼치고 있지만, 이들의 현재 성적을 두고 “4할 타자의 재림”이라 받아들이는 사람은 아마 없을 것이다. 표본의 크기, 즉 샘플 사이즈(Sample Size)가 충분하지 않기 때문이다. 4월 5일까지 KBO 리그의 각 구단들은 최대 11경기밖에 시즌을 진행하지 않았다. 위 선수들이 소화한 타석의 수는 이 시점에서 아직 50타석에도 미치지 못했다. 이렇게 적은 기회만을 확인한 채로 결론을 내리는 것은 전형적인 ‘성급한 일반화의 오류’에 해당한다. 주사위를 두 번 던져서 두 번 모두 숫자 1이 나왔다는 이유로 주사위가 편향되어 있거나 숫자 1만 나온다고 주장할 수 없는 것과 같은 이치다.
문제는 모든 선수들이 충분한 기회를 제공받지는 못한다는 데 있다. 하나의 프로 구단이 정식으로 등록할 수 있는 선수의 수는 모두 65명. 이 가운데 1군에서 활약할 수 있는 선수는 27명에 불과하다. 이 27명 또한 선발로 출전할 선수들과 벤치에 대기할 선수들로 나뉘어 차등적으로 기회를 제공받게 된다.
모든 선수에게 무한정으로 기회를 제공할 수 없는 이상, 우리는 마련할 필요가 있다. 다시 말해 “몇 타석 이상을 채워야 해당 기록을 신뢰할 수 있게 되는가”에 대한 답이 필요하다는 것이다. 야구에 대한 객관적 지식 추구가 발달한 미국에서는 그 답을 찾기 위한 시도가 10년 전부터 활발히 이어져왔다.
MLB에서의 샘플 사이즈
2007년, 칼럼니스트 러셀 칼튼은 ‘피자 커터’라는 필명으로 <525,600 minutes: How do you measure a player in a year?(52만 2600분: 어떻게 하면 선수를 1년 안에 가늠할 수 있을까?)>라는 글을 발표했다. 칼튼은 이 글에서 각각의 타격 기록들이 ‘안정화(stabilize)’되기까지 필요로 하는 타석의 수를 제시했다.
칼튼이 말하는 ‘안정화된 상태’란 한 선수의 기록이 임의로 선택한 표본과 이를 제외한 나머지 표본에서 서로 비슷한 수치를 유지하는 상태를 뜻한다.* 예를 들어, A라는 타자가 600타석을 소화했는데 무작위로 추출한 300타석과 나머지 300타석에서 비슷한 삼진 비율을 기록했다면 우리는 A의 삼진 비율이 300타석 단위에서 안정화된다고 간주할 수 있다. 만약 다른 선수들의 성적에서도 이와 유사한 경향이 관찰된다면, 삼진 비율은 300타석 이상의 샘플 사이즈에서 ‘믿을 수 있는’ 값을 제공하는 지표인 셈이다.
* 이때 ‘비슷한 수치’는 두 기록의 상관계수(R)가 0.7 이상인 경우를 의미한다.
이후로도 세이버메트리션들은 정밀해진 방법론과 표본 설계를 통해 한층 발전된 답안들을 제시해왔다. 2012년에는 러셀 칼튼 본인이 지난 2007년 저작의 한계를 자인하며 베이스볼 프로스펙터스(Baseball Prospectus)에 ‘개정판’을 기고하기도 했다. 아래는 칼튼이 개정판에서 밝힌 각 기록의 최소 샘플 사이즈이다. 예컨대, 삼진 비율은 60타석 이상의 데이터가 모였을 때 비로소 유의미한 해석이 가능해지는 지표라는 것이다.
삼진 비율 – 60타석
볼넷 비율 – 120타석
홈런 비율 – 170타석
출루율 – 460타석
장타율 – 320타수
순장타율 – 160타수
타율 – 910타수
BABIP – 820 Balls In Play
이후로 새로운 후속 연구들이 등장하면서 샘플 사이즈의 구체적인 수치는 조금씩 변화해왔다. 예를 들어 삼진 비율이 60타석만 넘어도 안정화되었다고 보는 글도 있지만, 150타석이 필요하다는 분석 또한 존재한다.
그러나 변하지 않는 것도 있다. 바로 각각의 기록이 안정화되는 순서다. 언제나 삼진보다는 볼넷이, 볼넷보다는 홈런이 더 큰 샘플 사이즈를 필요로 한다. 그 뒤를 장타율과 출루율이 잇는다. 타율이나 BABIP의 경우에는 수백 타석이 넘도록 널뛰기를 이어 가기도 한다.
이 같은 순서는 세이버메트리션들이 기존에 믿어왔던 내용과도 크게 다르지 않다. 보로스 맥크라켄이 투수 개인의 BABIP가 불안정한 지표임을 밝혀낸 이래, 세이버메트리션들은 ‘변하지 않는 안정적인 지표’를 찾기 위한 노력을 계속해왔다. 그 답으로 가장 먼저 대두된 것이 삼진과 볼넷 비율이었다. 홈런 또한 나름의 안정성을 인정받았다. 반면 그 불안정함이 다른 어느 지표보다도 확연하게 드러났던 타율은 선수 평가의 척도로서 지녔던 경쟁력을 크게 상실하고 말았다.
KBO 리그의 샘플 사이즈
그렇다면 KBO 리그의 샘플 사이즈는 어떨까? 언뜻 봐서는 “야구는 어디서든 똑같다”라는 말처럼 MLB의 샘플 사이즈와 크게 다를 이유가 없어 보인다. KBO 리그 역시 스트라이크가 세 개면 삼진이, 볼이 네 개면 볼넷이, 외야수가 잡지 못한 공이 담장을 넘어가면 홈런이 되는 리그다. 순장타율과 타율, BABIP 같은 기록들의 계산 공식 또한 다르지 않다.
아래는 2009년부터 2017년까지의 모든 타석을 토대로 산출해낸 KBO 리그의 샘플 사이즈다. 산출과정에서는 위 기간 동안 1200타석 이상을 기록한 타자들을 삼았다. 여기서 1200은 600타석을 나머지 600타석과 비교하는 데 필요한 최소한의 타석 수다. 다만 계산 과정에서 오류를 발생시킬 가능성이 높은 동명이인 김재현, 이진영, 이병규를 모두 제외해 실제로는 121명의 표본을 바탕으로 계산에 들어갔다. 샘플 사이즈의 단위는 20타석으로 잡았고, ‘안정적’의 기준은 R=0.7보다 조금 더 엄격하게 R²>=0.5로 설정했다. 타석은 모두 랜덤으로 추출했다.
<표1>은 이렇게 계산한 ‘타석 수에 따른 각 지표들의 안정화 양상’을 전부 담아내고 있다. 그 아래에는 R²가 0.5보다 커지는 지점, 즉 KBO 리그의 최소 샘플 사이즈만을 따로 정리해서 MLB의 샘플 사이즈와 동일선상에서 비교해볼 수 있도록 했다. 여기서는 앞서 다룬 지표들 외에도 종합 타격 지표인 OPS와 wOBA를 추가로 기재했다.
삼진 비율 – 200타석
볼넷 비율 – 400타석
홈런 비율 – 220타석
출루율 – 420타석
장타율 – 300타수
순장타율 – 240타수
타율 – 580타수
BABIP – X
OPS – 340타석
wOBA – 420타석
각각의 샘플 사이즈 수치는 결코 절대적이지 않다. 이는 분석 기법과 그 표본에 따라 충분히 달라질 수 있는 부분이다. 다만 안정화의 ‘순서’는 주목할 만하다. MLB의 어느 연구에서나 이 순서는 동일하게 나타났기 때문이다. KBO 리그의 안정화 순서 역시 ‘순장타율 -> 장타율 -> 출루율 -> 타율, BABIP’까지는 MLB와 동일하다. 순장타율의 안정화 속도가 조금 느리고 타율의 안정화 속도가 조금 빠르지만, 이 정도 차이는 MLB의 연구들 사이에서도 목격된 바 있다.
주목해야 하는 부분은 대표적인 ‘안정적’ 지표로 여겨졌던 삼진과 볼넷 비율의 늦은 안정화 시점이다. 이들은 본래 ‘둥근 공이 둥근 배트에 맞는’ 간섭 효과 없이, 오직 야구공의 위치와 궤적 그리고 타자의 헛스윙 여부만으로 결과가 결정되기 때문에 안정적인 경향을 띨 수밖에 없는 지표들이다. 그러나 KBO 리그의 삼진 비율은 안정성을 획득하기까지 200타석이나 되는 데이터를 필요로 한다. 볼넷 비율은 한술 더 떠서 최소 400타석의 데이터가 필요하다. 이 결과를 대체 어떻게 해석해야 할까?
홈 플레이트 주변에서 답을 찾다
삼진과 볼넷은 오로지 홈 플레이트 주위에서 결정되는 사건들이다. 따라서 우리의 의심은 KBO 리그와 MLB의 홈 플레이트 주변의 차이점을 모색하는 데서 출발해야 한다.
먼저 생각해볼 수 있는 것은 심판의 볼 판정이다. MLB는 시즌이 끝나면 심판진의 스트라이크 콜들을 데이터베이스로 만들어 활용한다. 이를 통해 심판들 간의 차이를 줄이고, 둥글던 스트라이크 존의 네 모퉁이에도 ‘각’을 잡아가는 등의 효과를 누리고 있다. 그러나 KBO 리그에서는 아직 비슷한 조치가 이뤄지지 않고 있다. 우리는 오히려 선수 출신 해설자들이 자주 언급하는 “심판의 존을 파악하는 것이 중요하다”는 충고를 통해 심판들 간의 볼 판정 차이가 공공연히 존재한다는 사실을 간접적으로 확인하게 된다.
이처럼 일관성이 부족한 스트라이크 존은 삼진과 볼넷의 안정성에도 악영향을 끼친다. 이 같은 문제의식은 야구공작소에서 이전에 게재한 <타고투저 현상, 범인은 스트라이크 존이 아니다>에서도 드러난 바 있다.
볼넷의 불안정성을 초래한 또 다른 원인은 KBO 리그와 MLB의 볼넷 비율 차이에서도 찾을 수 있다. 스트라이크 존이 확연히 넓어졌던 작년을 제외하면, 2009년부터 2016년까지 KBO 리그의 전체 볼넷 비율은 항상 9% 이상이었다. 반면 MLB의 볼넷 비율은 같은 기간 한 번도 9%를 초과하지 않았다. 따라서 맘먹은 대로 스트라이크를 던질 수 있는 투수가 그리 많지 않은 KBO 리그에서는, 볼넷의 상당수가 소위 ‘어이없는 볼질’로 인해 발생했다는 해석이 가능하다. 제구력이 안정되지 못한 투수가 많은 KBO 리그의 환경이 볼넷 비율의 불안정성을 키웠다는 것이다.
MLB에서는 샘플 사이즈에 대한 연구가 10년이 넘도록 활발하게 진행되어왔다. 반대로 KBO에서는 이에 대한 연구가 미진했던 것이 사실이다. 이 글 또한 논의와 연구가 진전된 훗날 다시 살펴본다면 담고 있는 오류가 적지 않을 것이다.
그러나 한 가지 사실만큼은 분명하다. 한국과 미국의 야구가 이처럼 근본적인 차이를 내포하고 있는 것이 사실이라면, MLB라는 환경을 토대로 도출된 연구결과들을 검토 없이 그대로 KBO 리그에 적용시켜서는 곤란하다는 사실이다.
야구공작소
박광영 칼럼니스트 / 에디터=이의재
자문: 야구공작소 박기태, 오주승, 홍기훈
기록 참조: STATIZ.com, Fangraphs, baseballprospectus