[스포탈코리아] 올해 KBO리그 화두 가운데 하나로 두산과 한화의 승승장구를 빼놓을 수 없다. 두산은 굳건한 1위를 질주하고 있으며 한화는 시즌 초 예상을 깨고 SK, LG와 2위를 차지하기 위한 치열한 경쟁을 하고 있다.
두 팀이 더 화제가 되는 이유로는 ‘피타고라스 승률’이 있다. 이는 한 팀의 득점과 실점을 바탕으로 실제 승률을 추측하는 공식이다. 보통 피타고라스 승률은 실제 승률과 5% 내로 맞지만, 올해 두산과 한화는 90경기 넘도록 각각 6.4%, 6.8%만큼 피타고라스 승률과 실제 승률 간에 큰 차이를 보였다. 이 격차 때문에 여러 커뮤니티 사이트와 언론들이 이 두 팀을 주목했다.
경기를 어느 정도 치르면 피타고라스 승률과 실제 승률은 대체로 수렴하게 되어있다(엄밀히 말해 실제 승률과 맞도록 피타고라스 승률의 계수가 결정된다). 그러나 둘이 일치하지 않는 경우는 시즌 단위로 종종 관측돼왔으며, 미국의 세이버메트리션들은 둘 사이의 불일치를 설명하고자 하는 여러 시도를 해왔다.
먼저 이를 감독의 역량으로 보려는 시도가 있었다. 실제 승률이 피타고라스 승률보다 높다면 감독이 유능하게 경기를 운영했다는 것을 보여준다고 기대한 것이다. 그러나 같은 감독이 이끈 팀 사이에 명확한 관계가 나타나지 않았고, 이는 곧 유효하지 않은 설명으로 드러났다.
득점과 실점의 분포
‘감독의 역량’보다 훨씬 유효한 설명으로 제시된 것이 바로 ‘득점과 실점의 분포’다. 레이 시코렐라는 2005년 8월, 「The Pythagorean Projection and the Standard Deviation of Runs()」라는 글에서 득점과 실점의 분포가 피타고라스 승률과 실제 승률의 불일치를 설명할 수 있음을 보였다. 구체적으로 득점은 분포가 모여있을수록, 실점은 퍼져있을수록 실제 승률이 피타고라스 승률보다 높아질 수 있음을 밝혔다.
총 득점과 총 실점이 똑같은 두 팀 A와 B를 가정해보자. A팀은 매 경기 똑같이 6점을, B팀은 절반의 경기들에서 3점, 나머지 절반의 경기들에서 9점을 얻는다. 2014년부터 5시즌 동안 KBO리그의 득/실점을 기준으로 할 때, 6득점을 한 A팀은 69.3%의 실제 승률을 기록한다. 그러나 주자를 홈으로 불러들이는 데 있어 기복이 있었던 B팀은 실제 승률이 59.7%에 불과하다. 만약 B팀이 더 기복이 심해 1점과 11점을 번갈아 기록했다면, 승률 49.9%로 승보다 패가 많은 팀이 되었을 것이다. 두 팀이 같은 피타고라스 승률을 기록하고도 실제 승률이 이토록 차이나는 이유는 득점의 분포 때문이다. 득점의 총량이 같을 때, 득점이 꾸준했던 팀이 실제 승리를 더 많이 챙길 가능성이 크다.
*득점 조합 당 승률
(6점, 6점) = (69.3%+69.3%)/2 = 69.3%
(5점, 7점) = (58.9%+78.0%)/2 =68.4%
(4점, 8점) = (44.6%+84.7%)/2 =64.6%
(3점, 9점) = (30.0%+89.5%)/2 =59.7%
(2점, 10점) = (15.7%+92.6%)/2 =54.2%
(1점, 11점) = (5.1%+94.8%)/2 =49.9%
실점은 반대로 분포가 퍼져있을수록 팀에게 유리하다. 매 경기 꾸준하게 6점씩 내주는 팀은 승률이 30%에 불과하지만, 3점과 9점을 교차로 허용한다면 실제 승률이 40%까지도 오른다(물론 승률 40%가 좋은 팀이라는 것은 아니다. 그래봤자 평균 6점씩 허용한 팀이다).
KBO리그에서의 득점과 실점의 분포
분포의 개념을 이용해 KBO리그 또한 설명할 수 있다. 올해 두산은 지난 5년 동안 어느 시즌+팀과 비교해 보더라도 득점과 실점의 분포가 이상적이다. 아래에서 볼 수 있듯이, 두산의 득점은 6점 주변으로 촘촘히 몰려있다. 반대로 실점의 분포는 널리 퍼져있는 것을 알 수 있다.
한화 또한 두산만큼은 아니어도 실점의 분포가 큰 편에 속한다. 최대 22점까지 실점하는 경기도 있었지만, 반대로 상대를 종종 저득점으로 묶기도 했다. 한화의 절묘한 실점의 분포는 4년 전 롯데와 비교하면 더욱 극명하게 드러난다. 2014 시즌 롯데는 피타고라스 승률이 49.8%로, 지금의 한화와 마찬가지로 득점과 실점의 총량이 비슷했다. 그러나 당시 롯데는 득점이 들쭉날쭉했던 반면에 실점을 꾸준하게 허용하는 ‘최악의 조합’을 보였다. 올해 승률이 57%에 육박하는 한화와 달리 당시 롯데가 승률 46%에 미치지 못한 이유다.
표준편차를 평균으로 나눈 값인 ‘변동계수’를 통해 보면 그 차이는 더욱 확실히 드러난다. 피타고라스 승률보다 실제 승률이 좋기 위해서는 득점의 변동계수가 낮고, 실점의 변동계수는 높아야 한다. 18한화가 기록한 실점의 변동계수는 최근 5시즌 동안 시즌단위 팀들 49개 중 8위에 해당한다(1위 18두산, 0.81). 반면 14롯데는 실점의 변동계수가 높고 득점의 변동계수는 낮았다.
물론 득점과 실점의 분포를 밝힌 것만으로 모든 문제가 풀리지는 않는다. 득점과 실점의 분포를 ‘운’으로 해석해야 할지, 아니면 이마저도 ‘실력’으로 봐야 할지 아직 결론을 내릴 수 없기 때문이다. 이 부분이 완결되지 않았기 때문에 아직 많은 이들이 피타고라스 승률과 실제 승률의 간극을 단순히 ‘운’으로 해석하려는 경향을 보인다.
하지만 득점의 분포도 강팀이나 약팀의 조건이라 할 수 있지 않을까? 만약 두산이 매 경기 꾸준하게 6에서 7점씩 득점하는 대신에 1점 냈다가 12점을 기록하는 등 기복이 심한 경기력을 보여줬다면, 우리가 강팀이라고 하지는 않았을 것이다. 실점의 분포도 마찬가지다. 반대로 약팀은 기복 있는 공격력을 보여주며, 어느 투수가 나오더라도 뚜렷하게 압도하지 못하고 일정 정도의 실점을 하곤 한다.
세이버메트릭스에서 단순한 ‘운’으로만 치부했지만 자세히 뜯어보니 진실이 숨겨져 있던 것은 이번이 처음이 아니다. 인플레이 타구의 안타 비율(BABIP, Batting Average on Balls In Play)의 경우 보로스 맥크라켄이 처음 발견했을 때는 운 혹은 불운으로만 해석되었다. 하지만 지속적인 연구 끝에 현재 타자와 투수, 그리고 수비의 비중이 ‘운’보다 훨씬 크다는 것이 밝혀졌다. 피타고라스 승률과 실제 승률 사이 격차 또한 우리가 그 이면의 ‘의미’를 찾기 위해 노력할 때, 우리는 야구에 대해 한 층 더 진전되고 세련된 논의를 할 수 있을 것이다.
*모든 수치는 2018년 7월 23일 기준
참조 : http://www.philbirnbaum.com/btn2005-08.pdf
야구공작소
박광영 칼럼니스트 / 에디터=이예림
두 팀이 더 화제가 되는 이유로는 ‘피타고라스 승률’이 있다. 이는 한 팀의 득점과 실점을 바탕으로 실제 승률을 추측하는 공식이다. 보통 피타고라스 승률은 실제 승률과 5% 내로 맞지만, 올해 두산과 한화는 90경기 넘도록 각각 6.4%, 6.8%만큼 피타고라스 승률과 실제 승률 간에 큰 차이를 보였다. 이 격차 때문에 여러 커뮤니티 사이트와 언론들이 이 두 팀을 주목했다.
경기를 어느 정도 치르면 피타고라스 승률과 실제 승률은 대체로 수렴하게 되어있다(엄밀히 말해 실제 승률과 맞도록 피타고라스 승률의 계수가 결정된다). 그러나 둘이 일치하지 않는 경우는 시즌 단위로 종종 관측돼왔으며, 미국의 세이버메트리션들은 둘 사이의 불일치를 설명하고자 하는 여러 시도를 해왔다.
먼저 이를 감독의 역량으로 보려는 시도가 있었다. 실제 승률이 피타고라스 승률보다 높다면 감독이 유능하게 경기를 운영했다는 것을 보여준다고 기대한 것이다. 그러나 같은 감독이 이끈 팀 사이에 명확한 관계가 나타나지 않았고, 이는 곧 유효하지 않은 설명으로 드러났다.
득점과 실점의 분포
‘감독의 역량’보다 훨씬 유효한 설명으로 제시된 것이 바로 ‘득점과 실점의 분포’다. 레이 시코렐라는 2005년 8월, 「The Pythagorean Projection and the Standard Deviation of Runs(
총 득점과 총 실점이 똑같은 두 팀 A와 B를 가정해보자. A팀은 매 경기 똑같이 6점을, B팀은 절반의 경기들에서 3점, 나머지 절반의 경기들에서 9점을 얻는다. 2014년부터 5시즌 동안 KBO리그의 득/실점을 기준으로 할 때, 6득점을 한 A팀은 69.3%의 실제 승률을 기록한다. 그러나 주자를 홈으로 불러들이는 데 있어 기복이 있었던 B팀은 실제 승률이 59.7%에 불과하다. 만약 B팀이 더 기복이 심해 1점과 11점을 번갈아 기록했다면, 승률 49.9%로 승보다 패가 많은 팀이 되었을 것이다. 두 팀이 같은 피타고라스 승률을 기록하고도 실제 승률이 이토록 차이나는 이유는 득점의 분포 때문이다. 득점의 총량이 같을 때, 득점이 꾸준했던 팀이 실제 승리를 더 많이 챙길 가능성이 크다.
*득점 조합 당 승률
(6점, 6점) = (69.3%+69.3%)/2 = 69.3%
(5점, 7점) = (58.9%+78.0%)/2 =68.4%
(4점, 8점) = (44.6%+84.7%)/2 =64.6%
(3점, 9점) = (30.0%+89.5%)/2 =59.7%
(2점, 10점) = (15.7%+92.6%)/2 =54.2%
(1점, 11점) = (5.1%+94.8%)/2 =49.9%
실점은 반대로 분포가 퍼져있을수록 팀에게 유리하다. 매 경기 꾸준하게 6점씩 내주는 팀은 승률이 30%에 불과하지만, 3점과 9점을 교차로 허용한다면 실제 승률이 40%까지도 오른다(물론 승률 40%가 좋은 팀이라는 것은 아니다. 그래봤자 평균 6점씩 허용한 팀이다).
KBO리그에서의 득점과 실점의 분포
분포의 개념을 이용해 KBO리그 또한 설명할 수 있다. 올해 두산은 지난 5년 동안 어느 시즌+팀과 비교해 보더라도 득점과 실점의 분포가 이상적이다. 아래에서 볼 수 있듯이, 두산의 득점은 6점 주변으로 촘촘히 몰려있다. 반대로 실점의 분포는 널리 퍼져있는 것을 알 수 있다.
한화 또한 두산만큼은 아니어도 실점의 분포가 큰 편에 속한다. 최대 22점까지 실점하는 경기도 있었지만, 반대로 상대를 종종 저득점으로 묶기도 했다. 한화의 절묘한 실점의 분포는 4년 전 롯데와 비교하면 더욱 극명하게 드러난다. 2014 시즌 롯데는 피타고라스 승률이 49.8%로, 지금의 한화와 마찬가지로 득점과 실점의 총량이 비슷했다. 그러나 당시 롯데는 득점이 들쭉날쭉했던 반면에 실점을 꾸준하게 허용하는 ‘최악의 조합’을 보였다. 올해 승률이 57%에 육박하는 한화와 달리 당시 롯데가 승률 46%에 미치지 못한 이유다.
표준편차를 평균으로 나눈 값인 ‘변동계수’를 통해 보면 그 차이는 더욱 확실히 드러난다. 피타고라스 승률보다 실제 승률이 좋기 위해서는 득점의 변동계수가 낮고, 실점의 변동계수는 높아야 한다. 18한화가 기록한 실점의 변동계수는 최근 5시즌 동안 시즌단위 팀들 49개 중 8위에 해당한다(1위 18두산, 0.81). 반면 14롯데는 실점의 변동계수가 높고 득점의 변동계수는 낮았다.
물론 득점과 실점의 분포를 밝힌 것만으로 모든 문제가 풀리지는 않는다. 득점과 실점의 분포를 ‘운’으로 해석해야 할지, 아니면 이마저도 ‘실력’으로 봐야 할지 아직 결론을 내릴 수 없기 때문이다. 이 부분이 완결되지 않았기 때문에 아직 많은 이들이 피타고라스 승률과 실제 승률의 간극을 단순히 ‘운’으로 해석하려는 경향을 보인다.
하지만 득점의 분포도 강팀이나 약팀의 조건이라 할 수 있지 않을까? 만약 두산이 매 경기 꾸준하게 6에서 7점씩 득점하는 대신에 1점 냈다가 12점을 기록하는 등 기복이 심한 경기력을 보여줬다면, 우리가 강팀이라고 하지는 않았을 것이다. 실점의 분포도 마찬가지다. 반대로 약팀은 기복 있는 공격력을 보여주며, 어느 투수가 나오더라도 뚜렷하게 압도하지 못하고 일정 정도의 실점을 하곤 한다.
세이버메트릭스에서 단순한 ‘운’으로만 치부했지만 자세히 뜯어보니 진실이 숨겨져 있던 것은 이번이 처음이 아니다. 인플레이 타구의 안타 비율(BABIP, Batting Average on Balls In Play)의 경우 보로스 맥크라켄이 처음 발견했을 때는 운 혹은 불운으로만 해석되었다. 하지만 지속적인 연구 끝에 현재 타자와 투수, 그리고 수비의 비중이 ‘운’보다 훨씬 크다는 것이 밝혀졌다. 피타고라스 승률과 실제 승률 사이 격차 또한 우리가 그 이면의 ‘의미’를 찾기 위해 노력할 때, 우리는 야구에 대해 한 층 더 진전되고 세련된 논의를 할 수 있을 것이다.
*모든 수치는 2018년 7월 23일 기준
참조 : http://www.philbirnbaum.com/btn2005-08.pdf
야구공작소
박광영 칼럼니스트 / 에디터=이예림