①ピタゴラス勝率とは
チームの総得点数と総失点数を基に、そのチームの勝率を予測する公式である。最もよく知られていて、かつシンプルな表し方は、勝率:\(P\)、総得点数:\(X\)、総失点数:\(Y\)とし、
$$P = \frac{X^2}{X^2+Y^2}$$
という形である。(直角三角形の辺の長さに関して知られているピタゴラスの定理にそっくりなので、ピタゴラス勝率と呼ばれる。)
実際にこの予測公式を当てはめて、精度を確かめてみよう。
- 2017年のパ・リーグ1位のソフトバンクは、\(X=638, Y=483\)なので、\(P=0.6357\)となり、総試合数143のうち、90.9勝すると予測される。(実際の勝利数は94)
- 2017年のパ・リーグ5位の日本ハムは、\(X=509, Y=596\)なので、\(P=0.4218\)となり、総試合数143のうち、60.3勝すると予測される。(実際の勝利数は60)
となり、それなりの精度であることが伺える。
(ちなみに、なぜこの2チームを選んだのかというと、引き分け数が0で話が単純だったからだ。というのも、引き分け数をどのように取り扱うかは決して簡単な話ではない。)
②ピタゴラス勝率の使い方
まず思いつく使い方は、ピタゴラス勝率と実際の勝率を比べ、監督の手腕や運の要素を評価するということだ。ただし、この監督はいつも勝ち星が予測より多い(少ない)、といった傾向はそこまで見られないようである。
より重要な使い方は、以下のように、優勝するチームを作り上げるときの目標設定に使うことだ。
- 優勝できるラインの勝率を考える。
- その勝率を上の公式で実現するような総得点と総失点を考える。
- 総得点と総失点を実現するための選手補強、起用を考える。
- 特に、各野手がどれだけの得点を生み出し、各投手がどれだけの失点に抑えることができるかを足し合わせていけばいいかを考える。
と考えることで、個々の選手がどれだけの数字を残さなければいけないかが見えてくる。(もちろん、話はいつもこう単純ではないが、基本的な考え方としては正しいはずだ。)
本当は上の箇条書きには、続きの「5.」がある。次の記事で述べる予定だが、チームの得点、失点はチームの平均OPS、平均被OPSと密接な関係があるので、優勝するためには、目標とする平均OPSと被平均OPSを実現すればよいのだ。
③ピタゴラス勝率に関する補足
疑問1:なぜ「2乗」なのか?
なぜ「2乗」なのか?これには数学的洞察が必要になる。ある程度の考察が英語版のWikipediaの記事:Pythagorean expectationにあるが、単純な仮定を用いると「2乗」という公式が得られる。
ただし、実際に最もフィットする数字は、MLBの場合「1.83乗」であるとのことだ。(実際に、Baseball-Referenceでは「1.83乗」のピタゴラス勝率が採用されている。)
ちなみに、自分が2001年〜2017年のNPBのデータに当てはめたところ「1.63乗」がベストであると言う結論が最小二乗法により得られた。(本当に正しいかどうかは保証しない。)
つまり、まとめると以下のようになる。
$$P_{\rm MLB} = \frac{X^{1.83}}{X^{1.83}+Y^{1.83}}$$
$$P_{\rm NPB} = \frac{X^{1.63}}{X^{1.63}+Y^{1.63}}$$
疑問2:より良い公式を求めて
まず、一番上の予測公式をより直感的に理解できるよう、シンプルな形に表すことから始めたい。1試合あたりの(平均の)得点数と失点数をそれぞれ\(x,y\)とすると、\(G\)を総試合数として、\(X=Gx,Y=Gy\)だから、上の公式に代入する。さらに式変形も少し加えてみる。
$$P = \frac{(Gx)^2}{(Gx)^2+(Gy)^2} = \frac{x^2}{x^2+y^2} = \frac{1}{1+(y/x)^2} $$
となり、要は「得点と失点の比のみ」で予測勝率が導ける、ということになるのだ。
しかし理屈で考えて、必ずしもそんなことはないのではないか、という疑問が生じる。というのも、「平均得点4点・平均失点2点」のチームと、「平均得点6点・平均失点3点」のチームがあったとすると、後者のほうが勝ちそうではないか?
つまり、得点と失点の「比」だけでなく、得点と失点の「和」(スケール)も考慮して然るべきだという単純な考えが浮かんでくる。これを考慮した公式が以下であり、指数(「○」乗の部分)が「和」により変わるというものである。
$$P_{\rm MLB} = \frac{X^{q}}{X^{q}+Y^{q}}$$
ここで、
$$ q = 1.5\log(x+y) +0.45 $$
である。Baseball Procpectusでは、この公式が使われている。なお、\(q\)を表す近似式があり、
$$ q = (x+y)^{0.287} $$
というものがある。(2つのグラフをソフトに描いて比べてみると、確かに近似式になっていることがわかる。)
いつかNPBのケースでこれに類する公式を導出してみたいと思うが、いつか時間のあるときのために取っておこう。。
前後の記事は↓から
「ピタゴラス勝率とは 〜勝率予測公式〜 」への21件のフィードバック