這本書討論和棒球有關的數字, 目的協助讀者更進一步了解棒球這書的副標題寫的是: Why everything you know about the Game is Wrong. 中文翻成:你對棒球的原來觀念都是錯的! 為甚麼?
這本書的作者群來自於Baseball Prospectus 的統計專家, 這本書討論的學問叫做 Sabermetrics 中文說成:用統計學的方法研究棒球的數據, 英文解釋是 Sabermetrics is the analysis of baseball through objective evidence, especially baseball statistics. The term is derived from the acronym SABR, which stands for the Society for American Baseball Research. It was coined by Bill James, who was among its first proponents and has long been its most prominent advocate known to the general public.
摘要一段
投手的表現很難預測, 影響投球的因素很多, 投球是很不自然的動作, 對身體的壓力大, 投手身體容易受傷. 投手一受傷, 投球的品質就會受到影響.
Won-Lost record: 先發投手最常被提的就是贏球的場數, 一季的球賽如果能贏20場以上, 就會被視為優異, 賽揚獎也常常頒給贏球最多場的投手, 但是用這個標準來比較不同投手的表現, 問題很多.
- 投手能控制的只有防止對方得分, 投手不能控制隊友得多少分, 如果隊友攻擊表現不好, 投手表現再好, 贏球的比率也不會高.
- 進一步說防止對方得分部分也不是先發投手完全能控制的, 現在的球賽, 先發投手多半無法投完全場, 投了五局以後, 需要牛棚的中繼投手來接手, 所以先發投手本身能影響球賽勝負的部分其實只有前五局部分
- 還有防止對方得分部分也不是投手完全控制的, 隊友守備如何也是重要的, 還有運氣等等因素
總結用贏球賽數目的多寡來評估先發投手的表現好壞, 是很不精確的
Earned Run Average(ERA): 很久以前, 棒球界就知道用Won-Lost record來評估投手的表現不精確, 後來就發展出ERA, 這個ERA也是有問題.
- 如何區分哪些是Earned Run哪些不是, 是主觀的, 同樣一顆界內飛球, 沒有隊友跑去接, 那表示球的落點好? 這會被算是投手的帳, 相似的一顆界內飛球, 有隊友跑去接, 也接到球啦, 那就表示投手投的好? 這球算高飛球接殺, 很會接飛球的Andruw Jones輕而易舉可以接到的飛球, 如果是Bernie Williams在守備的話, 很可能會變成二壘安打, 好的守備肯定會壓低投手的ERA, 壞的守備會升高投手的ERA, ERA當初良好的本意是想區分出哪些失分是投手的錯哪些失分不是, 可惜這絕對是不實際的幻想. ERA還是無法區別出隊友防守和投手的表現(做不到就是做不到)
- 不討論輸贏, 那麼就產生一個問題, 球賽的結果就是贏或輸, 這才是球迷最關心的, 所以不是投手失去的每一分都該有一樣價值, 一場比賽輸了10分後再輸一分沒差 反正比賽輸了 平手輸了一分那可不得了, 輸贏就在哪一分之差啊, 同樣失一分會有不一樣的含義 贏了好幾場比賽, 表現非常好的投手, 有一天在一場球賽了被打爆了, 他的ERA會馬上往上竄, 投手只要一場表現不好, 整體ERA都受影響 因為ERA沒有考慮比賽輸贏, 所以ERA就無法正確反應出個別分數的不同重要性.(見樹不見林)
- 兩個有同樣被安打數目和保送數目的投手, 如果投手的運氣好, 這些安打和保送分散在不同局, 投手就不會失分, 只看失分, 沒有注意到這些安打和保送是不是有聚集的現象. 投球只是普通好, 每一局都驚險度過, 因為最後沒失分, 和掌控全場比賽的投手ERA是一樣的, 這樣無法正確反應出投手的投球內容.(粗略不夠微觀)
Run Average: 既然無法區分出哪些失分是投手的錯哪些失分不是, 那就把投手和隊友防禦的能力合在一起描述, 但是這樣還是有ERA同樣的問題,
PERA(Peripheral ERA):這是根據被安打數目, 保送數目, 三振數目, 和全壘打數, 同時考慮安打保送有否聚集的運氣成分, 算出來的假設的PERA, 這個PERA可以解釋成, 下次這位投手再出場比賽時的預測失分數, 比上述的ERA, RA更能正確預測下次比賽的失分, 對觀眾來說, PERA更真實反映投手的能力, 這比ERA, RA好一些, 但還是無法區別出隊友防守和投手的表現, 也沒有討論輸贏對每個失分的加權效應
Defense-Independent Pitching Statistics(DIPS)(和隊友防守能力無關的投手表現統計) 統計出投手比較能控制的是 滾飛比 奪三振率 四壞球 全壘打(這四個項目投手最有控制, 其中全壘打因為風向, 球場形狀受影響, 沒有滾飛比穩定) 把這些指標巧妙的合在一起可以導出一個假設的DIPS ERA, 這更能表示投手的能力(和隊友防守能力無關)
總結的說,
任何包含球賽輸贏的投手統計都有下面根本的缺陷(Won-Lost record)
任何包含喪失分數的投手統計都有下面根本的缺陷(ERA, RA, PERA)
任何包含安打數目的投手統計都有下面根本的缺陷(BABIP, WHIP)
只包含 滾飛比 奪三振率 四壞球 全壘打(組合)的投手統計都有下面根本的缺陷(如DIPS ERA)
- PERA和ERA一樣, 沒有排除掉隊友防禦能力的影響. 投手後面有很會接飛球的防守隊友會對PERA有正面的影響. 所以PERA還是不完全代表投手的能力.
Defense-Independent Pitching Statistics(DIPS)(和隊友防守能力無關的投手表現統計) 統計出投手比較能控制的是 滾飛比 奪三振率 四壞球 全壘打(這四個項目投手最有控制, 其中全壘打因為風向, 球場形狀受影響, 沒有滾飛比穩定) 把這些指標巧妙的合在一起可以導出一個假設的DIPS ERA, 這更能表示投手的能力(和隊友防守能力無關)
- 問題是如何合在一起產生新的數據, 這些數據可信嘛? 例如 Support Neutral Statistics: Baseball Prospectus提出一個評估數據是SNLVAR(Support-neutral Lineup-adjusted Value Added Above replacement) 舉例來說 2005年 火箭人Roger Clemens 有 9.4 SNLVAR (這是那年度裡美國大聯盟投手之中最高的, 這數據表示說火箭人他2005年的投球內容比起一個能力平均的投手, 面對一個攻擊能力平均的敵隊, Roger Clemens能替一個攻擊平均並且防守平均的球隊多贏9.4場比賽. 當然我們也沒忘掉, 去年2007火箭人在洋基表現就蠻普通. 2005年SNLVAR表現最好的並沒有成功預測出2007火箭人還是表現良好)
總結的說,
任何包含球賽輸贏的投手統計都有下面根本的缺陷(Won-Lost record)
- 無法區別出隊友攻擊能力和投手的表現
- 無法區別出隊友防守,防守運氣和投手的表現
- 無法區別出牛棚投手和先發投手的表現
任何包含喪失分數的投手統計都有下面根本的缺陷(ERA, RA, PERA)
- 還是無法區別出隊友防守和投手的表現
- 也無法完全區別出牛棚投手和先發投手的表現
- 無法正確反應出個別分數的不同重要性(一場輸十分和十場各輸一分當然不一樣)
任何包含安打數目的投手統計都有下面根本的缺陷(BABIP, WHIP)
- 無法區別出隊友防守和投手的表現
- 無法正確反應出個別安打不同重要性(一場十支安打和十場各一支安打當然不一樣)
- 無法區別長打和短打(長打易失分)
只包含 滾飛比 奪三振率 四壞球 全壘打(組合)的投手統計都有下面根本的缺陷(如DIPS ERA)
- 雖然這些數據是和防守無關的, 好像真好! 確實是評量投手表現的好指標 但這些是投手表現的全部嘛? 當然不是, 要讓打擊者出局的方式很多種(輸贏的方式百百種), 可以高飛球接殺, 可以雙殺, (飛不遠的高飛球很難量化), 這些要隊友守備的幫助, 當我們只注意和防守無關的投手數據, 我們看到的投手表現一定是投手表現的一部份. 有一個研究說, 投手表現和BABIP完全無關, 真的嘛? 這引起很大的爭議, 後來有反對的研究結果說, 投手只能影響BAPIP約28%(另外Luck 44%, Defense 17% Park 11%). 注意窩, 這是指平均, 同樣的數據未必能套用在個別投手. 就像王建民先生, 滾飛比很高, 王先生能影響的BAPIP應該比較高.(投手和防守隊友的巧妙結合, 也是好投手的重要特質. 王建民被打出來的球就比較好防守, 不是嘛?)
- 不考慮輸贏的指標都不會是棒球的全部: 例如投十場 一場球爆了九場好投, 那樣只會輸一場贏了九場, 和投十場五場好投五場普通, 最後贏了六場, 前面情形的投手對球隊的貢獻多多了.但是微觀的數據看不出來(見樹不見林)
- 如何使用這些微觀的指標也是問題, 這些指標對球賽的輸贏不是線性的貢獻, 三振率達到一個臨界值之後, 投手基本上就掌握這個比賽,超過臨界值三振率再高增加的好處不是線性的增加(一局只有3個打者), 三振率往下掉到一個程度, 再低也不會更差(要靠其他方式讓對手出局, 高飛球接殺, 雙殺, 這都要靠隊友防守), 同樣的 滾飛比高到一個臨界點, 投手和防守隊友合作, 基本上也可以掌握這個比賽, 滾飛球超過臨界點再高增加的好處不是線性的增加(一局只有3個打者, 一個雖然上壘, 然後來個雙殺, 對手一樣不會得分), 滾飛比低到一個程度, 再低也不會更差(要靠其他方式讓對手出局, 高飛球接殺, 這要靠隊友防守, 或是三振 這要靠投手自己),所以這些數據不是簡單加加減乘除就能反應投球的內容, 這些都只是瞎子摸象一樣的單一指標, 就像王建民, 在2006和2007年的三振率都不很高,但是滾飛比達到一個臨界值, 雙殺多, 讓王建民最後都拿到一季19場勝投, (勝投多不代表投球內容一定比別人好, 但是如果每年勝投都比別人多(2006, 2007, 2008), 那合理的推測, 投球內容可能真的比人好, 最後結論是投球內容還沒有一個完美的橫量標準啊) (微觀見樹不見林)


