
上周《從男籃世界杯慘敗看中國籃球的數據分析》一文引起了一些廣泛討論,今天我們繼續就這個題材,來看看美國人曾經遭遇過怎么樣的阻力。
·延展閱讀:從男籃世界杯慘敗看中國籃球的數據分析 | 產業專欄
我總是說數據分析如何如何先進,如何能幫助球員和球隊帶來提高,說多了可能會讓人覺得有點數據神教唯數據論的感覺。但其實我們應該都清楚中國籃球和國際先進水平之間的差距是全方位的,不僅僅是數據分析在籃球領域應用上的差距,也不可能只要重視數據分析就一定能解決所有問題,這樣的靈丹妙藥是不存在的。
我之所以會一直強調這個,一方面我認為確實可以從中獲益,能用這套方法,花更少的時間以更高的效率更全面精準的了解比賽,球員和球隊。另一方面,最近前雄鹿隊分析顧問Seth Partnow寫了一篇文章提到了一個觀點我覺得能很好的詮釋,那就是——我們不追求“完美”,只追求“更好”。
什么意思呢?有一些拒絕數據分析的人經常說“數據不能說明一切”。這里面隱含的邏輯往往就是,如果數據分析不能完美解答疑問,那它就沒意義。這樣的邏輯顯然是錯的,NBA一個賽季有1230場比賽,我們的CBA聯賽賽程短但也有460場比賽,無論是誰都不可能憑肉眼分析并記憶大部分比賽,而籃球又恰恰是一項充滿了偶然性的運動,不立足于大樣本的統計結果無法得出接近事實的答案。數據確實不能說明一切,但傳統方法更不能說明一切。所以當一些人以“數據不能說明一切”拒絕數據分析的方法和結論時,在我看來就像是坐著驢車的人批判一款城市代步車越野性能不行。從分析人員的角度講,一個工具有缺陷是很正常的,不完美才是常態,我們只需要新工具能比現在有的更好,哪怕是好一點點也可以。從一開始我們就不要求數據分析解決一切問題。
我們一些在CBA一線工作,并且相信數據分析的基層人員有機會和火箭隊的教練組成員Devan Blair交流時,講了新的籃球理念和方法在國內職業籃球的第一線推廣的困境。人家鼓勵他,說“沒關系啊,你現在在做的就是我們美國二十年做的事情”。他這么說的時候似乎在表達美國這方面已經獲得了“革命”的成功。但實際上,即便是在美國,數據分析在職業比賽的應用層面依然是有困難的,Devan Blair在火箭這樣數據科學家坐鎮總經理位置的球隊工作可能有著更好的環境,但在更多地方同樣面臨著保守派帶來的阻力,Seth Partnow就戲稱自己是籃球左派,在和右派的保守勢力對抗。
數據分析在籃球上的發展上有一個很奇怪的現象,就是不論在美國還是中國,球隊都落后于球迷。我這么說可能聽起來很反常,職業球隊怎么還不如業余球迷呢?但我可以舉幾個簡單的例子。
· 灰熊隊的副總裁John Hollinger在進入NBA之前是通過自己在業余空閑時建立的籃球分析網站嶄露頭角的。
· 前超音速,開拓者和步行者的分析顧問,現ESPN評論員Kevin Pelton在進入這個行業前,也是自己業余愛好做了一個針對超音速的分析網站才開始被注意到的。
· 前開拓者和76人的副總裁Ben Falk同樣是從自建籃球數據網站,才逐步進入開拓者管理層的。
· 前雄鹿分析顧問Seth Partnow是在籃球數據博客NylonCalculus當兼職編輯才被發現,從而進入這個行業的。
· 前馬刺隊戰略副總裁,現美國國家隊分析顧問Kirk Goldsberry是從一個業余愛好制作籃球數據圖表的地理系博士走到現在這個崗位上來的。
· 撰寫了籃球數據分析領域的第一本重磅著作《Basketball in paper》的現奇才隊助教Dean Oliver最早也是在自己的工程師工作之余,在網上發表一些籃球數據的文章,才逐漸成書出名進入NBA的。
這些業余愛好者正是現在NBA數據分析領域的先鋒和骨干,整個NBA數據分析界正是由一群有著理工科背景的籃球愛好者建立的。直到現在,NBA官方每年還在舉辦Hackathon,吸引一大群愛好者和大學生參加,MIT每年都辦運動分析峰會,投稿的也都從未接受過專業籃球訓練的理工科研究者,而他們這些業余人士所做的反而是籃球分析領域的前沿學術成果,這些成果都在被業內所應用。即便是NBA球隊已經普遍重視數據分析的現在,推特上業余愛好者的工作也在不斷引起球隊管理層人員的注意,他們的分析方法,思路是完全不遜色于球隊全職人員的,其中有很多也像Seth Partnow這樣重回公眾視野的前球隊工作人員。甚至由于球隊內部的工作往往更需要應用于實際比賽,而缺乏探索性質,這些“野生數據專家”們的工作更有開拓性,更具前沿價值。
正因為這樣的發展模式,導致了數據分析在籃球領域真正進入業內時遇到了阻力,因為表面上看來這是一場“外行領導內行”的革命。但實際上,這可能是競技體育發展到一定高度后的必然。過去我們常說“文體不分家”,因為文藝和體育都是人民群眾茶余飯后的消遣娛樂,屬于精神需求,因此歸為一類。而理工科是直接作用于生產力發展的,是關乎物質需求的,所以兩家分的很遠。但現代競技體育高度發展后,成為了一個需要多學科專業知識支持的項目,訓練,飲食,傷病管理,傷后康復,技戰術打法無一不需要科學的力量。數據科學就和營養學,生物學,醫學一樣對競技體育產生影響,不同的是,數據科學更深入的觸及到了比賽本身,直接對于比賽進行指導,而不再是比賽之外的支援工作。
這樣的深入接觸對于傳統學院派體育人士來說,就像是陌生人侵入了私人空間一樣,自然會產生抵觸情緒。在美國高中,認真學習門門課拿A+的好學生被稱作Nerd(書呆子),而橄欖球隊籃球隊的運動明星則是學生中的焦點,當書呆子們開始在這些運動明星最擅長的領域告訴他們該怎么做時,對抗是不可避免地。巴克利就曾經說過:“數據分析不過是那些不會打籃球的書呆子們想參與進來才編出來的東西罷了”。包括科比,杜蘭特等一些球星對數據分析也有很大的抵觸情緒。認為那些不會打球的人沒資格來指導自己怎么做。但他們那么說時往往忽略了競技體育高度職業化之后必然帶來的高度分工,“懂球”未必需要會打球,分析人員沒有必要掌握實戰比賽技巧。這就像工業化進程一樣,技術越是先進,分工越是明確。越是落后,就越是一人身兼數職。無論上一代球星如何看待數據分析,職業體育的這種分工化趨勢都無法改變,NBA球隊近年來逐漸都開始建立獨立的數據分析部門,新一代球員都越來越信任數據分析就是最好的證明。
在中國,雖然同樣有著球迷領先于球隊的情況,也有著數據分析理念和方法在一線籃球工作中推廣阻力重重的困境,但原因卻略有不同。國內的球迷往往是在關注NBA的過程中享受到了NBA強大的數據服務,普通球迷期盼CBA官方能提供像NBA那樣的數據服務,而不滿足于現狀又有著理工科背景的球迷,能憑借美國“球迷領先于球隊”的特殊情況和大量前從業人員在公開網絡上的分享,了解到最先進的分析理念和方法。
而比起美國由于校園體育文化所導致的傳統運動員教練員“不愿”接受,我們的運動員教練員更多的是“不能”接受新理念。由于數據分析在NBA的興起,對NBA也抱有學習心態的CBA一線管理人員,教練員也對數據分析有著很大的熱情,但真當一些數據分析的基本內容,比如百回合數據,放在他們面前時他們卻又表達出了拒絕的態度,覺得“太復雜”,不如場均數據來的簡單易懂。Kevin Pelton也曾公開抱怨過“高階數據”(advanced stats)一詞給數據分析思想的推廣帶來了不必要的阻力。因為許多所謂的高階數據一點也不“高階”,并不包含高深的數學知識,重要的只是它的思想方法,它的“框架”。
就比如百回合數據,百回合數據的計算實際上并不復雜,不涉及任何高等數學的內容,只需要中小學數學知識就能理解它的計算。籃球比賽本質上是一種回合制游戲,球權的必然轉換決定了比賽雙方一定是攻一次守一次形成一個回合。這就讓比賽的最小單位成為了“回合”,而不是“場”。一場打了70個回合的比賽和一場90個回合的比賽,它們之間的數據是不能直接比較的。在這里,無論是“回合”的概念還是百回合數據的計算都不是最重要的,真正重要的實際是其中的“標準化”思想。所謂標準化思想其實就是講不同度量的特征不能直接比較,必須進行標準化處理,使他們具備可比性。這也并不算是什么高深的理念,但我們往往到大學的理工科教育中才能有清楚的理解。
再比如真實命中率的計算,它只涉及到四則運算,但在它的計算中,會把每次罰球出手看作是0.44次運動戰出手。在實際的比賽中,一次兩分投籃犯規得到了兩次罰球機會,每次發球是0.5次運動戰出手,三分投籃犯規的罰球則是0.33次,打進加罰的罰球不占用投籃機會,所以實際比賽中的情況是很復雜的,但為什么我們就在這里選用0.44呢?這并不是數據分析者隨便選定的數字,而是通過大量比賽的統計,發現大樣本下各種出手造成的罰球綜合下來大約是0.44。這個0.44在工科專業中就是所謂的“工程經驗”。這種統計結果具體到應用中是否有誤差呢?當然有,但只要經過統計就會發現,這個誤差非常小,但不采用0.44,嘗試具體的去統計每次罰球占用的投籃機會,又需要花費大量的時間精力。這種在誤差可以接受的情況下,采用0.44而不是精準統計每次罰球占用的投籃機會的做法實際上也體現了工程應用中對“成本”的考量。如果不了解其中的思維方法,很容易就因為這個“莫名其妙”的0.44就陷入對這項數據的不信任,認為其增加了人為的干擾,反倒不能直觀的反應現實了。
這些理工科的思維方式在籃球分析領域中的應用是普遍存在的,再加上數學工具和編程工具所需要的背景知識和技能,為我們從體育院校畢業的一線分析人員制造了不低的門檻,甚至國內頂級體育院校籃球專業的教授在對籃球數據的理解上都處在一知半解的狀態。而目前職業球隊的數據分析人員都是錄像分析人員在兼任,球隊也沒有意愿開出一個對具備數據科學知識背景的人員來說有足夠吸引力的待遇。一些國內的外部數據供應商雖然能夠把美國數據服務公司的技術進行本地化,但在數據的分析呈現上又達不到球隊實際應用的要求。種種因素導致了籃球數據分析在國內職業領域的荒漠化,球迷反倒走在了前面。
這種“外行比內行領先”的情況對于行業發展帶來的天然阻力,美國分析人員已經有了充分的體會,Devan Blair在籃協為國內年輕分析人員做的培訓課上就不斷強調:“不要著急,要一點一點的贏取老派教練員的信任,要在方法上尋求突破,通過更清晰的可視化方法展現數據的科學性與優越性。”NBA在最初開始數據分析的發展時采用的方法是以兼職人員的形式雇傭這些“專業的外行”,安排隊內的傳統分析人員進行對接,稱之為“協調員”。既能越過專業技術的壁壘,又能充分表達球隊的需求,填補球迷視角探索性工作和球隊視角的應用性工作的差異。在體育數據公司興起后NBA球隊則是既購買這些公司的外包服務,同時也安排已經具備技術背景的全職人員進行對接,最后才在近幾年逐漸建立起完全獨立的數據分析部門,而這些部門的人員曾經都是那些網絡上的“外行”。這是一條清晰的發展路線,這條路NBA走了將近二十年,現在仍在努力化解其中的矛盾沖突。而我們的聯賽呢?是不是像我們國家其他追趕發達國家的行業一樣,能擁有“因為看過別人走過的路”而擁有的“后發優勢”呢?
作者介紹:曹健愷(RC-1136),微博“籃圈即是原點”的運營者,對數據抓取和可視化呈現有很深的研究,為多家媒體網站提供有籃球理念支持,又易于解讀的NBA圖表,目前對CBA數據也有一定的涉獵。
延展閱讀:
中國男籃遭遇11年來最痛心一敗,我在現場所看到和聽到的 | 觀賽手記
聲明:文中觀點僅代表作者本人觀點,不代表懶熊體育。










