क्रिकेट आणि स्टॅटिस्टिक्स - २ : गरोदरपणा, टाय मॅचेस व वितरणं
क्रिकेट आणि स्टॅटिस्टिक्स - १ : तोंडओळख
गेल्या लेखात जाताजाता एक प्रश्न विचारला होता.
'या विश्वचषकात एकोणपन्नास चुरशी होणार आहेत. तर या एकोणपन्नासांपैकी बरोब्बर एक मॅच टाय होण्याची शक्यता किती? बरोब्बर दोन मॅच टाय होण्याची शक्यता किती?'
त्याचं उत्तर बघण्याआधी विजूभाऊंनी दिलेला प्रतिसाद उद्धृत करावासा वाटतो.
स्टेटॅटीक्स सिद्ध करू शकते की तुम्ही ५०% प्रेगनन्ट असू शकता.
हा प्रतिसाद मला खूप आवडला. युक्तिवाद सोपा आहे. तुम्ही एकतर १. गरोदर असता किंवा २. गरोदर नसता. त्यामुळे दोन्हीची शक्यता सारखी - ५०%. (असा मी तरी प्रतिसादाचा अर्थ लावला). अर्थातच हा चुकीचा युक्तिवाद आहे. क्षणभर कानाला बरोबर वाटणारा, पण त्यातल्या विरोधाभासामुळे हसू आणणारा. दोनच गोष्टी शक्य आहेत याचा अर्थ दोन्हीची शक्यता सारखीच असं नाही. केवळ स्त्रियाच गरोदर असू शकतात. आणि त्यातही त्या विशिष्ट वयात असू शकतात. त्यामुळे एखादी स्त्री - सगळ्या स्त्रियांमधून रॅंडमपणे निवडलेली (तान्ही/मुलगी/तरुणी/बाई/म्हातारी) - आत्ता गरोदर असण्याची शक्यता किती? असा प्रश्न विचारता येतो. (मॅच टाय होण्याची शक्यता किती या प्रश्नाशी तो खूप जवळचा आहे.) त्यासाठी एक सोपी गोष्ट करता येईल. १०००० स्त्रिया रॅंडमली निवडायच्या. त्यांची गरोदरपणासाठी चाचणी घ्यायची. समजा कोणी असा प्रयोग केला व त्यात त्याला ३५१ स्त्रिया गरोदर आहेत असं आढळलं. त्यामुळे कुठचीही स्त्री घेतली तर ती आत्ता गरोदर असण्याची शक्यता ३.५१% इतकी आहे. पण हा आकडा आपल्याला फार काही सांगत नाही. त्यापेक्षा असा अभ्यास करता येईल की जर १५ च्या खालच्या व ४५ च्या वरच्या वयाच्या स्त्रियांच्या बाबतीत ही शक्यता किती आहे? ती समजा जवळपास शून्य असते. (हे गणितापुरतं गृहितक आहे, काल्पनिक विश्वातलं. टीनेज प्रेग्नन्सीसारख्या गंभीर विषयावर चर्चा अपेक्षित नाही) या काल्पनिक उदाहरणातली १५ ते ४५ या वयातली स्त्री गरोदर असण्याची शक्यता सुमारे ७% आहे. सर्व स्त्रियांसाठी एक शक्यता मांडण्यापेक्षा वयानुरुप वर्गीकरण करून प्रत्येक वर्गाला वेगवेगळी शक्यता दिल्याने गरोदर असणे म्हणजे काय याविषयीचं चित्र थोडंस अधिक स्पष्ट होतं. जितकं बारकाव्याने तुम्ही ही विभागणी करात तितकी तुम्हाला अधिक माहिती मिळते. कॅमेराचं रिझोल्यूशन वाढलं की अधिकाधिक बारकावे पहायला मिळतात, तसंच. खालील चित्रात हे होताना दाखवलेलं आहे. डेटा मी मनाने तयार केलेला आहे - वितरण किंवा डिस्ट्रिब्यूशन तयार केलं की माहिती कशी बाहेर येते हे दाखवण्यासाठी. पुढच्या लेखांमध्ये आपण अशा वितरणांचा वापर करणार आहोत.
क्ष अक्षावर वय आहे, तर य अक्षावर त्या वयोगटातली स्त्री गरोदर असण्याची शक्यता किती आहे ते दर्शविलं आहे.
पहिल्या आलेखात सरसकट सगळ्या स्त्रीजमातीपैकी आंधळेपणे कोणालाही उचललं तर ती गरोदर असण्याची शक्यता दाखवली आहे. हा सरासरीचा आकडा. सरासरी उपयुक्त असते. काही प्रमाणात ज्ञान त्या आकड्यात असतं. म्हणजे भारताचं सरासरी दरडोई वार्षिक उत्पन्न सुमारे १ हजार डॉलर आहे असं म्हणण्यासारखं आहे. पण त्यातले किती अंबानी असतात - वर्षाला कोट्यवधी मिळवणारे आणि किती अर्धपोटी असतात हे त्यावरून कळत नाही. हा फरक कळण्यासाठी लोकसंख्येतलं वितरण बघणं आवश्यक असतं.
वितरणाकडे लक्ष दिल्यावर आपल्याला अनेक इतर गोष्टींविषयीदेखील अंदाज बांधता येतो. सरासरी तीच असूनदेखील वितरण वेगळं असू शकतं. खालील आलेखात लाल स्तंभांनी व निळ्या स्तंभानी दाखवलेल्या दोन्ही वितरणांची सरासरी तीच आहे. पण या दोन समाजांत खूपच फरक आहे. कुठच्या वयात गरोदर राहाण्याचं प्रमाण वेगळं आहे त्यावरून काही निष्कर्ष काढता येतात - जे निव्वळ सरासरीकडे बघून काढता येत नाही.
क्रिकेटचा विचार करताना टाय मॅचेस, एखाद्या फलंदाजाच्या धावसंख्येची सरासरी, एखाद्या गोलंदाजाची विकेट घेण्याची सरासरी यांनाही हाच युक्तिवाद लागू होतो. सरासरी म्हणून उपयुक्त असते. दोन फलंदाजांची शेजारी शेजारी तुलना करता येते. पण निव्वळ तितकीच तुलना पुरेशी आहे का? सन्जोप रावांनी लक्ष्मणच्या खेळाची त्याच्या सरासरीवरून कसली किंमत करणार या स्वरूपाचा प्रश्न मांडला होता. योग्य वितरणांकडे बघितल्याशिवाय तर लक्ष्मणइतकीच सरासरी (टेस्ट क्रिकेट - ४७.३२) असलेले बॉयकॉट, आणि अॅडम गिलख्रिस्ट यांच्या खेळातला फरक सांगता येणार नाही.
सर्वसाधारण सरासरीचा वापर करून विश्वचषकासारख्या स्पर्धेत - ४९ खेळांत टाय होण्याची शक्यता आपण बघू. आत्तापर्यंत ३१०० सामने झालेले आहेत. त्यातले २३ टाय झाले आहेत. त्यामुळे वरवर बघता कुठचाही सामना टाय होण्याची शक्यता ०.७४%. कुठचीही स्त्री-जमातीतली व्यक्ती गरोदर असण्याची शक्यता ३.५१% आहे त्याप्रमाणे. गरोदरपणाच्या उदाहरणात जसा आपण स्त्रीच्या वयाचा विचार केला तर वेगळी उत्तरं येतात तसंच टाय मॅचच्या बाबतीत कुठच्या संघांमध्ये खेळ झाला आहे हे पाहिल्यास फरक पडू शकेल. म्हणजे ऑस्ट्रेलिया विरुद्ध बांग्लादेश - टाय होण्याची शक्यता ०.७४% पेक्षा कमी. इंग्लंड विरुद्ध न्यूझीलंड किंवा ऑस्ट्रेलिया विरुद्ध साउथ आफ्रिका - टाय होण्याची शक्यता ०.७४% पेक्षा जास्त. ही किती कमी जास्त असू शकेल ते आपल्याला अजून माहीत नाही.
आपल्या सुदैवाने विश्वचषक स्पर्धेत ४९ सामने होणार असल्याने सर्व प्रकारचे संघ इतर सर्व प्रकारच्या संघांना सामोरे जातील. जशा अनेक तुल्यबळांमध्ये स्पर्धा होणार, तशाच अनेक दुर्बळ विरुद्ध सबळ असे खेळही होणार. त्यामुळे ०.७४% हा आकडा वापरायला हरकत नाही. हा आकडा आपण आत्तापर्यंत असं घडलं आहे या निरीक्षणावरून घेतला. पुढेही तसंच होत राहील हे तूर्तास तरी आपण गृहितक म्हणून वापरू. पण खरं तर हा आकडा ०.७४% च का २% का नाही, किंवा ०.१% का नाही याचं उत्तर आपल्याला क्रिकेटच्या खेळातल्या खुबी, बॅटिंग, बोलिंग, धावा करणे, बाद होणे, ५० च ओव्हर खेळणे या मूलभूत संकल्पना वापरून देता आलं तर उत्तम. म्हणजे आपल्या उदाहरणात असं गृहित धरू की सर्वसाधारणपणे प्रत्येक स्त्री सरासरी ३ वेळा गरोदर राहाते. सरासरी आयुर्मान ६० वर्षं आहे असंही समजू. म्हणजे आयुष्यातल्या साठपैकी सुमारे सव्वादोन वर्षं प्रत्येक स्त्री गरोदर असते. त्यावरून गणिताने आपल्याला ३.५१% हा आकडा काढता येतो. हा देखील इतर आकड्यांवरूनच काढलेला आकडा आहे. पण आयुर्मान, गरोदरपणाचा काळ, गरोदर राहाण्याची वारंवारता या अधिक मूलभूत गोष्टींवरून काढलेला आहे. हेच मॉडेल अधिक किचकट केलं तर आपल्याला दोन समाजांमधले फरक शोधून काढायला मदत होईल.
पण मूळ प्रश्न सोडवायचा राहिलाच. एकच मॅच टाय होण्याची शक्यता किती? त्यापेक्षा असं विचारू, की पहिली मॅच टाय होण्याची शक्यता किती? (हा लेख प्रसिद्ध करेपर्यंत पहिली मॅच होऊन गेली आहे... असो, आपण हा विचार सामने सुरू व्हायच्या आधी करतो आहोत असं समजू.) सोपं आहे. आजपर्यंतच्या अनुभवावरून - ०.७४%. पण एकच मॅच टाय होण्यासाठी इतर उरलेल्या सर्व मॅचेस टाय होता कामा नयेत. म्हणजे दुसरी मॅच टाय न होणं, तिसरी टाय न होणं.... एकोणपन्नासावी टाय न होणं - हे सर्व झालं पाहिजे. म्हणजे
०.००७४ *(१-०.००७४)*(१-०.००७४)*(१-०.००७४)*.....(१-०.००७४) [४८ वेळा] = ०.००५१८
पण समजा पहिली टाय न होता दुसरी झाली तर? किंवा तिसरी झाली तर? म्हणजे एकच मॅच टाय होण्याची परिस्थिती ४९ वेगवेगळ्या पद्धतीने उद्भवू शकते. त्यामुळे सर्व वेगवेगळ्या पद्धतींच्या शक्यतांची बेरीज करावी लागते. ०.००५१८ * ४९ = २५.४%. म्हणजे तुम्हाला विश्वचषकाच्या सुरूवातीला रामदासकाकांनी प्रश्न विचारला असता, की 'बरोब्बर एक मॅच टाय होणार' चा भाव चार रुपये आहे - ही बेट घ्याल का? तर जरूर घ्यावी असं उत्तर येईल. कारण रास्त भाव सुमारे १:३ आहे.
बरोब्बर दोन मॅच टाय होण्याची शक्यता किती? त्याचं सोपं उत्तर म्हणजे २५.४% चे २५.४% = सुमारे ६ टक्के. हे अचूक उत्तर नाही. फक्त साधारण बरोबर उत्तर आहे. बऱ्याच वेळा अचूक, तीन दशांश स्थळांपर्यंत उत्तर काढण्यापेक्षा साधारण अंदाज करणं अधिक महत्त्वाचं असतं. अचूक उत्तर हवं असेल तर क्लिंटन यांनी दिलेलं सूत्र वापरा. उत्तर येतं ४.६%.
आता मला सांगा, की विश्वचषकाच्या सेमीफायनल वा फायनलमधला कुठलाही सामना टाय होण्याच्या शक्यतेबद्दल काय म्हणता येईल? ०.७४% पेक्षा कमी, ०.७४% की ०.७४% पेक्षा अधिक?
(पुढच्या लेखामध्ये आपण काही खऱ्याखुऱ्या वितरणांकडे व त्यांच्या सरासरीकडे बघू. सचिन तेंडुलकरचा किंवा इतर कुठच्याही बॅट्समनचा फॉर्म त्याच्या गेल्या पाच-दहा डावातल्या धावसंख्येवरून ठरवता येतो का, याचाही विचार करू.)
Comments
आवडला
कठीण विषय असूनही अगदी सोपाकरून लिहिला आहे. उदाहरणे अगदी चपखल आहेत. हा लेख आवडला. आता पुढच्या भागाच्या प्रतिक्षेत.
लेखातील उदाहरणावरून एका वर्गातील (५० मुले) दोघांचे वाढदिवस एकच येण्याच्या शक्यतेचे गणीत आठवले. (फार श्रम न घेता) माझ्या आठवणीतले उत्तर अर्ध्याहून जास्त आहे.
वितरण ही देखील एक प्रकारची सरासरी असते. फक्त एक पॅरामिटर (परिमाण?) अधिक जोडलेला असतो. तुमच्या गरोदरपणातील उदाहरणात १५-४५ वयोगटातील स्त्रियांच्या गरोदरपणाची सरासरी शक्यता येते.
अजून काही पॅरामिटर्स जोडता येतील. (उदा. लग्न झालेल्या व न झालेल्यांचे गरोदरपणाचे विभाजन वेगळे असेल. त्यातही कुटुंबनियोजनतंत्राचा वापर करणार्यांत हे प्रमाण कमी असेल.)
प्रमोद
+१
सहमत.
त्यासाठी २३ मुले पर्याप्त असतात असे स्मरते. कोरोलरी: तुम्हाला हा दावा पटत नसेल तर तुम्हाला वाढदिवसाचे निमंत्रण देणे मुले टाळतात. -- जॉर्ज गॅमॉव
शंका
आपल्याशी व्यनि द्वारे झालेल्या संभाषणात आपण खालील मत व्यक्त केले होते.
>>>>>मला लेखमालेत थोडं अधिक खोलवर जाऊन मुळात हे ३०९९ व २३ हे आकडे आपल्याला शोधून काढता येतील का हे तपासायचं आहे.
आपल्या उत्तरात आपण वरील आकड्यांचाच वापर केलेला दिसतो. वरील आकडे न वापरता उत्तर कढायचे असल्यास क्लिंटन यांनी दिलेलं सूत्रच (MC simulation) वापरावे लागेल.
बरोबर
०.७४% शक्यतेचा आकडा मी ऐतिहासिक निरीक्षणावरून घेतला. केवळ ऐतिहासिक निकालांवरून भाकितं करता येतात ती बरोबरही ठरतात. उदाहरणार्थ गेल्या पाच वर्षात किती वेळा पौर्णिमा आल्या हे मोजून पुढच्या वर्षात किती येतील हे सांगता येतं. त्यातही भाकित करण्याची शक्ती आहे. मात्र चंद्र, पृथ्वी व सूर्य यांचं नातं - कक्षा काढता आल्या की मग त्या नव्या मॉडेलच्या आधारे पौर्णिमांविषयी जास्त अधिकारवाणीने बोलता येतं. त्यात पौर्णिमा तीस दिवसांनीच का येते, मुळात चंद्राच्या कला का बदलतात अशा प्रश्नांचीही उत्तरं देता येतात. हे दुसरं, अधिक शक्तिशाली मॉडेल तयार करण्यासाठी, आधीच्या अशाच इम्पिरिकल निरीक्षणांवर आधारित गोष्टी एकत्र कराव्या लागतात. ते क्रिकेटच्या बाबतीत करण्याचा आपण या मालेत प्रयत्न करणार आहोतच. वाचत रहा.
राजेश
द्रौपदीचे सत्त्व माझ्या लाभु दे भाषा-शरीरा
भावनेला येउं दे गा शास्त्र-काट्याची कसोटी
सुंदर विश्लेषण.
सुंदर विश्लेषण.
शेअर मार्केट चे तांत्रिक विश्लेषण देखील असेच असते असे पाहिल्याचे स्मरते (ते अधिक विस्तारित आणि खोल असते), तरीदेखील त्या माहितीवरून गुंतवणुकीचा नक्की असा निर्णय घेण्याआधी गुंतवणूक केल्या जाणाऱ्या कंपनीचे मुलतत्व/मुल-सूत्र विश्लेषण देखील करणे गरजेचे मानले जाते, तसे आपल्या ह्या क्रिकेट च्या विश्लेषणात जर टीमचे प्लेयर/कोच/कप्तान/टीमचा सामान्य स्वभाव/खिलाडूपणा/नकारात्मक खेळ वगैरे फॅक्टर घातले तर उत्तरात कसा फरक पडू शकेल हे पहावयास आवडेल, ह्या फॅक्टरचा विदा/आत्त उपलब्धता ह्या गोष्टी परिणामकारक आहेत पण तरीदेखील काही माहित/उपलब्ध गोष्टींचा तुम्ही स्वतः लेख-माले शेवटी उपयोग करू शकाल काय?
कठीण वाटतं...
इतक्या खोलवर आपल्याला पोचता येईल की नाही शंका वाटते. मला वाटतं या लेखमालेत क्रिकेटच्या मर्यादा परिस्थिती (बाउंडरी कंडिशन्स) विचारात घेता येतील. उदाहरणार्थ प्रत्येक इनिंग ही ३०० चेंडूंची असते. प्रत्येक टीममध्ये काही उत्तम व काही चांगले फलंदाज असतात, काही उत्तम व चांगले गोलंदाज असतात. चांगले म्हणजे काय हे आपल्याला संख्याशास्त्रीय परिभाषेत मांडता आलं पाहिजे. अशा प्रकारे काही मॉडेल करून काही निष्कर्ष काढता येतील का? हे बघायचं आहे.
राजेश
द्रौपदीचे सत्त्व माझ्या लाभु दे भाषा-शरीरा
भावनेला येउं दे गा शास्त्र-काट्याची कसोटी
चांगले खेळाडू म्हणजे काय?
So-and-so is a great general, Enrico Fermi was told. What is the definition of a great general? he characteristically asked. I guess it's a general who's won many consecutive battles. How many? After some back and forth, they settled on five. What fraction of American generals are great? After some more back and forth, they settled on a few percent.
But imagine, Fermi rejoined, that there is no such thing as a great general, that all armies are equally matched, and that winning a battle is purely a matter of chance. Then the chance of winning one battle is one out of two, or 1/2, two battles 1/4, three 1/8, four 1/16, and five consecutive battles 1/32 - which is about 3 percent. You would expect a few percent of American generals to win five consecutive battles - purely by chance. Now, has any of them won ten consecutive battles ...?
क्ष्
छान
इतिहासावरून श्रेष्ठता ठरवणं हे थोडं धोकादायक असतं हे बरोब्बर दाखवलं आहे. वरच्या उदाहरणांत युद्धांची संख्या कमी आहे - त्यामुळे हा गोंधळ होऊ शकतो. प्रत्येक जनरल जर शंभरच्या वर युद्धं लढला असता तर जिंकलेल्या व हरलेल्या युद्धांच्या संख्येवरून प्राथमिक अंदाज बांधता आला असता - ऐशीपेक्षा अधिक जिंकणारा श्रेष्ठ वगैरे...
राजेश
द्रौपदीचे सत्त्व माझ्या लाभु दे भाषा-शरीरा
भावनेला येउं दे गा शास्त्र-काट्याची कसोटी
झाली टाय!
आत्ताच इंग्लंड-भारत म्याच टाय झाल्याचे ऐकले. असो. लेख अद्याप वाचला नाही. नंतर सविस्तर प्रतिसाद देता येईल.
भारत - इंग्लंड म्याच
ही म्याच टाय होण्यासाठी या लेखमालेचे योगदान असण्याची शक्यता किती आहे? :)
१००%
योगदान १००% असावे. किंबहुना हा लेख टाकला म्हणूनच म्याच टाय झाली असे वाटते. ;-)