नवीन उपक्रम - कल्पनागार - भाग १
- भाषा
- अर्थकारण
- वाणिज्य
- व्यवस्थापन
- गणित
- तंत्रज्ञान
- विज्ञान
- वैद्यकशास्त्र
- इतिहास
- तत्त्वज्ञान
- धर्म
- शिक्षण
- संस्कृती
- कला
- क्रीडा
- गीतसंगीत
- चित्रपट
- प्रतिशब्द
- प्रवास
- प्रसारमाध्यमे व वृत्तपत्रे
- भाषांतर
- मनोरंजन
- रंगमंच
- विनोद
- विरंगुळा
- वैश्विक जाळे
- व्यक्तिमत्व
- व्याकरण
- शुद्धलेखन
- संगणक
- साहित्य व साहित्यिक
- हे संकेतस्थळ
- यांत्रिकी
- विचार
गेल्या आठवड्यातल्या सुमारे वीस नवीन कल्पनांपैकी मी आज दोन नवीन उपक्रम येथे सुरू केले. (सर्वच कल्पना उपक्रम सुरू करण्याइतक्या चांगल्या मला वाटल्या नाहीत, म्हणून :-)
असो, हा उपक्रम मेटा-उपक्रम आहे. मेटाडेटा म्हणजे डेटाचे वर्णन करणारा डेटा. ह्याला अधिविदा म्हणता येईल (शैलेश ? विदा हा डेटासाठी तुम्ही निर्माण केलेला शब्द, म्हणून तुम्हीच सांगा की अधिविदा हा शब्द योग्य आहे का ते?)
ह्या अध्युपक्रमाला तसे नाव देण्याचे कारण की ह्यातून अनेक उपक्रम निर्माण होऊ शकतील.
ह्या उपक्रमाचे मूळ म्हणजे डॉ. स्टीव्हन लेविट ह्यांचे फ्रीकॉनॉमिक्स हे पुस्तक.
इकॉनॉमिक्स, अर्थात अर्थशास्त्र ह्या विषयाला आपण जगातील अर्थव्यवस्थेचा अभ्यास करणारे शास्त्र असे आजवर समजले आहे. परंतु समाजातील घटनांचा शास्त्रशुद्ध अभ्यास, ही अर्थशास्त्राची खरी देणगी आहे, हे डॉ. लेविट आपल्याला ह्या पुस्तकातून सांगतात. त्यातून मला कळलेली अर्थशास्त्राची व्याख्या अशी: "एखाद्या निर्णयाप्रत पोहोचण्यासाठी कुठला विदा आवश्यक आहे, ते शोधण्याचे शास्त्र, म्हणजे अर्थशास्त्र."
डॉ. लेविट, आपण जे अर्थशास्त्राचे विश्लेषण केलेले आहे, त्याला आचार्य लोक संशोधनपद्धती (रीसर्च मेथॉडॉलॉजी) म्हणतात. आणि सार्वजनिक संकेतस्थळांवर जे लेख माहितीपूर्ण वगैरे ठरतात, त्यावर पोट धरधरून हसतात, कारण त्या निर्णयांप्रत पोहोचण्यासाठी कुठला विदा वापरला आहे, त्याची हे लेखक काळजीच करत नाहीत!
परंतु कधीतरी आम्ही आपल्या फ्रीकॉनॉमिक्स ह्या पुस्तकाचे सार मराठीत आणू. तोवर आम्ही हा एक त्या पुस्तकाच्या अगदी विरुद्ध (खरे तर विरुद्ध नाही, पण समांतर म्हणता येईल) समस्या आम्ही उपक्रमाच्या बुद्धिमान, आणि सर्वज्ञ वाचकांपुढे मांडतोय.
एखाद्या निर्णयाप्रत पोहोचण्यासाठी काय विदा गोळा करावा, ह्याविषयी डॉ. लेविट ह्यांनी लिहिले आहे. मी ह्या उपक्रमातून वाचकांना ह्या विषयाच्या समांतर असा दुसरा प्रश्न विचारतो.
एखादा विदा तुम्हाला उपलब्ध असेल, तर तुम्ही त्यापासून कुठले निर्णय घेऊ शकाल ?
उदाहरण देतो. समजा उपक्रम ह्या संकेतस्थळावर येणार्या सर्व वाचकांची वये आणि त्यांनी दिलेल्या प्रतिसादांची आणि लेखनाची संख्या, हा विदा तुम्हाला उपलब्ध असेल, तर त्यातून कुठले निर्णय तुम्ही काढू शकाल?
मी त्याचे विश्लेषण करून उपक्रमावर सर्वाधिक लिहिणार्या लोकांचे सरासरी वय शोधीन, आणि उपक्रम हे संकेतस्थळ कुठल्या वयोगटाला अधिक आवडते, हे शोधीन. ह्याचा उपयोग मला उपक्रमावर कुठल्या प्रकारच्या जाहिराती प्रकाशित कराव्या हे ठरवण्यास होईल.
ह्या कल्पनागार उपक्रमात मी दर लेखात एका विदागाराचे वर्णन करीन, आणि प्रतिसादकांनी त्या विदागारातून, ते कुठल्या निणयांप्रत पोहोचू शकतील, त्यासाठी काय करावे लागेल, आणखी कुठला विदा लागेल, ह्याचे वर्णन करायचे आहे.
आजची समस्या सांगण्या आधी दुसरे एक उदाहरण देतो.
समजा मला ज्ञानेश्वरांनी आणि तुकारामांनी लिहिलेल्या सर्व रचना संगणकावर उपलब्ध असतील, तर त्यातून मी काय संशोधन करू शकेन ?
माझे उत्तरः कुठले मराठी शब्द दोन कालावधीत सर्वाधिक वेळा वापरण्यात आले ? तुकारामांनी ज्ञानेश्वराचे किती शब्द वापरले ? त्याकाळच्या शब्दांत ड, ठ, ट, र, वगैरे अक्षरांची वारंवारिता किती होती ? त्यानुसार तुकारामाच्या काळातली मराठी आणि ज्ञानेश्वराच्या काळातली, ह्यात ऐकायला मृदु कोणती ? काही अत्यंत सोप्या आज्ञावल्या लिहून मला ही माहिती शोधता येईल. खरे ना ?
चला, मी तुम्हाला आजची समस्या सांगतो:
समजा तुम्हाला विश्वजालातील अनेक (१ अब्ज) संकेतपृष्ठे उपलब्ध आहेत. (दुवा, दुव्यावरचा मजकूर) ह्या दुकलीच्या यादीच्या स्वरुपात. तुम्ही काय विश्लेषण कराल ? कुठले संशोधन कराल ?
- प्रतिसाद देण्यासाठी येण्याची नोंद करा किंवा सदस्य व्हा

समस्यापूर्ती माय स्टाईल्!
जर काही विशेष प्रश्न माझ्या मनात असेल (समजा स्वतःचा Hedge Fund सुरू करायचा! ) तर त्यासंदर्भात असणार्या दुव्यावर लक्ष केंद्रित करेन. त्याशिवाय नवीन उद्योग, भांडवल, कर्तबगार साथीदार मिळविण्यासाठी उपयुक्त अशा दुव्यांवर वेळ घालवेन.
जर कोणताही विशेष प्रश्न समोर नसेल तर दुव्यावरच्या मजकरानुसार गटवारी करून टॉप ऍन्ड बॉटम पाच पाच गटांची निवड करेन. त्याचे पुढे काही करता येण्यासारखे आहे किंवा काय अभ्यासासाठी सहकार्यांना आवाहन करेन.
माझ्या वेळेनुसार आणि सवडीनुसार कदाचित रॅन्डमली १० गट निवडेन. कदाचित त्यातूनच "खजिना" गवसेल!
असो... एकूणच अब्जावधीसारखा विदा समोर आला की पहिल्यांदा "कचरा" (कोणता ते ठरविणे आणि मग तो ) दूर करणे हीच पहिली पायरी असेल.
ह्म्म्म्... जाता जाता फ्रीकॉनॉमिक्सचे आम्ही जबरदस्त फॅन आहोत!
बरेच काही करता येईल
वरकरणी अपुर्या आणि/किंवा क्षुल्लक वाटणार्या या माहितीतूनही बरेच उपयोगी निष्कर्ष काढता येतील असे दिसते. जसे -
१. मजकुरावर आधारीत दुव्यांचे वर्गीकरण (क्लासिफिकेशन नव्हे, क्लस्टरिंग) - यासाठी मजकुरातील काही विशिष्ट शब्दांचा शोध घ्यावा लागेल आणि असे शब्द ज्या माहिती/ज्ञानशाखेत अंतर्भूत आहेत, अशा माहिती/ज्ञानशाखेच्या वर्गात (क्लस्टरमध्ये) हा मजकूर असलेला दुवा वर्गीकृत करता येईल (क्लस्टर्स = अनेक क्लासेस अशा ढोबळ संज्ञेवरून याला क्लासिफिकेशन म्हणून न संबोधता क्लस्टरिंग संबोधले आहे) जसे - विदागार, प्रणाली, आज्ञावली असे शब्द प्रामुख्याने आढळून येणारा मजकूर असलेला दुवा वाणिज्य वर्गात वर्गीकृत न करता संगणकशास्त्रात वर्गीकृत करणे. यासाठी मजकुरातील एकूण शब्दसंख्येच्या तुलनेत त्या विशिष्ट शब्दाची वारंवारता मोजून एखादा मजकूर अमुक एका शाखेशी संबंधित आहे, हे निश्चित करणारी त्या विशिष्ट शब्दाची सर्वमान्य वारंवारता माहीत असावी लागेल.
२. एकदा असे वर्गीकरण केले की प्रत्येक वर्गाची वर्गसंख्या आपसूक मिळेल. यावरून त्या त्या ज्ञान/माहिती शाखेशी संबंधित असलेले एकूण उपलब्ध दुवे किती, याची माहिती वास्त्वैक वर्गसंख्या, टक्केवारी किंवा इतर स्वरूपात मिळेल.
३. कुठल्या माहिती/ज्ञान शाखेशी संबंधित कमाल तसेच किमान दुवे उपलब्ध आहेत, याची माहिती मिळेल.
४. असे वर्गीकरण (क्लस्टरिंग) करताना लावले गेलेले निकषही पाहता येतील (सॅस एंटरप्राइझ मायनर किंवा वेका सारख्या सॉफ्टवेअर्समुळे हे सहज शक्य आहे)
५. दुवा कोणत्या आय पी पत्त्यावरून ऍक्सेस झाला आहे, ही माहिती कळली, तर त्या आय पी पत्त्यावरून मुख्यत्त्वेकरून कोणत्या स्वरूपाची माहिती/ज्ञान मागवले जाते, हे कळू शकेल. त्यावरून तो आय पी पत्ता वापरणारे लोक कोणत्या प्रकारच्या विषयात रुची बाळगून आहेत (की नाही) हे कळू शकेल.
६. दुवा नजरेआड करून फक्त मजकुरावर लक्ष केंद्रित केले, तर कंटेन्ट मायनिंग/टेक्स्ट मायनिंग (मजकूर शाब्दिक स्वरूपातला असल्यास) करता येईल.
तूर्तास इतकेच. यापुढे काही सुचल्यास नदनुसार भर घालेनच.
उपक्रम आवडला. यात सक्रीय सहभागी व्हायचा आणि माहिती/तंत्र/ज्ञान यांची देवाणघेवाण करण्याचा प्रामाणिक प्रयत्न करायला नक्कीच आवडेल. या उपक्रमाची सुरुवात केल्याबद्दल अभिनंदन, आभार आणि उपक्रमासंबंधी पुढील कार्यासाठी शुभेच्छा.
आणखी - संलग्नता
आणखी एक करता येण्याजोगी गोष्ट म्हणजे दुव्यांमधील संलग्नतेचा अभ्यास (असोसिएशन अनालिसिस)
समजा चार दुवे अ, ब, क, ड हे संगणकशास्त्राशी संबंधित आहेत. पण दुवा अ आणि दुवा ब यांवरील माहिती विदागार, विदा विश्लेषण याच्याशी संबंधित आहे; तर दुवा क वरील माहिती नवीन संकेतस्थळाच्या उभारणीबाबत मार्गदर्शन करते आणि दुवा ड वरील माहिती नवीन संकेतस्थळे तयार करण्याच्या विविध प्रणाली, तंत्र यांबाबत माहिती देते. असे असल्यास दुवा अ आणि ब हे एकमेकांशी फारच सख्य आहे (क्लोझ असोसिएशन) किंवा हे दुवे परस्परांशी संलग्न आहेत, असे म्हणता येईल. तसेच दुवा क आणि ड परस्परांशी संलग्न आहेत, असेही म्हणता येईल. याउलट (अ, क), (ब, ड) किंवा/आणि {(अ,ब) व (क, ड)} हे परस्परांशी संलग्न नाहीत, असेही म्हणता येईल.
ही प्रक्रिया सगळ्याच ज्ञानशाखांसाठी लागू करता येईल आणि गरजेनुसार निष्कर्ष तपासता येतील.
दुरुस्ती -
१. वरील प्रतिसादात टंकलेखनातील हलगर्जीपणामु़ळे टंकित झालेले वास्त्वैक आणि नदनुसार हे शब्द अनुक्रमे वास्तविक आणि तदनुसार असे वाचावेत.
२. आय पी पत्त्यासंबंधीचा मुद्दा लिहिताना आय पी पत्ता हा कायमस्वरूपी आहे (डायल -अप प्रणालीमुळे दरवेळी नव्याने मिळणारा नाही) असे गृहित धरले आहे. माहिती मिळवण्याच्या प्रक्रियेत फरक पडला नाही, तरी मिळालेल्या माहितीच्या विश्वासार्हतेत यामुळे फरक पडू शकेल.
छान !
आपण सॅस मायनर विषयी लिहिले आहे. ह्या आज्ञावलीची वर्धनक्षमता किती आहे ? कारण हे सगळे दुवे आणि मजकूर साठवायला हजारो संगणक लागतात.
- मिलिंद
सॅस ९.१
सॅस ९.१ मध्ये सुमारे ६५ हजार ओळींची एक्सेल फाइल साधारण १५-२० स्तंभांपलीकडे गेली की स्मृतीधिष्ठित कारणमीमांसा (हे आपले माझ्या वतीने 'मेमरी बेस्ड रीजनिंग' याचे मराठी भाषांतर! ;-) ) मुख्यौपांग विश्लेषण (मुख्य+उपांग विश्लेषण = प्रिन्सिपल कंपोनंट अनालिसिस साठी माझा प्रतिशब्द! :( ) सारख्या अनेक कार्यप्रणाली कोलमडतात, असा अनुभव आहे. त्यामुळे एकूणच वर्धनक्षमता विदाचे आकारमान आणि जे विशिष्ट विदा विश्लेषण करायचे ते (तसेच संगणकाची कार्यक्षमता) यांवर अवलंबून राहील. संगणकाची कार्यक्षमता स्थिर आहे, असे मानले, तरी आधीच्या गोष्टींचा या आज्ञावलीच्या वर्धनक्षमतेवर ठळक परिणाम जाणवतो/जाणवेल, असे वाटते.
धन्यवाद
माहितीबद्दल धन्यवाद.
विदामंथनासाठी (विशेषतः टेराबाईट+) माझ्या माहितीप्रमाणे तरी तयार आज्ञावली उपलब्ध नाहीत.
मी सध्या लुसीन, नच, आणि हडूप वर लक्ष केंद्रित केले आहे.
याहू! मधले हजारो संगणक सध्या हडूप वापरताहेत.
एकूण विदा २ पेटाबाईट एवढा आहे.
- मिलिंद
(लुसीन, नच आणि हडूप चे दुवे शोधयंत्रामार्फत काढावे. मुद्दामच दिलेले नाहीत.)
गार कल्पना/विश्लेषण
अश्या समस्या देऊन त्यावर चर्चा करण्याची कल्पना एकदम गार (कूल :)) आहे.
१. पानांवरील माहितीतील कळीचे शब्द (कीवर्ड्स) शोधून या माहितीचे ढोबळमानाने वर्गीकरण उदा. करमणू़क, खेळ, विज्ञान, कला इ.इ. विषयांची पाने किती?
२. भाषावार वर्गीकरण. इंग्रजी, स्पॅनिश, हिंदी पाने किती?
३. डोमेन नावांवरून (आणि आयपी पत्त्यांवरून) देश/प्रदेश/विभागवार वर्गीकरण. भारत, चीन, आखाती देश इ. या विभागातील पाने किती?
४. १ आणि ३ एकत्र करून कोणत्या भागात कोणत्या प्रकारची माहिती अधिक प्रमाणात उपलब्ध आहे आणि कोणती नाही याचा अंदाज येईल. (त्यावरून त्या प्रदेशात/देशात/विभागात कुठले क्षेत्र आता संतृप्त झाले आहे आणि कुठल्या क्षेत्रात अधिक पानांना वाव आहे हे कळेल.)
५. २ आणि ३ एकत्र करून कोणत्या भागात कोणत्या भाषेतील पाने अधिक आहेत याचा अंदाज येईल. (उदा भारतात इतर भाषा प्रामुख्याने बोलल्या जात असल्या तरी बहुसंख्य पाने इंग्रजीत असतील. तीच गत इतर युरोपियन देशांच्या वसाहतींची)
इ. इ.
छान
विशेषतः भाषावार वर्गीकरण करताना, पृष्ठावर भाष्हेची नोंद नसेल, तर ती भाषा कशी ओळखावी ? उदा मराठी, हिंदी, आणि नेपाळी एकाच लिपीत असल्याने भाषा ओळखणे कठीण होते.
- मिलिंद
तो (वेगळे) काय करेल..
समजा तुम्हाला विश्वजालातील अनेक (१ अब्ज) संकेतपृष्ठे उपलब्ध आहेत. (दुवा, दुव्यावरचा मजकूर) ह्या दुकलीच्या यादीच्या स्वरुपात. तुम्ही काय विश्लेषण कराल ? कुठले संशोधन कराल ?
०. असे विदागार सर्वाधिक फायद्यासाठी कसे वापरावे हे सांगु शकेल अशा तज्ज्ञाचा पत्ता या दुव्यांत आहे का ते शोधेल. (गेला बाजार उपक्रमावरचा हा दुवा त्यात आहे का हे शोधेल, जिथे अनेक तज्ज्ञ भेटतील.)
१. उष्ण रंगसंगती, शीत रंगती, मिश्र रंगसंगतीची पाने वेगळी करेल, कुठली संगती अधिक लोकप्रिय आहे हे पाहील.
२. पानावरील चित्रांचे प्रमाण (आकाराची %) व दुव्यांची लोकप्रियता यांचा संबंध ताडेल.
३. जाहिरातींचे प्रमाण (आकाराची %) व लोकप्रियता यांचा संबंध जोडू पाहील.
४. कुठल्या दुव्यांवर वाचक परतून आले व न आले हे पाहील.
५. सर्वात मोठे (जास्त लिखाण असलेले) व छोटे (कमी लिखाण असलेले) दुवे व त्याचा भेटींशी संबंध पाहील.
६. इंग्रजी शब्दकोषानुसार दुव्यात वापरलेल्या शब्दांची भेटींनुसार उतरंड लावेल.
७. (कुठे पासवर्डस वगैरे सापडतात का हे पाहील.)
८. पैसे भरून पाहिले जाणारे दुवे वेगळे शोधून त्याचे ग्राहक कोण आहेत हे पाहील.
९. तो जे दुवे पाहतो त्या शी सर्वाधिक साधर्म्य असणारे वाचक इतर कोणते दुवे पाहतात, ते पाहील.
१०. कोण किती दुव्यावर किती वेळ थांबला हे पाहता येत असेल तर त्याची उतरण लावेल. (इथे चलचित्र वाल्या जाहिराती देता येतील.)
११. सर्वाधिक भेट दिली जाणारी, निशुल्क अव्यावसायिक संकेतस्थळे शोधेल.
वगैरे..वगैरे..
हे विशेष आवडले
उष्ण रंगसंगती, शीत रंगती, मिश्र रंगसंगतीची पाने वेगळी करेल, कुठली संगती अधिक लोकप्रिय आहे हे पाहील.
२. पानावरील चित्रांचे प्रमाण (आकाराची %) व दुव्यांची लोकप्रियता यांचा संबंध ताडेल.
३. जाहिरातींचे प्रमाण (आकाराची %) व लोकप्रियता यांचा संबंध जोडू पाहील.
७. (कुठे पासवर्डस वगैरे सापडतात का हे पाहील.)
हे विशेष आवडले.
- मिलिंद
सुंदर कल्पना
सर्किटराव,
कल्पनागाराचा उपक्रम आवडला. अधिविदा हा सुरेख शब्द आहे. आपण दिलेला गृहपाठ मस्त आहे. अधिक विचार करून माझा उत्तराचा प्रयत्न काही दिवसांनी येथे प्रकाशित करावे म्हणतो.
क.लो.अ.,
शैलेश
जरूर
जरूर करा.
तोवर कल्पनागाराचा दुसरा भाग तयार होईल. :-)
- मिलिंद
--
सर्किटधर्मात कुठलाही शुद्धिचिकित्सक वापरत नाहीत.