नवीन उपक्रम - कल्पनागार - भाग १

गेल्या आठवड्यातल्या सुमारे वीस नवीन कल्पनांपैकी मी आज दोन नवीन उपक्रम येथे सुरू केले. (सर्वच कल्पना उपक्रम सुरू करण्याइतक्या चांगल्या मला वाटल्या नाहीत, म्हणून :-)

असो, हा उपक्रम मेटा-उपक्रम आहे. मेटाडेटा म्हणजे डेटाचे वर्णन करणारा डेटा. ह्याला अधिविदा म्हणता येईल (शैलेश ? विदा हा डेटासाठी तुम्ही निर्माण केलेला शब्द, म्हणून तुम्हीच सांगा की अधिविदा हा शब्द योग्य आहे का ते?)

ह्या अध्युपक्रमाला तसे नाव देण्याचे कारण की ह्यातून अनेक उपक्रम निर्माण होऊ शकतील.

ह्या उपक्रमाचे मूळ म्हणजे डॉ. स्टीव्हन लेविट ह्यांचे फ्रीकॉनॉमिक्स हे पुस्तक.

इकॉनॉमिक्स, अर्थात अर्थशास्त्र ह्या विषयाला आपण जगातील अर्थव्यवस्थेचा अभ्यास करणारे शास्त्र असे आजवर समजले आहे. परंतु समाजातील घटनांचा शास्त्रशुद्ध अभ्यास, ही अर्थशास्त्राची खरी देणगी आहे, हे डॉ. लेविट आपल्याला ह्या पुस्तकातून सांगतात. त्यातून मला कळलेली अर्थशास्त्राची व्याख्या अशी: "एखाद्या निर्णयाप्रत पोहोचण्यासाठी कुठला विदा आवश्यक आहे, ते शोधण्याचे शास्त्र, म्हणजे अर्थशास्त्र."

डॉ. लेविट, आपण जे अर्थशास्त्राचे विश्लेषण केलेले आहे, त्याला आचार्य लोक संशोधनपद्धती (रीसर्च मेथॉडॉलॉजी) म्हणतात. आणि सार्वजनिक संकेतस्थळांवर जे लेख माहितीपूर्ण वगैरे ठरतात, त्यावर पोट धरधरून हसतात, कारण त्या निर्णयांप्रत पोहोचण्यासाठी कुठला विदा वापरला आहे, त्याची हे लेखक काळजीच करत नाहीत!

परंतु कधीतरी आम्ही आपल्या फ्रीकॉनॉमिक्स ह्या पुस्तकाचे सार मराठीत आणू. तोवर आम्ही हा एक त्या पुस्तकाच्या अगदी विरुद्ध (खरे तर विरुद्ध नाही, पण समांतर म्हणता येईल) समस्या आम्ही उपक्रमाच्या बुद्धिमान, आणि सर्वज्ञ वाचकांपुढे मांडतोय.

एखाद्या निर्णयाप्रत पोहोचण्यासाठी काय विदा गोळा करावा, ह्याविषयी डॉ. लेविट ह्यांनी लिहिले आहे. मी ह्या उपक्रमातून वाचकांना ह्या विषयाच्या समांतर असा दुसरा प्रश्न विचारतो.

एखादा विदा तुम्हाला उपलब्ध असेल, तर तुम्ही त्यापासून कुठले निर्णय घेऊ शकाल ?

उदाहरण देतो. समजा उपक्रम ह्या संकेतस्थळावर येणार्‍या सर्व वाचकांची वये आणि त्यांनी दिलेल्या प्रतिसादांची आणि लेखनाची संख्या, हा विदा तुम्हाला उपलब्ध असेल, तर त्यातून कुठले निर्णय तुम्ही काढू शकाल?

मी त्याचे विश्लेषण करून उपक्रमावर सर्वाधिक लिहिणार्‍या लोकांचे सरासरी वय शोधीन, आणि उपक्रम हे संकेतस्थळ कुठल्या वयोगटाला अधिक आवडते, हे शोधीन. ह्याचा उपयोग मला उपक्रमावर कुठल्या प्रकारच्या जाहिराती प्रकाशित कराव्या हे ठरवण्यास होईल.

ह्या कल्पनागार उपक्रमात मी दर लेखात एका विदागाराचे वर्णन करीन, आणि प्रतिसादकांनी त्या विदागारातून, ते कुठल्या निणयांप्रत पोहोचू शकतील, त्यासाठी काय करावे लागेल, आणखी कुठला विदा लागेल, ह्याचे वर्णन करायचे आहे.

आजची समस्या सांगण्या आधी दुसरे एक उदाहरण देतो.

समजा मला ज्ञानेश्वरांनी आणि तुकारामांनी लिहिलेल्या सर्व रचना संगणकावर उपलब्ध असतील, तर त्यातून मी काय संशोधन करू शकेन ?

माझे उत्तरः कुठले मराठी शब्द दोन कालावधीत सर्वाधिक वेळा वापरण्यात आले ? तुकारामांनी ज्ञानेश्वराचे किती शब्द वापरले ? त्याकाळच्या शब्दांत ड, ठ, ट, र, वगैरे अक्षरांची वारंवारिता किती होती ? त्यानुसार तुकारामाच्या काळातली मराठी आणि ज्ञानेश्वराच्या काळातली, ह्यात ऐकायला मृदु कोणती ? काही अत्यंत सोप्या आज्ञावल्या लिहून मला ही माहिती शोधता येईल. खरे ना ?

चला, मी तुम्हाला आजची समस्या सांगतो:

समजा तुम्हाला विश्वजालातील अनेक (१ अब्ज) संकेतपृष्ठे उपलब्ध आहेत. (दुवा, दुव्यावरचा मजकूर) ह्या दुकलीच्या यादीच्या स्वरुपात. तुम्ही काय विश्लेषण कराल ? कुठले संशोधन कराल ?

समस्यापूर्ती माय स्टाईल्!

जर काही विशेष प्रश्न माझ्या मनात असेल (समजा स्वतःचा Hedge Fund सुरू करायचा! ) तर त्यासंदर्भात असणार्‍या दुव्यावर लक्ष केंद्रित करेन. त्याशिवाय नवीन उद्योग, भांडवल, कर्तबगार साथीदार मिळविण्यासाठी उपयुक्त अशा दुव्यांवर वेळ घालवेन.

जर कोणताही विशेष प्रश्न समोर नसेल तर दुव्यावरच्या मजकरानुसार गटवारी करून टॉप ऍन्ड बॉटम पाच पाच गटांची निवड करेन. त्याचे पुढे काही करता येण्यासारखे आहे किंवा काय अभ्यासासाठी सहकार्‍यांना आवाहन करेन.

माझ्या वेळेनुसार आणि सवडीनुसार कदाचित रॅन्डमली १० गट निवडेन. कदाचित त्यातूनच "खजिना" गवसेल!

असो... एकूणच अब्जावधीसारखा विदा समोर आला की पहिल्यांदा "कचरा" (कोणता ते ठरविणे आणि मग तो ) दूर करणे हीच पहिली पायरी असेल.

ह्म्म्म्... जाता जाता फ्रीकॉनॉमिक्सचे आम्ही जबरदस्त फॅन आहोत!

बरेच काही करता येईल

वरकरणी अपुर्‍या आणि/किंवा क्षुल्लक वाटणार्‍या या माहितीतूनही बरेच उपयोगी निष्कर्ष काढता येतील असे दिसते. जसे -
१. मजकुरावर आधारीत दुव्यांचे वर्गीकरण (क्लासिफिकेशन नव्हे, क्लस्टरिंग) - यासाठी मजकुरातील काही विशिष्ट शब्दांचा शोध घ्यावा लागेल आणि असे शब्द ज्या माहिती/ज्ञानशाखेत अंतर्भूत आहेत, अशा माहिती/ज्ञानशाखेच्या वर्गात (क्लस्टरमध्ये) हा मजकूर असलेला दुवा वर्गीकृत करता येईल (क्लस्टर्स = अनेक क्लासेस अशा ढोबळ संज्ञेवरून याला क्लासिफिकेशन म्हणून न संबोधता क्लस्टरिंग संबोधले आहे) जसे - विदागार, प्रणाली, आज्ञावली असे शब्द प्रामुख्याने आढळून येणारा मजकूर असलेला दुवा वाणिज्य वर्गात वर्गीकृत न करता संगणकशास्त्रात वर्गीकृत करणे. यासाठी मजकुरातील एकूण शब्दसंख्येच्या तुलनेत त्या विशिष्ट शब्दाची वारंवारता मोजून एखादा मजकूर अमुक एका शाखेशी संबंधित आहे, हे निश्चित करणारी त्या विशिष्ट शब्दाची सर्वमान्य वारंवारता माहीत असावी लागेल.
२. एकदा असे वर्गीकरण केले की प्रत्येक वर्गाची वर्गसंख्या आपसूक मिळेल. यावरून त्या त्या ज्ञान/माहिती शाखेशी संबंधित असलेले एकूण उपलब्ध दुवे किती, याची माहिती वास्त्वैक वर्गसंख्या, टक्केवारी किंवा इतर स्वरूपात मिळेल.
३. कुठल्या माहिती/ज्ञान शाखेशी संबंधित कमाल तसेच किमान दुवे उपलब्ध आहेत, याची माहिती मिळेल.
४. असे वर्गीकरण (क्लस्टरिंग) करताना लावले गेलेले निकषही पाहता येतील (सॅस एंटरप्राइझ मायनर किंवा वेका सारख्या सॉफ्टवेअर्समुळे हे सहज शक्य आहे)
५. दुवा कोणत्या आय पी पत्त्यावरून ऍक्सेस झाला आहे, ही माहिती कळली, तर त्या आय पी पत्त्यावरून मुख्यत्त्वेकरून कोणत्या स्वरूपाची माहिती/ज्ञान मागवले जाते, हे कळू शकेल. त्यावरून तो आय पी पत्ता वापरणारे लोक कोणत्या प्रकारच्या विषयात रुची बाळगून आहेत (की नाही) हे कळू शकेल.
६. दुवा नजरेआड करून फक्त मजकुरावर लक्ष केंद्रित केले, तर कंटेन्ट मायनिंग/टेक्स्ट मायनिंग (मजकूर शाब्दिक स्वरूपातला असल्यास) करता येईल.
तूर्तास इतकेच. यापुढे काही सुचल्यास नदनुसार भर घालेनच.
उपक्रम आवडला. यात सक्रीय सहभागी व्हायचा आणि माहिती/तंत्र/ज्ञान यांची देवाणघेवाण करण्याचा प्रामाणिक प्रयत्न करायला नक्कीच आवडेल. या उपक्रमाची सुरुवात केल्याबद्दल अभिनंदन, आभार आणि उपक्रमासंबंधी पुढील कार्यासाठी शुभेच्छा.

आणखी - संलग्नता

आणखी एक करता येण्याजोगी गोष्ट म्हणजे दुव्यांमधील संलग्नतेचा अभ्यास (असोसिएशन अनालिसिस)
समजा चार दुवे अ, ब, क, ड हे संगणकशास्त्राशी संबंधित आहेत. पण दुवा अ आणि दुवा ब यांवरील माहिती विदागार, विदा विश्लेषण याच्याशी संबंधित आहे; तर दुवा क वरील माहिती नवीन संकेतस्थळाच्या उभारणीबाबत मार्गदर्शन करते आणि दुवा ड वरील माहिती नवीन संकेतस्थळे तयार करण्याच्या विविध प्रणाली, तंत्र यांबाबत माहिती देते. असे असल्यास दुवा अ आणि ब हे एकमेकांशी फारच सख्य आहे (क्लोझ असोसिएशन) किंवा हे दुवे परस्परांशी संलग्न आहेत, असे म्हणता येईल. तसेच दुवा क आणि ड परस्परांशी संलग्न आहेत, असेही म्हणता येईल. याउलट (अ, क), (ब, ड) किंवा/आणि {(अ,ब) व (क, ड)} हे परस्परांशी संलग्न नाहीत, असेही म्हणता येईल.
ही प्रक्रिया सगळ्याच ज्ञानशाखांसाठी लागू करता येईल आणि गरजेनुसार निष्कर्ष तपासता येतील.

दुरुस्ती -
१. वरील प्रतिसादात टंकलेखनातील हलगर्जीपणामु़ळे टंकित झालेले वास्त्वैक आणि नदनुसार हे शब्द अनुक्रमे वास्तविक आणि तदनुसार असे वाचावेत.
२. आय पी पत्त्यासंबंधीचा मुद्दा लिहिताना आय पी पत्ता हा कायमस्वरूपी आहे (डायल -अप प्रणालीमुळे दरवेळी नव्याने मिळणारा नाही) असे गृहित धरले आहे. माहिती मिळवण्याच्या प्रक्रियेत फरक पडला नाही, तरी मिळालेल्या माहितीच्या विश्वासार्हतेत यामुळे फरक पडू शकेल.

छान !

आपण सॅस मायनर विषयी लिहिले आहे. ह्या आज्ञावलीची वर्धनक्षमता किती आहे ? कारण हे सगळे दुवे आणि मजकूर साठवायला हजारो संगणक लागतात.

- मिलिंद

सॅस ९.१

सॅस ९.१ मध्ये सुमारे ६५ हजार ओळींची एक्सेल फाइल साधारण १५-२० स्तंभांपलीकडे गेली की स्मृतीधिष्ठित कारणमीमांसा (हे आपले माझ्या वतीने 'मेमरी बेस्ड रीजनिंग' याचे मराठी भाषांतर! ;-) ) मुख्यौपांग विश्लेषण (मुख्य+उपांग विश्लेषण = प्रिन्सिपल कंपोनंट अनालिसिस साठी माझा प्रतिशब्द! :( ) सारख्या अनेक कार्यप्रणाली कोलमडतात, असा अनुभव आहे. त्यामुळे एकूणच वर्धनक्षमता विदाचे आकारमान आणि जे विशिष्ट विदा विश्लेषण करायचे ते (तसेच संगणकाची कार्यक्षमता) यांवर अवलंबून राहील. संगणकाची कार्यक्षमता स्थिर आहे, असे मानले, तरी आधीच्या गोष्टींचा या आज्ञावलीच्या वर्धनक्षमतेवर ठळक परिणाम जाणवतो/जाणवेल, असे वाटते.

धन्यवाद

माहितीबद्दल धन्यवाद.
विदामंथनासाठी (विशेषतः टेराबाईट+) माझ्या माहितीप्रमाणे तरी तयार आज्ञावली उपलब्ध नाहीत.
मी सध्या लुसीन, नच, आणि हडूप वर लक्ष केंद्रित केले आहे.
याहू! मधले हजारो संगणक सध्या हडूप वापरताहेत.
एकूण विदा २ पेटाबाईट एवढा आहे.

- मिलिंद

(लुसीन, नच आणि हडूप चे दुवे शोधयंत्रामार्फत काढावे. मुद्दामच दिलेले नाहीत.)

गार कल्पना/विश्लेषण

अश्या समस्या देऊन त्यावर चर्चा करण्याची कल्पना एकदम गार (कूल :)) आहे.

समजा तुम्हाला विश्वजालातील अनेक (१ अब्ज) संकेतपृष्ठे उपलब्ध आहेत. (दुवा, दुव्यावरचा मजकूर) ह्या दुकलीच्या यादीच्या स्वरुपात. तुम्ही काय विश्लेषण कराल ? कुठले संशोधन कराल ?

१. पानांवरील माहितीतील कळीचे शब्द (कीवर्ड्स) शोधून या माहितीचे ढोबळमानाने वर्गीकरण उदा. करमणू़क, खेळ, विज्ञान, कला इ.इ. विषयांची पाने किती?

२. भाषावार वर्गीकरण. इंग्रजी, स्पॅनिश, हिंदी पाने किती?

३. डोमेन नावांवरून (आणि आयपी पत्त्यांवरून) देश/प्रदेश/विभागवार वर्गीकरण. भारत, चीन, आखाती देश इ. या विभागातील पाने किती?

४. १ आणि ३ एकत्र करून कोणत्या भागात कोणत्या प्रकारची माहिती अधिक प्रमाणात उपलब्ध आहे आणि कोणती नाही याचा अंदाज येईल. (त्यावरून त्या प्रदेशात/देशात/विभागात कुठले क्षेत्र आता संतृप्त झाले आहे आणि कुठल्या क्षेत्रात अधिक पानांना वाव आहे हे कळेल.)

५. २ आणि ३ एकत्र करून कोणत्या भागात कोणत्या भाषेतील पाने अधिक आहेत याचा अंदाज येईल. (उदा भारतात इतर भाषा प्रामुख्याने बोलल्या जात असल्या तरी बहुसंख्य पाने इंग्रजीत असतील. तीच गत इतर युरोपियन देशांच्या वसाहतींची)

इ. इ.

छान

विशेषतः भाषावार वर्गीकरण करताना, पृष्ठावर भाष्हेची नोंद नसेल, तर ती भाषा कशी ओळखावी ? उदा मराठी, हिंदी, आणि नेपाळी एकाच लिपीत असल्याने भाषा ओळखणे कठीण होते.

- मिलिंद

तो (वेगळे) काय करेल..

समजा तुम्हाला विश्वजालातील अनेक (१ अब्ज) संकेतपृष्ठे उपलब्ध आहेत. (दुवा, दुव्यावरचा मजकूर) ह्या दुकलीच्या यादीच्या स्वरुपात. तुम्ही काय विश्लेषण कराल ? कुठले संशोधन कराल ?

०. असे विदागार सर्वाधिक फायद्यासाठी कसे वापरावे हे सांगु शकेल अशा तज्ज्ञाचा पत्ता या दुव्यांत आहे का ते शोधेल. (गेला बाजार उपक्रमावरचा हा दुवा त्यात आहे का हे शोधेल, जिथे अनेक तज्ज्ञ भेटतील.)

१. उष्ण रंगसंगती, शीत रंगती, मिश्र रंगसंगतीची पाने वेगळी करेल, कुठली संगती अधिक लोकप्रिय आहे हे पाहील.

२. पानावरील चित्रांचे प्रमाण (आकाराची %) व दुव्यांची लोकप्रियता यांचा संबंध ताडेल.

३. जाहिरातींचे प्रमाण (आकाराची %) व लोकप्रियता यांचा संबंध जोडू पाहील.

४. कुठल्या दुव्यांवर वाचक परतून आले व न आले हे पाहील.

५. सर्वात मोठे (जास्त लिखाण असलेले) व छोटे (कमी लिखाण असलेले) दुवे व त्याचा भेटींशी संबंध पाहील.

६. इंग्रजी शब्दकोषानुसार दुव्यात वापरलेल्या शब्दांची भेटींनुसार उतरंड लावेल.

७. (कुठे पासवर्डस वगैरे सापडतात का हे पाहील.)

८. पैसे भरून पाहिले जाणारे दुवे वेगळे शोधून त्याचे ग्राहक कोण आहेत हे पाहील.

९. तो जे दुवे पाहतो त्या शी सर्वाधिक साधर्म्य असणारे वाचक इतर कोणते दुवे पाहतात, ते पाहील.

१०. कोण किती दुव्यावर किती वेळ थांबला हे पाहता येत असेल तर त्याची उतरण लावेल. (इथे चलचित्र वाल्या जाहिराती देता येतील.)

११. सर्वाधिक भेट दिली जाणारी, निशुल्क अव्यावसायिक संकेतस्थळे शोधेल.

वगैरे..वगैरे..

'तो 'मराठी विकिपीडिया चा सदस्य आहे.

हे विशेष आवडले

उष्ण रंगसंगती, शीत रंगती, मिश्र रंगसंगतीची पाने वेगळी करेल, कुठली संगती अधिक लोकप्रिय आहे हे पाहील.

२. पानावरील चित्रांचे प्रमाण (आकाराची %) व दुव्यांची लोकप्रियता यांचा संबंध ताडेल.

३. जाहिरातींचे प्रमाण (आकाराची %) व लोकप्रियता यांचा संबंध जोडू पाहील.

७. (कुठे पासवर्डस वगैरे सापडतात का हे पाहील.)

हे विशेष आवडले.

- मिलिंद

सुंदर कल्पना

सर्किटराव,

कल्पनागाराचा उपक्रम आवडला. अधिविदा हा सुरेख शब्द आहे. आपण दिलेला गृहपाठ मस्त आहे. अधिक विचार करून माझा उत्तराचा प्रयत्न काही दिवसांनी येथे प्रकाशित करावे म्हणतो.

क.लो.अ.,
शैलेश

जरूर

जरूर करा.

तोवर कल्पनागाराचा दुसरा भाग तयार होईल. :-)

- मिलिंद
--
सर्किटधर्मात कुठलाही शुद्धिचिकित्सक वापरत नाहीत.