'मराठी शोध' अशक्यच!
आज आंतरजालावर एखाद्या मराठी शब्दाचा शोध घेणे नवीन नाही.
यासाठी मी उपक्रमाचे गुगल शोध नेहमीच वापरतो.
चित्राताईंनी प्रवाळ विषयक लेख लिहिला त्या वर अधिक माहिती शोधतांना मी
प्रवाळ हा शोध दिला. येथे 'ळ' हे अक्षर असल्याने मला जालावरील मराठी पाने मिळाली.
पण इतर हिंदी अथवा संस्कृत मधून आलेल्या शब्दांचे शोध घेतांना,
मी मराठी माहितीसाठी वीस वीस पाने मागे जाउन शोधत बसतो. तरीही सापडत नाहीत!
आंतरजालावर मराठीचा शोध हे फार जिकीरीचे काम होऊन बसले आहे.
यावर काही उपाय काढणे आताच आवश्यक आहे. हिंदी व मराठीची लिपी एकच असल्याने हा धोका तयार झाला आहे. हिंदी पानांच्या वावटळीत मराठी पाने हरवून चालली आहेत.
माझ्या लेखी हा फार गंभीर धोका मराठी भाषेसमोर उभा आहे.
याला त्वरीत उत्तर शोधले नाही तर 'मराठी शोध' अशक्यच होऊन बसेल.
विद्यापीठांचे मराठीचे विभाग, सी डॅक मुंबई आणि पुणे, राज्य मराठी विकास संस्था आणि मराठी अभ्यास परिषद वगैरेंना हा धोका जाणवला आहे का?
ते यावर काही काम करत आहेत का?
हिंदी भाषिकांनाही मराठी पानांचा त्रास होतो आहे का?
हे भेसळ होणे कसे टाळता येईल?
यासाठी तांत्रीक दृष्ट्या मराठी पानांना काही आपोआप टॅग वगैरे लावता येतील का?
मराठीचे खास असे टंक या साठी निर्मिले पाहिजेत का?
मागे मला शंतनूने मराठी शोध यंत्र बनउन दिले होते. पण त्यात शोध घेण्यासाठी काही थोड्या(च) मराठी स्तळांचा उपयोग होता. हा मार्ग कामाचा नाही कारण त्या स्थळांव्यतिरिक्तही मराठी गोष्टी अस्तित्वात असू शकतात.
मराठी शोध घेतांना मराठी पाने यावीत साठी कुणाकडे काही उपाय आहेत का?
परिपूर्ण असा फक्त मराठी पानांचाच शोध घेता आला पाहिजे.
असे शक्य नसेल तर मराठी साठी मराठी नावानेच एक टंक निर्मावा.
त्याचे युनिकोड रेंडरींग हिंदीपेक्षा निराळे असावे.
म्हणजे आपोआपच मराठी शोध मिळू शकेल, अशी एक युक्ती मला सुचली आहे पण ही योग्य आहे काय?
आणि ती वापरण्यासाठी आपल्याल युनिकोडला लॉबी करावे लागेल का?
Comments
युरोपियन भाषांचा अनुभव
युरोपियन भाषांपैकी कित्येकांच्या लिपी एकसारख्या असतात. पूर्वी काही विशिष्ट शब्दांचा शोध घेताना (इंग्रजी पाने हवी होती तरी) अन्य भाषांमधली पाने येत.
मग कित्येक दिवस त्याबरोबर शोधयंत्र पृच्छा करे "फक्त इंग्रजी पाने हवीत का?" आणि टिचकीसरशी फक्त इंग्रजी पानेच दिसत.
आता ही उदाहरणे बघा :
कंकण
यातील पहिल्या दोन पानांवर केवळ हिंदी मजकूर असलेले दुवे आहेत.
मात्र गुंडोपंतांच्या "ळ"ने युक्ती सुचली. त्याच पानावर ("ळ" किंवा "आहे" किंवा "आणि") हे खास मराठी, पण सामान्य चिह्ने/शब्द असल्यास पान मराठी असण्याची शक्यता खूपच अधिक होते.
कंकण AND (ळ OR आहे OR आणि)
यात पहिल्या दोन पानांवरील सर्व मराठी मजकूर असलेले दुवे आहेत.
अर्थात असे दिसते की मजकुरामधील अन्य शब्दांवरून भारतीय भाषेबद्दल आडाखा बांधता येतो. शोधयंत्र युरोपियन भाषांबद्दल कयास करते, त्याच प्रकारे हे काम शोधयंत्राने केले पाहिजे. येथील उत्तम प्रोग्रॅमरना कदाचित हे जमू शकेल.
कयास
>>अर्थात असे दिसते की मजकुरामधील अन्य शब्दांवरून भारतीय भाषेबद्दल आडाखा बांधता येतो. शोधयंत्र युरोपियन भाषांबद्दल कयास करते
असा कयास बांधता येणे सहज शक्य आहे. जसे हिंदीत पुर्णविरामासाठी दंड { | } वापरला जातो तर मराठीत टिंब { . }
गुगलसारखे मॅच्युअर शोधयंत्र शोध घेतांना शोधाच्या मुळ शब्दांबरोबरच अनेक रायडर्स वापरत असते. तसेच फक्त मराठी शोधासाठी आपण 'दंड असणारी पाने वगळा' असा रायडर नियम बनवु शकतो. याचबरोबर हा नियम बनवतांना दंडाची सांख्यिकीही विचारात घेतली जाउ शकते.
कोणी शोधयंत्राचा प्रकल्प करत आहे का ?
कसा?
कसा करायचा हा प्रकल्प?
मी मदतीला तयार आहे.
आपला
गुंडोपंत
गुगल एपीआय
गुगल एपीआय वापरास मुक्त आहेत असे ऐकुन आहे. सध्याच अभ्यासाशिवाय जास्त काही बोलत नाही, पण अभ्यास करुन सांगेन.
प्रतिसादाबद्दल माफी
या लेखातून आणि प्रतिसादातून
(१) आपल्या अनुभवांचा फायदा वाचकांना व्हावा,
(२) मराठीसाठी काही नवी शोध-प्रक्रिया आपलीशी केल्यास श्रेयस्कर, आणि हल्लीची शोधप्रक्रिया त्रासदायक असल्याचे वाचकांना सांगावे*,
(३) आणि हीच ठेच लागू नये म्हणून अन्य लोकांबद्दल आस्था आणि आत्मीयता असावी,
अशा प्रकारचे माझे गैरसमज होता.
*(२) बाबत : चर्चाप्रस्तावात "गंभीर धोका", "भेसळ" वगैरे शब्द वापरले आहेत, ते सामान्य व्यवहारात निंदाव्यंजक आहेत. मात्र या बाबतीत हल्लीच्या शोधप्रक्रियेला "वाईट" असे चर्चाप्रस्तावकाने म्हटले नाही, हे दिसून येते. आदली शोधपद्धती आणि इच्छित नवी शोधपद्धती यांच्याबाबत त्यांचा न्यूट्रल स्टँड असावा, हे मान्य करण्यास माझी हरकत नाही. ज्या चर्चेत अशा मूलभूत बाबतीत माझा गोंधळ होतो, त्या चर्चांमध्ये मी भाग घेऊ नये,
प्रस्तुत चर्चालेखकाचे असे मत आहे, की अशी आस्था असणे आणि शोधमार्गांना चूक-बरोबर लेखणे म्हणजे
आणि हे मत 'त्यांच्या'पुरते आहे, असे ते पुढे स्पष्टही करतात. 'त्यांच्या' लेखनाच्या संदर्भात वरील प्रकारची आत्मीयता आणि शोधमार्गाबद्दल चूक-बरोबर म्हणण्याचा आडदांडपणा दाखवण्यामुळे त्यांचा अनादर झाला असेल. त्यांची मी माफी मागतो.
पुन्हा ही चूक टाळण्याचा प्रयत्न करेन.
हे
AND (ळ OR आहे OR आणि) हे जोडून शोधणे मी ही करतच होतो.
पण असे वाटत राहते की, या पानांशिवायही काही सुटत तर नाही ना?
म्हणून परिपूर्ण शोध असावा असे वाटले.
अर्थात असे दिसते की मजकुरामधील अन्य शब्दांवरून भारतीय भाषेबद्दल आडाखा बांधता येतो. शोधयंत्र युरोपियन भाषांबद्दल कयास करते, त्याच प्रकारे हे काम शोधयंत्राने केले पाहिजे. येथील उत्तम प्रोग्रॅमरना कदाचित हे जमू शकेल.
हे मान्य परंतु अजून हे घडत नाहीये. गुगल चे क्रोम मला सर्व मराठी पानांना, हे पान हिंदीत आहे. पान भाषांतरीत करून
हवे का, असे विचारते. म्हणजे अजून गुगलला हा कयास करता येत नसावा.
पण ज्या अर्थी युरोपीय भाषांसाठी हे घडू शकते, तर देवनागरी लिपीतील भाषांसाठी का नको? हे म्हणणे अगदी योग्य आहे.
आपला
गुंडोपंत
आवांतरः मराठी शोधांसाठी AND (ळ OR आहे OR आणि) हे अंत्य जोडून शोधावे अशी नोंद उपक्रमावर गुगल शोधच्या खाली असायला हरकत नाही!
सहमत
सहमत आहे. काहीही मराठी शोधायला गेले की बहुतेक वेळा पहिले सर्व पान हिंदीचे दुवे असतात. :(
त्यातही व्याकरणाच्या चुका आहेतच. दूधाचे दुवे वेगळे आणि दुधाचे वेगळे.
--
अनुदिनी : http://rbk137.blogspot.com
कॉम नव्हे को.इन
गुगल.कॉम वर न जाता .को.इन वर गेलात तर तेथे मराठी म्हणून एक पर्याय दिसेल, त्यातून सर्च केला तर सर्व मराठी पाने दिसतात असा माझा अनुभव आहे.
http://www.google.co.in/
मस्त!
वा! हे फारच छान आहे!
अनेक धन्यवाद!
झकास आहात शंतनूराव!
कंकण असा शोध दिल्यावर उत्तम शोध मिळाले!
थोडीश्शी भेसळ आहे पण फार सुंदर! धन्यवाद!
उपक्रम पंत
ही गुगलची सर्च लावणार का पहिल्या पानावर?
आपला
गुंडोपंत