'मराठी शोध' अशक्यच!

आज आंतरजालावर एखाद्या मराठी शब्दाचा शोध घेणे नवीन नाही.
यासाठी मी उपक्रमाचे गुगल शोध नेहमीच वापरतो.

चित्राताईंनी प्रवाळ विषयक लेख लिहिला त्या वर अधिक माहिती शोधतांना मी
प्रवाळ हा शोध दिला. येथे 'ळ' हे अक्षर असल्याने मला जालावरील मराठी पाने मिळाली.
पण इतर हिंदी अथवा संस्कृत मधून आलेल्या शब्दांचे शोध घेतांना,
मी मराठी माहितीसाठी वीस वीस पाने मागे जाउन शोधत बसतो. तरीही सापडत नाहीत!

आंतरजालावर मराठीचा शोध हे फार जिकीरीचे काम होऊन बसले आहे.
यावर काही उपाय काढणे आताच आवश्यक आहे. हिंदी व मराठीची लिपी एकच असल्याने हा धोका तयार झाला आहे. हिंदी पानांच्या वावटळीत मराठी पाने हरवून चालली आहेत.

माझ्या लेखी हा फार गंभीर धोका मराठी भाषेसमोर उभा आहे.
याला त्वरीत उत्तर शोधले नाही तर 'मराठी शोध' अशक्यच होऊन बसेल.

विद्यापीठांचे मराठीचे विभाग, सी डॅक मुंबई आणि पुणे, राज्य मराठी विकास संस्था आणि मराठी अभ्यास परिषद वगैरेंना हा धोका जाणवला आहे का?
ते यावर काही काम करत आहेत का?

हिंदी भाषिकांनाही मराठी पानांचा त्रास होतो आहे का?
हे भेसळ होणे कसे टाळता येईल?
यासाठी तांत्रीक दृष्ट्या मराठी पानांना काही आपोआप टॅग वगैरे लावता येतील का?
मराठीचे खास असे टंक या साठी निर्मिले पाहिजेत का?

मागे मला शंतनूने मराठी शोध यंत्र बनउन दिले होते. पण त्यात शोध घेण्यासाठी काही थोड्या(च) मराठी स्तळांचा उपयोग होता. हा मार्ग कामाचा नाही कारण त्या स्थळांव्यतिरिक्तही मराठी गोष्टी अस्तित्वात असू शकतात.

मराठी शोध घेतांना मराठी पाने यावीत साठी कुणाकडे काही उपाय आहेत का?
परिपूर्ण असा फक्त मराठी पानांचाच शोध घेता आला पाहिजे.

असे शक्य नसेल तर मराठी साठी मराठी नावानेच एक टंक निर्मावा.
त्याचे युनिकोड रेंडरींग हिंदीपेक्षा निराळे असावे.
म्हणजे आपोआपच मराठी शोध मिळू शकेल, अशी एक युक्ती मला सुचली आहे पण ही योग्य आहे काय?
आणि ती वापरण्यासाठी आपल्याल युनिकोडला लॉबी करावे लागेल का?

Comments

युरोपियन भाषांचा अनुभव

युरोपियन भाषांपैकी कित्येकांच्या लिपी एकसारख्या असतात. पूर्वी काही विशिष्ट शब्दांचा शोध घेताना (इंग्रजी पाने हवी होती तरी) अन्य भाषांमधली पाने येत.

मग कित्येक दिवस त्याबरोबर शोधयंत्र पृच्छा करे "फक्त इंग्रजी पाने हवीत का?" आणि टिचकीसरशी फक्त इंग्रजी पानेच दिसत.

आता ही उदाहरणे बघा :
कंकण
यातील पहिल्या दोन पानांवर केवळ हिंदी मजकूर असलेले दुवे आहेत.

मात्र गुंडोपंतांच्या "ळ"ने युक्ती सुचली. त्याच पानावर ("ळ" किंवा "आहे" किंवा "आणि") हे खास मराठी, पण सामान्य चिह्ने/शब्द असल्यास पान मराठी असण्याची शक्यता खूपच अधिक होते.
कंकण AND (ळ OR आहे OR आणि)
यात पहिल्या दोन पानांवरील सर्व मराठी मजकूर असलेले दुवे आहेत.

अर्थात असे दिसते की मजकुरामधील अन्य शब्दांवरून भारतीय भाषेबद्दल आडाखा बांधता येतो. शोधयंत्र युरोपियन भाषांबद्दल कयास करते, त्याच प्रकारे हे काम शोधयंत्राने केले पाहिजे. येथील उत्तम प्रोग्रॅमरना कदाचित हे जमू शकेल.

कयास

>>अर्थात असे दिसते की मजकुरामधील अन्य शब्दांवरून भारतीय भाषेबद्दल आडाखा बांधता येतो. शोधयंत्र युरोपियन भाषांबद्दल कयास करते

असा कयास बांधता येणे सहज शक्य आहे. जसे हिंदीत पुर्णविरामासाठी दंड { | } वापरला जातो तर मराठीत टिंब { . }
गुगलसारखे मॅच्युअर शोधयंत्र शोध घेतांना शोधाच्या मुळ शब्दांबरोबरच अनेक रायडर्स वापरत असते. तसेच फक्त मराठी शोधासाठी आपण 'दंड असणारी पाने वगळा' असा रायडर नियम बनवु शकतो. याचबरोबर हा नियम बनवतांना दंडाची सांख्यिकीही विचारात घेतली जाउ शकते.

कोणी शोधयंत्राचा प्रकल्प करत आहे का ?

कसा?

कसा करायचा हा प्रकल्प?
मी मदतीला तयार आहे.

आपला
गुंडोपंत

गुगल एपीआय

गुगल एपीआय वापरास मुक्त आहेत असे ऐकुन आहे. सध्याच अभ्यासाशिवाय जास्त काही बोलत नाही, पण अभ्यास करुन सांगेन.

प्रतिसादाबद्दल माफी

या लेखातून आणि प्रतिसादातून
(१) आपल्या अनुभवांचा फायदा वाचकांना व्हावा,
(२) मराठीसाठी काही नवी शोध-प्रक्रिया आपलीशी केल्यास श्रेयस्कर, आणि हल्लीची शोधप्रक्रिया त्रासदायक असल्याचे वाचकांना सांगावे*,
(३) आणि हीच ठेच लागू नये म्हणून अन्य लोकांबद्दल आस्था आणि आत्मीयता असावी,
अशा प्रकारचे माझे गैरसमज होता.

*(२) बाबत : चर्चाप्रस्तावात "गंभीर धोका", "भेसळ" वगैरे शब्द वापरले आहेत, ते सामान्य व्यवहारात निंदाव्यंजक आहेत. मात्र या बाबतीत हल्लीच्या शोधप्रक्रियेला "वाईट" असे चर्चाप्रस्तावकाने म्हटले नाही, हे दिसून येते. आदली शोधपद्धती आणि इच्छित नवी शोधपद्धती यांच्याबाबत त्यांचा न्यूट्रल स्टँड असावा, हे मान्य करण्यास माझी हरकत नाही. ज्या चर्चेत अशा मूलभूत बाबतीत माझा गोंधळ होतो, त्या चर्चांमध्ये मी भाग घेऊ नये,

प्रस्तुत चर्चालेखकाचे असे मत आहे, की अशी आस्था असणे आणि शोधमार्गांना चूक-बरोबर लेखणे म्हणजे

असेच बाबा, बुवा, माता, तालिबानी, सायंटॉलॉजीस्ट आणि मिशनरीही म्हणतात असे 'मला' वाटते.

आणि हे मत 'त्यांच्या'पुरते आहे, असे ते पुढे स्पष्टही करतात. 'त्यांच्या' लेखनाच्या संदर्भात वरील प्रकारची आत्मीयता आणि शोधमार्गाबद्दल चूक-बरोबर म्हणण्याचा आडदांडपणा दाखवण्यामुळे त्यांचा अनादर झाला असेल. त्यांची मी माफी मागतो.

पुन्हा ही चूक टाळण्याचा प्रयत्न करेन.

हे

AND (ळ OR आहे OR आणि) हे जोडून शोधणे मी ही करतच होतो.
पण असे वाटत राहते की, या पानांशिवायही काही सुटत तर नाही ना?
म्हणून परिपूर्ण शोध असावा असे वाटले.

अर्थात असे दिसते की मजकुरामधील अन्य शब्दांवरून भारतीय भाषेबद्दल आडाखा बांधता येतो. शोधयंत्र युरोपियन भाषांबद्दल कयास करते, त्याच प्रकारे हे काम शोधयंत्राने केले पाहिजे. येथील उत्तम प्रोग्रॅमरना कदाचित हे जमू शकेल.
हे मान्य परंतु अजून हे घडत नाहीये. गुगल चे क्रोम मला सर्व मराठी पानांना, हे पान हिंदीत आहे. पान भाषांतरीत करून
हवे का, असे विचारते. म्हणजे अजून गुगलला हा कयास करता येत नसावा.
पण ज्या अर्थी युरोपीय भाषांसाठी हे घडू शकते, तर देवनागरी लिपीतील भाषांसाठी का नको? हे म्हणणे अगदी योग्य आहे.

आपला
गुंडोपंत

आवांतरः मराठी शोधांसाठी AND (ळ OR आहे OR आणि) हे अंत्य जोडून शोधावे अशी नोंद उपक्रमावर गुगल शोधच्या खाली असायला हरकत नाही!

सहमत

सहमत आहे. काहीही मराठी शोधायला गेले की बहुतेक वेळा पहिले सर्व पान हिंदीचे दुवे असतात. :(
त्यातही व्याकरणाच्या चुका आहेतच. दूधाचे दुवे वेगळे आणि दुधाचे वेगळे.

--
अनुदिनी : http://rbk137.blogspot.com

कॉम नव्हे को.इन

गुगल.कॉम वर न जाता .को.इन वर गेलात तर तेथे मराठी म्हणून एक पर्याय दिसेल, त्यातून सर्च केला तर सर्व मराठी पाने दिसतात असा माझा अनुभव आहे.

http://www.google.co.in/

मस्त!

वा! हे फारच छान आहे!
अनेक धन्यवाद!
झकास आहात शंतनूराव!

कंकण असा शोध दिल्यावर उत्तम शोध मिळाले!
थोडीश्शी भेसळ आहे पण फार सुंदर! धन्यवाद!

उपक्रम पंत
ही गुगलची सर्च लावणार का पहिल्या पानावर?

आपला
गुंडोपंत

 
^ वर