अनुस्वारयुक्त शब्दांचा गुगल शोध
पर-सवर्ण लेखन पद्धतीने लिहिलेल्या शब्दांचा गुगल शोध अधिक परिणामकारी करता येऊ शकेल असे मला कधी कधी वाटते. निवांत हा शब्द निवांत किंवा निवान्त अशा दोन प्रकारे लिहीता येतो. अनुस्वार टाळून जोडाक्षरयुक्त शब्द लिहिणे याला पर-सवर्ण पद्धत म्हणतात. गुगलमध्ये 'निवांत' शब्द शोधला तर 'निवान्त' या शब्दाची पाने मिळत नाहीत. गुगलबाबा इतका मठ्ठ कसा? खाली दिलेली क्वेरी वापरली तर कोणताही शब्द पर-सवर्ण पद्धतीने कसा लिहायचा ते कळेल. आणि मग मूळ शब्द आणि हा तयार झालेला शब्द असा शोध गुगलमध्ये घेता येईल.
उदाहरण म्हणून आपण "निवांत" हा शब्द घेऊ. आता हा शब्द मराठीच्या व्याकरणाच्या नियमानुसार "निवान्त" असाही लिहिता येतो. अर्थात ही सवलत फक्त संस्कृत शब्दांपुरतीच आहे, पण काही लोक जरी नियमानुसार नसले तरी मराठी शब्द दणकून अशा पद्धतीने लिहितात. संत आणि सन्त हे उदाहरण तर आपल्या सर्वांनाच माहीत आहे. इतर असे शब्द म्हणजे
वंचना - वञ्चना
बालंट - बालण्ट
अंपायर - अम्पायर
आता गुगलमध्ये शोध घेताना खाली दिलेल्या प्रमाणे घेतला गेला पाहिजे.
निवांत OR निवान्त
पण शोधकर्ता फक्त अनुस्वार असलेला शब्द 'निवांत' टाईप करणार. गुगुलने खाली दिलेली क्वेरी वापरून त्याची पर-सवर्ण लेखन पद्धत शोधून काढून दोन्ही शब्द शोधले पाहिजेत, नाही का? अर्थात काही शब्दांचा अपवाद करावा लागेल. उदा. 'सुखांत' शब्द शोधणार्याला 'सुखान्त' (सुखाचा अन्त) अपेक्षित नसणार. असेच काही शब्द म्हणजे देहांत - देहान्त, वेदांत - वेदान्त, सत्रांत - सत्रान्त, सिध्दांत - सिध्दान्त
हिंदीत याविषयी काय नियम आहेत ते मला माहीत नाही. पण जसजसे जालावरील देवनागरी लेखन वाढत जाईल तसतसे शोधयंत्र अशा प्रकारे अद्ययावत करावे लागेल. उपक्रमवर गुगल शोध घेण्याची सोय आहे. निदान त्यांनी तरी अशी सोय उपलब्ध करून द्यावी ही विनंती.
set @word := 'निवांत';
select case
when substring(@word, locate('ं',@word)+1,1) in ('क', 'ख', 'ग', 'घ', 'ङ्') then replace(@word, 'ं', 'ङ्')
when substring(@word, locate('ं',@word)+1,1) in ('च', 'छ', 'ज', 'झ', 'ञ') then replace(@word, 'ं', 'ञ्')
when substring(@word, locate('ं',@word)+1,1) in ('ट', 'ठ', 'ड', 'ढ', 'ण') then replace(@word, 'ं', 'ण्')
when substring(@word, locate('ं',@word)+1,1) in ('त', 'थ', 'द', 'ध', 'न') then replace(@word, 'ं', 'न्')
when substring(@word, locate('ं',@word)+1,1) in ('प', 'फ', 'ब', 'भ', 'म') then replace(@word, 'ं', 'म्')
END
as para_savarna
Comments
'असा विचार'
फक्त, शंतनुराव, तुम्हीच करु शकता, दंडवत (किंवा दण्डवत)
एक कळले नाही - काही शब्दांचा अपवाद करावा लागेल असे म्हणताना जी उदाहरणे दिली आहेत त्या दोन शब्दांचे अर्थ परस्पर-भिन्न आहेत का ? मला तर सारखेच वाटले.
आणि क आणि च च्या वर्गातले परा-सवर्ण अगदीच दुर्मिळ असावेत (निदान जालावरतरी)
वा!
अरे वा, मस्तच उपाय!! शब्दांचा शोध वेगवेगळी 'रुपे' वापरुनच करतो पण अशी सोय झाली तर् बेस्टच!
सहमत
प्रतिसादांशी सहमत आहे. विचारप्रवर्तक मुद्दा आहे.
इंग्लिश शब्द शोधताना स्पेलिंग चुकले तर गूगल त्याला जे बरोबर वाटते ते स्पेलिंगही सुचवतो. तसे काही इथे करता येईल का? शिवाय चुकीचे उकारांचे काय?
मी उपक्रमावर दुध आणि दूध दोन्ही शोधून पाहिले. दोन्ही वेळेस पूर्णपणे वेगळी पाने मिळाली.
---
"भाई बनना है तेरेको?" -- भिकू म्हात्रे
फझी शोध व डिसऍम्बिग
बिंगला पण हे बिंग फोडता आले नाही (ते अपेक्षितच होते)..
पण हा प्रश्न अनुस्वाराचाच नसून वर् आरागॉर्न ह्यांनी दिलेल्या उदाहरणासारखेच इतरही काही पेच सोडवणे आवश्यक आहे- उदा- क्श, क्ष.
फझी शोध व डिसऍम्बिग असा दोन्हीचा वापर करुन हा पेच सोडवावा लागेल.
छान मुद्दा.
मराठी सर्च ही मोठी गंमत असणार
दूध आणि दुध ह्यात एक नक्की चुकीचे आहे, पण शुद्धलेखनाचे नियम 'शोधयंत्राला लावावे की नाही' हा एक प्रश्न आहे. कारण शोधयंत्र 'की-वर्ड सर्च्' करते आणि कारण र्हस्व दीर्घाप्रमाणे अर्थ बदलू शकतो.
उदा: पाणि पाणी वगैरे (विशेषतः संस्कृतोद्भव शब्दात)
देशी शोधयंत्र 'गुरुजी' पण असेच निकाल दाखवते.
भिन्न शब्द, वेगळे अर्थ.
काही शब्दांचा अपवाद करावा लागेल असे म्हणताना जी उदाहरणे दिली आहेत त्या दोन शब्दांचे अर्थ परस्पर-भिन्न आहेत का ? मला तर सारखेच वाटले
उदाहरणांत दिलेल्या शब्दांचे अर्थ भिन्न आहेत्. देहांत= अनेक देहांत; देहान्त=मृत्यू; वेदांत= अनेक वेदांत; वेदान्त= (वेदांच्या शेवटी सांगितलेले)तत्त्वज्ञान; सत्रांत=अनेक सत्रांत; सत्रान्त=सत्राचा शेवट; सिद्धांत=अनेक सिद्ध(पुरुषांत); सिद्धान्त=सिद्ध करता येण्यासारखा नियम. (ध्द हे अक्षर मराठी किंवा इतर कोणत्याही भारतीय भाषेत नाही!) त्यामुळे गूगलने ध्द आणि द्ध यांतला फक्त द्ध स्वीकारावा.
आणखी असेच : पँट=पॅण्ट; परंतु पॅन्ट=Pant=विजार. इंग्रजीत ण नाही त्यामुळे पँट हे लिखाण अर्थहीन. परंतु बँक, कँप, सिंथेटिक हे शब्द, अनुक्रमे बॅङ्क, कॅम्प आणि सिन्थेटिक, असेही लिहता येतील. कारण इंग्रजीत ङ, म आणि न आहेत.
गूगल जोडाक्षराची उभी मांडणी आणि आडवी मांडणी दोन्ही सारख्या रीतीने स्वीकारतो का? उदाहरणार्थ, क्त आणि क्त. हे जर करू शकत असेल तरच तो निवांत आणि निवान्त एक समजेल.--वाचक्नवी
आणखी काही
>> गूगल जोडाक्षराची उभी मांडणी आणि आडवी मांडणी दोन्ही सारख्या रीतीने स्वीकारतो का? उदाहरणार्थ, क्त आणि क्त.
हो. गुगलमधे 'व्यक् त' असा शोध घेतला असता 'व्यक्त' ची पाने दिसतात. याचा अर्थ गुगल जोडाक्षरांच्या मांडणीची चिंता न करता त्यातील अर्धा क आणि पूर्ण त लक्षात घेतो. जोडाक्षर वाचकाला उभे की आडवे दाखवायचे ते फॉन्ट् ठरवतो. युनिकोड मानकात 'क्त' या जोडाक्षराला स्वतंत्र स्थान नाही.
>> ध्द हे अक्षर मराठी किंवा इतर कोणत्याही भारतीय भाषेत नाही! त्यामुळे गूगलने ध्द आणि द्ध यांतला फक्त द्ध स्वीकारावा.
यावर वेगळी चर्चा होऊ शकते. उदाहरण द्यायचे तर 'पद्धत' आणि 'पध्दत' या दोन्ही शब्दांसाठी गुगल जवळपास सारखीच म्हणजे सुमारे दोन लाख पाने दाखवतो. गुगलने काय स्वीकारावे यापेक्षा जालावर लिखाण करणार्या मंडळींनी एकत्र येऊन शुद्धलेखनाचे ल. सा. वि. नियम तयार करावेत. आणि निदान त्यांचे तरी पालन करावे. आम्ही कुठचेच नियम पाळणार नाही अशी भूमिका क्रुपया घेऊ नये. चुकून शुद्ध शब्द टाईप झाला तर बैकस्पेस वापरून 'न्' चा 'ण्' करणार्या मंडळींनी आपण काय मज्जा करत आहोत याचेही भान ठेवावे.
>> आणखी असेच : पँट=पॅण्ट; परंतु पॅन्ट=Pant=विजार. इंग्रजीत ण नाही त्यामुळे पँट हे लिखाण अर्थहीन. परंतु बँक, कँप, सिंथेटिक हे शब्द, अनुक्रमे बॅङ्क, कॅम्प आणि सिन्थेटिक, असेही लिहता येतील. कारण इंग्रजीत ङ, म आणि न आहेत.
हे मान्य. पण इंग्रजी शब्दांच्या बाबतीत असा आग्रह धरू नये असे मला वाटते. पँट, पॅण्ट व पॅन्ट तिन्ही शुद्ध समजावे कारण इंग्रजी उच्चाराप्रमाणे लिहावी असा नियम आहे आणि इंग्रजी शब्दांचे उच्चार वेगवेगळ्या प्रकारे होतात.
सध्या भारतीय भाषांचे जालावरील स्थान नगण्य असल्यामुळे गुगल मराठीला गंभीरपणे घेत आहे असे वाटत नाही. आता हेच पाहा ना, व्यक्ति हा शब्द गुगलमध्ये शोधला तर बहुतेक सर्व हिंदी पाने दिसतात. मराठी शोध कसा घ्यायचा? माझ्या माहितीप्रमाणे ते शक्य नाही. ही एक मोठीच उणीव आहे.
व्यक्ती किंवा व्यक्ती
मुळात व्यक्ति हा शब्द हिंदीत सररास वापरला जातो, मराठीत नाही; त्यामुळे मराठीची पाने कमीच असणार, पण व्यक्ती असे मागितले की मराठी पाने भरपूर मिळतात. व्यक्ती किंवा व्यक्ती असे टंकलेखन करून गुगलले की व्यक्ती आणि वल्ली, व्यक्ती तितक्या प्रवृत्ती अशी मराठी पाने येतात.
या उलट, हिंदीत व्यक्तित्व हा शब्द जास्त प्रचारात आहे, व्यक्तिमत्त्व कमी. मराठीत व्यक्तित्व नाहीच. व्यक्तित्व ची सर्व पाने हिंदी तर व्यक्तिमत्त्व ची जवळजवळ सर्व पाने मराठी येतात. त्यामुळे, निदान व्यक्ती शब्दाचे उदाहरण घेऊन, गूगल हिंदीला अधिक महत्त्व देतो असा निष्कर्ष काढणे तितकेसे बरोबर नाही.
>>युनिकोड मानकात 'क्त' या जोडाक्षराला स्वतंत्र स्थान नाही. <<
म्हणजे युनिकोड वापरून क्त चे लेखन करता येत नाही? मला वाटते येते. यांतही बराच गोंधळ आहे, जी अक्षरे मनोगतावर टंकित करता येतात ती उपक्रमवर येत नाहीत, आणि जी इन्टरनेट एक्सप्लोरर वापरून लिहिता येतात ती फ़ायरफ़ॉक्सने उमटत नाहीत. म्हणजे गूगलला काही मागायचे म्हटले तर आपला ब्राउझर सोईस्कर आहे की नाही ते पहावे लागते की काय कोण जाणे! गूगल काय वाचतो? आपण दाबलेल्या कळी की उमटलेले अक्षर? कारण एकच अक्षर अनेक प्रकारे टंकता येते.
गूगलला अंग्रेज़ी मागितले की ९७ हज़ार पाने येतात, आणि अंग्रेजी मागितले की ३७ लाख. असे असताना गूगल ’व्यक्ति’-’व्यक्ती’त फरक करतो, यात त्याला दोष देण्यात काय अर्थ? मुळात हे वेगळ्या पद्धतीने लिहिले जाणारे सर्व शब्द सारखेच हाताळावेत ही सोय करायला हवी.--वाचक्नवी