अनुस्वारयुक्त शब्दांचा गुगल शोध

पर-सवर्ण लेखन पद्धतीने लिहिलेल्या शब्दांचा गुगल शोध अधिक परिणामकारी करता येऊ शकेल असे मला कधी कधी वाटते. निवांत हा शब्द निवांत किंवा निवान्त अशा दोन प्रकारे लिहीता येतो. अनुस्वार टाळून जोडाक्षरयुक्त शब्द लिहिणे याला पर-सवर्ण पद्धत म्हणतात. गुगलमध्ये 'निवांत' शब्द शोधला तर 'निवान्त' या शब्दाची पाने मिळत नाहीत. गुगलबाबा इतका मठ्ठ कसा? खाली दिलेली क्वेरी वापरली तर कोणताही शब्द पर-सवर्ण पद्धतीने कसा लिहायचा ते कळेल. आणि मग मूळ शब्द आणि हा तयार झालेला शब्द असा शोध गुगलमध्ये घेता येईल.
उदाहरण म्हणून आपण "निवांत" हा शब्द घेऊ. आता हा शब्द मराठीच्या व्याकरणाच्या नियमानुसार "निवान्त" असाही लिहिता येतो. अर्थात ही सवलत फक्त संस्कृत शब्दांपुरतीच आहे, पण काही लोक जरी नियमानुसार नसले तरी मराठी शब्द दणकून अशा पद्धतीने लिहितात. संत आणि सन्त हे उदाहरण तर आपल्या सर्वांनाच माहीत आहे. इतर असे शब्द म्हणजे
वंचना - वञ्चना
बालंट - बालण्ट
अंपायर - अम्पायर

आता गुगलमध्ये शोध घेताना खाली दिलेल्या प्रमाणे घेतला गेला पाहिजे.
निवांत OR निवान्त

पण शोधकर्ता फक्त अनुस्वार असलेला शब्द 'निवांत' टाईप करणार. गुगुलने खाली दिलेली क्वेरी वापरून त्याची पर-सवर्ण लेखन पद्धत शोधून काढून दोन्ही शब्द शोधले पाहिजेत, नाही का? अर्थात काही शब्दांचा अपवाद करावा लागेल. उदा. 'सुखांत' शब्द शोधणार्‍याला 'सुखान्त' (सुखाचा अन्त) अपेक्षित नसणार. असेच काही शब्द म्हणजे देहांत - देहान्त, वेदांत - वेदान्त, सत्रांत - सत्रान्त, सिध्दांत - सिध्दान्त

हिंदीत याविषयी काय नियम आहेत ते मला माहीत नाही. पण जसजसे जालावरील देवनागरी लेखन वाढत जाईल तसतसे शोधयंत्र अशा प्रकारे अद्ययावत करावे लागेल. उपक्रमवर गुगल शोध घेण्याची सोय आहे. निदान त्यांनी तरी अशी सोय उपलब्ध करून द्यावी ही विनंती.

set @word := 'निवांत';

select case
when substring(@word, locate('ं',@word)+1,1) in ('क', 'ख', 'ग', 'घ', 'ङ्') then replace(@word, 'ं', 'ङ्')
when substring(@word, locate('ं',@word)+1,1) in ('च', 'छ', 'ज', 'झ', 'ञ') then replace(@word, 'ं', 'ञ्')
when substring(@word, locate('ं',@word)+1,1) in ('ट', 'ठ', 'ड', 'ढ', 'ण') then replace(@word, 'ं', 'ण्')
when substring(@word, locate('ं',@word)+1,1) in ('त', 'थ', 'द', 'ध', 'न') then replace(@word, 'ं', 'न्')
when substring(@word, locate('ं',@word)+1,1) in ('प', 'फ', 'ब', 'भ', 'म') then replace(@word, 'ं', 'म्')
END
as para_savarna

'असा विचार'

फक्त, शंतनुराव, तुम्हीच करु शकता, दंडवत (किंवा दण्डवत)

एक कळले नाही - काही शब्दांचा अपवाद करावा लागेल असे म्हणताना जी उदाहरणे दिली आहेत त्या दोन शब्दांचे अर्थ परस्पर-भिन्न आहेत का ? मला तर सारखेच वाटले.
आणि क आणि च च्या वर्गातले परा-सवर्ण अगदीच दुर्मिळ असावेत (निदान जालावरतरी)

वा!

अरे वा, मस्तच उपाय!! शब्दांचा शोध वेगवेगळी 'रुपे' वापरुनच करतो पण अशी सोय झाली तर् बेस्टच!

सहमत

प्रतिसादांशी सहमत आहे. विचारप्रवर्तक मुद्दा आहे.

इंग्लिश शब्द शोधताना स्पेलिंग चुकले तर गूगल त्याला जे बरोबर वाटते ते स्पेलिंगही सुचवतो. तसे काही इथे करता येईल का? शिवाय चुकीचे उकारांचे काय?
मी उपक्रमावर दुध आणि दूध दोन्ही शोधून पाहिले. दोन्ही वेळेस पूर्णपणे वेगळी पाने मिळाली.

---
"भाई बनना है तेरेको?" -- भिकू म्हात्रे

फझी शोध व डिसऍम्बिग

बिंगला पण हे बिंग फोडता आले नाही (ते अपेक्षितच होते)..
पण हा प्रश्न अनुस्वाराचाच नसून वर् आरागॉर्न ह्यांनी दिलेल्या उदाहरणासारखेच इतरही काही पेच सोडवणे आवश्यक आहे- उदा- क्श, क्ष.

फझी शोध व डिसऍम्बिग असा दोन्हीचा वापर करुन हा पेच सोडवावा लागेल.

छान मुद्दा.

मराठी सर्च ही मोठी गंमत असणार

दूध आणि दुध ह्यात एक नक्की चुकीचे आहे, पण शुद्धलेखनाचे नियम 'शोधयंत्राला लावावे की नाही' हा एक प्रश्न आहे. कारण शोधयंत्र 'की-वर्ड सर्च्' करते आणि कारण र्‍हस्व दीर्घाप्रमाणे अर्थ बदलू शकतो.
उदा: पाणि पाणी वगैरे (विशेषतः संस्कृतोद्भव शब्दात)

देशी शोधयंत्र 'गुरुजी' पण असेच निकाल दाखवते.

भिन्न शब्द, वेगळे अर्थ.

काही शब्दांचा अपवाद करावा लागेल असे म्हणताना जी उदाहरणे दिली आहेत त्या दोन शब्दांचे अर्थ परस्पर-भिन्न आहेत का ? मला तर सारखेच वाटले
उदाहरणांत दिलेल्या शब्दांचे अर्थ भिन्न आहेत्. देहांत= अनेक देहांत; देहान्त=मृत्यू; वेदांत= अनेक वेदांत; वेदान्त= (वेदांच्या शेवटी सांगितलेले)तत्त्वज्ञान; सत्रांत=अनेक सत्रांत; सत्रान्त=सत्राचा शेवट; सिद्धांत=अनेक सिद्ध(पुरुषांत); सिद्धान्त=सिद्ध करता येण्यासारखा नियम. (ध्द हे अक्षर मराठी किंवा इतर कोणत्याही भारतीय भाषेत नाही!) त्यामुळे गूगलने ध्द आणि द्ध यांतला फक्त द्ध स्वीकारावा.
आणखी असेच : पँट=पॅण्ट; परंतु पॅन्ट=Pant=विजार. इंग्रजीत ण नाही त्यामुळे पँट हे लिखाण अर्थहीन. परंतु बँक, कँप, सिंथेटिक हे शब्द, अनुक्रमे बॅङ्क, कॅम्प आणि सिन्थेटिक, असेही लिहता येतील. कारण इंग्रजीत ङ, म आणि न आहेत.

गूगल जोडाक्षराची उभी मांडणी आणि आडवी मांडणी दोन्ही सारख्या रीतीने स्वीकारतो का? उदाहरणार्थ, क्त आणि क्‍त. हे जर करू शकत असेल तरच तो निवांत आणि निवान्‍त एक समजेल.--वाचक्नवी

आणखी काही

>> गूगल जोडाक्षराची उभी मांडणी आणि आडवी मांडणी दोन्ही सारख्या रीतीने स्वीकारतो का? उदाहरणार्थ, क्त आणि क्‍त.
हो. गुगलमधे 'व्यक् त' असा शोध घेतला असता 'व्यक्त' ची पाने दिसतात. याचा अर्थ गुगल जोडाक्षरांच्या मांडणीची चिंता न करता त्यातील अर्धा क आणि पूर्ण त लक्षात घेतो. जोडाक्षर वाचकाला उभे की आडवे दाखवायचे ते फॉन्ट् ठरवतो. युनिकोड मानकात 'क्त' या जोडाक्षराला स्वतंत्र स्थान नाही.

>> ध्द हे अक्षर मराठी किंवा इतर कोणत्याही भारतीय भाषेत नाही! त्यामुळे गूगलने ध्द आणि द्ध यांतला फक्त द्ध स्वीकारावा.
यावर वेगळी चर्चा होऊ शकते. उदाहरण द्यायचे तर 'पद्धत' आणि 'पध्दत' या दोन्ही शब्दांसाठी गुगल जवळपास सारखीच म्हणजे सुमारे दोन लाख पाने दाखवतो. गुगलने काय स्वीकारावे यापेक्षा जालावर लिखाण करणार्‍या मंडळींनी एकत्र येऊन शुद्धलेखनाचे ल. सा. वि. नियम तयार करावेत. आणि निदान त्यांचे तरी पालन करावे. आम्ही कुठचेच नियम पाळणार नाही अशी भूमिका क्रुपया घेऊ नये. चुकून शुद्ध शब्द टाईप झाला तर बैकस्पेस वापरून 'न्' चा 'ण्' करणार्‍या मंडळींनी आपण काय मज्जा करत आहोत याचेही भान ठेवावे.

>> आणखी असेच : पँट=पॅण्ट; परंतु पॅन्ट=Pant=विजार. इंग्रजीत ण नाही त्यामुळे पँट हे लिखाण अर्थहीन. परंतु बँक, कँप, सिंथेटिक हे शब्द, अनुक्रमे बॅङ्क, कॅम्प आणि सिन्थेटिक, असेही लिहता येतील. कारण इंग्रजीत ङ, म आणि न आहेत.

हे मान्य. पण इंग्रजी शब्दांच्या बाबतीत असा आग्रह धरू नये असे मला वाटते. पँट, पॅण्ट व पॅन्ट तिन्ही शुद्ध समजावे कारण इंग्रजी उच्चाराप्रमाणे लिहावी असा नियम आहे आणि इंग्रजी शब्दांचे उच्चार वेगवेगळ्या प्रकारे होतात.

सध्या भारतीय भाषांचे जालावरील स्थान नगण्य असल्यामुळे गुगल मराठीला गंभीरपणे घेत आहे असे वाटत नाही. आता हेच पाहा ना, व्यक्ति हा शब्द गुगलमध्ये शोधला तर बहुतेक सर्व हिंदी पाने दिसतात. मराठी शोध कसा घ्यायचा? माझ्या माहितीप्रमाणे ते शक्य नाही. ही एक मोठीच उणीव आहे.

व्यक्ती किंवा व्यक्‍ती

मुळात व्यक्ति हा शब्द हिंदीत सररास वापरला जातो, मराठीत नाही; त्यामुळे मराठीची पाने कमीच असणार, पण व्यक्ती असे मागितले की मराठी पाने भरपूर मिळतात. व्यक्ती किंवा व्यक्‍ती असे टंकलेखन करून गुगलले की व्यक्ती आणि वल्ली, व्यक्ती तितक्या प्रवृत्ती अशी मराठी पाने येतात.
या उलट, हिंदीत व्यक्तित्व हा शब्द जास्त प्रचारात आहे, व्यक्तिमत्त्व कमी. मराठीत व्यक्तित्व नाहीच. व्यक्तित्व ची सर्व पाने हिंदी तर व्यक्तिमत्त्व ची जवळजवळ सर्व पाने मराठी येतात. त्यामुळे, निदान व्यक्ती शब्दाचे उदाहरण घेऊन, गूगल हिंदीला अधिक महत्त्व देतो असा निष्कर्ष काढणे तितकेसे बरोबर नाही.
>>युनिकोड मानकात 'क्त' या जोडाक्षराला स्वतंत्र स्थान नाही. <<
म्हणजे युनिकोड वापरून क्त चे लेखन करता येत नाही? मला वाटते येते. यांतही बराच गोंधळ आहे, जी अक्षरे मनोगतावर टंकित करता येतात ती उपक्रमवर येत नाहीत, आणि जी इन्टरनेट एक्सप्लोरर वापरून लिहिता येतात ती फ़ायरफ़ॉक्सने उमटत नाहीत. म्हणजे गूगलला काही मागायचे म्हटले तर आपला ब्राउझर सोईस्कर आहे की नाही ते पहावे लागते की काय कोण जाणे! गूगल काय वाचतो? आपण दाबलेल्या कळी की उमटलेले अक्षर? कारण एकच अक्षर अनेक प्रकारे टंकता येते.
गूगलला अंग्रेज़ी मागितले की ९७ हज़ार पाने येतात, आणि अंग्रेजी मागितले की ३७ लाख. असे असताना गूगल ’व्यक्ति’-’व्यक्ती’त फरक करतो, यात त्याला दोष देण्यात काय अर्थ? मुळात हे वेगळ्या पद्धतीने लिहिले जाणारे सर्व शब्द सारखेच हाताळावेत ही सोय करायला हवी.--वाचक्‍नवी