लिप्यंतर - एक नवीन पहाट
भारतीय भाषांमधील मजकूर / लेख खूप मोठ्या प्रमाणावर जाळ्यावर पाहावयास मिळत आहेत. यात दोन आव्हाने दिसून येतात.
१) विविध अशास्त्रीय (प्रोप्रायटरी) फॉन्टचे युनिकोडीकरण ही समस्या :
काही संकेतस्थळे अजूनही स्वतःचे फॉन्ट वापरत आहेत. अशा काही पानांचे त्वरित युनिकोडीकरण मेधाज या साईटवर उपलब्ध आहे.
http://uni.medhas.org/
उदाहरण द्यायचे झाले तर दैनिक भास्कर हे संकेतस्थळ आपले स्वतःचे फॉन्ट वापरते. हे संकेतस्थळ युनिकोडित करून वाचता येईल.
२) लिप्यंतर - म्हणजे एका लिपीतील मजकूर दुसऱ्या लिपीत वाचणे. उदा. गुजराती मजकूर आपण देवनागरीत सहजगत्या वाचू शकतो. ज्यांना गुजराती समजते पण लिपी वाचता येत नाही, त्यांना आजचा गुजरात समाचार / गुजराती ब्लॉग देवनागरीत वाचता येईल. तसेच मराठी लेख गुजरातीमध्ये वाचता येतील. लक्षात घ्या गुजराती लिपीत वाचता येतील, भाषेत नाही. म्हणजे या लेखाचे गुजरातीत भाषांतर होत नसून लिप्यंतर होऊ शकते. तंत्रज्ञान प्रगत होत आहे. पुढे मागे भाषांतर देखील संगणकच करून देईल. पण तोवर लिप्यंतर काय आहे ते समजून घेऊ. मिळून साऱ्याजणी या संकेतस्थळावरील एका पानाचे हे गुजराती रूप पाहा.
तसेच एक गुजराती रोजनिशी देवनागरीत कशी वाचता येईल ते पाहा.
http://tinyurl.com/267eu7
ही सुविधा वापरणे फारच सोपे आहे. हे पान बुकमार्क करून ठेवा. आपल्याला जे पान लिप्यंतरित करायचे असेल त्या पानाचा पत्ता देऊन ज्या लिपीत बदल करून हवा असेल त्या लिपीच्या बटणावर क्लिक केले की काम झाले!
संशोधक, विद्यार्थी तसेच भाषेच्या अभ्यासकांना याचा लाभ होईल अशी आशा आहे.
Comments
जमले नाही...
वा! अगदी आकर्षक माहिती वाटते आहे. धन्यवाद!!
मी आपण सांगितलेल्या संकेतस्थळावर "हिन्दु.कॉम"चा पत्ता दिला. पण लिप्यंतर झाले नाही. रोमन लिपीचे रुपांतर होत नाही काय? की अन्य काही अडचण असावी?
(अंगठाबहाद्दर) एकलव्य
रोमन लिपीचे लिप्यंतर
रोमन लिपीचे लिप्यंतर भारतीय भाषेत (माझ्या माहितीप्रमाणे) होत नाही. पण भारतीय भाषांचे रोमन लिपीत लिप्यंतर शक्य आहे. उदा. रवी रतलामी यांचा हिंदी ब्लॉग रोमन लिपीत वाचता येईल हा असा.
शंकानिरसनाबद्दल...
धन्यवाद... मी ही वेगवेगळे प्रयोग करून प्रचीती घेतली. आपल्या तत्परतेने आनंद वाटला.
युनिकोड कन्व्हर्जन गेटवे
ही सुविधा मोफत असून याचा स्रोत मुक्त आहे. तो येथून उतरवून घेता येईल.
पी एच पी मध्ये बनलेल्या या मेधाज् साईटवरील प्रकल्पात माझाही खारीचा वाटा होता.
भोमियो या साईटवरील अशाच सुविधेविषयी मला जास्त माहिती नाही. पण तीही चांगली सुविधा आहे.
भोमियो बंद?
भोमियो हे संकेतस्थळ काही कारणाने बंद पडले आहे असे दिसते. त्याबदली हा दुवा वापरावा...
http://en.girgit.chitthajagat.in/
लिप्यंतर
करून पाहिले. जमले. गुजराथी आधीही वाचता येत होते आता तर आणखीच चांगले वाचता येते. कन्नडही करून पाहिले पण अर्थ कोणाला कळतो फारसा? :)
या माहितीबद्दल धन्यवाद.
भालो..!!
त्याने हे असे पाहिले नि म्हणला भालो!! धोन्यबाद.
वा, आवडले
शातंनुराव,
वा काय छान सुविधा आहे हो ही!
आवडली.
(भाषांतर पण होऊ शकेल असे काही नाही होऊ शकत का?
अर्थात यावर कोणी तरी काम करतच असेल म्हणा.
आशा आहे ते पण काही काळात बघायला मिळेल.)
(आता इतर भाषीक ब्लॉग्ज वाचण्यातही रमलेला, पण शेवटी इथेच पडीक असलेला)
गुंडोपंत
जमले नाही!
मी बराच वेळ प्रयत्न केला तेव्हा पुनःपुन्हा खालीलप्रमाणे लिहून आले.
Bad Request
Error 400
असे का झाले असावे?
आता जमले पण....
फक्त प्रतिष्ठीत संकेतस्थळेच अशा प्रकारे लिप्यंतरीत होताना दिसत आहेत. मात्र जालनिश्यांचा पत्ता घातल्यावर Bad Request
Error 400 असे अजूनही येते आहे. मी काही मराठी जालनिश्यांचे पत्ते देऊन गुजरातीत लिप्यंतर करण्याची सुचना दिली तेव्हा वरीलप्रमाणे लिहून आले. ह्यामागील तर्कशास्त्र काही मला कळले नाही.
असो.पण ही एक छान सोय आहे आणि त्याची माहिती करून दिल्याबद्दल शंतनू ओक ह्यांचे मनापासून आभार.
युनिकोडित संकेतस्थळ
>> फक्त प्रतिष्ठित संकेतस्थळेच अशा प्रकारे लिप्यंतरीत होताना दिसत आहेत.
फक्त युनिकोडित संकेतस्थळच अशा प्रकारे लिप्यंतरीत होईल. एखादे संकेतस्थळ युनिकोडित आहे की नाही ते ओळखण्याची खूण म्हणजे ते संकेतस्थळ फायरफॉक्स या ब्राउझरमधून पाहणे. जर त्यात अजिबात वाचता आले नाही व आय. ई. मध्ये मात्र नीट वाचता आले तर ते संकेतस्थळ युनिकोडित नाही असे समजावे.
मस्त.
शंतनू साहेब,
छान सुविधा आहे.ब-याच अनूदिनींचा वेगवेगळ्या भाषेत बदल करून आनंद घेतला.इंग्रजी चे मराठीतून अनूवाद दिसणे नजीकच्या काळात शक्य आहे का ?
नजीकच्या काळात? नाही!
इंग्रजी चे मराठीतून अनुवाद दिसणे नजीकच्या काळात शक्य होईल असे वाटत नाही.
इंग्रजी भाषा सोपी असली तरी ती उच्चाराबरहुकूम लिहिली जात नाही. बहुतेक सर्व भारतीय भाषा संस्कृत वरून बेतलेल्या असल्याने व संस्कृत "बोले तैसा लिहे" या न्यायाने वागणारी भाषा असल्याने असे लिप्यंतर शक्य होते. माझा मुद्दा नीट स्पष्ट करण्यासाठी एक उदाहरण देतो. खालील इंग्रजी वाक्य त्याखाली दिलेल्या उच्चाराप्रमाणे लिहिले गेले तर आपण म्हणता तसे लिप्यंतर शक्य होईल.
Dot-com youthquake was impertient
Dot-com YOOTH-kwayk was im-PER-tuh-nunt
पण प्रत्येक इंग्रजी शब्द असा लिहून लेख कोण लिहिणार?
एक प्रयत्न
भोमियो या संकेतस्थळाने केलेला इंग्रजी टू देवनागरीतील लिप्यंतराचा प्रयत्न येथे पाहाता येईल.
भाषांतर
गुगलने ईग्लिश मधील मजकूर हिंदीत भाषांतरित करण्याची कला विकसित केलेली दिसते.
http://translate.google.com/translate_t?langpair=hi|en
मराठीही लवकरच यात जोडली जाईल अशी आशा करुया.
ओपन ऑफिसमध्ये भाषांतर
ओपन ऑफिसच्या "रायटर" मध्ये लिहिलेला मजकूर आता एका क्लिकद्वारे हव्या त्या भाषेत भाषांतर करून मिळू शकतो.
अधिक माहिती अथवा येथे मिळू शकेल.
तंत्रज्ञान अर्थातच गुगलचे असून ते उपलब्ध केले गेले आहे पुण्याच्या इंडिकट्रान्स यांच्याद्वारे. स्वप्निल हजारे यांचे खास अभिनंदन.
गुगलचा प्रयत्न
गुगलबाबाही आता या लिप्यंतराच्या भानगडीत उतरला आहे.
http://scriptconv.googlelabs.com/
गुजराती - देवनागरी लिप्यंतर करताना ळ आणि ल ची गल्लत होत आहे. हा एक दोष सोडला तर गुगलचा प्रयत्न फारच उत्तम म्हटला पाहिजे.
लोकसत्ता चे युनिकोड
शंतनु ,
लोकसत्ता युनिकोड नाहिये. मात्र लोकसत्ता मधे खुप महत्वाचे अभ्यासविषयक लेख असतात. लोकसत्ताकडे मी त्यांचे संकेतस्थळ युनिकोड करावे अशी विनंती सुध्दाकेली होती. सोबत फायदे आणि मार्गही दिला होता. असो.
या लोकसत्ताचे असे युनिकोड करणे शक्य आहे का?
नीलकांत
योग्य सूचना
आपली सूचना मी हर्षिता वाणी यांना इ-मेल करून कळविली आहे. त्यांच्याकडून काही उत्तर येईपर्यंत आपण या आज्ञावलीचा गाभा उतरवून घेऊन font mapping कसे केले आहे ते समजावून घेऊन यात काही मदत करू शकाल का?
उपलब्ध आहे
लोकसत्ताचे असे युनिकोडीकरण आता येथे उपलब्ध आहे.
आभार
वा अतिशय उपयुक्त!!
अनेक आभार शंतनु राव
ऋषिकेश
------------------
जगात १० प्रकारचे लोक असतात द्विमान पद्धती समजणारे आणि न समजणारे
सोपा बुकमार्क
दरवेळी युनि.मेधाज् साईटवर जाण्याचा त्रास वाचविण्यासाठी खाली दिलेली दिलेला दुवा ओढून लिंक टुलबारवर आणून ठेवावा. आता आपण लोकसत्ता अथवा लोकप्रभा (lokprabha.com) या वरील कोणत्याही पानावर असाल तरी एका चुटकीसरशी (क्लिकसरशी) आपण त्या पानाचे युनिकोड रुपांतर पाहू शकाल.
युनिकोडित
ही युक्ति वापरून आपण पुढारी सारखे पेपरही युनिकोडित करून वाचू शकता.
सोपा बुकमार्क भाग २
इतर लिपींतील मजकूर देवनागरीत वाचण्यासाठी हा बुकमार्क कामी येईल.
लिप्यंतर
फायरफॉक्सवर जे वाचू शकतोय ते लिप्यंतरीत होत नाहीये.
मी आताच खाली दिलेल्या जालनिश्या आयई आणि फायरफॉक्स वर व्यवस्थितपणे वाचल्या मात्र त्यांचे लिप्यंतरण होत नाहीये.
१)संगणकजगत
२)http://purvaanubhava.blogspot.com/
ह्या बद्दल काही सांगता येईल काय?
शेवटचा / नको
१) संगणकजगत - मेधाज् वापरून / भोमिया वापरून
२) पूर्वानुभव - मेधाज् वापरून / भोमिया वापरून
मेधाज् संकेतस्थळ वापरताना blogspot.com/ मधील शेवटचा / काढून टाकावा. तसेच भोमिया वापरताना पहिला http:// हा भाग काढावा लागतो. आज्ञावलीतील दोष मी संबंधितांच्या नजरेस आणून दिला आहे. धन्यवाद.
वा!
भाषाभगिनींना एकत्र आणण्याचे हे प्रयत्न चांगले आहेत. तुम्हीही यात सहभागी होता हे वाचून आनंद वाटला.
अवांतर - हे पुस्तक तुमचे आहे का?
होय
एस क्यू एल शिकणाऱ्या नवागतांसाठी २ वर्षांपूर्वी मी हे पुस्तक लिहिले. कमी पाने व लहान आकार लक्षात घेता त्याला पुस्तिका म्हणणे संयुक्तिक ठरेल.
पुढे काय?
>> आपली पुढे काय करण्याची इच्छा आहे
फायरफॉक्ससाठी एक पद्मासारखे एक्स्टिंन्शन लिहायचा प्रयत्न करीत आहे. अशास्त्रीय फॉन्टचे युनिकोडीकरण पद्मा हे add-on करतेच आहे पण त्याच्याही पुढे जाऊन वर दिल्याप्रमाणे लिप्यंतर ब्राउझरमध्येच आपोआप होऊ शकेल अशी आज्ञावली लिहीत आहे. टूल्स - ऑप्शन्स मध्ये जाऊन आपण आपल्या पसंतीची लिपी सिलेक्ट केल्यावर अन्य लिंपितील मजकूर आपोआप आपल्याला समजणाऱ्या लिपीत उमटू लागेल. दिल्लीच्या सुरेखा शास्त्री यांच्या मार्गदर्शनाखाली बनणारे हे add-on लवकरच तयार व्हावे यासाठी आपल्या शुभेच्छा गृहीत धरतो.
जीपीएल अथवा एलजीपीएल
>> कुठल्या लायसन्स ने वितरीत करण्याचा विचार आहे ?
जीपीएल अथवा एलजीपीएल
मोफत व मुक्त स्रोत आज्ञावलीच लिहायची अशी काही "भीष्मप्रतिज्ञा" वगैरे केलेली नसली तरी जोवर शक्य होईल तोवर प्रोप्रायटरी आज्ञावली लिहायची नाही असे मी ठरवले आहे. सर्वांच्या सहभागाने मुक्त स्रोत आज्ञावलीत अनेक पटींनी सुधारणा होत जाते. मोफत असल्याने अनेकांना ती वापरणे परवडते. मुक्त स्रोत हे एक लायसन्स नसून एक विचारधारा, संस्कृती आहे असे मी मानतो. पी एच पी मेलिंग लिस्ट मधील एका विरोपाच्या खालची सही वाचून तर माझी खात्रीच पटली. open source, open border, open minds
या विषयावर लिहायचे बरेच दिवस मनात होते, म्हणून विषयांतराचा दोष पत्करून येथे लिहीत आहे.
गिरगिट ऍड - ऑन
वर चर्चिलेली सुविधा आता फायरफॉक्स वापरणाऱ्यांसाठी उपलब्ध आहे.
१) ही छोटीशी फाइल येथून डाउनलोड करून घ्यावी.
(इंटरनेट एक्सप्लोअर वापरणाऱ्यांसाठी अशी सुविधा उपलब्ध नाही. एक्सप्लोअरचा सोर्स ओपन नसल्यामुळे असे सॉफ्टवेअर बनवणे जवळ जवळ अशक्य वा अतिशय खर्चीक आहे. इच्छुकांनी बिल @मायक्रोसोफ़्ट.कॉम या पत्त्यावर संपर्क साधावा.)
२) फायरफॉक्स सुरू करून फाइल - ओपन फाइल हा ऑप्शन सिलेक्ट करावा. आताच डाउनलोड केलेल्या फाइलचा पत्ता द्यावा.
३) फायरफॉक्स परत सुरू केल्यावर एक टूलबार दिसेल. आपण कोणत्याही भारतीय भाषेच्या वेब पानावर असाल तर या टूलबारावर क्लिक करून हिंदी असा पर्याय निवडा. आपल्याला ते पान देवनागरी लिपीत दिसू लागेल.
आपल्या काही सूचना असल्यास मला व्यक्तिगत निरोप पाठवून कळवा.
फायरफोक्स, इंडिक व गिरगिट
फायरफोक्स ३.० खरोखरच भारतीय भाषांसाठी वरदान ठरणार आहे.
१) यात इंडिक इनपुट एक्स्टिंशन वापरून सहजगत्या मराठी लिपी टंकित करता येते.
https://addons.mozilla.org/en-US/firefox/addon/3972
यात मराठी RTS हा पर्याय निवडल्यास गमभनची गरज भासणार नाही. आंग्ल भाषेची गरज पडल्यास कंट्रोल + स्पेस ही कळ जोडीने वापरा. मी ही सुविधा वापरून याहू मेल मधून मराठी मेल पाठवतो.
२) वर दिलेले गिरगिट हे अवजार आता येथे उपलब्ध आहे.
https://addons.mozilla.org/en-US/firefox/addon/5483
तेथेच त्याचा स्रोतही पाहता येईल.
धन्यवाद
आत्ताच इन्स्टॉल केले आणि वापरून बघितले. मराठी टंकलेखन यामुळे फारच सुलभ झाले आहे.
ही माहीती दिल्याबद्दल अनेक धन्यवाद.
----
काही अक्षरे
इंडिक इनपुट प्लगिन चांगले आहे पण ऑ, र्या, ऍ, न्ह वगैरे कसे टंकायचे कळले नाही.
बोलो जाता बरळ, करिसी ते नीट। नेली लाज धीट, केलो देवा॥
फारच उत्तम सुरुवात
शंतनू, युनिकोडगेटवे ही फारच उत्तम सुरुवात आहे. अधिकाधिक संकेतस्थळे ह्या गेटवेमुळे युनिकोडित होतीलच अशी आता खात्री वाटते आहे. सध्या चाणक्य, भास्कर वगैरे फाँटमधला मजकूर युनिकोडित करता येतो आहे. भविष्यात कृती, कृष्णा, मिलेनियम वरुण सारखे फाँट वापरून लिहिलेला मजकूरही युनिकोडमध्ये रूपांतरित करता येईल अशी आशा आहे.
ह्या उपक्रमाला मनःपूर्वक शुभेच्छा.
एक उपाय
रजनीश मंगला यांनी अमर उजाला, कृतिदेव, अर्जुन, चाणक्य, भास्कर, वेबदुनिया, नई दुनिया, शूषा, सुरेख या फॉन्ट मधील मजकूर युनिकोडित करण्याची सोय येथे उपलब्ध करून दिली आहे. आपल्याला हवे असलेले फॉन्ट या यादीत नसले तर त्यांच्याशी संपर्क साधून ते टंक यात समाविष्ट करून घ्यायची विनंती करून पाहा.
आणखी एक उपाय
वर उल्लेखिलेल्या युनिकोडगेटवे मध्ये देखील ही सोय या पानावर उपलब्ध आहे. कोणी ही सुविधा वापरून मिळालेला मजकूर युनिकोडित होत आहे असा अभिप्राय द्यावा म्हणजे इतरांना खात्रीपूर्वक सल्ला देता येईल.
मायक्रोसॉफ्टचे उत्तर
या पानावरील टीबीआयएल कन्व्हर्टर या कामासाठी उपयुक्त आहे असे रवी रतलामी यांच्या अनुदिनीवरून दिसते. मी हे सॉफ्टवेअर वापरलेले नसले तरी ज्यांना ही सुविधा हवी त्यांनी प्रयत्न करून पाहायला हरकत नाही.
रुपांतर
प्रकाश घाटपांडे यांचा उपक्रमावरीलच अन्य एका चर्चेखालील प्रतिसाद येथे देत आहे. जिज्ञासूंना सर्व माहिती एकाच छत्राखाली उपलब्ध व्हावी म्हणून.
http://tdil.mit.gov.in/download/RUPANTAR.htm
आणखी एक
आणखी एक मोफत सुविधा याच कामासाठी
युनिकोड आणि सोय
युनिकोडचा भारतीय भाषांकरता एक फायदा म्हणजे लिप्यंतर .
देवनागरी, गुजराती, बंगाली, गुरुमुखी , कन्नड, मल्याळम, तेलुगु इ. लिप्यांमध्ये उदा पाहू.
देवनागरीमध्ये क चा युनिकोड १००० मानू. ( उदा. दाखल १०००,१६००,१८०० म्हटले आहे)
गुजरातीमध्ये तोच क १६०० कोडला उमटेल.
बंगालीत तोच क १८०० ला उमटेल.
म्हणजेच लिप्यंतर करताना केवळ ६०० किंवा ८०० मिळवले की काम होते. काही ठरावीक वर्ण वगळल्यास सर्वसाधारण हाच नियम लागू होतो.
बराहा देवनागरी - युटीएफ्८
अत्यंत उपयुक्त चर्चा.
बराहा देवनागरी - युटीएफ्८ हे लिप्यंतर कसे करता येईल?
बराहामध्येच ती सोय आहे
आपण जर बराहा वापरत असाल तर देवनागरी मजकूर ते युटीएफ ८ ते युटीएफ १६ (युनिकोड) ही सर्व तांत्रिक अदलाबदल त्यातच करून मिळेल. (विंडोज ९८ चालणार नाही. विंडोज २००० अथवा एक्सपी जरूरी आहे). वर चर्चिलेले लिप्यंतर युनिकोडमध्येच शक्य आहे. युटीएफ ८ हे तंत्र आता जुने झाले आहे.
गिरगिट आणि फॉक्समार्क्स/बुकमार्क्स
गिरगिटची सोय फारच उपयुक्त आहे. मला विनोबांनी घेतलेल्या ध्यासाची आठवण झाली. त्यांना ही सोय पाहून धन्य वाटले असते. गीता प्रवचने ह्या त्यांच्या पुस्तकांच्या अनेक भारतीय भाषांमध्ये (आणि गढवालीसारख्या बोलीभाषांमध्येही) आवृत्त्या निघाल्या आहेत. मात्र मी पाहिलेल्या ह्या विविध आवृत्त्या देवनागरी लिपीत होत्या. सर्व भारतीय भाषांसाठी एकच लिपी झाली तर त्या अनेकांना समजणे सुकर होईल असे मानणा-यांचा एक गट होता/आहे.
मी स्वत: फायरफॉक्स ३.०.६ वापरीत असून गिरगिट एनेबल्ड असताना बुकमार्किंग करता येत नाही असा अनुभव मला आला. (मी फॉक्स्मार्क्सही वापरतो.) सेटिंग करताना काही सुधारणा करणे आवश्यक आहे का? कृपया मार्गदर्शन करावे ही विनंती.
लिप्यंतर - भाषान्तर
लिप्यन्तरा इतके भाषान्तर सोपे नाही. भाषेतील घटकांचे (म्हणजे शब्दांचे) सन्दर्भानुसार जितके वेगवेगळे, (कधी कधी विरुद्धदेखील) अर्थ होतात, तितके भारतीय लिपीच्या एका घटकाचे (म्हणजे वर्णाचे) निरनिराळे उच्चार होत नाहीत.
किम्बहुना, एकाहून अधिक उच्चार होणारी अक्षरे देवनागरी-आधारित कोणत्याही लिपीत फारच थोडी आसतात. त्यामुळे त्यांचे लिप्यन्तर तितके कठीण नाही.
मराठीत, माझ्या माहितीप्रमाणे तीनच अशी अक्षरे आहेत - च, ज आणि झ. या तीन अक्षरांचा उच्चार वेगवेगळा होतो.
उदा० 'चटई' शब्दातला च आणि 'चप्पल' शब्दातला च; 'जबडा' शब्दातल ज आणि 'जन्म' शब्दातला ज; 'झगा' शब्दातला झ आणि 'झेंडा' (चित्रपट नव्हे :)) मधला झ.
बाकी मराठीतल्या सगळ्या अक्षरांचे उच्चार ठराविकच होतात.
पण भाषान्तराच्या अडचणी खूप आहेत. त्यांपैकी मी इथे एकच मांडतो-
भाषान्तराच्या आज्ञाप्रणाली (translation software) चा वापर केल्यास
"टोपीकरांनी भारतात 'फोडा आणि झोडा' चे धोरण वापरले" याचे भाषान्तर
The British employed a policy of ‘divide and rule’ च्या ऐवजी The capped-ones used a policy of ‘break & beat’ असे विचित्र होईल.