तुकाराम गाथा शब्दसूची
तुकारामाच्या गाथेतले सर्व शब्द एकत्र करून त्याची एक सूची मी बनविली आहे. ती ओपन ऑफिसच्या रायटरमध्ये व एस. क्यू. एल. मध्ये उघडता येईल.
http://code.google.com/p/tukaram/downloads/list
खर्पे यांच्या वेबसाईटवरील गाथा या प्रयोगापुरती प्रमाण मानली आहे.
http://www.khapre.org/portal/url/mr/books/tukaram/index.aspx
काही निष्कर्ष :
अ) सुमारे ४,५०० अभंगात साधारण ३०,००० शब्द वापरले गेले आहेत.
ब) १ ते ४ अक्षरे असलेले शब्द आहेत २७,४७९ आणि ५ पेक्षा जास्त अक्षरे असलेले शब्द आहेत फक्त २,६५३ अल्पाक्षरत्व हे तुकारामाच्या साहित्यातील प्रासादिकतेचे एक गमक आहे हे आता आकडेवारीने सिद्ध झाले आहे असे समजायला हरकत नाही.
क) काही मोठे मोठे शब्द देखील वापरले गेले आहेत, पण ते बहुतांशी २-३ छोट्या शब्दांना जोडून बनविलेले दिसतात.
संतमहंतसद्धिहरिदासदाटणी
रामकृष्णहरिविठ्ठलकेशवा
उत्तममध्यमकनिष्ठाचें
जन्ममृत्युस्वप्नांसारिखें
स्त्रीभ्रतारसंवाद
पुत्रपत्नीबंधूवरी
अगिस्तब्राम्हणा
अग्निकर्पुराच्या
अनघडसिद्धाच्या
कार्यकारणासरिसें
कोटिगोहत्यापातक
गोपाळगोपिकारमणा
चक्रपाणीवांचूनियां
धातुद्रव्यइच्छा
नटनाट्यकौशल्य
नारदतुंबरसहित
पद्मनाभदरुषणें
भाषेच्या व संतसाहित्याच्या अभ्यासकांना याचा उपयोग होईल असे वाटते.
Comments
चांगली यादी
यादी उपयुक्त आहे. काही तांत्रिक बाबींची माहिती दिल्यास उत्तम. (उदा. कशा प्रकारे यादी तयार केली वगैरे)
आणखी एक. त्या दुव्यावरुन संकेतस्थळाच्या मालकाचे नाव खापरे असावे असे वाटते. खर्पे नाही.
बोलो जाता बरळ, करिसी ते नीट। नेली लाज धीट, केलो देवा॥
नेमकी शब्दसंख्या
अरुण भालेराव यांनी वर्ड काऊंटचा आधार घेऊन एकूण शब्दसंख्या दोन लाख असल्याचा निष्कर्ष काढला. पण त्यात सर्व शब्द होते. (डुप्लीकेट सकट)
http://e-tuka.blogspot.com/2010/03/blog-post_1513.html
वर दिलेली पोस्ट वाचून मला गाथेतली नेमकी शब्दसंख्या शोधायची कल्पना सुचली.
शब्दसंपदा या शुद्धलेखनासाठी बनविलेला प्रोग्रामच या प्रयोगासाठी वापरला आहे.
एखाद्या अभ्यासकाने ही १५० पाने वाचून यातील वैशिष्ट्यपूर्ण शब्द वेगळे काढले तर तो एक स्वतंत्र लेखाचा विषय होईल.
ज्ञानेश्वरी
श्री. शंतनु यांना विनंती की त्यांनी अशी शब्दसूची ज्ञानेश्वरी साठी पण बनवावी. खूपच उपयुक्त होईल.
चन्द्रशेखर
ज्ञानेश्वरीतील शब्द
ज्ञानेश्वरीतील शब्दांचा अभ्यास आपल्याला खालील दुव्यावर पाहायला मिळेल.
http://code.google.com/p/dnyaneshwari/
शब्दसंख्या (डुप्लीकेट शब्द व गीतेतील श्लोकांची शब्दसंख्या धरून) : १,१४,२१९
युनिक शब्दसंख्या ३४,३१७
एखादा शब्द (उदा. सुखपहांट) नेमका कुठे आला आहे हे पहाण्यासाठी गुगलची मदत घेता येईल.
सुखपहांट site:khapre.org
असा शोध घेतला की खाली दिलेले पान मिळते.
http://tinyurl.com/6cbcd8u
मूळ शब्द
अनाथ, अनाथा, अनाथां या शब्दांबरोबरच त्याची विविध रुपे देखील या यादीत पाहायला मिळतात. जसे.. अनाथांचा, अनाथांची, अनाथांचे, अनाथांच्या. तेंव्हा फक्त मूळ शब्द पाहायला हवे असतील, तर एक नवीन फाईल येथे उपलब्ध केली आहे. ही यादी कमी पानांची (१३२) व म्हणून जास्त सोपी वाटेल. ही यादी पी.डी.एफ. फॉर्मेटमध्ये उपलब्ध आहे.
http://code.google.com/p/tukaram/downloads/list
सध्या फक्त 'चा', 'ची', 'चे', 'च्या' असे प्रत्यय शेवटी आलेले शब्द काढले आहेत. वाचकांनी मार्गदर्शन केले तर त्यात सुधारणा करीन.
हे कसे केले ते खाली दिले आहे. एस्. क्यू. एल. ही भाषा प्रणाली ज्याला येते त्याला त्यातील तांत्रिक बाबी सहज समजू शकतील.
http://code.google.com/p/tukaram/wiki/mool_shabda
_____
यात प्रत्येक शब्द किती वेळा आला आहे ते समजत नाही. कोणी असा प्रयोग केला तर त्याचा जास्त फायदा होईल असे वाटते. म्हणजे "विठ्ठला" हा शब्द ५०० वेळा तर "पांडुरंगा" हा शब्द ४०० वेळा आला आहे हे समजले तर शब्दांची घनता आणि वजन समजायला मदत होईल.
एखादा शब्द कुठे आला आहे ते पाहण्यासाठी मी खालील युक्ती वापरतो. गुगलमध्ये लिहितो...
पखाळा site:khapre.org
आता गुगलने सांगितले की हा शब्द आलेला अभंग आहे १८७२. पण ही युक्ती नेहमीच कामी येईल असे नाही. कोणी संगणक तंत्रज्ञ पुढे येऊन जर शब्दांचे नंबरवार सॉर्टींग करू शकला तर सोन्याहून पिवळे!
पहिल्या शंभर अभंगांची शब्दवार घनता
गाथेतील पहिले १०० अभंग घेऊन शब्दांची संख्या मोजण्याचा प्रयत्न केला. त्यासाठी खाली दिलेले खापरे यांच्या प्रतीचा आधार घेतला आहे.
http://tinyurl.com/25po7om
अपेक्षेप्रमाणे "तुका म्हणे" हे दोन शब्द १-२ अभंग वगळता सर्व अभंगात आले आहेत. त्यानंतर जे शब्द अधिक प्रमाणात वापरले गेले आहेत, ते आहेत...
| नाहीं | 60 |
| न | 57 |
| तें | 32 |
| आतां | 26 |
| चि | 22 |
| काय | 21 |
| मज | 19 |
| ते | 17 |
| आम्ही | 17 |
ही आकडेमोड कशी केली ते सविस्तर लिहीले आहे गुगल कोडच्या या पानावर...
http://code.google.com/p/tukaram/wiki/Popular_Words
आता सर्व अभंग एकत्र करून हा उपक्रम राबवून त्याचे निष्कर्ष वेळ मिळेल तसे प्रसिद्ध करीन.
प्रसिद्ध शब्दसूची
सर्व अभंगात मिळून तुका शब्द ४४३६ वेळा आला आहे. हा आकडा एकूण अभंग संख्येशी मेळ खातो. म्हणजे ही आकडेमोड बरोबर असावी.
तुका 4436
म्हणे 4331
देवा 657
देव 513
पांडुरंगा 266
नारायण 243
नारायणा 230
विठ्ठल 225
हरी 205
यात देवा, देव, पांडुरंगा, नारायण, नारायणा, विठ्ठल व हरी हे देव विषयक शब्द मिळाले. यात अर्थात त्यांची रूपे नाहीत. म्हणून त्यासाठी वेगळी क्वेरी वापरली.
यात सुमारे ५० शब्द मिळाले ज्यात विठ्ठल हा शब्द आला आहे. त्यावरून खाली दिलेली रूपे अधिक प्रसिद्ध असावीत असे वाटते.
विठ्ठल, विठ्ठला, विठ्ठलें, विठ्ठलाचे, विठ्ठलीं, विठ्ठलपायीं, विठ्ठलेंविण
अधिक माहिती गुगल कोडच्या या पानावर वाचता येईल.
http://code.google.com/p/tukaram/wiki/Popular_Words_part2
तसेच ज्यांना अशी आकडेमोड स्वतः करून पाहण्यात रस असेल त्यांनी तेथील डाउनलोड विभागाला भेट द्यायला हरकत नाही.
स्तुत्य उपक्रम
स्तुत्य उपक्रम. शब्दवापरावरून, त्यांच्या फ्रिक्वेन्सीवरून संशोधकांना काही निष्कर्ष काढता येतील. तुम्ही जो वानगीदाखल प्रयत्न केला आहे तो मात्र पुरेसा समाधानकारक वाटला नाही.
अल्पाक्षरत्व हे तुमच्या लेखनात देखील आढळतं. तुमच्या याच लेखाच्या, खाली उद्धृत केलेल्या उताऱ्यात ५५ शब्दांत (आकडे वगळून) फक्त ७ शब्द पाच अक्षरं वा मोठे आहेत. तुकारामाच्या नऊ टक्क्यांपेक्षा ते फारसं वेगळं नाही. जर तुम्हाला हेच अभंग स्वरूपात लिहायचं झालं असतं तर मोठे शब्द याहीपेक्षा कमी वापरले असतेत असं वाटतं.
माझा मुद्दा असा आहे की 'आकडेवारीने सिद्ध झाले' हे म्हणण्यासाठी अधिक कष्ट घ्यावे लागतात. पण त्यासाठी अशी सूची असणं ही पहिली, कठीण पायरी आहे.
राजेश
द्रौपदीचे सत्त्व माझ्या लाभु दे भाषा-शरीरा
भावनेला येउं दे गा शास्त्र-काट्याची कसोटी
भगवद्गीतेची सुपरसाइट.
तुकारामाच्या गाथेत वापरलेल्या शब्दांचा अर्थ आणि ते शब्द गाथेत कुठे आले आहेत हे समजण्यासाठी एखादी रेडिमेड साइट असावी. तिची पूर्वतयारी म्हणून ही शब्दसूची उपयुक्त आहे.
गाथेतील अवघड शब्दांचा कोशही या सूचीवरून करता येईल. ज्ञानेश्वरी आणि दासबोधासाठी असे शब्दकोश आहेत, असे ऐकून आहे.
भववद्गीतेची एक सुपरसाइट आहे. भारतातील सर्व लिप्यांमध्ये ती साइट उघडते. वर्णमालेतील एक अक्षर निवडून आणि नंतर त्याने बनलेल्या यादीतल्या एखाद्या शब्दावर टिचकी मारली की गीतेतील तो शब्द असलेले सर्व श्लोक उघडतात. श्लोकाचा अर्थ बहुधा इंग्रजीत दिला असावा. तुकारामाच्या गाथेसाठी अशी सुपरसाइट बनवणे या सूचीमुळे शक्य व्हावे. --वाचक्नवी
+१
अनुमोदन