तुकाराम गाथा शब्दसूची

तुकारामाच्या गाथेतले सर्व शब्द एकत्र करून त्याची एक सूची मी बनविली आहे. ती ओपन ऑफिसच्या रायटरमध्ये व एस. क्यू. एल. मध्ये उघडता येईल.
http://code.google.com/p/tukaram/downloads/list

खर्पे यांच्या वेबसाईटवरील गाथा या प्रयोगापुरती प्रमाण मानली आहे.
http://www.khapre.org/portal/url/mr/books/tukaram/index.aspx

काही निष्कर्ष :
अ) सुमारे ४,५०० अभंगात साधारण ३०,००० शब्द वापरले गेले आहेत.

ब) १ ते ४ अक्षरे असलेले शब्द आहेत २७,४७९ आणि ५ पेक्षा जास्त अक्षरे असलेले शब्द आहेत फक्त २,६५३ अल्पाक्षरत्व हे तुकारामाच्या साहित्यातील प्रासादिकतेचे एक गमक आहे हे आता आकडेवारीने सिद्ध झाले आहे असे समजायला हरकत नाही.

क) काही मोठे मोठे शब्द देखील वापरले गेले आहेत, पण ते बहुतांशी २-३ छोट्या शब्दांना जोडून बनविलेले दिसतात.

संतमहंतसद्धिहरिदासदाटणी
रामकृष्णहरिविठ्ठलकेशवा
उत्तममध्यमकनिष्ठाचें
जन्ममृत्युस्वप्नांसारिखें
स्त्रीभ्रतारसंवाद
पुत्रपत्नीबंधूवरी
अगिस्तब्राम्हणा
अग्निकर्पुराच्या
अनघडसिद्धाच्या
कार्यकारणासरिसें
कोटिगोहत्यापातक
गोपाळगोपिकारमणा
चक्रपाणीवांचूनियां
धातुद्रव्यइच्छा
नटनाट्यकौशल्य
नारदतुंबरसहित
पद्मनाभदरुषणें

भाषेच्या व संतसाहित्याच्या अभ्यासकांना याचा उपयोग होईल असे वाटते.

Comments

चांगली यादी

यादी उपयुक्त आहे. काही तांत्रिक बाबींची माहिती दिल्यास उत्तम. (उदा. कशा प्रकारे यादी तयार केली वगैरे)

आणखी एक. त्या दुव्यावरुन संकेतस्थळाच्या मालकाचे नाव खापरे असावे असे वाटते. खर्पे नाही.


बोलो जाता बरळ, करिसी ते नीट। नेली लाज धीट, केलो देवा॥

नेमकी शब्दसंख्या

अरुण भालेराव यांनी वर्ड काऊंटचा आधार घेऊन एकूण शब्दसंख्या दोन लाख असल्याचा निष्कर्ष काढला. पण त्यात सर्व शब्द होते. (डुप्लीकेट सकट)

http://e-tuka.blogspot.com/2010/03/blog-post_1513.html

वर दिलेली पोस्ट वाचून मला गाथेतली नेमकी शब्दसंख्या शोधायची कल्पना सुचली.
शब्दसंपदा या शुद्धलेखनासाठी बनविलेला प्रोग्रामच या प्रयोगासाठी वापरला आहे.

एखाद्या अभ्यासकाने ही १५० पाने वाचून यातील वैशिष्ट्यपूर्ण शब्द वेगळे काढले तर तो एक स्वतंत्र लेखाचा विषय होईल.

ज्ञानेश्वरी

श्री. शंतनु यांना विनंती की त्यांनी अशी शब्दसूची ज्ञानेश्वरी साठी पण बनवावी. खूपच उपयुक्त होईल.
चन्द्रशेखर

ज्ञानेश्वरीतील शब्द

ज्ञानेश्वरीतील शब्दांचा अभ्यास आपल्याला खालील दुव्यावर पाहायला मिळेल.

http://code.google.com/p/dnyaneshwari/

शब्दसंख्या (डुप्लीकेट शब्द व गीतेतील श्लोकांची शब्दसंख्या धरून) : १,१४,२१९

युनिक शब्दसंख्या ३४,३१७

एखादा शब्द (उदा. सुखपहांट) नेमका कुठे आला आहे हे पहाण्यासाठी गुगलची मदत घेता येईल.
सुखपहांट site:khapre.org

असा शोध घेतला की खाली दिलेले पान मिळते.

http://tinyurl.com/6cbcd8u

मूळ शब्द

अनाथ, अनाथा, अनाथां या शब्दांबरोबरच त्याची विविध रुपे देखील या यादीत पाहायला मिळतात. जसे.. अनाथांचा, अनाथांची, अनाथांचे, अनाथांच्या. तेंव्हा फक्त मूळ शब्द पाहायला हवे असतील, तर एक नवीन फाईल येथे उपलब्ध केली आहे. ही यादी कमी पानांची (१३२) व म्हणून जास्त सोपी वाटेल. ही यादी पी.डी.एफ. फॉर्मेटमध्ये उपलब्ध आहे.

http://code.google.com/p/tukaram/downloads/list

सध्या फक्त 'चा', 'ची', 'चे', 'च्या' असे प्रत्यय शेवटी आलेले शब्द काढले आहेत. वाचकांनी मार्गदर्शन केले तर त्यात सुधारणा करीन.
हे कसे केले ते खाली दिले आहे. एस्. क्यू. एल. ही भाषा प्रणाली ज्याला येते त्याला त्यातील तांत्रिक बाबी सहज समजू शकतील.

http://code.google.com/p/tukaram/wiki/mool_shabda
_____

यात प्रत्येक शब्द किती वेळा आला आहे ते समजत नाही. कोणी असा प्रयोग केला तर त्याचा जास्त फायदा होईल असे वाटते. म्हणजे "विठ्ठला" हा शब्द ५०० वेळा तर "पांडुरंगा" हा शब्द ४०० वेळा आला आहे हे समजले तर शब्दांची घनता आणि वजन समजायला मदत होईल.

एखादा शब्द कुठे आला आहे ते पाहण्यासाठी मी खालील युक्ती वापरतो. गुगलमध्ये लिहितो...
पखाळा site:khapre.org
आता गुगलने सांगितले की हा शब्द आलेला अभंग आहे १८७२. पण ही युक्ती नेहमीच कामी येईल असे नाही. कोणी संगणक तंत्रज्ञ पुढे येऊन जर शब्दांचे नंबरवार सॉर्टींग करू शकला तर सोन्याहून पिवळे!

पहिल्या शंभर अभंगांची शब्दवार घनता

गाथेतील पहिले १०० अभंग घेऊन शब्दांची संख्या मोजण्याचा प्रयत्न केला. त्यासाठी खाली दिलेले खापरे यांच्या प्रतीचा आधार घेतला आहे.

http://tinyurl.com/25po7om

अपेक्षेप्रमाणे "तुका म्हणे" हे दोन शब्द १-२ अभंग वगळता सर्व अभंगात आले आहेत. त्यानंतर जे शब्द अधिक प्रमाणात वापरले गेले आहेत, ते आहेत...

| नाहीं | 60 |
| न | 57 |
| तें | 32 |
| आतां | 26 |
| चि | 22 |
| काय | 21 |
| मज | 19 |
| ते | 17 |
| आम्ही | 17 |

ही आकडेमोड कशी केली ते सविस्तर लिहीले आहे गुगल कोडच्या या पानावर...

http://code.google.com/p/tukaram/wiki/Popular_Words

आता सर्व अभंग एकत्र करून हा उपक्रम राबवून त्याचे निष्कर्ष वेळ मिळेल तसे प्रसिद्ध करीन.

प्रसिद्ध शब्दसूची

सर्व अभंगात मिळून तुका शब्द ४४३६ वेळा आला आहे. हा आकडा एकूण अभंग संख्येशी मेळ खातो. म्हणजे ही आकडेमोड बरोबर असावी.

तुका 4436
म्हणे 4331

देवा 657
देव 513
पांडुरंगा 266
नारायण 243
नारायणा 230
विठ्ठल 225
हरी 205

यात देवा, देव, पांडुरंगा, नारायण, नारायणा, विठ्ठल व हरी हे देव विषयक शब्द मिळाले. यात अर्थात त्यांची रूपे नाहीत. म्हणून त्यासाठी वेगळी क्वेरी वापरली.

यात सुमारे ५० शब्द मिळाले ज्यात विठ्ठल हा शब्द आला आहे. त्यावरून खाली दिलेली रूपे अधिक प्रसिद्ध असावीत असे वाटते.
विठ्ठल, विठ्ठला, विठ्ठलें, विठ्ठलाचे, विठ्ठलीं, विठ्ठलपायीं, विठ्ठलेंविण

अधिक माहिती गुगल कोडच्या या पानावर वाचता येईल.
http://code.google.com/p/tukaram/wiki/Popular_Words_part2

तसेच ज्यांना अशी आकडेमोड स्वतः करून पाहण्यात रस असेल त्यांनी तेथील डाउनलोड विभागाला भेट द्यायला हरकत नाही.

स्तुत्य उपक्रम

स्तुत्य उपक्रम. शब्दवापरावरून, त्यांच्या फ्रिक्वेन्सीवरून संशोधकांना काही निष्कर्ष काढता येतील. तुम्ही जो वानगीदाखल प्रयत्न केला आहे तो मात्र पुरेसा समाधानकारक वाटला नाही.

अल्पाक्षरत्व हे तुमच्या लेखनात देखील आढळतं. तुमच्या याच लेखाच्या, खाली उद्धृत केलेल्या उताऱ्यात ५५ शब्दांत (आकडे वगळून) फक्त ७ शब्द पाच अक्षरं वा मोठे आहेत. तुकारामाच्या नऊ टक्क्यांपेक्षा ते फारसं वेगळं नाही. जर तुम्हाला हेच अभंग स्वरूपात लिहायचं झालं असतं तर मोठे शब्द याहीपेक्षा कमी वापरले असतेत असं वाटतं.

काही निष्कर्ष :
अ) सुमारे ४,५०० अभंगात साधारण ३०,००० शब्द वापरले गेले आहेत.

ब) १ ते ४ अक्षरे असलेले शब्द आहेत २७,४७९ आणि ५ पेक्षा जास्त अक्षरे असलेले शब्द आहेत फक्त २,६५३ अल्पाक्षरत्व हे तुकारामाच्या साहित्यातील प्रासादिकतेचे एक गमक आहे हे आता आकडेवारीने सिद्ध झाले आहे असे समजायला हरकत नाही.

क) काही मोठे मोठे शब्द देखील वापरले गेले आहेत, पण ते बहुतांशी २-३ छोट्या शब्दांना जोडून बनविलेले दिसतात.

माझा मुद्दा असा आहे की 'आकडेवारीने सिद्ध झाले' हे म्हणण्यासाठी अधिक कष्ट घ्यावे लागतात. पण त्यासाठी अशी सूची असणं ही पहिली, कठीण पायरी आहे.

राजेश

द्रौपदीचे सत्त्व माझ्या लाभु दे भाषा-शरीरा
भावनेला येउं दे गा शास्त्र-काट्याची कसोटी

भगवद्गीतेची सुपरसाइट.

तुकारामाच्या गाथेत वापरलेल्या शब्दांचा अर्थ आणि ते शब्द गाथेत कुठे आले आहेत हे समजण्यासाठी एखादी रेडिमेड साइट असावी. तिची पूर्वतयारी म्हणून ही शब्दसूची उपयुक्त आहे.
गाथेतील अवघड शब्दांचा कोशही या सूचीवरून करता येईल. ज्ञानेश्वरी आणि दासबोधासाठी असे शब्दकोश आहेत, असे ऐकून आहे.
भववद्गीतेची एक सुपरसाइट आहे. भारतातील सर्व लिप्यांमध्ये ती साइट उघडते. वर्णमालेतील एक अक्षर निवडून आणि नंतर त्याने बनलेल्या यादीतल्या एखाद्या शब्दावर टिचकी मारली की गीतेतील तो शब्द असलेले सर्व श्लोक उघडतात. श्लोकाचा अर्थ बहुधा इंग्रजीत दिला असावा. तुकारामाच्या गाथेसाठी अशी सुपरसाइट बनवणे या सूचीमुळे शक्य व्हावे. --वाचक्‍नवी

+१

अनुमोदन

 
^ वर