हिन्दी शब्दतंत्र – शब्दकोश व साहित्य के डिजिटल अध्ययन का भविष्य ?

From Sinha, Reddy, Bhattacharya, Pandey, Kashyap. “Hindi Word Sense Disambiguation.” 2004.

आज मैंने प्रिंसटन यूनिवर्सिटी के Wordnet (वर्डनेट) प्रोग्राम पर वर्कशॉप में हिस्सा लिया ; वर्कशॉप में अनौपचारिक तौर पर वर्डनेट के उद्भव, विकास, संरचना तथा प्रयोग की चर्चा हुई । १९८५ में मनोविज्ञान के प्रोफ़ेसर जोर्ज आर्मिटाज मिल्लर के नेतृत्व में प्रिंसटन के कुछ विद्वानों ने वर्डनेट का निर्माण शुरु किया था । आज वर्डनेट केवल ईलेक्ट्रॉनिक शब्दकोश नहीं है, साथ ही साथ विद्वान वर्डनेट से शब्दों की संकल्पना, संबंध, संरचना, व रूप का विश्लेषन कर सकते हैं । एक सरल कम्प्यूटर कोड का प्रयोग करते हुए शब्दों का वर्गीकरण व शब्दों के परस्पर संबंधों को श्रेणीबद्ध किया जाता है ताकि लोग उनके शब्दार्थ-संबंधी नाते आसानी से समझ सकें । इसके कई फ़ायदे हैं — उदाहरण स्वरूप आप पर्यायवाची शब्द खोज सकते हैं, और इस मामले में वर्डनेट पर्याय-शब्दकोश से कई गुणा बेहतर है क्योंकि उसकी संरचना के तहत खोजते समय सिर्फ़ वे शब्द मिलते हैं जो आपके चुने हुए अर्थ से मेल खाते हैं । एक और बड़ा फ़ायदा यह है कि डिजिटल टेक्स्ट माइनिंग करने में वर्डनेट से बहुत सहायता मिलती है । (डिजिटल टेक्स्ट माइनिंग वह कार्य है जिसके द्वारा विद्वान कम्प्यूटर के सहारे पाठों में ख़ास चीज़ों की तलाश व विश्लेषन कर सकते हैं ।)

मुझे बहुत खुशी हुई जब मुझे पता चला कि हिन्दी का भी एक वर्डनेट है — हिन्दी शब्दतंत्र । पुष्पक भट्टाचार्य, देबश्री चक्रबर्ती, प्रभाकर पाण्डेय व आई. आई. टी. मुम्बई के अन्य विद्वान पिछले पंद्रह सालों से हिन्दी शब्दतंत्र डेटाबेस का निर्माण कर रहे हैं । इसके फलस्बरूप अब तक डेटाबेस में करीब एक लाख शब्दों का समावेश हो चुका है ।

वस्तुतः वर्डनेट ‘शब्दकोष’ नहीं है बल्कि एक लेक्सिकोग्राफ़िकल डेटाबेस, यानी एक शब्द संकल्पनाकोश है । उस में शब्दों का वर्गीकरण व संगठन समानार्थ के आधार पर किया गया है । अर्थात शब्द चार वर्ण में बांट दिये गये हैं — संज्ञा, विशेषण, क्रिया तथा क्रिया-विशेषण । फिर उनके परस्पर संबंधों का वर्गीकरण किया गया है ; वर्डनेट में ६ प्रकार के संबंध हैं —

synonymy (पर्यायवाची) यथा – पेड़, वृक्ष, दरख़्त
antonymy (विपर्याय) यथा – सूखा, गीला
hyponymy (अधःवाची ) यथा – पीपल > पेड़
meronymy (अंगवाची) यथा – शाखा > पेड़
troponymy (प्रकारवाची) यथा – दौड़ना > चलना
entailment (अपरिहार्यतावाची) सुनाना > सुनना

परन्तु शब्द-संरचना के मामले में हिन्दी भाषा अंग्रेज़ी भाषा से भिन्न है ; इसलिये आई.आई.टी. के विद्वानों ने हिन्दी शब्दतंत्र में कुछ अन्य चीज़ों का समावेश किया है जिनसे वे शब्दों के आपसी संबंध बेहतर तरीके से दर्शा सकें । वे हैं –

श्रेणीकरण (gradation) दो संकल्पनाओं के बीच के जो संबंध है उसके आधार पर एक तीसरी संकल्पना को दर्शाना । यथा – सुबह, दोपहर, शाम
प्रेरणार्थक क्रिया (causative verb) अंग्रेज़ी में प्रेरणार्थक क्रिया साधारणतः नहीं होती है, जबकि हिन्दी में उसका बहुधा प्रयोग होता है । हिन्दी शब्दतंत्र में मूल एवं प्रेरणार्थक क्रियाओं के मध्य संबंध दर्शाया जाता है । यथा – धुलना, धोना, धुलवाना

विद्वानों ने शब्द-भेदों के मध्य संबंध दर्शाने की तरतीब भी रचायी है । विशेषत ः- संज्ञा-पद एवं क्रिया-पद के मध्य संबंध, संज्ञा-पद एवं विशेषण-पद के मध्य संबंध, क्रिया-पद एवं क्रियाविशेषण-पद के मध्य संबंध ।

अभी भी हर वर्डनेट योजना के लिये अनेकार्थी शब्द बड़ी चुनौती खड़ी कर रहे हैं — डेटाबेस इसका पता नहीं कर सकता है कि एक शब्द के अनेक अर्थों में से कौन-कौनसे अर्थ अध्ययन करनेवाले के लिये प्रासंगिक हैं । (शब्द के सटीक अर्थ का पता संदर्भ से ही होता है ।) विद्वानों का भरोसा है कि भविष्य में इसका भी उपाय होगा ।

हिन्दी साहित्य (ख़ासकर पूर्व-औपनिवेशिककालीन हिन्दी साहित्य) के अध्ययन के लिये ऐसे साधन की बहुत ज़रुरत है । अगर हिन्दी शब्दतंत्र के पर्याय-समूह (synset) व सत्ता-मीमांसा (ontology) को और विकसित किया जाए, तो उसका प्रयोग बहुत सारी रचनाओं के विवेचनात्मक अध्ययन में किया जा सकेगा । हम इस तरह के प्रश्न पूछ सकेंगे जिनके उत्तर पाना फिलहाल असंभव है, जैसे “तुलसीदास तथा कबीर की शब्दावली में कितना अंतर है ?”, “रामचरितमानस में किन विशेषणों का प्रयोग सबसे ज़्यादा हुआ है, और इस से हम क्या निष्कर्ष निकाल सकते हैं ?”, “१९२० के दशक तथा १९३० के दशक की साहित्यिक भाषा में क्या-क्या फ़र्क नज़र आते हैं ?” इत्यादि ।

अभी हिन्दी शब्दतंत्र योजना के सामने सबसे बड़ी चुनौती है अच्छे शब्दकोश एवं ‘कारपोरा’ (रचनाओं की सामग्री) की कमी । इसका सामाधान करने के लिये अधिक लोगों का मिलकर काम करना ज़रुरी होगा । फिलहाल हिन्दी में ईलेक्ट्रॉनिक पाठों की बहुत बड़ी कमी है ; हम जो लोग हिन्दी साहित्यिक रचनाओं का अध्ययन करते हैं, हमको ऐसे ई-टेक्स्ट खुद बनाने पड़ेंगे । इन डिजिटल बुनियादी ईंटों के बिना विश्लेषण करने के ढांचे तैयार करना दूर की बात है ।

संदर्भ :-

Fellbaum, C. (2005). “WordNet and wordnets.” In Brown, Keith et al. (eds.), Encyclopedia of Language and Linguistics, Second Edition, Oxford: Elsevier, 665-670.
Miller, George A. “WordNet: A Lexical Database for English.” Communications of the ACM 38 No. 11, 1995: 39-41.
Yuri Bizzoni, Federico Boschetti, Riccardo Del Gratta, Harry Diakoffz, Monica Monachini, Gregory Crane. “The Making of Ancient Greek WordNet.” Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC-2014), Reykjavik, Iceland, May 26-31, 2014.
प्रभाकर पाण्डेय, लक्ष्मी कश्यप, पुष्पक भट्टाचार्य. “हिन्दी शब्दतन्त्र.”
Pushpak Bhattacharyya, IndoWordNet, Lexical Resources Engineering Conference 2010 (LREC 2010), Malta, May, 2010.
S. Jha, D. Narayan, P. Pande, P. Bhattacharyya, A WordNet for Hindi, International Workshop on Lexical Resources in Natural Language Processing, Hyderabad, India, January 2001.
Dipak Narayan, Debasri Chakrabarti, Prabhakar Pande and P. Bhattacharyya, An Experience in Building the Indo WordNet – a WordNet for Hindi, First International Conference on Global WordNet, Mysore, India, January 2002.
D. Narayan and P. Bhattacharyya, Using Verb Noun Association for Word Sense Disambiguation, International Conference on Natural Language Processing (ICON 2002), Mumbai, India, December 2002.
D. Chakrabarti and P. Bhattacharyya, Creation of English and Hindi Verb Hierarchies and their Application to Hindi WordNet Building and English-Hindi MT, Global WordNet Conference (GWC-2004), Czech Republic, January 2004.
Manish Sinha, Mahesh Kumar Reddy and Pushpak Bhattacharyya, An Approach towards Construction and Application of Multilingual Indo-WordNet, 3rd Global WordNet Conference (GWC 06), Jeju Island, Korea, January, 2006.
N. Verma and P. Bhattacharyya, Automatic Lexicon Generation through WordNet, Global WordNet Conference (GWC-2004), Czech Republic, January 2004.
N. Verma and P. Bhattacharyya, Automatic Generation of Multilingual Lexicon by using WordNet, International Conference on Convergence of Knowledge, Culture, Language and Information Technology. Library of Alexandria, Egypt, December 2003.
Manish Sinha, Mahesh Kumar Reddy, Prabhakar Pande, Laxmi Kashyap and Pushpak Bhattacharyya, Hindi Word Sense Disambiguation, International Symposium on Machine Translation, Natural Language Processing and Translation Support Systems, Delhi, India, November 2004.

Molly Des Jardin, केटी रावसन व मनप्रीत कौर को धन्यवाद ।

kagaaz

हिन्दी शब्दतंत्र – शब्दकोश व साहित्य के डिजिटल अध्ययन का भविष्य ?

टिप्पणी करे जवाब रद्द करें

Information

शॉर्ट लिंक

नेविगेशन

हाल के पोस्ट

पुरालेख

श्रेणी

मेटा

kagaaz

हिन्दी शब्दतंत्र – शब्दकोश व साहित्य के डिजिटल अध्ययन का भविष्य ?

इसे शेयर करे:

Related

टिप्पणी करे जवाब रद्द करें

Information

शॉर्ट लिंक

नेविगेशन

हाल के पोस्ट

पुरालेख

श्रेणी

मेटा