आज मैंने प्रिंसटन यूनिवर्सिटी के Wordnet (वर्डनेट) प्रोग्राम पर वर्कशॉप में हिस्सा लिया ; वर्कशॉप में अनौपचारिक तौर पर वर्डनेट के उद्भव, विकास, संरचना तथा प्रयोग की चर्चा हुई । १९८५ में मनोविज्ञान के प्रोफ़ेसर जोर्ज आर्मिटाज मिल्लर के नेतृत्व में प्रिंसटन के कुछ विद्वानों ने वर्डनेट का निर्माण शुरु किया था । आज वर्डनेट केवल ईलेक्ट्रॉनिक शब्दकोश नहीं है, साथ ही साथ विद्वान वर्डनेट से शब्दों की संकल्पना, संबंध, संरचना, व रूप का विश्लेषन कर सकते हैं । एक सरल कम्प्यूटर कोड का प्रयोग करते हुए शब्दों का वर्गीकरण व शब्दों के परस्पर संबंधों को श्रेणीबद्ध किया जाता है ताकि लोग उनके शब्दार्थ-संबंधी नाते आसानी से समझ सकें । इसके कई फ़ायदे हैं — उदाहरण स्वरूप आप पर्यायवाची शब्द खोज सकते हैं, और इस मामले में वर्डनेट पर्याय-शब्दकोश से कई गुणा बेहतर है क्योंकि उसकी संरचना के तहत खोजते समय सिर्फ़ वे शब्द मिलते हैं जो आपके चुने हुए अर्थ से मेल खाते हैं । एक और बड़ा फ़ायदा यह है कि डिजिटल टेक्स्ट माइनिंग करने में वर्डनेट से बहुत सहायता मिलती है । (डिजिटल टेक्स्ट माइनिंग वह कार्य है जिसके द्वारा विद्वान कम्प्यूटर के सहारे पाठों में ख़ास चीज़ों की तलाश व विश्लेषन कर सकते हैं ।)
मुझे बहुत खुशी हुई जब मुझे पता चला कि हिन्दी का भी एक वर्डनेट है — हिन्दी शब्दतंत्र । पुष्पक भट्टाचार्य, देबश्री चक्रबर्ती, प्रभाकर पाण्डेय व आई. आई. टी. मुम्बई के अन्य विद्वान पिछले पंद्रह सालों से हिन्दी शब्दतंत्र डेटाबेस का निर्माण कर रहे हैं । इसके फलस्बरूप अब तक डेटाबेस में करीब एक लाख शब्दों का समावेश हो चुका है ।
वस्तुतः वर्डनेट ‘शब्दकोष’ नहीं है बल्कि एक लेक्सिकोग्राफ़िकल डेटाबेस, यानी एक शब्द संकल्पनाकोश है । उस में शब्दों का वर्गीकरण व संगठन समानार्थ के आधार पर किया गया है । अर्थात शब्द चार वर्ण में बांट दिये गये हैं — संज्ञा, विशेषण, क्रिया तथा क्रिया-विशेषण । फिर उनके परस्पर संबंधों का वर्गीकरण किया गया है ; वर्डनेट में ६ प्रकार के संबंध हैं —
परन्तु शब्द-संरचना के मामले में हिन्दी भाषा अंग्रेज़ी भाषा से भिन्न है ; इसलिये आई.आई.टी. के विद्वानों ने हिन्दी शब्दतंत्र में कुछ अन्य चीज़ों का समावेश किया है जिनसे वे शब्दों के आपसी संबंध बेहतर तरीके से दर्शा सकें । वे हैं –
विद्वानों ने शब्द-भेदों के मध्य संबंध दर्शाने की तरतीब भी रचायी है । विशेषत ः- संज्ञा-पद एवं क्रिया-पद के मध्य संबंध, संज्ञा-पद एवं विशेषण-पद के मध्य संबंध, क्रिया-पद एवं क्रियाविशेषण-पद के मध्य संबंध ।
अभी भी हर वर्डनेट योजना के लिये अनेकार्थी शब्द बड़ी चुनौती खड़ी कर रहे हैं — डेटाबेस इसका पता नहीं कर सकता है कि एक शब्द के अनेक अर्थों में से कौन-कौनसे अर्थ अध्ययन करनेवाले के लिये प्रासंगिक हैं । (शब्द के सटीक अर्थ का पता संदर्भ से ही होता है ।) विद्वानों का भरोसा है कि भविष्य में इसका भी उपाय होगा ।
हिन्दी साहित्य (ख़ासकर पूर्व-औपनिवेशिककालीन हिन्दी साहित्य) के अध्ययन के लिये ऐसे साधन की बहुत ज़रुरत है । अगर हिन्दी शब्दतंत्र के पर्याय-समूह (synset) व सत्ता-मीमांसा (ontology) को और विकसित किया जाए, तो उसका प्रयोग बहुत सारी रचनाओं के विवेचनात्मक अध्ययन में किया जा सकेगा । हम इस तरह के प्रश्न पूछ सकेंगे जिनके उत्तर पाना फिलहाल असंभव है, जैसे “तुलसीदास तथा कबीर की शब्दावली में कितना अंतर है ?”, “रामचरितमानस में किन विशेषणों का प्रयोग सबसे ज़्यादा हुआ है, और इस से हम क्या निष्कर्ष निकाल सकते हैं ?”, “१९२० के दशक तथा १९३० के दशक की साहित्यिक भाषा में क्या-क्या फ़र्क नज़र आते हैं ?” इत्यादि ।
अभी हिन्दी शब्दतंत्र योजना के सामने सबसे बड़ी चुनौती है अच्छे शब्दकोश एवं ‘कारपोरा’ (रचनाओं की सामग्री) की कमी । इसका सामाधान करने के लिये अधिक लोगों का मिलकर काम करना ज़रुरी होगा । फिलहाल हिन्दी में ईलेक्ट्रॉनिक पाठों की बहुत बड़ी कमी है ; हम जो लोग हिन्दी साहित्यिक रचनाओं का अध्ययन करते हैं, हमको ऐसे ई-टेक्स्ट खुद बनाने पड़ेंगे । इन डिजिटल बुनियादी ईंटों के बिना विश्लेषण करने के ढांचे तैयार करना दूर की बात है ।
संदर्भ :-
Molly Des Jardin, केटी रावसन व मनप्रीत कौर को धन्यवाद ।