The world is turning local. Are you?
An Indian perspective to Unicode and Localisation

भूमंडलीकरण में आईटी का योगदान है यूनिकोड

यूनिकोड के माध्यम से पहली बार सूचना प्रौद्योगिकी पर अंग्रेजी की अनिवार्य निर्भरता से मुक्ति की संभावनाएं दिख रही हैं क्योंकि यह पद्धति एक आम कम्प्यूटर को विश्व की सभी भाषाओं में काम करने में सक्षम बना सकती है। जाहिर है, आईटी के क्षेत्र में भारतीय भाषाओं को विकसित होते देखने की आकांक्षा रखने वाले लोग यूनिकोड में छिपी संभावनाओं को देखकर उत्साहित हैं क्योंकि कई दशकों के बाद अब हम बिना अंग्रेजी जाने कंप्यूटर की क्षमताओं का प्रयोग करने की स्थिति में आ रहे हैं।

By Balendu Sharma Dadhich 25/08/06

सूचना प्रौद्योगिकी के क्षेत्र में विकास और सुधार की निरंतर प्रक्रिया चलती रहती है और इसी संदर्भ में पिछले कुछ वर्षों से सूचनाओं के भंडारण की एक आधुनिकतम पद्धति लोकप्रिय हो रही है जिसे यूनिकोड कहते हैं। यूनिकोड के माध्यम से पहली बार सूचना प्रौद्योगिकी पर अंग्रेजी की अनिवार्य निर्भरता से मुक्ति की संभावनाएं दिख रही हैं क्योंकि यह पद्धति एक आम कम्प्यूटर को विश्व की सभी भाषाओं में काम करने में सक्षम बना सकती है। जाहिर है, आईटी के क्षेत्र में भारतीय भाषाओं को विकसित होते देखने की आकांक्षा रखने वाले लोग यूनिकोड में छिपी संभावनाओं को देखकर उत्साहित हैं क्योंकि कई दशकों के बाद अब हम बिना अंग्रेजी जाने कंप्यूटर की क्षमताओं का प्रयोग करने की स्थिति में आ रहे हैं।

हालांकि यूनिकोड है तो सिर्फ डेटा के स्टोरेज संबंधी एनकोडिंग मानक, लेकिन इसके प्रयोग से कंप्यूटरों की कार्यप्रणाली और उनके इस्तेमाल के तौर-तरीकों में क्रांतिकारी बदलाव आ सकता है क्योंकि डेटा ही कंप्यूटरों के संचालन का केंद्र बिन्दु है। भले ही हम कंप्यूटर का किसी भी काम के लिए प्रयोग करें, मसलन लेखन कार्य के लिए, ध्वनि रिकॉर्डिंग के लिए या फिर वीडियो प्रोसेसिंग के लिए, हमें इसके लिए कंप्यूटर को या तो कुछ सूचनाएं प्रदान करनी पड़ती हैं (जैसे टाइपिंग के माध्यम से या रिकॉर्डिंग के जरिए) या फिर हम कुछ सूचनाएं कंप्यूटर से ग्रहण करते हैं (मसलन पहले से रिकार्डेड वीडियो को देखना या पहले से मौजूद फाइलों को खोलना)। इन्हें क्रमश: इनपुट और आउटपुट के रूप में जाना जाता है। इन दोनों प्रक्रियाओं में जिन सूचनाओं (डेटा) का प्रयोग होता है उसे कंप्यूटर पर अंकों के रूप में स्टोर किया जाता है क्योंकि वह सिर्फ अंकों की भाषा जानता है, और वह भी सिर्फ दो अंकों- 'शून्य' तथा 'एक' की भाषा। इन दो अंकों का भिन्न-भिन्न ढंग से पारस्परिक बाइनरी संयोजन कर अलग-अलग डेटा को कंप्यूटर पर रखा जा सकता है। मिसाल के तौर पर ०१०००००१ का अर्थ है अंग्रेजी का कैपिटल ए अक्षर और ००११०००१ से तात्पर्य है १ का अंक।

अक्षरों या पाठ्य सामग्री और कंप्यूटर पर स्टोर किए जाने वाले बाइनरी डिजिट्स के बीच तालमेल बिठाने वाली प्रणाली को एनकोडिंग कहते हैं। एनकोडिंग टेबल के माध्यम से कंप्यूटर यह तय करता है कि फलां बाइनरी कोड को फलां अक्षर या अंक के रूप में स्क्रीन पर प्रदर्शित किया जाए। किस एनकोडिंग में कितने बाइनरी अंक प्रयुक्त होते हैं, इसी पर उसकी क्षमता और नामकरण निर्भर होते हैं। उदाहरण के तौर पर अब तक लोकप्रिय एस्की एनकोडिंग को ७ बिट एनकोडिंग कहा जाता है क्योंकि इसमें हर संकेत या सूचना के भंडारण के लिए ऐसे सात बाइनरी डिजिट्स का प्रयोग होता है। एस्की एनकोडिंग के तहत इस तरह के १२८ अलग-अलग संयोजन संभव हैं यानी इस एनकोडिंग का प्रयोग करने वाला कम्प्यूटर १२८ अलग-अलग अक्षरों या संकेतों को समझ सकता है। अब तक कंप्यूटर इसी सीमा में बंधे हुए थे और इसीलिए भाषाओं के प्रयोग के लिए उन भाषाओं के फोंट पर सीमित थे जो इन संकेतों को कंप्यूटर स्क्रीन पर अलग-अलग ढंग से प्रदर्शित करते हैं। यदि अंग्रेजी का फोंट इस्तेमाल करें तो ०१०००००१ संकेत को ए अक्षर के रूप में दिखाया जाएगा। लेकिन यदि हिंदी फोंट का प्रयोग करें तो यही संकेत ग, च या किसी और अक्षर के रूप में प्रदर्शित किया जाएगा।

यूनिकोड एक १६ बिट की एनकोडिंग व्यवस्था है, यानी इसमें हर संकेत को संग्रह और अभिव्यक्त करने के लिए सोलह बाइनरी डिजिट्स का इस्तेमाल होता है। इसीलिए इसमें ६५५३६ (यूनिकोड 5.0.0 में लगभग 99000) अद्वितीय संयोजन संभव हैं। इसी वजह से यूनिकोड हमारे कंप्यूटर में सहेजे गए डेटा को फोंट की सीमाओं से बाहर निकाल देता है। इस एनकोडिंग में किसी भी अक्षर, अंक या संकेत को सोलह अंकों के अद्वितीय संयोजन के रूप में सहेज कर रखा जा सकता है। चूंकि किसी एक भाषा में इतने सारे अद्वितीय अक्षर मौजूद नहीं हैं इसलिए इस स्टैंडर्ड (मानक) में विश्व की लगभग सारी भाषाओं को शामिल कर लिया गया है। हर भाषा को इन हजारों संयोजनों में से उसकी वर्णमाला संबंधी आवश्यकताओं के अनुसार स्थान दिया गया है। इस व्यवस्था में सभी भाषाएं समान दर्जा रखती हैं और सहजीवी हैं। यानी यूनिकोड आधारित कम्प्यूटर पहले से ही विश्व की हर भाषा से परिचित है (बशर्ते ऑपरेटिंग सिस्टम में इसकी क्षमता हो)। भले ही वह हिंदी हो या पंजाबी, या फिर उड़िया। इतना ही नहीं, वह उन प्राचीन भाषाओं से भी परिचित है जो अब बोलचाल में इस्तेमाल नहीं होतीं, जैसे कि पालि या प्राकृत। और उन भाषाओं से भी जो संकेतों के रूप में प्रयुक्त होती हैं, जैसे कि गणितीय या वैज्ञानिक संकेत।

यूनिकोड के प्रयोग से सबसे बड़ा लाभ यह हुआ है कि एक कंप्यूटर पर दर्ज किया गया पाठ (टेक्स्ट) विश्व के किसी भी अन्य यूनिकोड आधारित कम्प्यूटर पर खोला जा सकता है। इसके लिए अलग से उस भाषा के फोंट का इस्तेमाल करने की अनिवार्यता नहीं है क्योंकि यूनिकोड केंद्रित हर फोंट में सिद्धांतत: विश्व की हर भाषा के अक्षर मौजूद हैं। कंप्यूटर में पहले से मौजूद इस क्षमता को सिर्फ एक्टिवेट (सक्रिय) करने की जरूरत है जो विंडोज एक्सपी, विंडोज २०००, विंडोज २००३, विंडोज विस्ता, मैक एक्स १०, रेड हैट लिनक्स, उबन्तु लिनक्स आदि ऑपरेटिंग सिस्टम्स के जरिए की जाती है। विश्व भाषाओं की यह उपलब्धता सिर्फ देखने या पढ़ने तक ही सीमित नहीं है। हिंदी जानने वाला व्यक्ति यूनिकोड आधारित किसी भी कम्प्यूटर में टाइप कर सकता है, भले ही वह विश्व के किसी भी कोने में क्यों न हो। सिर्फ हिंदी ही क्यों, एक ही फाइल में, एक ही फोंट का इस्तेमाल करते हुए आप विश्व की किसी भी भाषा में लिख सकते हैं। इस प्रक्रिया में अंग्रेजी कहीं भी आड़े नहीं आती। विश्व भर में चल रही भूमंडलीकरण की प्रक्रिया में सूचना प्रौद्योगिकी का यह अपना अलग ढंग का योगदान है।

यूनिकोड आधारित कम्प्यूटरों में हर काम किसी भी भारतीय भाषा में किया जा सकता है, बशर्ते ऑपरेटिंग सिस्टम या कंप्यूटर पर इन्स्टॉल किए गए सॉफ्टवेयर यूनिकोड व्यवस्था का पालन करें। मिसाल के तौर पर माइक्रोसॉट के ऑफिस संस्करण, सन माइक्रोसिस्टम्स के स्टार ऑफिस या फिर ओपनसोर्स पर आधारित ओपनऑफिस.ऑर्ग जैसे सॉफ्टवेयरों में आप शब्द संसाधक (वर्ड प्रोसेसर), तालिका आधारित सॉफ्टवेयर (स्प्रैडशीट), प्रस्तुति संबंधी सॉफ्टवेयर (पावर-प्वाइंट आदि) तक में हिंदी और अन्य भाषाओं का बिल्कुल उसी तरह प्रयोग कर सकते हैं जैसे कि अब तक अंग्रेजी में किया करते थे। यानी न सिर्फ टाइपिंग बल्कि शॉर्टिंग, इन्डेक्सिंग, सर्च, मेल मर्ज, हेडर-फुटर, फुटनोट्स, टिप्पणियां (कमेंट) आदि सब कुछ। कंप्यूटर पर फाइलों के नाम लिखने के लिए भी अब अंग्रेजी की जरूरत नहीं रह गई है। यदि आप अपनी फाइल का नाम हिंदी में 'मेरीफाइल.doc' भी रखना चाहें तो इसमें को अड़चन नहीं है। इंटरनेट पर भी अब यूनिकोड का मानक खूब लोकप्रिय हो रहा है और धीरे-धीरे लोग पुरानी एनकोडिंग व्यवस्था की सीमाओं से निकल कर यूनिकोड अपनाने की दिशा में बढ़ रहे हैं। गूगल, विकीपीडिया, एमएसएन आदि इसके उदाहरण हैं जिनमें हिंदी में काम करना उसी तरह संभव है जैसे कि अंग्रेजी में। यूनिकोड आधारित भारतीय भाषाओं की वेबसाइटों की विषय वस्तु (कॉन्टेंट) सर्च इंजनों द्वारा भी सहेजा जाता है यानी विश्व स्तर पर उनकी उपस्थिति और दायरा बढ़ता है। फिलहाल सर्च इंजनों पर हिंदी और अन्य भारतीय भाषाओं की वेबसाइटों की स्थिति दयनीय है क्योंकि हर वेबसाइट में अलग-अलग फोंट का इस्तेमाल होने के कारण सर्च इंजनों के लिए उनकी विषय वस्तु को समझना संभव नहीं है। यूनिकोड के प्रयोग से यही काम उनके लिए बहुत आसान हो जाता है।

यूनिकोड आधारित वेबसाइटों या पोर्टलों को देखने के लिए पाठक के पास संबंधित फोंट होने की अनिवार्यता भी नहीं है। अगर कोई वेबसाइट यूनिकोड में है तो उसे विश्व में किसी भी स्थान पर फोंट डाउनलोड किए बिना न सिर्फ देखा जा सकता है बल्कि उसके लेखों को अपने कंप्यूटर पर सहेजा भी जा सकता है। डाइनेमिक फोंट नामक टेक्नॉलॉजी के जरिए यह सुविधा सीमित अर्थों में पहले भी मौजूद थी लेकिन कंप्यूटर पर सहेजे गए लेख तभी पढ़े जा सकते थे यदि कंप्यूटर में संबंधित फोंट मौजूद हो। अब यह सीमा नहीं रही।

कंप्यूटर अब अंग्रेजी का मोहताज नहीं रहा और इसीलिए यूनिकोड ने उसकी सम्पूर्ण कार्यप्रणाली भी बदल दी है। डेटा के भंडारण के साथ-साथ उसकी प्रोसेसिंग और प्रस्तुति के तरीके भी बदल गए हैं। चूंकि यूनिकोड सोलह बिट की एनकोडिंग व्यवस्था है और विश्व के अधिकांश सॉफ्टवेयर पुरानी एनकोडिंग व्यवस्था को ध्यान में रखते हुए विकसित किए गए थे इसलिए ऐसे सॉफ्टवेयर यूनिकोड टेक्स्ट को समझ नहीं पाते। नतीजतन विश्व भर में सॉफ्टवेयरों को यूनिकोड समर्थन युक्त बनाने की प्रक्रिया चल रही है। किसी कंप्यूटर पर यूनिकोड का पूरा लाभ लेने के लिए न्यूनतम आवश्यकता है ताजातरीन विन्डोज, लिनक्स या मैक ऑपरेटिंग सिस्टम का प्रयोग। चूंकि इन ऑपरेटिंग सिस्टम्स के संसाधनों की अपनी जरूरतें हैं इसलिए बेहतर होगा कि संबंधित कम्प्यूटर कम से कम पी-४, २ गीगाहर्ट्ज श्रेणी का हो और कम से कम ४० जीबी हार्ड डिस्क और २५६ एमबी रैम (रैंडम एक्सेस मेमरी) से युक्त हो। इन्हीं कारणों से यूनिकोड की ओर प्रस्थान करने में कुछ आर्थिक बिंदुओं पर विचार करने की आवश्यकता पड़ सकती है।

जहां उपभोक्ता, वहां आईटीः हिंदी कैसे रहेगी पीछे?

कस्बों-गांवों तक कब पहुंचेगी 'असली' सूचना क्रांति?

हिंदी में अब बड़े आईटी प्रोजेक्ट लाने की तैयारी कीजिए

हिंदी में अब आईटी आधारित सेवाओं का दौर चले

वेबसाइट हिंदी में है तो डोमेन नेम अंग्रेजी में क्यों?

हिंदी को कीबोर्डों के झंझट से छुटकारा कब मिलेगा?

मीडिया में यूनिकोड वेबसाइटों तक सीमित क्यों रहे?

An effort to promote unhindered use of Indian languages in Information Technology
Copyright:
localisationlabs.com. 2006. Since: March, 2006.
A website by Balendu Sharma Dadhich.