Tokenization - टोकनाइजेशन का क्या मतलब है?

टोकनाइजेशन स्ट्रिंग के अनुक्रम को शब्दों, कीवर्ड, वाक्यांशों, प्रतीकों और अन्य तत्वों जैसे टोकन नामक टुकड़ों में तोड़ने का कार्य है। टोकन व्यक्तिगत शब्द, वाक्यांश या संपूर्ण वाक्य भी हो सकते हैं। टोकनीकरण की प्रक्रिया में, विराम चिह्न जैसे कुछ अक्षर हटा दिए जाते हैं। टोकन पार्सिंग और टेक्स्ट माइनिंग जैसी अन्य प्रक्रिया के लिए इनपुट बन जाते हैं।

टोकनाइजेशन का उपयोग कंप्यूटर विज्ञान में किया जाता है, जहां यह शाब्दिक विश्लेषण की प्रक्रिया में एक बड़ी भूमिका निभाता है।

 

कुछ चरणों का पालन करके टोकन को अलग करने के लिए टोकनाइजेशन ज्यादातर सरल अनुमानों पर निर्भर करता है:

  • टोकन या शब्दों को रिक्त स्थान, विराम चिह्न या लाइन ब्रेक द्वारा अलग किया जाता है
  • आवश्यकता के आधार पर सफेद स्थान या विराम चिह्न शामिल हो भी सकते हैं और नहीं भी
  • सन्निहित स्ट्रिंग के सभी अक्षर टोकन का हिस्सा हैं। टोकन केवल सभी अल्फ़ा वर्णों, अल्फ़ान्यूमेरिक वर्णों या संख्यात्मक वर्णों से बने हो सकते हैं।

टोकन स्वयं भी विभाजक हो सकते हैं। उदाहरण के लिए, अधिकांश प्रोग्रामिंग भाषाओं में, पहचानकर्ताओं को बिना सफेद रिक्त स्थान के अंकगणितीय ऑपरेटरों के साथ रखा जा सकता है। हालाँकि ऐसा लगता है कि यह एक शब्द या टोकन के रूप में दिखाई देगा, भाषा का व्याकरण वास्तव में गणितीय ऑपरेटर (एक टोकन) को एक विभाजक के रूप में मानता है, इसलिए जब कई टोकन एक साथ इकट्ठे होते हैं, तब भी उन्हें गणितीय के माध्यम से अलग किया जा सकता है ऑपरेटर।

Post a Comment

0 Comments