बैग ऑफ वर्ड्स (बीओडब्ल्यू) एक टेक्स्ट दस्तावेज़ को संख्याओं में परिवर्तित करने के लिए एक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) रणनीति है जिसका उपयोग कंप्यूटर प्रोग्राम द्वारा किया जा सकता है। BoW को अक्सर पायथन डिक्शनरी के रूप में लागू किया जाता है। शब्दकोश में प्रत्येक कुंजी एक शब्द पर सेट है, और प्रत्येक मान शब्द के प्रकट होने की संख्या पर सेट है।
मशीन लर्निंग एल्गोरिदम द्वारा उपयोग के लिए टेक्स्ट डेटा को परिवर्तित करने के लिए BoW मॉडल सबसे उपयोगी तरीकों में से एक है। इस संदर्भ में, पाठ शब्दों को टोकन के रूप में संदर्भित किया जाता है और एक वाक्य को शब्दों के बैग वेक्टर (संख्याओं की एक स्ट्रिंग) के रूप में प्रस्तुत करने की पूरी प्रक्रिया को टोकनाइजेशन के रूप में जाना जाता है।
BoW मॉडल इस बात से चिंतित हैं कि क्या कोई ज्ञात शब्द किसी दस्तावेज़ में होता है और कितनी बार होता है - न कि उस क्रम में जिसमें वह प्रकट होता है, न ही उसके संदर्भ में। BoW प्राकृतिक भाषा प्रसंस्करण, दस्तावेज़ों से सूचना पुनर्प्राप्ति और दस्तावेज़ वर्गीकरण में महत्वपूर्ण भूमिका निभाता है।
शब्दों का थैला कैसे काम करता है
डेटा प्री-प्रोसेसिंग चरण के दौरान टेक्स्ट से फीचर सेट निकालने के लिए BoW का उपयोग किया जाता है। रणनीति में किसी दस्तावेज़ को अलग-अलग शब्दों की सूची में तोड़ना और यह नोट करना शामिल है कि दस्तावेज़ में प्रत्येक शब्द का कितनी बार उपयोग किया गया है।
ऐसा माना जाता है कि 'बैग ऑफ वर्ड्स' नाम लोकप्रिय शब्द गेम स्क्रैबल से प्रेरित है। स्क्रैबल बैग में प्रत्येक टाइल का मूल्य इस बात से निर्धारित होता था कि 1938 में न्यूयॉर्क टाइम्स के पहले पन्ने पर एक विशिष्ट पत्र कितनी बार छपा था।
0 Comments