टेक्स्ट डेटा माइनिंग में मूल्यवान संरचित जानकारी प्राप्त करने के लिए टेक्स्ट दस्तावेज़ या संसाधन को खंगालना शामिल है। इसके लिए परिष्कृत विश्लेषणात्मक उपकरणों की आवश्यकता होती है जो अपेक्षाकृत कच्चे या असंरचित प्रारूप माने जाने वाले विशिष्ट कीवर्ड या प्रमुख डेटा बिंदुओं को इकट्ठा करने के लिए पाठ को संसाधित करते हैं।
टेक्स्ट डेटा माइनिंग को टेक्स्ट माइनिंग या टेक्स्ट एनालिटिक्स के रूप में भी जाना जाता है।
टेक्स्ट डेटा माइनिंग में, इंजीनियर सिस्टम यह निर्धारित करने के लिए टैक्सोनॉमी और लेक्सिकल विश्लेषण जैसी चीजों का उपयोग करते हैं कि टेक्स्ट दस्तावेज़ के कौन से हिस्से खनन किए गए डेटा के रूप में मूल्यवान हैं। सांख्यिकीय मॉडल आमतौर पर उपयोगी होते हैं, और सिस्टम यह निर्धारित करने के लिए अनुमान या एल्गोरिथम अनुमान का भी उपयोग कर सकते हैं कि पाठ के कौन से हिस्से महत्वपूर्ण हैं। अन्य नियंत्रण प्रणालियों में टैगिंग और कीवर्ड विश्लेषण शामिल हैं, जहां उपकरण विशिष्ट उचित संज्ञा या अन्य टैग और कीवर्ड की तलाश करते हैं ताकि यह पता लगाया जा सके कि किस बारे में लिखा जा रहा है।
टेक्स्ट माइनिंग के एक अन्य अनूठे घटक को अक्सर भावना विश्लेषण कहा जाता है। भावना विश्लेषण में, जो आम तौर पर सांख्यिकीय विश्लेषण से कहीं अधिक कठिन होता है, विश्लेषणात्मक उपकरण बहुत ही व्यक्तिपरक और सहज स्तर पर लिखित पाठ के पीछे की मनोदशा या भावना और जिसे वह संबोधित कर रहा है उसके अन्य पहलुओं का पता लगाने की कोशिश करते हैं। कृत्रिम बुद्धिमत्ता उपकरणों के उद्भव के साथ, भावना विश्लेषण में बहुत प्रगति हुई है, जैसे कि आधुनिक टेक्स्ट डेटा माइनिंग केवल मात्रात्मक संदर्भ एकत्र करने से कहीं अधिक है और इसमें नए और अनूठे तरीकों का पता लगाने के लिए टेक्स्ट माइनिंग में उच्च-स्तरीय वैचारिक मॉडल लाना शामिल है। मूल्यवान डेटा एकत्र करने के लिए.
0 Comments