अपाचे पिग एक ऐसा प्लेटफॉर्म है जिसका उपयोग बड़े डेटा सेट का विश्लेषण करने के लिए किया जाता है। इसमें इन कार्यक्रमों का मूल्यांकन करने के लिए आधारभूत संरचना के साथ-साथ डेटा विश्लेषण कार्यक्रमों को व्यक्त करने के लिए एक उच्च स्तरीय भाषा शामिल है। सुअर की सबसे महत्वपूर्ण विशेषताओं में से एक यह है कि इसकी संरचना महत्वपूर्ण समांतरता के प्रति उत्तरदायी है।
पिग Hadoop प्लेटफॉर्म पर काम करता है, Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS) से डेटा लिखता है और डेटा पढ़ता है और एक या अधिक MapReduce जॉब्स के माध्यम से प्रोसेसिंग करता है। अपाचे पिग ओपन सोर्स के रूप में उपलब्ध है।
अपाचे पिग को पिग प्रोग्रामिंग लैंग्वेज या हडूप पिग के नाम से भी जाना जाता है।
अपाचे पिग के दो भाग हैं: पिग लैटिन भाषा और पिग इंजन। पिग लैटिन भाषा एक स्क्रिप्टिंग भाषा है जो उपयोगकर्ताओं को एक या एक से अधिक इनपुट से डेटा प्रवाह को पढ़ने और संसाधित करने के तरीके को स्पष्ट करने की अनुमति देती है, और जिस स्थान पर संग्रहीत किया जाना चाहिए।
पिग लैटिन के कुछ प्रमुख गुण इस प्रकार हैं:
- कार्यक्रम के लिए आसान: विभिन्न परस्पर डेटा परिवर्तनों से युक्त जटिल कार्य डेटा प्रवाह अनुक्रमों के रूप में स्पष्ट रूप से एन्कोड किए गए हैं। इससे उन्हें लिखना, समझना और बनाए रखना आसान हो जाता है।
- अनुकूलन संभावनाएं: जिस तरीके से कार्यों को एन्कोड किया गया है, वह सिस्टम को स्वत: निष्पादन का अनुकूलन करने की अनुमति देता है। यह उपयोगकर्ता को दक्षता के बजाय शब्दार्थ पर ध्यान देने की अनुमति देता है।
- एक्स्टेंसिबिलिटी: उपयोगकर्ताओं को विशेष प्रयोजन के प्रसंस्करण के लिए अपने कार्यों को बनाने की अनुमति है। पिग लैटिन में लिखे गए डेटा प्रवाह के निष्पादन के लिए पिग इंजन जिम्मेदार है। एक मानक रिलेशनल डेटाबेस मैनेजमेंट सिस्टम (RDBMS) डिज़ाइन की तरह, अपाचे पिग में डेटा प्रोसेसिंग करने वाले ऑपरेटरों के अलावा एक पार्सर, ऑप्टिमाइज़र और टाइप चेकर होते हैं। पिग में लेन-देन, डेटा कैटलॉग या डेटा स्टोरेज को सीधे संभालने या निष्पादन ढांचे को नियोजित करने की क्षमता शामिल नहीं है।
0 Comments