कर्टोसिस और लॉजिस्टिक रिग्रेशन भविष्यवाणी में महारत: एक सांख्यिकी गाइड
परिचय
आधुनिक सांख्यिकी और डेटा विश्लेषण के गतिशील क्षेत्र में, डेटा वितरण और पूर्वानुमान मॉडलिंग के बारीक बिंदुओं को समझना अनिवार्य है। दो अवधारणाएँ विशेष रूप से महत्वपूर्ण हैं: कुर्टोसिस और लॉजिस्टिक रीग्रेशन पूर्वानुमान। यह गहन गाइड आपको इन विषयों की मूल बातों के माध्यम से ले जाएगी, उनके वास्तविक दुनिया के अनुप्रयोगों में प्रासंगिकता को स्पष्ट करेगी, और दिखाएगी कि कैसे ये परस्पर जुड़ते हैं ताकि सटीक, विश्वसनीय निर्णय-निर्माण को बढ़ावा मिले। चाहे आप वित्त, स्वास्थ्य देखभाल, विनिर्माण में काम करते हों, या बस डेटा के प्रति जुनूनी हों, यह लेख आपको इन महत्वपूर्ण सांख्यिकी उपकरणों के mastering के लिए कार्रवाई योग्य अंतर्दृष्टियाँ और व्यावहारिक ज्ञान प्रदान करने के लिए डिज़ाइन किया गया है।
कुर्तोसिस का डिकोडिंग: प्रसार में पूंछदारी का संकेतक
कुर्तोसिस एक सांख्यिकीय मैट्रिक है जो हमें एक वितरण की पूँछों की चरमता को समझने में मदद करता है। आमतौर पर ज्ञात मापों जैसे कि माध्य और विभिन्नता के विपरीत, कुर्तोसिस विशेष रूप से यह संकेत करता है कि एक डेटा सेट चरम मान या आउट्लायर उत्पन्न करने के लिए कितना प्रवृत्त है। मौलिक रूप में, कुर्तोसिस वितरण के केंद्र से परे देखता है और किनारों पर व्यवहार पर ध्यान केंद्रित करता है।
कुर्तोसिस क्या मापता है?
कर्टोसिस एक संभाव्यता वितरण की पूंछों की मोटाई का मात्रात्मक माप प्रदान करता है। एक सामान्य वितरण, जिसे मेसोकर्टिक भी कहा जाता है, का कर्टोसिस मान 3 होता है जब इसे उसके पारंपरिक रूप में मापा जाता है (या 0 जब इसे अत्यधिक कर्टोसिस के रूप में समायोजित किया जाता है)। इसके विपरीत, एक लेप्टोकर्टिक वितरण का मान 3 से अधिक होता है, जो मोटी पूंछों और चरम विचलनों के लिए उच्च प्रवृत्ति को इंगित करता है। इसके विपरीत, एक प्लेटोकर्टिक वितरण कर्टोसिस मान 3 से कम प्रदर्शित करता है, जो पतली पूंछों और कम, कम गंभीर अपवादों को सुझाव देता है।
कुर्टोसिस के वास्तविक विश्व अनुप्रयोग
कुर्तोसिस के महत्व को सही तरीके से समझने के लिए, इसके वित्तीय जोखिम प्रबंधन में अनुप्रयोग पर विचार करें। निवेशक अक्सर स्टॉक्स या पोर्टफोलियोज़ के रिटर्न वितरण का विश्लेषण करते हैं। यदि वितरण में उच्च कुर्तोसिस है, तो इसका अर्थ है अचानक, कट्टर बाजार घटनाओं का अधिक जोखिम—या महत्वपूर्ण लाभ या खोइयां। यह समझ जोखिम प्रबंधन रणनीतियों को अपनाने की प्रेरणा देती है ताकि संभावित वित्तीय झटकों को कम किया जा सके।
इसी तरह, manufacturing में गुणवत्ता नियंत्रण के दौरान, kurtosis उत्पादन असामान्यताओं पर प्रकाश डाल सकता है। यदि उत्पादों के मापन डेटा जैसे किसी घटक का माप उच्च kurtosis प्रदर्शित करता है, तो यह एक असंगत उत्पादन प्रक्रिया का संकेत दे सकता है जो दोषपूर्ण वस्तुओं का अधिक उत्पादन कर रही है। ऐसे पैटर्न को जल्दी पहचानने से निर्माताओं को अनुकूलित करने और प्रक्रिया की कमजोरियों पर काबू पाने में मदद मिलती है।
कुर्तोसिस विश्लेषण में इनपुट और आउटपुट
कर्टोसिस विश्लेषण के लिए प्राथमिक इनपुट एक डेटासेट है जो अवलोकनों की एक श्रृंखला का प्रतिनिधित्व करता है। ये प्रतिशत या यूएसडी में मापी गई वित्तीय लाभ से लेकर मीटर या फीट जैसी भौतिक मापों तक भिन्न हो सकते हैं। आउटपुट बिना इकाई के रहता है और यह सामान्य वितरण के प्रति एक तुलनात्मक मान का प्रतिनिधित्व करता है। यह एक चेतावनी या मान्यता संकेत के रूप में कार्य करता है: एक अत्यधिक उच्च या निम्न कर्टोसिस मान संभावित बहिष्कृतों पर ध्यान केंद्रित करता है जो आगे के सांख्यिकीय मॉडलिंग को प्रभावित कर सकते हैं।
लॉजिस्टिक पुनरावृत्ति भविष्यवाणी का अवलोकन
लॉजिस्टिक регрессिया एक मजबूत तकनीक है जो कई क्षेत्रों में द्विआधारी परिणामों की भविष्यवाणी के लिए उपयोग की जाती है। यह लीनियर रिग्रेशन के विपरीत— जो निरंतर मानों की भविष्यवाणी करता है— एक रैखिक संयोजन को प्रक्षेपण चर के एक प्रायिकता स्कोर में परिवर्तित करता है। इस प्रायिकता को तब श्रेणीगत भविष्यवाणियों में अनुवादित किया जा सकता है। लॉजिस्टिक रिग्रेशन की शक्ति इसके विभिन्न डेटा सेटों को संभालने और डेटा में चरम मानों के होते हुए भी महत्वपूर्ण अंतर्दृष्टियाँ प्रदान करने में निहित है।
लॉजिस्टिक फ़ंक्शन: इनपुट को संभाव्यता में परिवर्तित करना
लॉजिस्टिक फ़ंक्शन एक S-आकार की वक्र है जो किसी भी वास्तविक संख्या को 0 और 1 के बीच के मान में परिवर्तित करती है। इसकी सबसे सरल गणितीय रूप में, यह फ़ंक्शन इस प्रकार दर्शाया गया है:
P(Y=1) = 1 / (1 + exp(-z))
इस संदर्भ में, z इनपुट चर के एक रैखिक संयोजन का प्रतिनिधित्व करता है। एक एकल भविष्यवक्ता परिदृश्य के लिए, इसे इस प्रकार चित्रित किया जा सकता है:
z = अवरोध + गुणांक × विशेषता मान
अंतिम आउटपुट, लॉजिस्टिक फंक्शन लागू करने के बाद, एक संभावना है जो 0 और 1 के बीच होती है। 0 के करीब मान यह संकेत करते हैं कि घटना के होने की संभावना कम है, जबकि 1 के करीब मान उच्च संभावना की ओर संकेत करते हैं।
लॉजिस्टिक रिग्रेशन में मुख्य इनपुट
लॉजिस्टिक रिग्रेशन मॉडल के लिए तीन प्रमुख इनपुट पैरामीटर होते हैं:
- अवरोधयह कोई इकाई नहीं वाला स्थिरांक तब की स्थिति की संभावना स्थापित करता है जब सभी पूर्वानुमानकर्ता शून्य होते हैं।
- गुणांकयह पैरामीटर, जो इकाई रहित है, मॉडल की संवेदनशीलता को फीचर मान में परिवर्तनों के प्रति निर्धारित करता है।
- विशेषता मानयह इनपुट उस मापनीय चर को दर्शाता है जो भविष्यवाणी को प्रभावित करता है। संदर्भ के आधार पर, इसे विभिन्न इकाइयों में मापा जा सकता है (जैसे मौद्रिक मूल्यों के लिए USD, उम्र के लिए वर्षों, या भौतिक आयामों के लिए मीटर)।
सभी चीजों को एक साथ लाना: कर्टोसिस और लॉजिस्टिक रिग्रेशन को लिंक करना
हालाँकि यह प्रतीत हो सकता है कि कर्टोसिस और लॉजिस्टिक रिग्रेशन सांख्यिकी विश्लेषण के पूरी तरह से अलग पहलुओं को संबोधित करते हैं, उनके संबंध को समझना आपकी विश्लेषणात्मक क्षमताओं को महत्वपूर्ण रूप से बढ़ा सकता है। लॉजिस्टिक रिग्रेशन मॉडल लागू करने से पहले, आपके डेटा के वितरणों का प्रारंभिक विश्लेषण करना महत्वपूर्ण है। उदाहरण के लिए, अगर एक पूर्वानुमानकर्ता चर अत्यधिक कर्टोसिस को प्रदर्शित करता है, तो यह सुझाव दे सकता है कि चर में ऐसे आउटलेयर मान शामिल हैं जो मॉडल पर अनुचित प्रभाव डाल सकते हैं। ऐसे मामलों में, डेटा सामान्यीकरण या चरम मानों को हटाना आवश्यक हो सकता है ताकि विकृत भविष्यवाणियों से बचा जा सके।
यह सक्रिय दृष्टिकोण, कर्टोसिस विश्लेषण को लॉजिस्टिक प्रतिगमन मॉडलिंग के साथ जोड़कर, डेटा की अधिक संतुलित, मजबूत और विश्वसनीय व्याख्या की ओर ले जा सकता है। यह डेटा विज्ञान के सामयिक स्वभाव का भी उदाहरण है: भविष्यवाण्य विश्लेषण में कूदने से पहले अपने डेटा को गहराई से समझना अधिक सटीक और कार्यशील परिणामों को सुनिश्चित करता है।
लॉजिस्टिक रिग्रेशन पूर्वानुमान प्रक्रिया का विश्लेषण
इस गाइड में प्रदान किया गया लॉजिस्टिक रिग्रेशन भविष्यवाणी फॉर्मूला कच्चे नंबरों को अर्थपूर्ण संभावनाओं में अनुवाद करने के लिए एक संक्षिप्त लेकिन शक्तिशाली उपकरण है। इसे समझाने के लिए:
- इनपुट मान्यताकार्य यह सुनिश्चित करने के लिए शुरू होता है कि प्रदान किए गए सभी इनपुट संख्या हैं। यह एक महत्वपूर्ण चरण है, यह सुनिश्चित करते हुए कि अपेक्षित इनपुट प्रकारों से किसी भी विचलन को तुरंत सही त्रुटि संदेश लौटाकर चिह्नित किया जाए।
- रेखीय संयोजन की गणनाअगला चरण मूल्य की गणना करना है z सरल समीकरण z = इंटरसेप्ट + गुणांक × फीचर मान का उपयोग करते हुए। यह रैखिक संयोजन विभिन्न मानकों के परिणाम पर संयुक्त प्रभाव को समाहित करता है।
- संभावना रूपांतरणअंत में, लॉजिस्टिक फ़ंक्शन गणना की गई मान को एक ऐसी संभावना में बदल देता है जो 0 और 1 के बीच होती है। यह चरम मानों को भी प्रबंधनीय संभावनाओं में बदल देता है, जो विशेष रूप से द्विआधारी वर्गीकरण समस्याओं के लिए महत्वपूर्ण है।
डेटा तालिकाएँ और उदाहरण गणनाएँ
प्रक्रिया को स्पष्ट करने के लिए, नीचे दिए गए डेटा तालिका पर विचार करें जो नमूना इनपुट के साथ उनके गणना किए गए आउटपुट को रेखांकित करती है:
अवरोध (यूनिट रहित) | गुणांक (बिना इकाई के) | विशेषता मान (जैसे, USD, वर्ष, आदि) | रेखीय संयोजन (z) | पूर्वानुमानित संभाव्यता |
---|---|---|---|---|
0 | एक | 0 | 0 + 1 × 0 = 0 | 1 / (1 + exp(0)) = 0.5 |
एक | 2 | 3 | 1 + 2 × 3 = 7 | 1 / (1 + exp(-7)) ≈ 0.9991 |
0 | -1 | 5 | 0 + (-1) × 5 = -5 | 1 / (1 + exp(5)) ≈ 0.0067 |
यह तालिका कच्चे इनपुट को परिष्कृत आउटपुट: संभाव्यता में परिवर्तन को स्पष्ट रूप से दर्शाती है। देखें कि कैसे मॉडल लगातार विविध इनपुट को मानकीकृत संभाव्यता मीट्रिक में परिवर्तित करता है, जिससे यह विभिन्न अनुप्रयोगों के लिए उपयुक्त होता है।
वास्तविक जीवन के उदाहरण और अनुप्रयोग
वित्तीय जोखिम मॉडलिंग
वित्तीय बाजार उन प्रमुख उदाहरणों में से एक हैं जहाँ ये सांख्यिकीय उपकरण चमकते हैं। वित्तीय विश्लेषक नियमित रूप से स्टॉक रिटर्न वितरणों का अध्ययन करते हैं ताकि संभावित खतरों की पहचान की जा सके। एक पोर्टफोलियो जिसमें उच्च कुर्तोसिस होती है, यह संकेत कर सकती है कि चरम गतिविधियाँ अधिक संभावित हैं, जिससे विश्लेषकों को हेजिंग रणनीतियों को लागू करने या जोखिम प्रोफाइल को समायोजित करने के लिए प्रेरित किया जा सकता है। लॉजिस्टिक रिग्रेशन और भी मदद करती है, जैसे ऋण चूक या बाजार में प्रवेश/निकासी के निर्णयों की भविष्यवाणी करना, जिससे निवेशकों को संभाव्य भविष्यवाणियों के आधार पर चौकस कदम उठाने में मदद मिलती है।
स्वास्थ्य देखभाल निर्णय लेने की प्रक्रिया
स्वास्थ्य देखभाल में, भविष्यवाणी मॉडल स्थितियों का निदान करने या रोगियों के परिणामों का पूर्वानुमान करने में महत्वपूर्ण भूमिका निभाते हैं। लॉजिस्टिक रिग्रेशन का उपयोग व्यापक रूप से उम्र, रक्तचाप और कोलेस्ट्रॉल स्तर जैसे जोखिम कारकों के आधार पर बीमारियों की संभावना का अनुमान लगाने के लिए किया जाता है। इस बीच, इन कारकों की क्यूर्टोसिस का विश्लेषण करने से ऐसे उप-आबादी सामने आ सकते हैं जिनके असामान्य प्रोफाइल हो सकते हैं जिन्हें विशेष ध्यान या वैकल्पिक उपचार रणनीतियों की आवश्यकता हो सकती है।
निर्माण और गुणवत्ता नियंत्रण
उत्पादन प्रक्रियाएँ कड़ाई से गुणवत्ता नियंत्रण बनाए रखने के लिए सांख्यिकीय विश्लेषण पर निर्भर करती हैं। जब उत्पाद माप लगातार सामान्य कुर्टोसिस का प्रदर्शन करते हैं, तो उत्पादन को स्थिर माना जाता है। हालाँकि, यदि कुर्टोसिस बढ़ता है — जिससे यह संकेत मिलता है कि आउटलायर्स की संख्या अधिक है — तो यह संभावित समस्याओं जैसे मशीन के असमान संरेखण या प्रक्रियात्मक विसंगतियों का संकेत दे सकता है। फिर लॉजिस्टिक रिग्रेशन मॉडल का उपयोग दोषों की संभावना की भविष्यवाणी के लिए किया जा सकता है, इस प्रकार पूर्वानुमानित समायोजन और सुधार की अनुमति मिलती है।
विश्लेषणात्मक अंतर्दृष्टियाँ और मॉडल व्याख्या
विश्लेषणात्मक दृष्टिकोण से, क्यूर्टोसिस और लॉजिस्टिक रिग्रेशन दोनों अपने अद्वितीय लाभ प्रदान करते हैं। क्यूर्टोसिस एक निदान उपकरण के रूप में कार्य करता है, डेटा में संभावित विसंगतियों को झंडा देकर जो अन्यथा अव्यक्त रह सकती हैं। यह अंतर्दृष्टि किसी भी पूर्वानुमान कार्य के लिए डेटा को पूर्वप्रक्रिया करने के समय अनमोल है। दूसरी ओर, लॉजिस्टिक रिग्रेशन इन अंतर्दृष्टियों को क्रियाशील पूर्वानुमानों में परिवर्तित करता है। इसकी संभावनाओं के रूप में आउटपुट वर्गीकरण समस्याओं में अनिवार्य है जहाँ निर्णय गणना की गई जोखिमों पर निर्भर करते हैं।
डेटा वितरण विश्लेषण और भविष्यवाणी मॉडलिंग की आपस में जुड़ी भूमिकाओं को समझना आपके विश्लेषणात्मक रणनीति को समृद्ध करता है। पहले कर्टोसिस के साथ वितरण की जांच करके, आप बाद की रिग्रेशन विश्लेषण के लिए एक ठोस आधार तैयार करते हैं। यह अनुक्रमिक दृष्टिकोण जोखिम को कम करता है, मॉडल की सटीकता को बढ़ाता है, और अंततः अधिक विश्वसनीय भविष्यवाणियों की ओर ले जाता है।
निर्देशिका: अक्सर पूछे जाने वाले प्रश्न
कर्टोसिस वास्तव में क्या मापता है?
कर्टोसिस एक वितरण के पिछले हिस्सों की चरम की मात्रा को मापता है। यह यह पहचानने में मदद करता है कि क्या किसी डेटासेट में सामान्य वितरण में अपेक्षित मानों की तुलना में बाहर के मान उत्पन्न करने की प्रवृत्ति है।
क्या उच्च कर्टोसिस मान हमेशा प्रतिकूल होता है?
पूर्ण रूप से नहीं। जबकि उच्च कर्टोसिस अधिक चरम मानों का सुझाव देता है, कुछ संदर्भों में—जैसे वित्तीय विश्लेषण—यह जोखिम को उजागर करता है, जो रणनीति निर्माण में एक महत्वपूर्ण तत्व हो सकता है। कुंजी यह है कि कर्टोसिस मान को अन्य मेट्रिक्स के साथ संदर्भित किया जाए।
लॉजिस्टिक रिग्रेशन पूर्वानुमान कैसे प्रदान करता है?
लॉजिस्टिक रिग्रेशन एक रैखिक संयोजन का उपयोग करता है जो इनपुट का—जो एक जाम्बा और गुणांक के माध्यम से समायोजित होता है—एक मान की गणना करने के लिए किया जाता है जिसे फिर लॉजिस्टिक फ़ंक्शन का उपयोग करके एक संभाव्यता में परिवर्तित किया जाता है। परिणामी संभाव्यता घटना के घटित होने की संभावना को दर्शाती है।
लॉजिस्टिक रिग्रेशन के इनपुट किस इकाई का उपयोग करते हैं?
इंटरसेप्ट और गुणांक यूनिटविहीन होते हैं, जबकि विशेषता मूल्य को उचित इकाइयों जैसे कि USD, वर्ष, या मीटर में होना चाहिए विश्लेषण के संदर्भ के अनुसार।
क्या प्रीडिक्टर वेरिएबल्स में उच्च कर्टोसिस लॉजिस्टिक रिग्रेशन को प्रभावित कर सकता है?
हाँ। यदि भविष्यवक्ताओं में उच्च कुरतोसिस होती है, तो यह अपवादों पर अधिक जोर डाल सकता है, जो भविष्यवाणी की सटीकता को विकृत कर सकता है। पूर्व प्रक्रिया के कदम, जैसे कि डेटा को रूपांतरित करना या छांटना, ऐसे मुद्दों को कम करने के लिए आवश्यक हो सकते हैं।
निष्कर्ष
कुर्तोसिस और लॉजिस्टिक रिग्रेशन पूर्वानुमान की खोज यह प्रकट करती है कि ये सांख्यिकी उपकरण एक दूसरे को कैसे पूरक बनाते हैं। कुर्तोसिस डेटा वितरण के सूक्ष्म बारीकियों में एक झलक प्रस्तुत करता है, जो पूंछ के व्यवहार और संभावित बाहरी तत्वों को उजागर करता है जो जोखिम या परिवर्तनशीलता का संकेत देते हैं। लॉजिस्टिक रिग्रेशन, जो रैखिक मेट्रिक्स को समझने योग्य संभावनाओं में परिष्कृत परिवर्तन करता है, पेशेवरों को द्विआधारी वर्गीकरण परिदृश्यों में अधिक सूचित, सटीक निर्णय लेने में सक्षम बनाता है।
वास्तविक दुनिया के उदाहरणों में—वित्तीय बाजारों की अस्थिरता से लेकर स्वास्थ्य देखभाल में जटिल जोखिम मूल्यांकन प्रक्रियाओं और विनिर्माण में सावधानीपूर्वक गुणवत्ता नियंत्रण तक—आप इन अवधारणाओं की व्यापक उपयुक्तता को समझ सकते हैं। इस लेख ने यह स्पष्ट किया है कि कर्टोसिस का एक गहन विश्लेषण प्रभावी लॉजिस्टिक रिग्रेशन मॉडलिंग का पूर्वानुमान कैसे कर सकता है, यह सुनिश्चित करते हुए कि चरम मान परिणामों को अनुचित रूप से प्रभावित न करें।
व्यवहार में, ये तकनीकें अलग थलग नहीं हैं। ये डेटा विश्लेषण के एक पुनरावृत्त चक्र का हिस्सा हैं: अपने डेटा के वितरण को समझने से शुरुआत करें, क्यूर्टोसिस के साथ किसी भी विसंगतियों का निर्धारण करें, और फिर अपने लॉजिस्टिक रिग्रेशन मॉडल बनाएं और उन्हें सुधारें ताकि अनुकूलित किया जा सके। यह चक्रीय प्रक्रिया न केवल भविष्यवाणी की सटीकता को बढ़ाती है बल्कि आपकी समग्र विश्लेषणात्मक कुशलता को भी बढ़ाती है।
इन अवधारणाओं में महारत हासिल करने की यात्रा पर निकलना केवल एक अधिक तकनीकी और विश्लेषणात्मक मानसिकता अपनाने का मामला नहीं है, बल्कि डेटा के साथ कहानी कहने की कला को भी अपनाना है। हर संख्या, हर विचलन, और हर संभावना एक कहानी ले जाती है—एक जो, यदि सही ढंग से व्याख्यायित की जाए, निर्णय लेने में प्रगति की ओर ले जा सकती है। इन अंतर्दृष्टियों के साथ, आप मॉडर्न डेटा विज्ञान की जटिलताओं को बेहतर तरीके से समझ सकते हैं और अपने लाभ के लिए सांख्यिकी की शक्ति का उपयोग कर सकते हैं।
अंततः, डेटा-आधारित रणनीति की असली ताकत सांख्यिकीय सच्चाइयों की व्याख्या करने और उन पर प्रतिक्रिया करने की क्षमता में है। जैसे-जैसे आप अपने मॉडलों को परिष्कृत करते हैं और कर्टोसिस और लॉजिस्टिक रिग्रेशन की समझ को बेहतर बनाते हैं, आप न केवल तकनीकी प्रवीणता पाते हैं बल्कि आज के प्रतिस्पर्धी परिदृश्य में सफलता को संचालित करने वाले परिणामों का अनुमान लगाने में एक रणनीतिक बढ़त भी प्राप्त करते हैं।
यह मार्गदर्शिका किसी भी व्यक्ति के लिए एक व्यापक संसाधन के रूप में कार्य करती है जो अपने विश्लेषणात्मक उपकरणों में गहराई जोड़ना चाहता है। इनपुट, प्रक्रिया के चरणों और वितरण विश्लेषण और भविष्यवाणी के बीच के संबंध का विस्तृत विवरण दिखाता है कि डेटा का प्रत्येक पहलू महत्वपूर्ण होता है। अभ्यास और निरंतर सीखने के साथ, ये अवधारणाएं आपके पेशेवर प्रयासों में स्वाभाविक रूप से शामिल हो जाएंगी, जिससे आप सबसे जटिल डेटा सेट से भी अधिकतम अंतर्दृष्टि निकालने में सक्षम होंगे।
आखिर में, कटोरे के जरिए चरम मूल्यों को समझने की सामंजस्य और लॉजिस्टिक रिग्रेशन द्वारा प्रदान की गई पूर्वानुमान स्पष्टता डेटा विश्लेषण के भविष्य को व्यक्त करती है। इन तरीकों को अपनाएं, उन्हें मेहनती तरीके से लागू करें, और देखें कि कैसे वे कच्चे डेटा को आकर्षक, सूचनात्मक और कार्यात्मक बुद्धिमत्ता में परिवर्तित करते हैं।
Tags: सांख्यिकी, डेटा एनालिसिस, पुनरागमन, प्रीडिक्टिव मॉडलिंग