Data Science (डाटा साइंंस) क्या है? जाने कार्य और उपयोग

दोस्तों Data Science (डाटा साइंंस) क्या है? जाने कार्य और उपयोग :-डाटा साइंस एल्गोरिथम, मशीन लर्निंग के सिद्धांत और अन्य विभिन्न टूल्स से संबंधित होता है। Data Science की मदद से महत्वपूर्ण और उपयोगी जानकारी को डेटा रिकॉर्ड, संग्रह और एनालिसिस किया जाता है। हमारी लाइफ में Data Science बेहद जरूरी विज्ञान है जिसकी मदद से टेक्नोलॉजी को और सिंपल और आसान बना दिया गया है। आज के समय में डाटा साइंस की वजह से हमारे पास काफी एडवांस मशीने है जिससे पहले की तुलना में बहुत आसानी से काम किया जा सकता है। भविष्य में भी डाटा साइंस का बहुत-बहुत ज्याद उपयोग है। इसलिए अपना करियर डाटा साइंस बना सकते है।

आप डाटा साइंस की अच्छी पढ़ाई करके एक data scientist बन सकते है जिसकी सैलरी भी काफी शानदार होती है। अब आपके मन में कुछ सवाल होंगे कि आखिर डाटा साइंस क्या है, क्यों करें और डाटा साइंटिस्ट कैसे बने, सैलेबस क्या है, सैलेरी कितनी होगी इत्यादि।

इन सभी सवालों का जवाब मैं आपको इसी आर्टिकल में दूंगा, इसलिए इस आर्टिकल को A to Z समझने की कोशिश करे। एक और बात कि मैने यहां पर डाटा साइंस क्या है, को सरल भाषा में बताने की कोशिश की है।

 

Data Science (डाटा साइंंस) क्या है? जाने कार्य और उपयोग
TEJWIKI.IN

 

Data Science (डाटा साइंंस) क्या होता है? (What is Data Science)

 

आपने अक्सर नोटिस किया होगा कि जब आप Youtube पर किसी चैनल को बार बार देखते हैं! तो उससे Related Videos आपको Automatically Recommend होने लगते हैं। इसी तरह जब आप Google पर कोई प्रोडक्ट Search करते हैं! तो आपको हर जगह उसी प्रोडक्ट के विज्ञापन दिखाई देने लगते हैं। अब सवाल यह है कि ऐसा कैसे संभव है? आखिर Google पर सर्च किए गए प्रोडक्ट के बारे में फेसबुक, इंस्टाग्राम और अमेजन को कैसे पता चला? तो यह असल में Data Science का कमाल है।

 

दरअसल Youtube, Facebook और Amazon जैसी कंपनियां अपने Customers तक पहुँचने के लिए Data Science का उपयोग करती हैं। और इसके लिए Users द्वारा दिए गए Data का इस्तेमाल करती हैं। लेकिन डाटा साइंंस का मतलब सिर्फ Customers को Track करना नहीं है। बल्कि इसका दायरा बहुत बड़ा है। और जैसे जैसे समय आगे बढ़ रहा है, Data Science का उपयोग भी लगातार बढ़ता जा रहा है। इसलिए जरूरी है कि आप Data Science के बारे में जानें।

 

 

Data Science क्या है? (What is Data Science)

 

डाटा साइंस (Data Science) एक ऐसा विज्ञान है, जिसमें डाटा का अध्ययन किया जाता है। अर्थात् Data को मथकर उसमें से सूचनाऐं निकाली जाती है। और इसके लिए विभिन्न Algorithms, Systems और Scientific Methods का प्रयोग किया जाता है। अगर आसान भाषा में कहूँ तो यह e-Waste से सोना निकालने जैसा है। यानि कि इसमें बहुत सारे Structured और Unstructured Data को इकट्ठा करके विभिन्न Processes से गुजारा जाता है। और उसमें से Knowledge और Insights को अलग करके विभिन्न कार्यों में इस्तेमाल किया जाता है।

आमतौर पर डाटा साइंंस का इस्तेमाल Big Data को Study करने, व्यवस्थित करने और काम की सूचनाऐं निकालने के लिए किया जाता है। उदाहरण के लिए, देश की जनसंख्या (जनगणना) के आंकड़ों में से महिला, पुरूष, साक्षर, निरक्षर, बच्चे, युवा, वृद्ध, सरकारी कर्मचारी, प्राइवेट कर्मचारी आदि के आंकड़ों को अलग करने के लिए Data Science का उपयोग किया जाता है।

 

इसके अलावा विभिन्न कंपनियांँ अपने Product को बेहतर बनाने, Sales बढ़ाने और नये Cutomers जोड़ने के लिए ग्राहकों के Data का इस्तेमाल करती है। और इस डाटा को Study करने के लिए Data Science का उपयोग करती हैं। ताकि वे जान पाऐं कि उनके प्रोडक्ट्स लोगों को कितने पसंद आ रहे हैं? और उनमें और क्या-क्या सुधार किए जा सकते हैं। ताकि Customers उनके साथ जुड़े रह सकें।

 

Data Sciences कार्य कैसे करता है? (How does Data Science work)

 

अब सवाल यह है कि Data Science काम कैसे करता है? How does data science work? तो यह एक पेचीदा प्रक्रिया है। लेकिन मैं आपको आसान भाषा में समझाने की कोशिश करता हूंँ। मान लीजिए कि एक कचरे का बहुत बड़ा ढ़ेर है, जिसमें कुछ हीरे (Diamonds) हैं। और आपको उन्हें अलग करना है। आप क्या करेंगे? जाहिर है, सबसे पहले कचरे के छोटे-छोटे ढ़ेर बनाऐंगे। और फिर एक-एक ढ़ेर में से थोड़ा-थोड़ा कचरा लेकर उसे खंगालेंगे। और उसमें जो हीरे मिलेंगे, उन्हें अलग करते जाऐंगे और कचरे को अलग। इस तरह सारे कचरे को प्रोसेस करके उसमें से सारे हीरे निकाल लेंगे। है ना? बस, इसी तरह Data Science काम करता है।

Data Science में भी बहुत सारे Raw Data को Analyse करके उसमें से काम की Information को ढूँढा जाता है। और इसके लिए विभिन्न Scientific Methods और Algorithms का प्रयोग किया जाता है। इसके लिए एक Data Scientist के पास पर्याप्त Skills होनी चाहिए। और उसे Data Engineering, Mathematics, Visualization, Programming जैसे विषयों की अच्छी Knowledge होनी चाहिए। तभी वह डाटा के ढ़ेर से काम की Information निकल सकता है। वरना, बहुत मुश्किल है।

 

एक Data Scientist, सबसे पहले समस्या का पता लगाता है। और फिर उससे Related Data इकट्ठा करता है। उसके बाद उसे Analysis के लिए Process करता है। और फिर डाटा को Explore करता है। उसके बाद अपने Skills की मदद से In-Depth Analysis करता है। और अंत में Analysis Result Announce करता है। इस दौरान Data Model बनाने और Prediction करने के लिए Machine Learning और Deep Learning का भी इस्तेमाल होता है।

 

डेटा साइंस का उदाहरण (Example of Data Science)

 

अब आप पूछेंगे कि डाटा साइंस का हमारे दैनिक जीवन में क्या उपयोग है? अगर कोई Real Life Example हो तो बताओ। तो चलिए, मैं एक Real Life Example of Data Science बताता हूँ। आप Netflix, Amazon Prime Videos, Hotstar, JioCinema और Zee5 जैसे OTT Platform तो इस्तेमाल जरूर करते होंगे। अगर करते हैं तो अपनी पसंंद की Movies, Web Series और TV Shows वगैरह भी देखते होंगे! है ना?

लेकिन अगर आपने नोटिस किया है तो आपको पता होगा कि तो ये तमाम OTT Platforms आपको उसी तरह की Movies Suggest करते हैं! जो आप अमूमन देखते हैं। असल में ये Platforms आपका Data Collect करते हैं। और उसकी मदद से यह पता करते हैं कि आप किस तरह की फिल्में देखना पसंंद करते है? यानि कि Comedy, Action, Drama, Suspense या Science Fiction? आपको किस तरह की फिल्में पसंंद है? उसी Genre की फिल्में आपको Suggest की जाती हैं। यह सब Data Science की मदद से ही संभव हो पाता है।

 

Data Scientist कौन होता है? (Who is a Data Scientist)

 

डाटा साइंटिस्ट (Data Scientist) एक Highly Skilled Person होता है। जिसके पास ढ़ेर सारी Skills होती हैं। उसके पास Data Engineering, Mathematics, Social Science, Technology, Programming, Machine Learning, Deep Learning, Statistics और Artificial Intelligence जैसे विषयों की गहरी समझ होती है। और समस्याओं का पता लगाने और उनका समाधान खोजने की योग्यता होती है।

 

एक Data Scientist को पता होता है कि कौनसी समस्या का समाधान खोजा जाना चाहिए? और कहाँ से उसके लिए Data लिया जाना चाहिए? यानि कि डाटा साइंंटिस्ट Data को Mine करने, Clean करने और Analyse करने में Expert होता है। अगर आसान शब्दों में कहें, तो Data Scientist एक ऐसा व्यक्ति है। जो बहुत बड़े डाटा (Big Data) को Collect करने, Analyse करने और Present करने में Expert होता है।

 

Data Science के महत्वपूर्ण तत्व क्या है? 9What are the important elements of Data Science)

 

असल में Data Science जितना आसान दिखता है उतना आसान है नहीं। इसका दायरा काफी विस्तृत है। और इसके कई घटक हैं। इसमें Large Amount of Data को इकट्ठा करने और उसको एनालाइज करके महत्वपूर्ण जानकारियां निकालने के लिए कई सारे Tools और Techniques का इस्तेमाल किया जाता है। लेकिन अगर Data Science के मुख्य घटकों की बात करें, तो वे निम्नलिखित हैं :-

 

1. Statistics (सांख्यिकी)

सांख्यिकी सबसे महत्वपूर्ण घटक है। यह Data Science का एक जरूरी Component है। इसका इस्तेमाल सेट में मौजूद संख्यात्मक डेटा को Analyze करने में किया जाता है। जैसे कि Phone Number, Prices, Income आदि के आँकड़े Present करने के लिए सांख्यिकी का उपयोग किया जाता है। इसीलिए यह डाटा साइंंस का सबसे खास हिस्सा है।

 

2. Machine Learning

Machine learning (ML) आर्टिफिशियल इंटेलिजेंस का ही एक हिस्सा है! जिसका इस्तेमाल डाटा साइंस में भी किया जाता है। Machine Learning के इस्तेमाल से Big Data को Analyse करना काफी आसान होता है। क्योंकि इसकी मदद से मशीनें खुद ही Data को Analyse करके Result दे देती हैं। इसके लिए पहले एक Data Model तैयार किया जाता है। और उसे अच्छी तरह Trained किया जाता है।

 

जैसा कि पिछले आर्टिकल में आप ऑलरेडी पढ़ चुके हैं कि किस तरह Machine Learning Models को Trained किया जाता है? और किस तरह Prediction करना सिखाया जाता है? इसीलिए दुबारा बताने का कोई तुक नहीं बनता। खैर, डाटा मॉडल, Data Analysis की प्रक्रिया को Automatic कर देता है। जिससे डाटा को Analyse करना काफी आसान हो जाता है। और समय की भी काफी बचत होती है।

 

3. Deep Learning

डीप लर्निंग एक तरह की Advanced Machine Learning है। जो कि Artificial Intelligence का ही एक हिस्सा है। Deep Learning की मदद से मशीनों में इंसानों की तरह सोचने-समझने और Act करने की क्षमता विकसित की जाती है। लेकिन अगर Data Science की बात करें तो इसमें In-Depth Data Analysis के लिए Deep Learning का प्रयोग किया जाता है। अर्थात् मशीनों की मदद से Data को Analyse किया जाता है।

आमतौर पर Structured Data को Process करने के लिए Machine Learning का उपयोग जाता है। लेकिन Unstructured और Complicated Data के लिए Deep Learning का उपयोग किया जाता है। क्योंकि डीप लर्निंग की मदद से Unstructured Data को बिना इंसानी मदद के Easily Process किया जा सकता है

 

Data Science Life Cycle

 

डाटा को Analyse करने और उससे Valuable Information निकालने की एक तयशुद्दा प्रक्रिया है! जिसे Data Science Life Cycle कहा जाता है। इस प्रक्रिया को फॉलो करके ही एक Data Scientist वांछित परिणाम प्राप्त कर सकता है। क्या है यह प्रक्रिया? आइए, जानते हैं। Data Science Life Cycle Step By Step :-

 

1. Problem Identification

डाटा साइंस का पहला चरण है, Problem को Identify करना। अर्थात् समस्या का पता लगाना। इसे Business Understanding भी कहा जाता है। क्योंकि इसके लिए Business के एक-एक पहलू को समझना पड़ता है। और Problem की जड़ तक पहुँचना पड़ता है। इसीलिए यह काफी मुश्किल होता है। खासकर तब, जब एक Successful Business Model के लिए Strategy बनानी हो।

 

2. Data Collect करना

दूसरा चरण है, Data Collect करना। यह सबसे महत्वपूर्ण स्टेप होता है। क्योंकि आगे की पूरी प्रक्रिया इसी Step पर निर्भर होती है। इसीलिए विभिन्न स्त्रोतों से Quality Data इकट्ठा किया जाता है। और इसके लिए Valid तथा Reliable Sources का चुनाव किया जाता है। यानि कि ऐसे Sources का चुनाव किया जाता है। जहाँ से Fresh, Relevant और High Quality Data मिल सके। इस प्रक्रिया को Data Mining के नाम से जाना जाता है।

 

यह डाटा कुछ भी हो सकता है। जैसे कि आप कौनसा टूथपेस्ट इस्तेमाल करते हैं? कौन-कौनसे Brands के कपड़े पहनते हैं? कौन-कौनसे Products को Frequently Buy करते हैं? किस तरह की Books पढ़ना पसंद करते हैं। वगैरह-वगैरह। इसके अलावा यह डाटा किसी भी Trusted Source से इकट्ठा किया जा सकता है। जैसे कि Social Media, Webserver, APIs आदि। आम तौर पर Data Collect करने के दो तरीके होते हैं :

  • Python में Web Scrapping द्वारा
  • APIs द्वारा।

3. Data Cleaning & Processing

डाटा Collect करने के बाद बारी आती है अगले चरण की। अर्थात् Data Preparation की। यह एक महत्वपूर्ण चरण है, जिसमें Data को Analysis के लिए तैयार किया जाता है। अर्थात् पहले से इकट्ठा किये हुए डाटा को Clean किया जाता है। और उसमें मौजूद कमियों को दूर किया जाता है।

इस दौरान Unwanted, Duplicate और Low Quality Data को हटाया जाता है। और Missing Values, Rows और Columns को Fix किया जाता है। यानि कि Data में जो-जो कमियाँ अथवा त्रुटियां होती हैं। उन्हें ठीक किया जाता है ताकि सटीक आंंकड़ें प्राप्त हों। यह एक समय लेने वाली प्रक्रिया होती है। लेकिन इसका परिणाम काफी सुखद होता है।

 

डाटा को Analyse करने के लिए Data Processing एक महत्वपूर्ण प्रकिया है। आमतौर पर जो डाटा विभिन्न Sources से इकट्ठा किया जाता है, वह Raw Data होता है। यानि कि उसमें कई तरह की अशुद्धियाँ होती हैं। यह पूरी तरह Noisy, Unfiltered व Unstructured Data होता है। इसलिए इसे Clean व Process करना बेहद जरूरी होता है। इस प्रक्रिया में Data Modelling और Data Clustering जैसी Techniques की मदद ली जाती है। डाटा को सही तरीके से प्रोसेस करने के बाद वह Analysis के लिए तैयार हो जाता है ।

 

4. Exploratory Data Analysis

डाटा प्रोसेसिंग के बाद बारी आती है Exploratory Data Analysis (EDA) की। यह एक महत्वपूर्ण चरण है, जिसमें प्रोसेस किए हुए Data का In-Depth Analysis किया जाता है। यानि कि तमाम Data Features और Data Properties का गहराई से अध्ययन किया जाता है। और डाटा में मौजूद Patterns और Valuable Insights खोजने के लिए Datasets को Visualise किया जाता है।

 

5. Model Building & Evaluation

डाटा एनालिसिस के बाद बारी आती है Model Building तथा Evaluation की। इस चरण में पिछले चरण के डाटा को 2 Sets में बांटा जाता है। एक Training Set और दूसरा Testing Set. ट्रेनिंग सेट का इस्तेमाल Model को Trained करने के लिए किया जाता है। इसके लिए पहले समस्या को ध्यान में रखते हुए एक मॉडल (ML Model) का निर्माण किया जाता है। और उसे अच्छे-से प्रशिक्षित (Trained) किया जाता है।

 

Training के बाद मॉडल का Evaluation (मूल्यांकन) किया जाता है। अर्थात् Test करके देखा जाता है कि वह ठीक से काम कर रहा है या नहीं? इसके लिए Testing Set का उपयोग किया जाता है। यानि कि जो Dataset, Training Set से अलग करके रखा जाता है, उसका इस्तेमाल किया जाता है। ताकि Model की Accuracy का सटीक आंकलन किया जा सके।

 

6. Result Announcement

अगला और आखिरी चरण है Result Announcement. जब मॉडल Evaluation में Pass हो जाता है। और सही Prediction करने लगता है। तो उसका Result Communicate किया जाता है। अर्थात् Visualisation के जरिए Model का Result प्रस्तुत किया जाता है। इस तरह Data Science की Life Cycle चलती है।

 

 

Data Science का उपयोग कैसे किया जाता है ? (How is Data Science used)

 

अब आपके मन में एक सवाल आ रहा होगा कि आखिर Data Science का उपयोग क्या है? What are the usage of data science? तो आपको बताना चाहूँगा कि डाटा साइंस के कई सारे उपयोग हैं। इसे लगभग हर जगह इस्तेमाल किया जाता है। लेकिन यहाँ हम इसके मुख्य उपयोगों के बारे में बात करेंगे। तो ये हैं डाटा साइंस के मुख्य उपयोग :

  • Youtube, Facebook, Google और Netflix जैसे प्लेटफार्म अपने Content को Recommend करने के लिए Data Science का उपयोग करते हैं। इसके लिए Users के डाटा का इस्तेमाल किया जाता है। और उनके Interest के हिसाब से Content Suggest किया जात है।
  • Google अपने Search Engine को Improve करने और Users को बेहतर खोज नतीजे दिखाने के लिए डाटा साइंस का इस्तेमाल करता है साथ ही Gmail में Spam Filtering के लिए भी इसका इस्तेमाल किया जाता है ।
  • Google Assistant, Alexa, और Siri जैसे Speech Recognition Systems में भी Data Science का काफी ज्यादा इस्तेमाल होता है। इस तरह के तमाम Virtual Assistants यूजर्स के Data को Utilise करके ही सीखते हैं।
  • Driverless Cars में भी Data Science का इस्तेमाल किया जाता है। इसमें Machine Learning के जरिए Traffic Lights और Road पर चल रहे बाकी वाहनों को Recognise किया जाता है।
  • Uber और Ola जैसी ट्रांसपोर्ट कंपनियाँ भी Weather, Traffic और अन्य Situation में अपनी Prices Set करने में लिए डाटा साइंंस का इस्तेमाल करती हैं।

 

Data Science Tools

 

एक Data Scientist को अपने हर प्रोजेक्ट के लिए ढ़ेर सारा Data Collect करना पड़ता है। और उसे Clean, Process और Analyse करना पड़ता है। इसीलिए यह काफी मुश्किल और थका देने वाला काम होता है। Data Science (डाटा साइंंस) लेकिन कई ऐसे Tools हैं, जो इस काम को आसान बना देते हैं। आइए, इन टूल्स के बारे में जानते हैं। The Tools of Data Science :-

 

1. Python

अगर आप Programming के बारे में थोड़ी-सी भी जानकारी रखते हैं तो Python के बारे में जरूर जानते होंगे। यह असल में एक Programming Language है, जो Data Science में काफी ज्यादा इस्तेमाल होती है। अगर आप एक Successful Data Scientist बनने की सोच रहे हैं तो आपको Python का Knowledge होना बहुत जरूरी है।

 

2. R Programming

यह एक Statistical Programming Tool है। जिसकी मदद से Data Scientist किसी बड़े डाटा का Analysis कर पाते हैं ।

 

3. SQL

SQL भी एक Programming Language है जिसका Data Science में उपयोग किया जाता है। इसका पूरा नाम होता है Structured Query Language इसका इस्तेमाल Relational Database में मौजूद Structured डाटा को Analyse करने के लिए किया जाता है

 

4. Hadoop

Apache Hadoop डाटा साइंस के लिए एक पॉपुलर टूल है। यह एक ओपन सोर्स सॉफ्टवेयर है। जिसका इस्तेमाल डाटा साइंस में बड़े Datasets को स्टोर करने के लिए किया जाता है ।

 

FAQs – अक्सर पूछे जाने वाले सवाल जवाब :-

 

इस आर्टिकल में हमने अब तक जाना कि डाटा साइंस क्या है और डाटा साइंटिस्ट कैसे बने? इसके अलावा मैने आपको Data Science के बारे अनेक अन्य महत्वपूर्ण जानकारीयां भी दी हैं। तो चलिए अब हम डाटा साइंस से संबंधित कुछ आवश्यक FAQs पर चर्चा करते हैं।

 

डाटा साइंस (Data Science) सामान्य भाषा मे क्या है?

यह एक ऐसी विज्ञान है, जिसमें डाटा का अध्ययन करके महत्वपूर्ण और आवश्यक जानकारी निकाली जाती है। इस साइंस में हम विभिन्न Algorithms और Scientific Methods का उपयोग करके विभिन्न तरह के डाटा से आवश्यक डाटा को निकाला जाता है।

 

डाटा साइंटिस्ट (Data Scientist) क्या होता है?

यह एक तरह का Professional व्यक्ति होता है, जिसके पास Data Engineering, Programming, Statistics, Mathematics, Analytics और Visualizationजैसे टूल्स की अच्छी समझ होती है। और इन्ही टूल्स की मदद से वह समस्या का पता लगाकर समाधान निकालने योग्य होता है।

 

एक डाटा साइंटिस्ट क्या-क्या करता हैं?

एक डाटा साइंटिस्ट, सबसे पहले समस्या से संबंधित डाटा को एकत्रित करता है। और फिर उसके बाद उस डाटा को Clean, Process और Analyse करता है। अब वह उपयोगी डाटा से एक Data Model बनाता है और उसे Trained व Evaluate करता है। इसके बाद अंत में वह Model का Result Communicate करता है।

 

इन्हे भी जरूर पढ़े 

 

Conclusion

 

तो दोस्तों मुझे उम्मीद है की आपको मेरी यह लेख Data Science (डाटा साइंंस) क्या है? जाने कार्य और उपयोग जरुर पसंद आई होगी. मेरी हमेशा से यही कोशिश रहती है की readers को पूरी जानकारी प्रदान की जाये जिससे उन्हें किसी दुसरे sites या internet में उस article के सन्दर्भ में खोजने की जरुरत ही नहीं है. इससे उनकी समय की बचत भी होगी और एक ही जगह में उन्हें सभी information भी मिल जायेंगे.
यदि आपके मन में इस article को लेकर कोई भी doubts हैं या आप चाहते हैं की इसमें कुछ सुधार होनी चाहिए, तब इसके लिए आप नीचे comments लिख सकते हैं.यदि आपको यह लेख पसंद आया या कुछ सीखने को मिला तब कृपया इस पोस्ट को Social Networks जैसे कि Facebook, Twitter इत्यादि पर share कीजिये.

Leave a Comment

error: Content is protected !!