MLflow - खुला स्रोत ML Lifecycle प्लेटफर्म

विषयसूची[लुकाउनुहोस्][देखाउनु]

एमएलका चुनौतीहरू
MLflow के हो?
MLflow कम्पोनेन्टहरू: तिनीहरूले कसरी काम गर्छन्?+-
निष्कर्ष

मेसिन लर्निङ विकासको प्रयास गर्ने सबैले यो कत्तिको गाह्रो छ भन्ने कुरा बुझ्छन्। सफ्टवेयर विकासमा मानक समस्याहरू बाहेक, मेसिन लर्निङ (ML) विकासले थप बाधाहरू प्रस्तुत गर्दछ।

ML जीवनचक्रको प्रत्येक चरणमा मद्दत गर्न सयौं खुला स्रोत उपकरणहरू उपलब्ध छन्, डेटा तयारीदेखि मोडेल प्रशिक्षण मार्फत।

परम्परागत सफ्टवेयर विकासको विपरीत, जब टोलीहरूले प्रत्येक चरणको लागि एउटा उपकरण छनोट गर्दछ, ML सँग तपाइँ सामान्यतया प्रत्येक उपलब्ध उपकरण (जस्तै, एल्गोरिथ्म) अन्वेषण गर्न चाहनुहुन्छ कि यसले परिणामहरू सुधार गर्दछ।

नतिजाको रूपमा, ML विकासकर्ताहरूले सयौं पुस्तकालयहरू प्रयोग र उत्पादन गर्नुपर्छ।

मेसिन लर्निङ एल्गोरिदमले हजारौं अनुकूलन योग्य प्यारामिटरहरू समावेश गर्दछ, र यो पहिचान गर्न गाह्रो छ कि कुन प्यारामिटरहरू, कोड, र डेटा प्रत्येक प्रयोगमा मोडेल उत्पन्न गर्न गए, चाहे तपाईं एक्लै वा टोलीमा काम गर्नुहुन्छ।

उचित अनुगमन बिना, टोलीहरू प्राय: उही कोड पुन: कार्य गर्नको लागि संघर्ष गर्छन्। तपाईं उत्पादन प्रयोगको लागि तपाईंको प्रशिक्षण कोड इन्जिनियरमा स्थानान्तरण गर्ने डेटा वैज्ञानिक हुनुहुन्छ वा तपाईं समस्याको निदान गर्न आफ्नो अघिल्लो काममा फर्किँदै हुनुहुन्छ भने, ML कार्यप्रवाहका चरणहरू फिर्ता लिनु महत्त्वपूर्ण छ।

उत्पादनमा मोडेल सार्न धेरै परिनियोजन विधिहरू र वातावरणहरू जुन प्रयोग गरिनु पर्छ (जस्तै, REST सेवा, ब्याच अनुमान, वा मोबाइल अनुप्रयोगहरू) को कारणले गाह्रो हुन सक्छ। कुनै पनि पुस्तकालयबाट यी कुनै पनि उपकरणहरूमा मोडेलहरू सार्नको लागि कुनै सामान्य विधि छैन, र यसरी प्रत्येक नयाँ परिनियोजनले जोखिम प्रस्तुत गर्दछ।

यी मुद्दाहरूको कारणले गर्दा, यो स्पष्ट छ कि ML विकासले पारम्परिक सफ्टवेयर विकासको रूपमा स्थिर, अनुमानित, र व्यापक रूपमा प्रयोग गर्नको लागि उल्लेखनीय रूपमा सुधार गर्नुपर्छ।

एमएलका चुनौतीहरू

त्यहाँ भिन्न उपकरणहरूको प्रशस्तता छ। सयौं सफ्टवेयर समाधानहरू मेसिन लर्निङ जीवनचक्रको प्रत्येक चरणमा मद्दत गर्न उपलब्ध छन्, डेटा तयारीदेखि मोडेल प्रशिक्षणसम्म। यसबाहेक, परम्परागत सफ्टवेयर विकासको विपरीत, जब टोलीहरूले मेसिन लर्निङ (ML) मा प्रत्येक चरणको लागि एउटा उपकरण छनोट गर्दछ, तपाइँ प्रायः प्रत्येक उपलब्ध उपकरण (जस्तै, एल्गोरिदम) पत्ता लगाउन चाहनुहुन्छ कि यसले परिणामहरू सुधार गर्छ कि गर्दैन। नतिजाको रूपमा, ML विकासकर्ताहरूले सयौं पुस्तकालयहरू प्रयोग र उत्पादन गर्नुपर्छ।
प्रयोगहरूको ट्रयाक राख्न गाह्रो छ। मेसिन लर्निङ एल्गोरिदमले हजारौं अनुकूलन योग्य प्यारामिटरहरू समावेश गर्दछ, र यो पहिचान गर्न गाह्रो छ कि कुन प्यारामिटरहरू, कोड, र डेटा प्रत्येक प्रयोगमा मोडेल उत्पन्न गर्न गए, चाहे तपाईं एक्लै वा टोलीमा काम गर्नुहुन्छ।
मेसिन लर्निङ लागू गर्न गाह्रो छ। उत्पादनमा मोडेल सार्न धेरै परिनियोजन विधिहरू र वातावरणहरू जुन प्रयोग गरिनु पर्छ (जस्तै, REST सेवा, ब्याच अनुमान, वा मोबाइल अनुप्रयोगहरू) को कारणले गाह्रो हुन सक्छ। यी कुनै पनि उपकरणहरूमा कुनै पनि पुस्तकालयबाट मोडेलहरू सार्नको लागि कुनै सामान्य विधि छैन। तसर्थ, प्रत्येक नयाँ परिनियोजनले जोखिम प्रस्तुत गर्दछ।

के हो MLflow?

MLflow मेसिन लर्निङ जीवन चक्रको लागि खुला स्रोत प्लेटफर्म हो। यो खुला इन्टरफेस अवधारणामा आधारित छ, धेरै आवश्यक सारहरू प्रस्ताव गर्दछ जसले वर्तमान पूर्वाधार र मेसिन लर्निङ एल्गोरिदमहरूलाई प्रणालीसँग सजिलैसँग एकीकृत गर्न अनुमति दिन्छ।

1 2

यसले संकेत गर्छ कि यदि तपाईं MLflow प्रयोग गर्न चाहने विकासकर्ता हुनुहुन्छ तर असमर्थित फ्रेमवर्क प्रयोग गर्दै हुनुहुन्छ भने, खुला इन्टरफेस डिजाइनले त्यो ढाँचालाई एकीकृत गर्न र प्लेटफर्मसँग काम सुरु गर्न अपेक्षाकृत सरल बनाउँछ। व्यवहारमा, यसले MLflow कुनै पनिसँग काम गर्नको लागि अभिप्रेरित छ भन्ने संकेत गर्छ मेशिन सिकाइ पुस्तकालय वा भाषा।

यसबाहेक, MLflow ले दोहोर्याउने क्षमतालाई बढावा दिन्छ, जसको मतलब उही प्रशिक्षण वा उत्पादन मेसिन लर्निङ कोड वातावरणबाट स्वतन्त्र उही परिणामहरू चलाउनको लागि हो, चाहे क्लाउडमा होस्, स्थानीय वर्कस्टेशनमा, वा नोटबुकमा।

अन्तमा, MLflow स्केलेबिलिटीको लागि बनाइएको छ, त्यसैले यसलाई डाटा वैज्ञानिकहरूको सानो टोलीका साथै सयौं मेसिन लर्निङ व्यवसायीहरूको साथमा ठूलो कम्पनीद्वारा प्रयोग गर्न सकिन्छ।

MLflow कुनै पनि मेसिन लर्निङ लाइब्रेरी, एल्गोरिथ्म, डिप्लोयमेन्ट उपकरण, वा भाषासँग उपयुक्त छ। यसका निम्न फाइदाहरू पनि छन्:

कुनै पनि क्लाउड सेवा संग सञ्चालन गर्न डिजाइन।
Apache Spark को साथ विशाल डाटा मा स्केल।
MLflow Apache Spark सहित विभिन्न ओपन सोर्स मेसिन लर्निङ फ्रेमवर्कसँग मिल्दो छ। TensorFlow, र SciKit-सिक्नुहोस्.

यदि तपाइँसँग पहिले नै कोड छ भने, MLflow यसको साथ प्रयोग गर्न सकिन्छ। तपाईंले उद्यमहरू बीच आफ्नो फ्रेमवर्क र मोडेलहरू पनि साझा गर्न सक्नुहुन्छ किनभने यो हो खुला-स्रोत.

MLflow कम्पोनेन्टहरू: तिनीहरूले कसरी काम गर्छन्?

MLflow ML जीवनचक्र प्रबन्ध गर्नको लागि एक नि:शुल्क र खुला स्रोत प्लेटफर्म हो, जसमा प्रयोग, पुन: उत्पादन, परिनियोजन, र एकल मोडेल रजिस्ट्री समावेश छ। हाल, MLflow मा चार घटकहरू छन्:

2 3

1. MLflow ट्र्याकिङ

म MLflow ट्र्याकिङको साथ सुरु गर्न जाँदैछु। MLflow ले केन्द्रीकृत प्रशिक्षण मेटाडेटा ट्र्याकिङ भण्डारसँग जोडिएका विभिन्न आवश्यक अवधारणाहरूको सङ्कलनलाई समर्थन गर्दछ। पहिलो धारणा महत्वपूर्ण हाइपरपेरामिटर वा कन्फिगरेसन नबहरूको संग्रह हो जसले मोडेल प्रदर्शनलाई प्रभाव पार्छ। MLflow को API र केन्द्रीकृत ट्र्याकिङ सेवा प्रयोग गर्दा यी सबैलाई सुरक्षित गर्न सकिन्छ।

प्रयोगकर्ताहरूले आफ्नो मेसिन लर्निङ मोडेलहरूको सफलतामा अन्तरदृष्टि प्राप्त गर्न प्रदर्शन डेटा पनि रेकर्ड गर्न सक्छन्। यसबाहेक, दोहोरिने योग्यताको लागि, MLflow ले प्रयोगकर्ताहरूलाई विशिष्ट स्रोत कोड लग गर्न अनुमति दिन्छ जुन मोडेल सिर्जना गर्न प्रयोग गरिएको थियो साथै यसको संस्करणलाई Git सँग कडा रूपमा एकीकरण गरेर प्रत्येक मोडेललाई विशिष्ट कमिट ह्यासमा बाँध्न।

MLflow कलाकृतिहरू लग गर्न प्रयोग गर्न सकिन्छ, जुन प्रशिक्षण, परीक्षण डेटा, र पुन: उत्पादन योग्यताका लागि मोडेलहरू सहित कुनै पनि मनमानी फाइलहरू हुन्।

यसको मतलब यो हो कि यदि म एक विकासकर्ता हुँ जसले भर्खरै एउटा मोडेललाई प्रशिक्षित गरेको छु, म यसलाई केन्द्रीकृत ट्र्याकिङ सेवामा निरन्तरता दिन सक्छु, र मेरो सहकर्मीहरू मध्ये एकले यसलाई पछि लोड गर्न सक्छ र कि त तालिम र प्रयोग गर्न जारी राख्न सक्छ वा त्यो मोडेललाई विशेष आवश्यकता पूरा गर्न जारी राख्न सक्छ। ।

तपाईंको मेसिन लर्निङ कोड कार्यान्वयन गर्दा र पछि परिणामहरू हेर्दा, ट्र्याकिङ एउटा API हो जसले तपाईंलाई प्यारामिटरहरू, कोड संस्करणहरू, मेट्रिक्स, र आउटपुट फाइलहरू लग गर्न अनुमति दिन्छ। यो Python, R, र Java मा अन्य भाषाहरूमा लेखिएको छ। यो REST API को रूपमा पनि पहुँचयोग्य छ, जुन यसको शीर्षमा एपहरू निर्माण गर्न प्रयोग गर्न सकिन्छ।

प्रमुख विशेषताहरु

धेरै विकासकर्ताहरूले आफ्नो स्थानीय पीसीमा MLflow प्रयोग गर्छन्, जहाँ ब्याकइन्ड र आर्टिफ्याक्ट भण्डारणले डिस्कमा डाइरेक्टरी साझा गर्दछ।
धेरै प्रयोगकर्ताहरूले आफ्नो स्थानीय पीसीहरूमा MLflow चलाउन SQLite, SQLAlchemy-compatible डाटाबेस पनि प्रयोग गर्छन्।
MLflow ले वितरित आर्किटेक्चरहरूलाई पनि समर्थन गर्दछ। ट्र्याकिङ सर्भर, ब्याकइन्ड स्टोर, र आर्टिफ्याक्ट स्टोर यी सबै विभिन्न सर्भरहरूमा होस्ट गरिएका छन्।
यदि रन एक MLflow परियोजना द्वारा सुरु गरिएको थियो भने, git कमिट ह्यास प्रयोग गरिएको थियो। MLflow Python, R, Java, र REST API हरू चलाउनको लागि डाटा लग गर्न प्रयोग गर्न सकिन्छ।

थप जानकारीको लागि, तपाईं आधिकारिक जाँच गर्न सक्नुहुन्छ दस्तावेज.

2. MLFlow परियोजनाहरू

हामीले ट्र्याकिङ कम्पोनेन्टहरू पार गरिसकेपछि, म MLflow परियोजनाहरूको बारेमा कुरा गर्न चाहन्छु, जुन कार्यान्वयन सन्दर्भको पर्वाह नगरी मोडेल प्रशिक्षण सत्रहरूको लागि दोहोर्याउन मिल्ने प्याकेजिङ संरचना हो।

व्यवसायहरूले मेसिन लर्निङ प्रशिक्षण प्रविधिहरूको विस्तृत दायरा प्रयोग गर्छन्, तर तिनीहरूले यी प्रशिक्षण उपकरणहरूलाई विभिन्न सन्दर्भहरूमा पनि प्रयोग गर्छन्। उदाहरणका लागि, उनीहरूले क्लाउडमा, स्थानीय पीसीमा वा नोटबुकमा आफ्नो प्रशिक्षण कोड कार्यान्वयन गर्दैछन्।

यसले समस्या निम्त्याउँछ कि मेसिन लर्निङ परिणामहरू नक्कल गर्न गाह्रो छ। अक्सर, एउटै उस्तै तालिम कोडले दुई अलग-अलग स्थानहरूमा समान परिणामहरू कार्यान्वयन वा उत्पादन गर्दैन।

MLflow द्वारा प्रदान गरिएको समाधान एक आत्म-निहित प्रशिक्षण कोड परियोजना परिभाषा हो जसमा सबै मेसिन लर्निङ प्रशिक्षण कोड, साथै यसको संस्करण पुस्तकालय निर्भरता, सेटिङहरू, र प्रशिक्षण र परीक्षण डेटा समावेश छ।

MLflow ले मेसिन लर्निङ प्रशिक्षण प्रक्रियाका लागि आवश्यकताहरूको सम्पूर्ण सेटलाई स्पष्ट रूपमा वर्णन गरेर कार्यान्वयन सन्दर्भहरूमा पुन: उत्पादन योग्यता सुनिश्चित गर्दछ। यसले ती सबै पुस्तकालयहरू स्थापना गरेर र कोड चलिरहेको एउटै प्रणाली राज्य पूरा गरेर यो पूरा गर्दछ।

MLflow परियोजना एक डाइरेक्टरी भन्दा बढी केहि छैन। यो एक डाइरेक्टरी हो जसमा प्रशिक्षण कोड, पुस्तकालय निर्भरता परिभाषा, र प्रशिक्षण सत्र द्वारा आवश्यक अन्य डेटा, साथै यो वैकल्पिक कन्फिगरेसन फाइल समावेश छ।

यी पुस्तकालय आवश्यकताहरू विभिन्न तरिकामा परिभाषित गर्न सकिन्छ। प्रयोगकर्ताहरूले, उदाहरणका लागि, तिनीहरूको प्रशिक्षण कोड पुस्तकालय आवश्यकताहरू सूचीबद्ध गर्न YAML-ढाँचा गरिएको एनाकोन्डा वातावरण निर्दिष्टीकरण आपूर्ति गर्न सक्छन्। MLflow ले कन्टेनर भित्र प्रशिक्षण कोड कार्यान्वयन गर्नेछ। यस्तो अवस्थामा, तिनीहरूले डकर कन्टेनर पनि समावेश गर्न सक्छन्।

अन्तमा, MLflow सँग यी परियोजनाहरू चलाउनको लागि कमाण्ड-लाइन इन्टरफेस (CLI) छ, साथै Python, र Java API हरू। यी परियोजनाहरू प्रयोगकर्ताको स्थानीय प्रणालीमा साथै डाटाब्रिक्स कार्य अनुसूचक र कुबर्नेट्स जस्ता विभिन्न रिमोट सेटिङहरूमा चलाउन सकिन्छ। MLflow परियोजनाहरूले तपाईंलाई डेटा विज्ञान कोडलाई दोहोर्याउन मिल्ने र पुन: प्रयोज्य रूपमा प्याकेज गर्न अनुमति दिन्छ, प्रायः मानकहरूमा आधारित।

परियोजनाहरू कम्पोनेन्टमा API र परियोजनाहरू प्रबन्ध गर्नका लागि कमाण्ड-लाइन उपयोगिताहरू समावेश छन्। यी क्षमताहरूले ग्यारेन्टी दिन्छ कि परियोजनाहरू मेसिन लर्निङ प्रक्रियाहरू बनाउनको लागि एकसाथ जोडिन सकिन्छ।

प्रमुख विशेषताहरु

MLflow ले डकर कन्टेनर वातावरण, Conda वातावरण, र प्रणाली वातावरण सहित परियोजना वातावरण समर्थन गर्दछ।
कुनै पनि Git भण्डार वा स्थानीय डाइरेक्टरीलाई MLflow परियोजनाको रूपमा विचार गर्न सकिन्छ; पूर्वनिर्धारित; तपाईं कुनै पनि खोल वा प्रयोग गर्न सक्नुहुन्छ पाइथन लिपि डाइरेक्टरीमा परियोजना प्रविष्टि बिन्दुको रूपमा।
गैर-पाइथन निर्भरताहरू, जस्तै जाभा पुस्तकालयहरू, डकर कन्टेनरहरू प्रयोग गरेर कब्जा गर्न सकिन्छ।
तपाईंले परियोजनाको मूल डाइरेक्टरीमा परियोजना फाइल थपेर MLflow परियोजनामा ठूलो नियन्त्रण प्राप्त गर्न सक्नुहुन्छ, जुन YAML वाक्य रचनामा पाठ फाइल हो।

थप जानकारीको लागि, तपाईं आधिकारिक जाँच गर्न सक्नुहुन्छ दस्तावेज.

3. MLflow मोडेलहरू

अब, म MLflow मोडेलहरू छलफल गर्न चाहन्छु, एक सामान्य-उद्देश्य मोडेल ढाँचा जसले उत्पादन सन्दर्भहरूको विस्तृत श्रृंखलालाई समर्थन गर्दछ। MLflow मोडेलहरूको कारण अब परियोजनाहरूको लागि एकदम समान छ।

फेरि, हामी देख्छौं कि मोडेलहरू उपकरणहरूको एक विस्तृत दायरा प्रयोग गरेर उत्पन्न हुन सक्छ, तर तिनीहरू पनि उत्पादन वा स्थितिको ठूलो दायरामा तैनात गर्न सकिन्छ, प्रशिक्षण वातावरणको विपरीत।

यी सेटिङहरूमा वास्तविक-समय सेवाका लागि उपकरणहरू समावेश छन्, जस्तै Kubernetes वा Amazon SageMaker, साथै स्ट्रिमिङ र ब्याच स्कोरिङ, जस्तै Spark। यसबाहेक, केही व्यवसायहरूले पूर्व-कन्फिगर गरिएको क्लाउड उदाहरणमा चलिरहेको RESTful वेब सेवाको रूपमा मोडेलहरू प्रयोग गर्न छनौट गर्न सक्छन्।

एक MLflow मोडेल, एक परियोजना जस्तै, एक निर्देशिका संरचना हो। यसले कन्फिगरेसन फाइल र, यस पटक, प्रशिक्षण कोडको सट्टा क्रमबद्ध मोडेल कलाकृति समावेश गर्दछ। यसले परियोजनाको रूपमा पुनरावृत्तिको लागि निर्भरताहरूको यो सेट पनि समावेश गर्दछ। यस पटक, हामी कन्डा वातावरणको सन्दर्भमा मूल्याङ्कन निर्भरताहरू हेर्नेछौं।

थप रूपमा, MLflow मा लोकप्रिय फ्रेमवर्कको दायराबाट MLflow ढाँचामा मोडेलहरू क्रमबद्ध गर्न मोडेल उत्पादन उपकरणहरू समावेश गर्दछ। अन्तमा, MLflow ले कुनै पनि MLflow मोडेल उत्पादन गर्न र सेवाहरूको दायरामा जडान गर्न डिप्लोयहरू, API हरू थप्छ, र यी API हरू पाइथन, Java, R, र CLI ढाँचामा पहुँचयोग्य छन्।

मोडलहरू प्याकेजिङ मोडेलहरूको लागि मानक संरचना भएको कम्पोनेन्ट हुन् जुन डाउनस्ट्रीम उपकरणहरू जस्तै इन्फेरेन्सिङ सर्भरहरू वा डाटाब्रिक्स ब्याच इन्फेरेन्सिङ प्लेटफर्म। उत्पादनको लागि मोडेल प्याकेज गर्दा यो घटकले बेस्पोक कोडको घण्टा बचत गर्दछ।

MLflow मोडेल "फ्लेवर्स" भनेर चिनिने विभिन्न प्रकारका मेसिन लर्निङ मोडेलहरू प्याक गर्ने मानक हो। MLflow ले तपाईंलाई विभिन्न प्रकारका मोडेलहरू प्रयोग गर्न मद्दत गर्न धेरै उपकरणहरू प्रदान गर्दछ। प्रत्येक MLflow मोडेललाई स्वेच्छाचारी फाइलहरू समावेश गर्ने डाइरेक्टरीको रूपमा राखिएको छ साथै यसलाई प्रयोग गर्न सकिने स्वादहरूको सूचीको साथ ML मोडेल वर्णनकर्ता फाइल।

प्रमुख विशेषताहरु

सबै MLflow को निर्मित-इन डिप्लोइमेन्ट उपकरणहरूले बहु "मानक" स्वादहरू प्रदान गर्दछ, जस्तै "पाइथन प्रकार्य" स्वाद जसले मोडेललाई पाइथन प्रकार्यको रूपमा कसरी चलाउने भनेर वर्णन गर्दछ।
प्रत्येक MLflow मोडेलले मनमानी फाइलहरू समावेश गर्ने डाइरेक्टरी समावेश गर्दछ, साथै डाइरेक्टरीको मूलमा ML मोडेल फाइल समावेश गर्दछ जसले मोडेलको धेरै स्वादहरू परिभाषित गर्दछ।
मोडेल भण्डारण गर्दा, MLflow ले तपाईंलाई मोडेलको निर्भरताहरू समावेश गर्ने कन्डा वातावरण प्यारामिटर निर्दिष्ट गर्न अनुमति दिन्छ। यदि कुनै कन्डा वातावरण निर्दिष्ट गरिएको छैन भने, मोडेलको स्वादमा आधारित पूर्वनिर्धारित वातावरण बनाइन्छ। त्यस पछि, Conda वातावरण conda.yaml मा भण्डारण गरिएको छ।

थप जानकारीको लागि, तपाईं आधिकारिक जाँच गर्न सक्नुहुन्छ दस्तावेज.

4. MLflow मोडेल रजिस्ट्री

मोडेल रजिस्ट्री सिक्ने मेसिन लर्निङ (एमएल) मोडेलहरूको लागि भण्डार हो। मोडेल रजिस्ट्री एपीआई र वेब-आधारित अनुप्रयोगहरू मिलेर बनेको छ जुन टोलीको रूपमा विभिन्न चरणहरूमा मोडेलहरू कायम राख्न प्रयोग गरिन्छ। मोडेल वंश, मोडेल संस्करण, सजिलो चरण संक्रमण, र एनोटेसन मोडेल रजिस्ट्रीमा उपलब्ध केही क्षमताहरू मात्र हुन्।

मोडेल रजिस्ट्री, मोडेलहरू बाहेक, डेटा र प्रशिक्षण कार्यहरू बारे जानकारी (मेटाडेटा) समावेश गर्दछ जुन मोडेल निर्माण गर्न प्रयोग गरिन्छ। ML मोडेलहरूको लागि वंश सिर्जना गर्न यी आवश्यक इनपुटहरूको ट्र्याक राख्न महत्त्वपूर्ण छ। यस सन्दर्भमा, एक मोडेल रजिस्ट्रीले परम्परागत सफ्टवेयरको जस्तै कार्य गर्दछ संस्करण नियन्त्रण प्रणालीहरू (जस्तै, Git, SVN) र कलाकृति भण्डारहरू (जस्तै, आर्टिफ्याक्ट्री, PyPI)।

मोडेल रजिस्ट्री एउटा ढाँचा हो जसले डेटा वैज्ञानिकहरू र मेसिन लर्निङ इन्जिनियरहरूलाई अन्य टोलीहरूसँग सहयोगको लागि तिनीहरूको मोडेलहरू प्रकाशित गर्न, परीक्षण गर्न, निगरानी गर्न, व्यवस्थापन गर्न र वितरण गर्न अनुमति दिन्छ। अनिवार्य रूपमा, तपाईंले आफ्नो परीक्षण चरण पूरा गरेपछि र टोली र सरोकारवालाहरूसँग आफ्नो निष्कर्षहरू साझा गर्न तयार भएपछि मोडेल रजिस्ट्री प्रयोग गरिन्छ।

MLflow मोडेल रजिस्ट्रीले केन्द्रीय स्थानबाट तपाइँको मोडेलहरू र तिनीहरूको आयु व्यवस्थापन गर्न API र प्रयोगकर्ता इन्टरफेस प्रदान गर्दछ। मोडेल वंश, मोडेल संस्करण, एनोटेसन, र चरण संक्रमण सबै रजिस्ट्री मार्फत उपलब्ध छन्।

MLflow मा, एक दर्ता गरिएको मोडेल एक अद्वितीय नाम र मेटाडेटा, मोडेल संस्करणहरू, संक्रमणकालीन चरणहरू, र एक मोडेल वंश भएको हो। दर्ता गरिएको मोडेलमा एक वा बढी मोडेल संस्करणहरू फेला पार्न सकिन्छ। नयाँ मोडेललाई संस्करण १ मानिन्छ जब यो रजिस्ट्रीमा दर्ता हुन्छ। निम्न संस्करण एउटै नामको कुनै पनि नयाँ मोडेलमा थपिएको छ।

तपाइँ कुनै पनि समयमा कुनै पनि मोडेल संस्करणमा एक चरण असाइन गर्न सक्नुहुन्छ। यद्यपि, चरणहरू MLflow चरणहरू अन्तर्गत तोकिएको हुनुपर्छ जुन औपचारिक रूपमा निर्दिष्ट गरिएको छ, जस्तै स्टेजिङ, उत्पादन, र अभिलेख। एक मोडेल संस्करण एक चरणबाट अर्कोमा ट्रान्जिसन गर्न सकिन्छ।

MLflow ले तपाईंलाई शीर्ष-स्तर मोडेल र प्रत्येक विशिष्ट संस्करण दुवै एनोटेट गर्न मार्कडाउन प्रयोग गर्न अनुमति दिन्छ। तपाईंले विवरणहरू साथै अन्य सान्दर्भिक जानकारीहरू समावेश गर्न सक्नुहुन्छ, जस्तै एल्गोरिथ्म व्याख्याहरू, पद्धति, र प्रयोग गरिएका डेटासेटहरू।

प्रमुख विशेषताहरु

तपाईंको आफ्नै MLflow सर्भर होस्ट गर्दा UI वा API मार्फत मोडेल रजिस्ट्री पहुँच गर्न, तपाईंले डाटाबेस-ब्याक गरिएको ब्याकइन्ड स्टोर प्रयोग गर्नुपर्छ।
मोडेल रजिस्ट्री MLflow मोडेल स्वाद वा MLflow क्लाइन्ट ट्र्याकिङ API इन्टरफेस मार्फत पनि पहुँच गर्न सकिन्छ। उदाहरणका लागि, तपाईंले MLflow प्रयोग चलिरहेको बेला वा तपाईंको सबै प्रयोग चलिसकेपछि मोडेल दर्ता गर्न सक्नुहुन्छ।
सबैजनाले MLflow प्रयोग गरेर आफ्नो मोडेलहरू प्रशिक्षण सुरु गर्दैनन्। नतिजाको रूपमा, तपाइँसँग MLflow प्रयोग गर्नु अघि केही मोडेलहरू प्रशिक्षित हुन सक्छ। मोडेलहरूलाई पुन: तालिम दिनुको सट्टा, तपाईं केवल आफ्नो भण्डारण मोडेलहरू मोडेल रजिस्ट्रीमा दर्ता गर्न चाहनुहुन्छ।

थप जानकारीको लागि, तपाईं आधिकारिक जाँच गर्न सक्नुहुन्छ दस्तावेज.

निष्कर्ष

MLflow एक उत्कृष्ट र निरन्तर बढ्दै ML जीवनचक्र उपकरण हो। तपाइँ यसलाई तपाइँको हालको उपकरण र प्लेटफर्म संग काम गर्न सक्नुहुन्छ।

यसले Python, Java, र R सहित धेरै प्रोग्रामिङ भाषाहरूलाई समर्थन गर्दछ। तपाईं यसको प्रयोगकर्ता-अनुकूल डिजाइनको लागि धन्यवाद विभिन्न मोडेल संस्करणहरू द्रुत रूपमा ट्र्याक गर्न, बचत गर्न र तुलना गर्न सक्नुहुन्छ।

MLflow एक पटक प्रयास गर्नुहोस् र हामीलाई आफ्नो अनुभव थाहा दिनुहोस्!

MLflow - खुला स्रोत ML जीवनचक्र प्लेटफर्म

एमएलका चुनौतीहरू

के हो MLflow?