اسان گهڻو وقت گذاريون ٿا ماڻهن سان آن لائن چيٽ، اي ميل، ويب سائيٽس، ۽ سوشل ميڊيا ذريعي.
متن جي ڊيٽا جو تمام وڏو حجم جيڪو اسان هر سيڪنڊ ۾ پيدا ڪري ٿو، اسان جي توجه کان بچي ٿو، پر، هميشه نه.
گراهڪ جا عمل ۽ جائزو تنظيمن کي انمول معلومات فراهم ڪن ٿا ته گراهڪ شين ۽ خدمتن ۾ ڪهڙي قدر ۽ ناپسنديده آهن، انهي سان گڏ اهي ڇا ٿا چاهين هڪ برانڊ کان.
جيتوڻيڪ ڪاروبار جي اڪثريت، اڃا تائين ڊيٽا جي تجزيي لاء سڀ کان وڌيڪ مؤثر طريقو طئي ڪرڻ ۾ مشڪل آهي.
جيئن ته ڊيٽا جو گهڻو حصو غير منظم آهي، ڪمپيوٽرن کي ان کي سمجهڻ ڏکيو وقت آهي، ۽ دستي طور تي ان کي ترتيب ڏيڻ ۾ تمام گهڻو وقت لڳندو.
هٿ سان تمام گھڻي ڊيٽا کي پروسيس ڪرڻ محنتي، نراسائي، ۽ آسانيءَ سان ناقابل اندازو ٿي ويندو آهي جيئن هڪ فرم وڌندو آهي.
شڪرگذاري سان، قدرتي ٻولي پروسيسنگ توهان جي مدد ڪري سگهي ٿي غير منظم متن ۾ بصيرت واري معلومات ڳولڻ ۽ متن جي تجزيي جي مسئلن جي هڪ حد کي حل ڪرڻ، بشمول جذبي تجزيه، مضمونن جي درجه بندي، ۽ وڌيڪ.
انساني ٻولي کي مشينن کي سمجھڻ جو مقصد قدرتي ٻولي پروسيسنگ (NLP) جي مصنوعي ذھني شعبي جو مقصد آھي، جيڪو لسانيات ۽ ڪمپيوٽر سائنس جو استعمال ڪري ٿو.
NLP ڪمپيوٽرن کي خودڪار طريقي سان ڊيٽا جي وڏي مقدار جو جائزو وٺڻ جي قابل بنائي ٿو، ان کي ممڪن بڻائي ٿو ته توهان جلدي لاڳاپيل معلومات کي سڃاڻڻ لاء.
اڻ سڌريل متن (يا ٻين قسمن جي قدرتي ٻولي) کي ٽيڪنالاجي جي هڪ حد سان استعمال ڪري سگهجي ٿو بصيرت واري معلومات کي ظاهر ڪرڻ ۽ ڪيترن ئي مسئلن کي حل ڪرڻ لاء.
جيتوڻيڪ ڪنهن به لحاظ کان جامع ناهي، هيٺ پيش ڪيل اوپن سورس ٽولز جي فهرست ڪنهن به ماڻهو يا ڪنهن تنظيم لاءِ شروع ڪرڻ لاءِ هڪ شاندار جڳهه آهي جيڪو پنهنجي منصوبن ۾ قدرتي ٻولي پروسيسنگ استعمال ڪرڻ ۾ دلچسپي رکي ٿو.
1. NLTK
ھڪڙو بحث ڪري سگھي ٿو ته قدرتي ٻولي ٽول ڪٽ (NLTK) سڀ کان وڌيڪ خصوصيت وارو اوزار آھي جنھن کي مون ڏٺو آھي.
تقريبن سڀئي اين ايل پي ٽيڪنالاجيون لاڳو ڪيون ويون آهن، جن ۾ درجه بندي، ٽوڪنائيزيشن، اسٽيمنگ، ٽيگنگ، پارسنگ، ۽ سيمينٽڪ دليل شامل آهن.
توھان چونڊي سگھوٿا درست الگورٿم يا طريقو جيڪو توھان استعمال ڪرڻ چاھيو ٿا ڇاڪاڻ ته اتي اڪثر موجود آھن ڪيترائي عملدرآمد ھر ھڪ لاءِ.
ڪيتريون ئي ٻوليون پڻ سپورٽ آهن. جيتوڻيڪ اهو سادو ڍانچي لاءِ سٺو آهي، حقيقت اها آهي ته اهو سڀني ڊيٽا جي نمائندگي ڪري ٿو جيئن تارن کي ڪجهه نفيس صلاحيتن کي لاڳو ڪرڻ مشڪل بڻائي ٿو.
جڏهن ٻين اوزارن جي مقابلي ۾، لائبريري پڻ ٿوري سست آهي.
سڀني شين تي غور ڪيو ويو، هي هڪ بهترين اوزار سيٽ آهي تجربو، ڳولا، ۽ ايپليڪيشنن لاء جيڪو ڪجهه مخصوص الورورٿم جي ضرورت آهي.
گڻ
- اها ڪيترن ئي ٽين اضافن سان گڏ تمام مشهور ۽ مڪمل اين ايل پي لائبريري آهي.
- ٻين لائبريرين جي مقابلي ۾، اها اڪثر ٻولين کي سپورٽ ڪري ٿي.
اوگڻ
- سمجھڻ ۽ استعمال ڪرڻ ڏکيو
- اهو سست آهي
- جا ماڊل نه آهن نظرياتي نيٽ ورڪ
- اهو صرف متن کي جملن ۾ ورهائي ٿو بغير لفظن کي غور ڪرڻ جي
2. اسپيس
SpaCy NLTK جي سڀ کان وڌيڪ امڪاني مٿاهين حریف آهي. جيتوڻيڪ اهو صرف هر اين ايل پي جزو لاءِ هڪ عمل درآمد آهي ، اهو عام طور تي تيز آهي.
اضافي طور تي، هر شيء کي هڪ اسٽرنگ جي بدران هڪ اعتراض جي طور تي پيش ڪيو ويو آهي، جيڪو ايپس کي ترقي ڪرڻ لاء انٽرفيس کي آسان بڻائي ٿو.
توهان جي ٽيڪسٽ ڊيٽا جي گهڻي گرفت حاصل ڪرڻ توهان کي وڌيڪ حاصل ڪرڻ جي قابل بڻائي سگهندي.
اهو پڻ ڪيترن ئي ٻين فريم ورڪ ۽ ڊيٽا سائنس جي اوزارن سان ڳنڍڻ لاءِ آسان بڻائي ٿو. پر NLTK جي مقابلي ۾، SpaCy ڪيترين ئي ٻولين جي سپورٽ نٿو ڪري.
اهو ٻوليءَ جي پروسيسنگ ۽ تجزيي جي مختلف پهلوئن لاءِ ڪيترن ئي نيورل ماڊلز جي خصوصيت رکي ٿو، انهي سان گڏ هڪ سڌريل يوزر انٽرفيس اختيارين جي وسيع رينج ۽ شاندار دستاويزن سان.
اضافي طور تي، SpaCy ڊيٽا جي وڏي مقدار کي گڏ ڪرڻ لاءِ ٺاهيو ويو آهي ۽ انتهائي مڪمل طور تي دستاويز ٿيل آهي.
ان ۾ قدرتي ٻوليءَ جي پروسيسنگ لاءِ ماڊلز جو هڪ مجموعو پڻ شامل آهي جيڪي اڳ ۾ ئي تربيت يافته آهن، انهي کي سکڻ، سيکارڻ، ۽ استعمال ڪرڻ آسان بڻائي ٿي SpaCy سان قدرتي ٻولي پروسيسنگ.
مجموعي طور تي، هي نون ايپس لاءِ هڪ بهترين اوزار آهي جنهن کي ڪنهن خاص طريقي جي ضرورت ناهي ۽ پيداوار ۾ ڪارڪردگيءَ جي ضرورت آهي.
گڻ
- ٻين شين جي مقابلي ۾، اهو جلدي آهي.
- سکڻ ۽ استعمال ڪرڻ آسان آهي.
- ماڊل نيورل نيٽ ورڪ استعمال ڪندي تربيت ڏني وئي آهي
اوگڻ
- NLTK جي مقابلي ۾ گھٽ موافقت
3. جينسيم
دستاويزن کي ظاهر ڪرڻ لاءِ سڀ کان وڌيڪ اثرائتو ۽ آسان طريقا سيمينٽڪ ویکٹر طور حاصل ڪيا ويا آهن خاص اوپن سورس پٿون فريم ورڪ استعمال ڪندي جن کي Gensim طور سڃاتو وڃي ٿو.
Gensim ليکڪرن طرفان ٺهيل هئي، خام، غير منظم ٿيل سادي متن کي استعمال ڪرڻ لاء مشين جي سکيا طريقا تنهن ڪري، اهو هڪ هوشيار خيال آهي Gensim استعمال ڪرڻ لاءِ نوڪريون جهڙوڪ موضوع ماڊلنگ.
اضافي طور تي، Gensim مؤثر طور تي متن جي هڪجهڙائي ڳولي ٿو، مواد کي ترتيب ڏئي ٿو، ۽ مختلف متنن جي وچ ۾ نيويگيٽ ڪري ٿو.
اهو هڪ انتهائي خاص آهي Python لائبريري موضوع جي ماڊلنگ جي ڪمن تي ڌيان ڏيڻ ليٽنٽ ڊيريچليٽ مختص ۽ ٻين LDA طريقن کي استعمال ڪندي.
اضافي طور تي، اهو نصوص ڳولڻ ۾ تمام سٺو آهي جيڪي هڪ ٻئي سان ملندڙ جلندڙ آهن، نصوص کي ترتيب ڏيڻ، ۽ ڪاغذن تي نيويگيٽ ڪرڻ.
هي اوزار موثر ۽ جلدي ڊيٽا جي وڏي مقدار کي سنڀاليندو آهي. هتي ڪجهه شروعاتي سبق آهن.
گڻ
- سادي يوزر انٽرفيس
- معروف الگورتھم جو موثر استعمال
- ڪمپيوٽرن جي هڪ گروپ تي، اهو ڪري سگهي ٿو لڪير ڊيريچليٽ مختص ڪرڻ ۽ لڪير سيمينٽڪ تجزيو.
اوگڻ
- اهو گهڻو ڪري غير نگراني ٿيل ٽيڪسٽ ماڊلنگ لاءِ آهي.
- ان ۾ مڪمل اين ايل پي پائيپ لائين جو فقدان آهي ۽ ٻين لائبريرين جهڙوڪ اسپيس يا NLTK سان گڏ استعمال ٿيڻ گهرجي.
4. TextBlob
TextBlob ھڪڙو قسم آھي NLTK واڌارو.
TextBlob ذريعي، توهان ڪيترن ئي NLTK ڪمن کي وڌيڪ آساني سان رسائي ڪري سگهو ٿا، ۽ TextBlob پڻ پيٽرن لائبريري صلاحيتن کي شامل ڪري ٿو.
اهو ٿي سگهي ٿو هڪ ڪارائتو اوزار استعمال ڪرڻ لاءِ جڏهن توهان سکيا شروع ڪري رهيا آهيو، ۽ اهو استعمال ڪري سگهجي ٿو پيداوار ۾ انهن ايپليڪيشنن لاءِ جن کي تمام گهڻي ڪارڪردگي جي ضرورت ناهي.
اهو ساڳيو اين ايل پي ڪمن کي انجام ڏيڻ لاءِ تمام گهڻو صارف دوست ۽ سڌو انٽرفيس پيش ڪري ٿو.
اهو هڪ بهترين آپشن آهي نوان نوان ماڻهن لاءِ جيڪي وٺڻ چاهيندا آهن NLP ڪمن جهڙوڪ جذبي جو تجزيو، ٽيڪسٽ ڪيٽيگريزيشن، ۽ پارٽ آف اسپيچ ٽيگنگ ڇاڪاڻ ته ان جي سکيا وارو وکر ٻين اوپن سورس ٽولز کان گهٽ آهي.
TextBlob وڏي پيماني تي استعمال ڪيو ويندو آهي ۽ مجموعي طور تي ننڍن منصوبن لاء بهترين.
گڻ
- لائبريري جو يوزر انٽرفيس سادو ۽ صاف آهي.
- اهو گوگل ترجمو استعمال ڪندي ٻولي جي سڃاڻپ ۽ ترجمي جون خدمتون پيش ڪري ٿو.
اوگڻ
- ٻين جي مقابلي ۾، اهو سست آهي.
- نيورل نيٽ ورڪ جا ماڊل ناهن
- ڪوبه لفظ ویکٹر ضم ٿيل ناهي
5. اوپن اين ايل پي
OpenNLP کي ٻين Apache پروجيڪٽس جهڙوڪ Apache Flink، Apache NiFi، ۽ Apache Spark شامل ڪرڻ آسان آهي ڇاڪاڻ ته اهو Apache فائونڊيشن طرفان ميزبان آهي.
اهو هڪ جامع اين ايل پي اوزار آهي جيڪو ڪمانڊ لائن مان استعمال ڪري سگهجي ٿو يا ايپليڪيشن ۾ لائبريري جي طور تي.
ان ۾ NLP جا سڀ عام پروسيسنگ حصا شامل آھن.
اضافي طور تي، اهو وسيع زبان جي حمايت پيش ڪري ٿو. جيڪڏھن توھان جاوا استعمال ڪري رھيا آھيو، OpenNLP ھڪڙو مضبوط اوزار آھي ھڪڙي ٽين صلاحيتن سان جيڪو پيداوار جي ڪم جي لوڊ لاء تيار ڪيو ويو آھي.
ان کان علاوه سڀ کان وڌيڪ عام NLP ڪمن کي فعال ڪرڻ، جهڙوڪ ٽوڪنائيزيشن، جملي سيگمينٽيشن، ۽ پارٽ آف اسپيچ ٽيگنگ، OpenNLP کي استعمال ڪري سگھجي ٿو وڌيڪ پيچيده ٽيڪسٽ پروسيسنگ ايپليڪيشن ٺاهڻ لاءِ.
وڌ ۾ وڌ اينٽراپي ۽ perceptron تي ٻڌل مشين سکيا پڻ شامل آهن.
گڻ
- ڪيترن ئي خاصيتن سان هڪ ماڊل ٽريننگ اوزار
- بنيادي اين ايل پي جي ڪمن تي ڌيان ڏئي ٿو ۽ انهن تي اضافي ڪري ٿو، بشمول ادارو جي سڃاڻپ، جملي جي سڃاڻپ، ۽ ٽوڪنائيزيشن.
اوگڻ
- نفيس صلاحيتن جي کوٽ؛ جيڪڏهن توهان JVM سان جاري رکڻ چاهيو ٿا، CoreNLP ڏانهن منتقل ٿيڻ ايندڙ قدرتي قدم آهي.
6. ايلن اين ايل پي
AllenNLP تجارتي ايپليڪيشنن ۽ ڊيٽا جي تجزيو لاءِ مثالي آهي ڇاڪاڻ ته اهو PyTorch اوزار ۽ وسيلن تي ٺهيل آهي.
اهو متن جي تجزيي لاءِ هڪ تمام وسيع اوزار ۾ ترقي ڪري ٿو.
اهو ان کي فهرست جي وڌيڪ نفيس قدرتي ٻولي پروسيسنگ اوزارن مان هڪ بڻائي ٿو. ٻين ڪمن کي آزاديءَ سان انجام ڏيڻ دوران، AllenNLP مفت SpaCy اوپن سورس پيڪيج استعمال ڪندي ڊيٽا کي اڳڀرائي ڪري ٿو.
AllenNLP جو اهم وڪرو نقطو اهو آهي ته اهو استعمال ڪرڻ ڪيترو آسان آهي.
AllenNLP ٻين اين ايل پي پروگرامن جي ابتڙ، قدرتي ٻولي پروسيسنگ جي عمل کي ترتيب ڏئي ٿو جنهن ۾ ڪيترائي ماڊل شامل آهن.
نتيجي طور، پيداوار جا نتيجا ڪڏهن به مونجهارو محسوس نه ڪندا آھن. اهو هڪ بهترين اوزار آهي انهن لاءِ جيڪي گهڻو ڄاڻ نه آهن.
گڻ
- PyTorch جي چوٽي تي ترقي ڪئي وئي
- جديد ماڊل استعمال ڪندي ڳولڻ ۽ تجربا ڪرڻ لاءِ بهترين
- اهو ٻنهي تجارتي ۽ علمي طور استعمال ڪري سگهجي ٿو
اوگڻ
- وڏي پيماني تي منصوبن لاء مناسب ناهي جيڪي هن وقت پيداوار ۾ آهن.
ٿڪل
ڪمپنيون اين ايل پي ٽيڪنڪ استعمال ڪري رهيون آهن غير منظم ٽيڪسٽ ڊيٽا مان بصيرت ڪڍڻ لاءِ جيئن ته اي ميلون، آن لائين جائزو، سماجي ميڊيا پوسٽنگ، ۽ وڌيڪ. اوپن سورس ٽولز لاڳت کان آزاد، موافقت لائق، ۽ ڊولپرز کي مڪمل ڪسٽمائيزيشن جا اختيار ڏين ٿا.
توهان ڇا لاء انتظار ڪري رهيا آهيو؟ انهن کي فوري طور تي استعمال ڪريو ۽ ناقابل اعتماد شيء ٺاهيو.
ڪوڊنگ خوش!
جواب ڇڏي وڃو