מבוא דוגמנות נושא למתחילים

תוכן העניינים[להתחבא][הופעה]

מה זה Topic Modeling?
מרכיבים של מודל נושא+-
- מודל הסתברותי
- אחזור מידע
שיטות שונות של דוגמנות נושאים+-
מעשית עם דוגמנות נושאים ב-Python+-
- ניתוח נתונים חקרני
- שימוש בתגיות לעיצוב נושאים
יישומים של דוגמנות נושאים
סיכום

אני בטוח ששמעתם על בינה מלאכותית, כמו גם על מילים כמו למידת מכונה ועיבוד שפה טבעית (NLP).

במיוחד אם אתה עובד במשרד שמטפל במאות, אם לא אלפי, קשרי לקוחות מדי יום.

ניתוח נתונים של פרסומים במדיה חברתית, מיילים, צ'אטים, תשובות סקרים פתוחות ומקורות אחרים אינו תהליך פשוט, והוא הופך לקשה עוד יותר כאשר הוא מופקד בידי אנשים בלבד.

לכן אנשים רבים מתלהבים מהפוטנציאל של בינה מלאכותית לעבודתם היומיומית ולארגונים.

ניתוח טקסט המופעל על ידי בינה מלאכותית משתמש במגוון רחב של גישות או אלגוריתמים כדי לפרש שפה באופן אורגני, אחד מהם הוא ניתוח נושאים, המשמש לגילוי אוטומטי של נושאים מטקסטים.

עסקים יכולים להשתמש במודלים של ניתוח נושאים כדי להעביר עבודות קלות למכונות במקום להעמיס על העובדים יותר מדי נתונים.

שקול כמה זמן הצוות שלך עשוי לחסוך ולהקדיש לעבודה חיונית יותר אם מחשב יוכל לסנן דרך אינסוף רשימות של סקרי לקוחות או בעיות תמיכה בכל בוקר.

במדריך זה, נבחן מודלים של נושאים, שיטות שונות של מודלים של נושאים, ונקבל ניסיון מעשי עם זה.

מה זה Topic Modeling?

דוגמנות נושאים היא סוג של כריית טקסטים שבה סטטיסטיים ללא פיקוח ומפוקח למידת מכונה טכניקות משמשות לאיתור מגמות בקורפוס או נפח משמעותי של טקסט לא מובנה.

זה יכול לקחת את אוסף המסמכים העצום שלך ולהשתמש בשיטת דמיון כדי לסדר את המילים לאשכולות של מונחים ולגלות נושאים.

זה נראה קצת מורכב וקשה, אז בואו נפשט את הליך הדוגמנות בנושא!

נניח שאתה קורא עיתון עם סט של היילייטרים צבעוניים בידך.

זה לא מיושן?

אני מבין שבימים אלה מעטים האנשים שקוראים עיתונים בדפוס; הכל דיגיטלי וההיילייטרים הם נחלת העבר! העמד פנים שאתה אבא או אמא שלך!

לכן, כשאתה קורא את העיתון, אתה מדגיש את המונחים החשובים.

עוד הנחה אחת!

אתה משתמש בגוון שונה כדי להדגיש את מילות המפתח של נושאים שונים. אתה מסווג את מילות המפתח בהתאם לצבע ולנושאים שסופקו.

כל אוסף מילים המסומן בצבע מסוים הוא רשימה של מילות מפתח לנושא נתון. כמות הצבעים השונים שבחרת מציגה את מספר הנושאים.

זהו מודל הנושא הבסיסי ביותר. זה מסייע בהבנה, ארגון וסיכום של אוספי טקסט גדולים.

עם זאת, זכור שכדי להיות יעילים, מודלים אוטומטיים של נושאים דורשים הרבה תוכן. אם יש לך עבודה קצרה, אולי תרצה ללכת לבית הספר הישן ולהשתמש בהיילייטרים!

זה גם מועיל להשקיע קצת זמן בהכרת הנתונים. זה ייתן לך תחושה בסיסית של מה מודל הנושא צריך למצוא.

לדוגמה, היומן הזה עשוי להיות על מערכות היחסים הנוכחיות והקודמים שלך. לפיכך, הייתי מצפה שהחבר שלי לרובוט כריית טקסטים יעלה רעיונות דומים.

זה יכול לעזור לך לנתח טוב יותר את איכות הנושאים שזיהית, ובמידת הצורך, לצבוט את קבוצות מילות המפתח.

מרכיבים של מודל נושא

מודל הסתברותי

משתנים אקראיים והתפלגויות הסתברות משולבים בייצוג של אירוע או תופעה במודלים הסתברותיים.

מודל דטרמיניסטי מספק מסקנה פוטנציאלית אחת לאירוע, בעוד שמודל הסתברותי מספק התפלגות הסתברות כפתרון.

מודלים אלה מתייחסים למציאות שלעתים רחוקות יש לנו ידע מלא על המצב. כמעט תמיד יש לקחת בחשבון אלמנט של אקראיות.

לדוגמה, ביטוח חיים מבוסס על המציאות שאנו יודעים שנמות, אך איננו יודעים מתי. מודלים אלה עשויים להיות דטרמיניסטים חלקית, אקראיים חלקית או אקראיים לחלוטין.

אחזור מידע

אחזור מידע (IR) היא תוכנה המארגנת, מאחסנת, מאחזרת ומעריכה מידע ממאגרי מסמכים, במיוחד מידע טקסטואלי.

הטכנולוגיה עוזרת למשתמשים לגלות את המידע שהם צריכים, אבל היא לא מספקת בבירור את התשובות לפניותיהם. הוא מודיע על נוכחותם ומיקומם של ניירות שעשויים לספק את המידע הדרוש.

מסמכים רלוונטיים הם אלה העונים על צרכי המשתמש. מערכת IR ללא תקלות תחזיר רק מסמכים נבחרים.

קוהרנטיות נושאית

קוהרנטיות נושא מציינת נושא בודד על ידי חישוב מידת הדמיון הסמנטי בין המונחים בעלי הניקוד הגבוה של הנושא. מדדים אלו מסייעים בהבחנה בין נושאים הניתנים לפירוש סמנטית לבין נושאים שהם חפצי מסקנות סטטיסטיים.

אם קבוצה של טענות או עובדות תומכות זו בזו, אומרים שהן קוהרנטיות.

כתוצאה מכך, ניתן להבין מערך עובדות מלוכד בהקשר המקיף את כל העובדות או את רובן. "המשחק הוא ספורט קבוצתי", "המשחק משוחק עם כדור", ו"המשחק דורש מאמץ פיזי אדיר" הם כולם דוגמאות למערכות עובדות מגובשות.

שיטות שונות של דוגמנות נושאים

הליך קריטי זה יכול להתבצע על ידי מגוון אלגוריתמים או מתודולוגיות. ביניהם:

הקצאת Dirichlet סמויה (LDA)
פקטוריזציה של מטריצה לא שלילית (NMF)
ניתוח סמנטי סמוי (LSA)
ניתוח סמנטי סמוי הסתברותי (pLSA)

הקצאת Dirichlet סמויה (LDA)

כדי לזהות קשרים בין מספר טקסטים בקורפוס, נעשה שימוש בקונספט הסטטיסטי והגרפי של הקצאת Dirichlet סמויה.

באמצעות גישת ה- Variational Exception Maximization (VEM), הערכת הסבירות הגדולה ביותר ממכלול הטקסט מושגת.

בע"מ

באופן מסורתי, נבחרות המילים המובילות מתוך שקית מילים.

עם זאת, המשפט חסר משמעות לחלוטין.

לפי טכניקה זו, כל טקסט יוצג על ידי חלוקה הסתברותית של נושאים, וכל נושא על ידי חלוקה הסתברותית של מילים.

פקטוריזציה של מטריצה לא שלילית (NMF)

מטריקס עם פקטוריזציה של ערכים לא שליליים היא גישת מיצוי תכונות חדשנית.

כאשר ישנן תכונות רבות והתכונות מעורפלות או בעלות יכולת חיזוי גרועה, NMF מועיל. NMF יכול ליצור דפוסים, נושאים או נושאים משמעותיים על ידי שילוב מאפיינים.

פקטוריזציה של מטריקס לא שלילי

NMF יוצר כל תכונה כשילוב ליניארי של ערכת התכונות המקורית.

כל תכונה מכילה קבוצה של מקדמים המייצגים את החשיבות של כל תכונה בתכונה. לכל תכונה מספרית ולכל ערך של כל תכונת קטגוריה יש מקדם משלו.

כל המקדמים חיוביים.

ניתוח סמנטי סמוי

זוהי שיטת למידה ללא פיקוח נוספת המשמשת לחילוץ אסוציאציות בין מילים בקבוצה של מסמכים היא ניתוח סמנטי סמוי.

זה עוזר לנו לבחור את המסמכים המתאימים. תפקידו העיקרי הוא לצמצם את הממדיות של הקורפוס העצום של נתוני טקסט.

נתונים מיותרים אלו משמשים כרעש רקע ברכישת התובנות הדרושות מהנתונים.

ניתוח סמנטי סמוי

ניתוח סמנטי סמוי הסתברותי (pLSA)

ניתוח הסתברותי סמנטי הסתברותי (PLSA), הידוע לעתים בשם אינדקס סמנטי הסתברותי (PLSI, בעיקר במעגלי אחזור מידע), היא גישה סטטיסטית לניתוח נתונים דו-מצבי ודו-התרחשות.

למעשה, בדומה לניתוח סמנטי סמוי, שממנו יצא PLSA, ניתן להפיק ייצוג נמוך ממדי של המשתנים הנצפים מבחינת הזיקה שלהם למשתנים נסתרים מסוימים.

ניתוח סנטי סנטי הסתברותי

מעשית עם דוגמנות נושאים ב-Python

עכשיו, אני אדריך אותך במשימת דוגמנות בנושא עם ה-Python שפת תכנות באמצעות דוגמה מהעולם האמיתי.

אני אעצב מאמרי מחקר. מערך הנתונים שבו אשתמש כאן מגיע מ-kaggle.com. אתה יכול להשיג בקלות את כל הקבצים שבהם אני משתמש בעבודה זו מכאן עמוד.

בואו נתחיל עם Topic Modeling באמצעות Python על ידי ייבוא כל הספריות החיוניות:

ייבוא ספריות

השלב הבא הוא לקרוא את כל מערכי הנתונים שבהם אשתמש במשימה זו:

קרא את מערך הנתונים

ניתוח נתונים חקרני

EDA (Exploratory Data Analysis) היא שיטה סטטיסטית המשתמשת באלמנטים ויזואליים. הוא משתמש בסיכומים סטטיסטיים ובייצוגים גרפיים כדי לגלות מגמות, דפוסים והנחות בדיקה.

אני אעשה ניתוח נתונים חקרני לפני שאתחיל במודלים של נושאים כדי לראות אם יש דפוסים או קשרים כלשהם בנתונים:

מצא את הערכים האפסים של מערך הנתונים של הרכבת

ערכי פלט של רכבת Null

כעת נמצא את ערכי האפס של מערך הנתונים של הבדיקה:

מצא את הערכים האפסים של מערך הנתונים של הבדיקה

פלט ערכי Null של הבדיקה

כעת אני אשרטט היסטוגרמה ותרשים קופסא כדי לבדוק את הקשר בין המשתנים.

מזימה

פלט של תכנון 1

כמות הדמויות בסט Abstracts of the Train משתנה מאוד.

ברכבת יש לנו מינימום של 54 ומקסימום 4551 תווים. 1065 הוא הכמות הממוצעת של תווים.

מזימה 2

פלט של תכנון 2

ערכת המבחנים נראית מעניינת יותר ממערך האימונים שכן ערכת המבחנים כוללת 46 תווים בעוד שבסט האימונים יש 2841.

כתוצאה מכך, למערך המבחן היה חציון של 1058 תווים, הדומה למערך האימונים.

מזימה 3

פלט של תכנון 3

מספר המילים בערכת הלמידה עוקב אחר דפוס דומה למספר האותיות.

מותרים לפחות 8 מילים ומקסימום 665 מילים. כתוצאה מכך, ספירת המילים החציונית היא 153.

מזימה 4

פלט של תכנון 4

נדרשות מינימום שבע מילים בתקציר ומקסימום 452 מילים במערך המבחן.

החציון, במקרה זה, הוא 153, שזהה לחציון במערך האימונים.

שימוש בתגיות לעיצוב נושאים

ישנן מספר אסטרטגיות דוגמנות נושאים. אני אשתמש בתגיות בתרגיל זה; בואו נסתכל כיצד לעשות זאת על ידי בחינת התגים:

שימוש בתגיות לעיצוב נושאים

פלט של דוגמנות נושאים

יישומים של דוגמנות נושאים

ניתן להשתמש בתקציר טקסט כדי להבחין בנושא של מסמך או ספר.
ניתן להשתמש בו כדי להסיר הטיית מועמדים מהניקוד בבחינות.
ניתן להשתמש במודלים של נושאים כדי לבנות קשרים סמנטיים בין מילים במודלים מבוססי גרפים.
זה יכול לשפר את שירות הלקוחות על ידי זיהוי ותגובה למילות מפתח בפניית הלקוח. הלקוחות יאמרו בך יותר מאחר שהענקת להם את הסיוע שהם צריכים ברגע המתאים ומבלי לגרום להם לטרחה. כתוצאה מכך, נאמנות הלקוחות עולה באופן דרמטי, ושווי החברה עולה.

סיכום

דוגמנות נושאים היא מעין מידול סטטיסטי המשמש לחשיפת "נושאים" מופשטים הקיימים באוסף טקסטים.

זוהי צורה של המודל הסטטיסטי המשמש למידת מכונה ועיבוד שפה טבעית לחשיפת מושגים מופשטים הקיימים במכלול טקסטים.

זוהי שיטת כריית טקסט שנמצאת בשימוש נרחב כדי למצוא דפוסים סמנטיים סמויים בגוף הטקסט.

מבוא דוגמנות נושא למתחילים

מה זה Topic Modeling?