המודלים החיזויים של Oracle Analytics משתמשים במספר אלגוריתמים משובצים של Oracle Machine Learning לכריית סלי הנתונים שלך, לחיזוי ערך יעד או לזיהוי מחלקות של רשומות. השתמש בעורך זרימת הנתונים כדי ליצור, לאמן ולהחיל מודלים של חיזוי על הנתונים שלך.
מודל חיזוי של Oracle Analytics מחיל אלגוריתם ספציפי על סל נתונים כדי לחזות ערכים, לחזות מחלקות או לזהות קבוצות בנתונים.
אתה יכול להשתמש גם במודלים של למידת מכונה של Oracle לחיזוי נתונים.
Oracle Analytics כולל אלגוריתמים שיסייעו לך לאמן מודלים של חיזוי למטרות שונות. דוגמאות של אלגוריתמים הם סיווגים ועצי רגרסיה (CART), רגרסיה לוגית ו-k-means.
משתמשים בעורך זרימת הנתונים כדי להתחיל באימון מודל על סל נתוני אימון. לאחר סיום אימון מודל החיזוי, מחילים אותו על סלי הנתונים שרוצים לחזות.
תוכל להפוך מודל מאומן לזמין למשתמשים אחרים שיוכלו להחיל אותו כנגד הנתונים שלהם כדי לחזות ערכים. במקרים מסוימים, חלק מהמשתמשים מאמנים מודלים ומשתמשים אחרים מחילים את המודלים.
הערה :
אם אינך בטוח מה לחפש בנתונים שלך, תוכל להתחיל באמצעות Explain, אשר עושה שימוש בלמידת מכונה כדי לזהות מגמות ותבניות. לאחר מכן תוכל להשתמש בעורך זרימת הנתונים כדי ליצור מודלים של חיזוי ולאמן אותם לתחקר למגמות ולתבניות שמצאה פונקציית Explain.השתמש במודל המוגמר כדי לדרג נתונים לא ידועים או חסרי תווית כדי להפיק סל נתונים בתוך זרימת נתונים או להוסיף המחשת תחזית לחוברת עבודה.
דוגמה
נניח שתרצה ליצור ולאמן מודל עם מספר סיווגים כדי לחזות לאילו מטופלים יש סיכוי גבוה לפתח מחלות לב.
Oracle Analytics מספק אלגוריתמים לכל אחד מהצרכים של מידול למידת מכונה: תחזית מספרית, מספר מסווגים, מסווג בינארי וקיבוץ באשכולות.
הפונקציונליות של Oracle ללמידת מכונה נועדה לאנליסטים מתקדמים של נתונים שיש להם מושג על מה שהם מחפשים בנתונים שלהם, שהם מכירים את העבודה עם ניתוחי מידע לחיזוי, והם מבינים את ההבדלים בין אלגוריתמים.
הערה :
אם אתה משתמש בנתונים שמקורם ב-Oracle Autonomous Data Warehouse, תוכל להשתמש ביכולת AutoML כדי להכשיר מודל חיזוי במהירות ובקלות עבורך, ללא צורך בכישורי למידת מכונה. ראה אימון מודל חזוי באמצעות AutoML במחסן נתונים אוטונומי.משתמשים רוצים, בדרך כלל, ליצור מספר מודלים של חיזוי, להשוות ביניהם ולבחור את המודל עם הסיכוי הכי גבוה לתת תוצאות שעונות על הקריטריונים והדרישות של המשתמשים. קריטריונים אלו משתנים. לדוגמה, לפעמים משתמשים בוחרים מודלים בעלי דיוק טוב יותר, לפעמים משתמשים בוחרים מודלים עם מספר השגיאות הקטן ביותר מסוג 1 (חיובי שקרי) ומסוג 2 (שלילי שקרי), ולפעמים משתמשים בוחרים מודלים שמחזירים תוצאות מהר יותר ועם רמת דיוק קבילה יותר אפילו אם התוצאות אינן אידיאליות.
Oracle Analytics מכיל מספר אלגוריתמים של למידת מכונה לכל סוג של חיזוי או סיווג. עם אלגוריתמים אלה, משתמשים יכולים ליצור מספר מודלים או להשתמש בפרמטרים מכווננים שונים, או להשתמש בסלי נתונים לאימון ערכי קלט שונים ואז לבחור את המודל הטוב ביותר. המשתמש יכול לבחור את המודל הטוב ביותר על-ידי השוואה ושקילה של מודלים כנגד הקריטריונים שלהם. לקביעת המודל הטוב ביותר, משתמשים יכולים להחיל את המודל ולהמחיש את תוצאות החישובים כדי לקבוע את מידת הדיוק; לחלופין, הם יכולים לפתוח ולחקור את סלי הנתונים הקשורים שנפלטו באמצעות המודל שבו השתמש Oracle Analytics.
עיין בטבלה הבאה כדי ללמוד עוד על האלגוריתמים שהמערכת מספקת:
שם | סוג | קטגוריה | פונקציה | תיאור |
---|---|---|---|---|
CART |
סיווג רגרסיה |
מסווג בינארי מספר מסווגים מספרי |
- | משתמש בעצי החלטות כדי לחזות ערכים בדידים וגם ערכים רציפים.
לשימוש עם סלי נתונים גדולים. |
רגרסיה לינארית מסוג Elastic Net | רגרסיה | מספרי | ElasticNet | מודל רגרסיה מתקדמת. מספק מידע נוסף (רגולריזציה), מבצע בחירה משתנית ומבצע קומבינציות לינאריות. קנסות של שיטות הרגרסיה Lasso ו-Ridge.
לשימוש עם מספר גדול של תכונות כדי להימנע מקו-לינאריות (שבה מספר תכונות נמצאות במיתאם מושלם) והתאמת יתר. |
היררכי | קיבוץ באשכולות | קיבוץ באשכולות | AgglomerativeClustering | בונה היררכיה של קיבוץ באשכולות באמצעות 'מלמטה למעלה' (כל תצפית היא אשכול משל עצמה ולאחר מכן ממזגים) או 'מלמעלה למטה' (כל התצפיות מתחילות כאשכול אחד) ומדדי מרחק.
לשימוש כאשר סל הנתונים אינו גדול ומספר האשכולות אינו ידוע מראש. |
K-Means | קיבוץ באשכולות | קיבוץ באשכולות | k-means | יוצר באופן חזרתי מחיצות של רשומות לאשכולות k שבהם כל תצפית שייכת לאשכול בעל הממוצע הקרוב ביותר.
משמש לקיבוץ באשכולות של עמודות מדדים ועם ציפייה מוגדרת למספר האשכולות הדרושים. עובד טוב עם סלי נתונים גדולים. התוצאות משתנות בכל ריצה. |
רגרסיה לינארית | רגרסיה | מספרי | Ordinary Least Squares
Ridge Lasso |
גישה לינארית לקשר מידול בין משתנה יעד לבין תכונות אחרות בסל הנתונים.
משמש לחיזוי ערכים מספריים כאשר התכונות אינן במיתאם מושלם. |
רגרסיה לוגיסטית | רגרסיה | מסווג בינארי | LogisticRegressionCV | משמש לחיזוי הערך של משתנה תלוי באופן קטגוריאלי. המשתנה התלוי הוא משתנה בינארי שמכיל נתונים המקודדים ל-1 או 0. |
Naive Bayes | סיווג |
מסווג בינארי מספר מסווגים |
GaussianNB | סיווג הסתברותי המבוסס על חוק בייס שמניח שאין תלות בין המאפיינים.
לשימוש כאשר יש מספר גבוה של ממדי קלט. |
רשת עצבית | סיווג |
מסווג בינארי מספר מסווגים |
MLPClassifier | אלגוריתם סיווג חזרתי שלומד על-ידי השוואת תוצאת הסיווג שלו מול הערך בפועל, ומחזיר אותה לרשת כדי לתקן את האלגוריתם לחזרות הבאות.
משמש לניתוח טקסט. |
יער אקראי (Random Forest) | סיווג |
מסווג בינארי מספר מסווגים מספרי |
- | שיטות מורכבות הבונות מספר עצי החלטה ומחזירות את הערך שמייצג באופן קולקטיבי את כל עצי ההחלטה.
משמש לחיזוי משתנים מספריים וקטגוריאליים. |
SVM | סיווג |
מסווג בינארי מספר מסווגים |
LinearSVC, SVC | מסווג רשומות על-ידי מיפוי שלהם במרחב ובניית מישורי-על (hyperplanes) שניתן להשתמש בהם לצורך סיווג. רשומות חדשות (נתוני דירוג) ממופות למרחב, ומתבצעת תחזית להשתייכות שלהן לקטגוריה במבוסס על צד מישור-העל שבו הן חלות. |
כאשר אתה משתמש בנתונים מ-Oracle Autonomous Data Warehouse, אתה יכול להשתמש ביכולת ה-AutoML שלו כדי להמליץ ולהכשיר מודל חזוי. AutoML מנתחת את הנתונים שלך, מחשבת את האלגוריתם הטוב ביותר לשימוש ורושם מודל חיזוי ב-Oracle Analytics כדי שתוכל לבצע תחזיות על הנתונים שלך.
OML_Developer
והוא אינו משתמש-על 'מנהל מערכת'. אחרת, זרימת הנתונים נכשלת כאשר אתה מנסה לשמור או להפעיל אותה.על-פי הבעיה שצריך לפתור, אנליסט נתונים מתקדם בוחר אלגוריתם מתאים כדי לאמן מודל חיזוי ולאחר מכן הוא מעריך את תוצאות המודל.
על מנת להגיע למודל מדויק יש צורך בתהליך חזרתי. אנליסט נתונים מתקדם יכול לנסות מודלים שונים, להשוות בין התוצאות שלהם ולכווןן פרמטרים במבוסס על ניסוי וטעייה. אנליסט נתונים יכול להשתמש במודל החיזוי המדויק הסופי כדי לחזות מגמות בסלי נתונים אחרים או כדי להוסיף את המודל לחוברות עבודה.
הערה :
אם אתה משתמש בנתונים שמקורם ב-Oracle Autonomous Data Warehouse, תוכל להשתמש ביכולת AutoML כדי להכשיר מודל חיזוי במהירות ובקלות עבורך, ללא צורך בכישורי למידת מכונה. ראה אימון מודל חזוי באמצעות AutoML במחסן נתונים אוטונומי.Oracle Analytics מספק אלגוריתמים לתחזית מספרית, מספר סיווגים, סיווג בינארי וקיבוץ באשכולות.
Oracle Analytics מאפשר לך לאמן מודלים של למידת מכונה באמצעות שלבים בזרימות נתונים. אחרי שאימנת מודל ללמידת מכונה, החל אותו על הנתונים שלך באמצעות השלב החל מודל.
שם השלב | תיאור |
---|---|
AutoML (דורש Oracle Autonomous Data Warehouse) | השתמש ביכולת AutoML של Oracle Autonomous Data Warehouse כדי להמליץ ולהכשיר עבורך מודל חזוי. שלב AutoML מנתח את הנתונים שלך, מחשב את האלגוריתם הטוב ביותר לשימוש ורושם מודל חיזוי ב-Oracle Analytics. |
אימון של מסווג בינארי |
אמן מודל למידת מכונה לסווג את הנתונים שלך לאחת משתי קטגוריות מוגדרות מראש. |
אימון של קיבוץ באשכולות | אמן מודל למידת מכונה להפריד קבוצות עם תכונות דומות ולהקצות אותן לאשכולות. |
אימון של מספר מסווגים | אמן מודל למידת מכונה לסווג את הנתונים שלך לשלוש או יותר קטגוריות מוגדרות מראש. |
אימון תחזית מספרית | אמן מודל למידת מכונה לחזות ערך מספרי במבוסס על ערכי נתונים ידועים. |
לאחר שיצרת את מודל החיזוי והרצת את זרימת הנתונים, תוכל לבדוק את המידע על המודל כדי לקבוע את מידת הדיוק שלו. השתמש במידע זה לצורך התאמה חזרתית של הגדרות המודל כדי לשפר את הדיוק שלו ולחזות תוצאות טובות יותר.
מידע מפורט על מודל חיזוי עוזר לך להבין את המודל ולקבוע אם הוא מתאים לחיזוי הנתונים שלך. פרטי המודל כוללים את מחלקת המודל, האלגוריתם, עמודות קלט ועמודות פלט.
הצג מידע שעוזר לך להבין את האיכות של מודל חיזוי. למשל, אתה יכול לבדוק מדדי דיוק כגון דיוק המודל, רמת דיוק, החזרה, ערך F1 ושיעור חיוביים שקריים.
כאשר אתה מריץ את זרימת הנתונים כדי ליצור את מודל האימון של מודל החיזוי של Oracle Analytics, Oracle Analytics יוצר סל של סלי נתונים קשורים. בסלי נתונים אלה תוכל לפתוח וליצור חוברות עבודה כדי לבחון את הדיוק של המודל.
בהתאם לאלגוריתם שבחרת למודל שלך, סלי נתונים קשורים מכילים פרטים על המודל כגון: כללי תחזית, מדדי דיוק, מטריצת מבוכה וגורמי מפתח לתחזית. תוכל להשתמש במידע זה כדי לכוונן את המודל לקבלת תוצאות טובות יותר, ותוכל להשתמש בסלי נתונים קשורים כדי להשוות בין מודלים ולהחליט איזה מודל מדויק יותר.
לדוגמה, תוכל לפתוח סל נתונים 'גורמים' כדי לגלות לאילו עמודות יש השפעה חיובית או שלילית חזקה על המודל. על-ידי בחינת עמודות אלו, תמצא שכמה מהעמודות אינן מטופלות כמשתני מודל כיוון שהן אינן ערכי קלט ממשיים או שהן מפורטות מדי לתחזית. השתמש בעורך זרימת הנתונים כדי לפתוח את המודל, ועל פי המידע שתגלה, להסיר את העמודות המפורטות מדי או אלו שאינן רלוונטיות, ולהפיק מחדש את המודל. בדוק את הכרטיסייה 'איכות ותוצאות' וודא שדיוק המודל אכן השתפר. המשך בתהליך זה עד שתהיה מרוצה ממידת הדיוק של המודל והוא יהיה מוכן לדרג סל נתונים חדש.
אלגוריתמים שונים מפיקים סלי נתונים קשורים דומים. פרמטרים ושמות עמודות פרטניים עשויים להשתנות בסל הנתונים בהתאם לסוג האלגוריתם, אך הפונקציונליות של סל הנתונים לא משתנה. לדוגמה, שמות העמודות בסל נתונים סטטיטיסטיים עשוי להשתנות מרגרסיה לינארית לרגרסיה לוגיסטית, אך סל הנתונים הסטטיסטיים מכיל מדדי דיוק של המודל.
סלי נתונים קשורים למודלי AutoML
כאשר אתה מאמן מודל חיזוי באמצעות AutoML, Oracle Analytics יוצר סלי נתונים נוספים המכילים מידע שימושי על המודל. מספר סלי הנתונים שנוצר תלוי באלגוריתם המודל. לדוגמה, למודלי אלגוריתם בייסיאני נאיבי, Oracle Analytics יוצר סל נתונים המספק מידע על הסתברויות מותנות. למודל עץ החלטות, סל הנתונים מספק מידע על נתונים סטטיסטיים של עץ החלטות. כאשר אתה בודק מודל שנוצר על-ידי AutoML באמצעות אלגוריתם GLM, אתה רואה ערכים (עם קידומת GLM*) לסלי הנתונים הספציפיים למודל המכילים נתוני מטאדטה על המודל.
.png
סלי נתונים קשורים
CARTree
סל נתונים זה הוא הצגה טבלאית של CART (עץ החלטות), שחושבה כדי לחזות את ערכי עמודת היעד. הוא מכיל עמודות שמייצגות את התנאים ואת קריטריוני התנאים בעץ ההחלטות, תחזית לכל קבוצה וביטחון תחזית. ניתן להשתמש בהמחשה הגרפית 'דיאגרמת עץ מובנה' כדי להמחיש עץ החלטות זה.
סל הנתונים CARTree הוא הפלט כאשר בוחרים את הקומבינציות הללו של מודל ואלגוריתם.
מודל | אלגוריתם |
---|---|
מספרי | CART לתחזית מספרית |
סיווג בינארי | CART (עץ החלטות) |
מספר סיווגים | CART (עץ החלטות) |
דוח סיווג
סל נתונים זה הוא הצגה טבלאית של מדדי הדיוק לכל ערך נבדל של עמודת היעד. לדוגמה, אם לעמודת היעד יכולים להיות שני הערכים הנבדלים 'כן' ו'לא', סל נתונים זה מציג מדדי דיוק כגון F1, דיוק, החזר ותמיכה (מספר השורות בסל נתוני האימון עם ערך זה) לכל ערך נבדל של עמודת היעד.
סל הנתונים 'סיווג' הוא הפלט כאשר בוחרים את הקומבינציות הללו של מודל ואלגוריתם.
מודל | אלגוריתמים |
---|---|
סיווג בינארי |
Naive Bayes רשת עצבית מכונת וקטורים תומכים |
מספר סיווגים |
Naive Bayes רשת עצבית מכונת וקטורים תומכים |
מטריצת בלבול
סל נתונים זה, שנקרא גם מטריצת שגיאות, הוא מתווה של טבלת ציר. כל שורה מייצגת מופע של מחלקה חזויה, וכל עמודה מייצגת מופע של מחלקה בפועל. טבלה זו מדווחת על מספר החיוביים השקריים, השליליים השקריים, החיוביים האמיתיים והשליליים האמיתיים, המשמשים לחישוב ממדי הדיוק: דיוק, החזר ו-F1.
סל הנתונים 'מטריצת מבוכה' הוא הפלט כאשר בוחרים את הקומבינציות הללו של מודל ואלגוריתם.
מודל | אלגוריתמים |
---|---|
סיווג בינארי |
רגרסיה לוגיסטית CART (עץ החלטות) Naive Bayes רשת עצבית יער אקראי (Random Forest) מכונת וקטורים תומכים |
מספר סיווגים |
CART (עץ החלטות) Naive Bayes רשת עצבית יער אקראי (Random Forest) מכונת וקטורים תומכים |
גורמים
סל נתונים זה כולל מידע על העמודות שקובעות את ערכי עמודת היעד. רגסרגיות לינאריות משמשות לזיהוי עמודות אלו. לכל עמודה מקצים ערכי מקדם ומיתאם. ערך המקדם מתאר את משקל העמודה המשמש לקבוע את ערך עמודת היעד. ערך המיתאם מציין את כיוון הקשר בין עמודת היעד והעמודה התלויה. לדוגמה, אם ערך עמודת היעד עולה או יורד במבוסס על העמודה התלויה.
סל הנתונים 'גורמים' הוא הפלט כאשר בוחרים את הקומבינציות הללו של מודל ואלגוריתם.
מודל | אלגוריתמים |
---|---|
מספרי |
רגרסיה לינארית רגרסיה לינארית מסוג Elastic Net |
סיווג בינארי |
רגרסיה לוגיסטית מכונת וקטורים תומכים |
מספר סיווגים | מכונת וקטורים תומכים |
Hitmap
סל נתונים זה מכיל מידע על צומתי הקצה של עץ ההחלטות. כל שורה בטבלה מייצגת צומת קצה ומכילה מידע המתאר את מה שצומת הקצה מייצג, כגון גודל מקטע, ביטחון ומספר השורות הצפוי. לדוגמה, מספר צפוי של תחזיות נכונות = גודל מקטע * ביטחון.
סל הנתונים Hitmap הוא הפלט כאשר בוחרים את הקומבינציות הללו של מודל ואלגוריתם.
מודל | אלגוריתם |
---|---|
מספרי | CART לתחזית מספרית |
שאריות
סל נתונים זה כולל מידע על האיכות של שארית תחזיות. שארית הוא ההפרש בין הערך שנמדד לבין הערך החזוי של מודל רגרסיה. סל נתונים זה מכיל ערך סכום מצטבר של ההפרש המוחלט בין הערך בפועל לערך החזוי לכל העמודות בסל הנתונים.
סל הנתונים 'שאריות' הוא הפלט כאשר בוחרים את הקומבינציות הללו של מודל ואלגוריתם.
מודל | אלגוריתמים |
---|---|
מספרים |
רגרסיה לינארית רגרסיה לינארית מסוג Elastic Net CART לתחזית מספרית |
סיווג בינארי | CART (עץ החלטות) |
מספר סיווגים | CART (עץ החלטות) |
נתונים סטטיסטיים
המדדים של סל נתונים זה תלויים באלגוריתם ששימש להפקתו. שים לב לרשימה הבאה של מדדים המבוססים על אלגוריתם:
סל נתונים זה הוא הפלט כאשר בוחרים את הקומבינציות הללו של מודל ואלגוריתם.
מודל | אלגוריתם |
---|---|
מספרי |
רגרסיה לינארית רגרסיה לינארית מסוג Elastic Net CART לתחזית מספרית |
סיווג בינארי |
רגרסיה לוגיסטית CART (עץ החלטות) Naive Bayes רשת עצבית יער אקראי (Random Forest) מכונת וקטורים תומכים |
מספר סיווגים |
Naive Bayes רשת עצבית יער אקראי (Random Forest) מכונת וקטורים תומכים |
סיכום
סל נתונים זה מכיל מידע כגון שם יעד ושם מודל.
סל הנתונים 'סיכום' הוא הפלט כאשר בוחרים את הקומבינציות הללו של מודל ואלגוריתם.
מודל | אלגוריתמים |
---|---|
סיווג בינארי |
Naive Bayes רשת עצבית מכונת וקטורים תומכים |
מספר סיווגים |
Naive Bayes רשת עצבית מכונת וקטורים תומכים |
סלי נתונים קשורים מופקים בעת אימון מודל חיזוי.
כאשר אתה יוצר תרחיש בחוברת העבודה, אתה מחיל מודל חיזוי על סל הנתונים של חוברת העבודה כדי לחשוף את המגמות והדפוסים שהמודל תוכנן למצוא.
הערה :
אי אפשר להחיל מודל למידת מכונה של Oracle על הנתונים של חוברת העבודה.