מה ההבדל הבסיסי בין הרכס לרגרסיה הכי פחות ריבועית?


תשובה 1:

בריבועים הכי פחות, אתה פשוט מדווח על הפיתרון שנותן את הסכום הקטן ביותר של שגיאות בריבוע.

ברידג 'אתה ממזער את סכום השגיאות בריבוע בתוספת "עונש" שהוא סכום מקדמי הרגרסיה, כפול גורם קנה המידה של עונש. התוצאה של זה היא שרידג '"יכווץ" את המקדמים לעבר אפס, כלומר יש עדיפות למקדמים הקרובים לאפס.


תשובה 2:

רגרסיה לינארית

רגרסיה היא טכניקה המשמשת למודל וניתוח היחסים בין משתנים ולעיתים קרובות כיצד הם תורמים וקשורים לייצור תוצאה מסוימת יחד.

רגרסיה לינארית מתייחסת למודל רגרסיה המורכב לחלוטין ממשתנים לינאריים. החל מהמקרה הפשוט, רגרסיה לינארית משתנה יחידה היא טכניקה המשמשת למודל הקשר בין משתנה עצמאי קלט (משתנה תכונה) לבין משתנה תלוי פלט באמצעות מודל ליניארי כלומר קו.

המקרה הכללי יותר הוא רגרסיה לינארית רב-משתנה בה נוצר מודל לקשר בין משתני קלט עצמאיים מרובים (משתני תכונה) לבין משתנה תלוי פלט. המודל נשאר ליניארי בכך שהפלט הוא שילוב לינארי של משתני הקלט. אנו יכולים לדגמן רגרסיה לינארית רב משתנה כדלקמן:

Y = a_1 * X_1 + a_2 * X_2 + a_3 * X_3 ……. a_n * X_n + b

כאשר a_n הם המקדמים, X_n הם המשתנים ו- b הוא ההטיה. כפי שאנו רואים, פונקציה זו אינה כוללת אי-לינאריות ולכן היא מתאימה רק לדגימת נתונים המופרדים באופן לינארי. זה די קל להבין כיוון שאנחנו פשוט שוקלים את החשיבות של כל משתנה תכונה X_n באמצעות משקלי המקדם a_n. אנו קובעים את המשקולות הללו a_n ואת ההטיה הנוסעת בירידה סטוכסטית של שיפוע (SGD). עיין באיור שלהלן לקבלת תמונה חזותית יותר!

איור כיצד מוצא ירידת מעבר צבע את הפרמטרים האופטימליים לרגרסיה לינארית

כמה נקודות מפתח בנושא רגרסיה לינארית:

  • מהירה וקלה למודל והיא שימושית במיוחד כאשר היחסים שיש לדגמן אינם מורכבים במיוחד ואם אין לכם הרבה נתונים.אינטואיטיבי מאוד להבין ולפרש. רגרסיה לינארית רגישה מאוד למחשבים.

רגרסיה של רידג '

רגרסיה לינארית או פולינום סטנדרטית תיכשל במקרה בו יש קולניאריות גבוהה בין משתני התכונה. קולניאריות היא קיומם של קשרים כמעט ליניאריים בין המשתנים הבלתי תלויים. ניתן לקבוע את נוכחות הקוליניאריות הגבוהה בכמה דרכים שונות:

  • מקדם רגרסיה אינו משמעותי למרות, תיאורטית, יש לתאם בין משתנה זה לבין Y. כאשר אתה מוסיף או מוחק משתנה של תכונת X, מקדמי הרגרסיה משתנים באופן דרמטי. משתני התכונה של ה- X שלך הם בעלי מתאם גבוה זוגי (בדוק את מטריצת המתאם) .

ראשית, אנו יכולים להסתכל על פונקציית האופטימיזציה של רגרסיה לינארית סטנדרטית בכדי לקבל תובנה מסוימת כיצד יכולת לסייע ברגרסיה של הרכס:

min || Xw - y || ²

כאשר X מייצג את משתני התכונה, w מייצג את המשקולות ומייצג את האמת הקרקעית. רגרסיה של רידג 'הוא מדד מתקנה שננקט בכדי להקל על הקוליניאריות בקרב משתני חיזוי רגרסיה במודל. קולניאריות היא תופעה בה ניתן לחזות באופן לינארי משתנה תכונה אחת במודל רגרסיה מרובה מהאחרים בדרגת דיוק משמעותית. מכיוון שמשתני התכונה מתואמים כל כך בדרך זו, מודל הרגרסיה הסופי מוגבל וקשיח בקירובו, כלומר יש לו שונות גבוהה.

כדי להקל על סוגיה זו, Ridge Regression מוסיף גורם הטיה קטן בריבוע למשתנים:

דקות || Xw - y || ² + z || ב || ²

גורם הטיה מרובע כזה מרחיק את מקדמי המשתנה של התכונה מהנוקשות הזו, מכניס כמות קטנה של הטיה למודל אך מצמצם מאוד את השונות.

כמה נקודות מפתח בנושא רגרסיה של רידג ':

  • ההנחות של רגרסיה זו זהות לרגרסיה הכי בריבוע אלא פרט לכך שאין להניח את הנורמליות. זה מכווץ את הערך של מקדמים אך אינו מגיע לאפס, דבר שאינו מציע שום תכונה לבחירת תכונות