עבור לא מומחה, מה ההבדל בין גישות בייסיאניות לתכופות?


תשובה 1:

ש: כמה תדירים נדרשים להחלפת נורה? ת: ובכן, יש תשובות מגנות שונות ...

ש: כמה Bayesians לוקח להחליף נורה? ת: הכל תלוי בעבר שלך!

Narrator: תן ל- p להיות חלוקת הסתברות לא ידועה. אומדן הוא פונקציה שמנסה לענות על שאלה לגבי p בהינתן מערך נתונים שנדגם מ- p.

הסטטיסטיקה נוגעת ברובה לתכנון וניתוח של אומדנים ...

פרדי המתמיד: הנה אומדן שהרגע הגעתי! ואני יכול להוכיח כי עבור כל p במשפחת ההפצות הזו, האומד שלי "עובד טוב."

המספר: אנא הסבירו "עובד טוב" לקהל שלנו. אתה יכול לנופף בידיים שלך.

פרדי (מנופף בידיים): לא משנה מה זה p, האומדן שלי בדרך כלל ייתן תשובות די מדויקות על ערכות נתונים שנדגמו מ- p. כמובן שזה ייכשל במערך הנתונים שאינו מייצג מדי פעם, אך אין הימנעות ממזל רע.

בסיה המפרץ: מזל טוב! האם זה אופטימלי ב"עבודה טובה "? אני תמיד רוצה אופטימלי.

פרדי: הו, אין שום אומדן טוב ביותר לבעיה זו. אבל לפחות אני יכול להוכיח שהשלי "קביל". כלומר, מעריך אחר עשוי לנצח את אומדני עבור p כלשהו, ​​אך לא עבור כל p.

בסיה: אוקיי ... אז מה עם ההפצות שאתה מצפה להיווצר בפועל? האם המעריך שלך מתאים במיוחד לאלה?

פרדי: מי יודע מה יעלה בפועל?

בסיה: כנראה, כן. כבר הנחת ש- p יגיע ממשפחה מסוימת. אם לא, הערכתך אינה ערובה.

פרדי: אוקי, הבנת אותי. אבל ההנחה שלי די מתונה. לאנשים לעתים קרובות יש סיבות טובות [למשל משפט הגבול המרכזי] להאמין שההפצה שלהם מניבת נתונים אכן מגיעה פחות או יותר ממשפחתי. אני רוצה שהמערי שלי יעבוד טוב כל עוד p נמצא במשפחה ההיא.

בסיה: אבל תקבל את הנתונים האמיתיים שלך ממדענים. האם לא יהיה להם גיבוש מדעי ספציפי יותר לגבי מה שעשוי להיות p? אז אתה יכול להשיג תוצאות טובות יותר על ידי התחשבות בזה.

פרדי: זה נשמע חשוד. המדענים רוצים מסקנות אובייקטיביות, ולא מסקנות המשקפות את הנחותיהם הקיימות.

בסיה: מטרה ?? אנתרופולוגים ועיתונאים אומרים שאין דבר כזה נקודת מבט אובייקטיבית: כמו בפיזיקה, אתה תמיד מביא את מסגרת ההתייחסות שלך. הנתונים שהכי יכולים לעשות בשבילך זה לעדכן את האמונות הקיימות שלך. לא שמת לב בשיעור הפילוסופיה? הספקנים אומרים לנו שאין דרך לדעת דבר בוודאות. האקזיסטנציאליסטים אומרים לנו שאתה לא יכול לוותר על רצונך החופשי, ככל שתרצה. אתה יכול לנסות לסלק את האחריות הזו על ידי אימוץ עקרון כלשהו כמו חוק או נאמנות או דת - או תכופות! - אבל זו רק דרך עקיפה להחליט על הבחירות שלך.

פרדי: בלה בלה בלה. סטטיסטיקה היא מתמטיקה, לא פילוסופיה.

Basia: סטטיסטיקה היא יישום אפיסטמולוגיה. אתה ואני ממשיכים בשיחה פילוסופית ישנה: כיצד אנו יכולים להסיק נכון מהנתונים? כן, הכלים המתמטיים המודרניים שלנו מאפשרים לנו לגזור בקפדנות מסקנות מדויקות, אך רק לאחר שהנחנו הנחות. אפילו מתמטיקאים צריכים להניח כמה אקסיומות. כשאנחנו עוסקים בנתונים, עלינו גם להניח הנחות מאיפה הנתונים הגיעו. אין הנחות, אין מסקנות. החיים מבאסים ככה.

פרדי: אבל כבר הנחתי הנחה קלה והמציאתי אומדן טוב! כל הדיבורים התבוסתניים שלך לא נותנים לי טוב יותר.

בסיה: לא, אני לא מתכוון לתת לך אומדן אחד. אני אתן לך דרך לגזור אוטומטית מעריך טוב יותר על ידי הנחות נוספות. שלך מובטח שיעבוד די טוב עבור כל האנשים במשפחה, אבל שלי יעבוד טוב יותר עבור p.

פרדי: טיפוסי ?? אני עושה ניתוח גרוע ביותר. אתה רוצה לבצע ניתוח מקרים ממוצע, אז מה המקרה הממוצע? האם אני אמור הממוצע בממוצע שווה על פני כל p?

בסיה: פשוט רשמו את ההפצה הקודמת שלכם ב- p, המשקפת את אמונותיכם האמיתיות - לפני הניסוי - לגבי היכן p יכול ליפול. אם אינך בטוח, אז הקודם שלך צריך להיות "שטוח" ולהתייחס לכל p פחות או פחות באופן שווה.

פרדי: ופעם רשמתי את ההפצה הקודמת ...?

בסיה: אז האמידה של בייס פשוט תיפול! לא נותר דבר לעצב. בהתחשב במאגר נתונים, האומד של בייס פשוט שוקל מחדש את האמונה הקודמת שלך בכל השערה על פי ההסתברות של אותה השערה לייצר את מערך הנתונים. אם יש לך פונקציית אובדן, אז ההחלטות האופטימליות נופלות מהאמונות החדשות, שוב ללא תכנון נוסף, בזכות תורת ההחלטות של בייס.

פרדי: החלטות "אופטימליות" ... אם אתה מאמין לקודם.

בסיה: היי, הודאת שאין לך דרך עקרונית לבחור בין אומדנים קבילים. גם אומדנים שונים מבצעים תחזיות שונות.

עלי לציין את הקודם שלי. אין לי דרך עקרונית לבחור בין קודמים שונים; אני פשוט אמורה להיות אמונה קודמת. אבל לפחות אני מפורשת לגבי זה! אז מי שקורא את העיתון שלי יכול לראות בדיוק מה הוביל למסקנות שלי. אני לא משוטט עם אומדנים שונים. האומד שלי מתעקש להשתמש בכל הנתונים. על פי עקרונות בייסיאניים, הנתונים והקודם מובילים ללא מסקנות למסקנות.

כמובן שקוראי חופשיים להתווכח איתי אם הקודם שלי מייצג את המצב הנוכחי של הידע המדעי. אנו יכולים לבדוק עד כמה קודמים שונים ישפיעו על המסקנות.

המספר: תודה על הדיון המעורר! זה מתחיל להיות מאוד טוב; דר. כעת הקהל חופשי לעזוב.

פרדי: אני רואה שאתה באמת רוצה לסחוט את כל טיפת ערך מהנתונים. אבל מדוע לנסות להגדיר את מעריך האמת האמיתית? שלי מספיק טוב. אני יכול לכבול את ההטיה והשונות של האומד שלי כפונקציה בגודל מערך הנתונים, כך אוכל להוכיח לך ששגיאות גדולות אינן סבירות מאוד עבור מערכי נתונים מעשיים.

כעניין מעשי, גם הערכה שלי קלה לחישוב. למען האמת, כך מצאתי את זה: השערתי הליך פשוט סביר ואז הוכחתי שיש לו תכונות טובות. האומדן הבייסי שלך היה קל דיו לרשום מתמטית, אבל אולי זה מחושב על הגלגלים לעזאזל, מה שמקשה גם על הניתוח.

בסיה: זה הוגן. למעשה, בדרך כלל אין לי דרך מעשית לחשב את זה בדיוק. עלי לתכנן אלגוריתם אקראי או קירוב משתנה. לכן המסקנות המעשיות שלי אינן נובעות באופן בלתי נסבל מהנתונים פלוס הקודמים. הם מושפעים גם מהקירוב החישובי.

אבל אולי הסקת מסקנות מדויקות מהנתונים צריכה להיות אינטנסיבית חישובית. הנמקה מדעית מעורבת למדי כאשר בני האדם עושים זאת. תהליכים מדעיים הם מורכבים, מה שמוביל למשפחות מודלים מורכבות. ניסויים מדעיים מייצרים נתונים הטרוגניים, רעשניים ולא שלמים.

הגישה הבייסית מטפלת בכל המורכבות הזו בצורה חלקה. לאחר שתכנן את המודל שלך, הבייסיאניות מורכבת מעקרון סטטיסטי פשוט אחד, המגובה בפועל על ידי ספריית טריקים חישוביים.

פרדי: אני נותן לך שבמצבים מפוארים אלה, גם אומדנים תכופים יהפכו ליקרים חישוביים. אני גם מודה שהיה קשה לי לתכנן אומדן למצב כזה (קל וחומר למצבים קשורים רבים) שהיו בעלי תכונות תכופות טובות להפליא.

ככל הנראה הייתי נופל על מעריך הסבירות המרבית. זה כמו גרסה שהוצגה לאומדן של האומדן הבייסני שלך, כך שניתן יהיה לחשב לפחות לפחות. וזה לא צריך קודמת.

בסיה: אני לא משוגע על הסבירות המרבית. זה מתעלם מהמידע הקודם. וזה נותן רק הערכה נקודתית מטופשת, במקום לייצג אי וודאות אחורית. זה יוביל אותך להחלטות גרועות יותר.

פרדי: אז אולי אוסיף מסדר סדר. בלי קשר, ההשפעה של קודמתך פוחתת ככל שמסד הנתונים הולך וגדל, וכך גם חוסר הוודאות האחורי שלך. אז לפחות נסכים זה עם זה במגבלת המידע האינסופי. ובנקודה זו נסכים גם עם האמת: אני גם לא משוגע לגבי הערכת הסבירות המרבית, אבל לפחות זה עקבי.

מספר: בסדר אז! נהדר לראות אותך בהסכמה.

פרדי: ביי, קהל לא מומחה! מקווה שנהנת. אתה יכול להמציא אותנו בדרך שלך החוצה.

אבל בסיה, בין שנינו, אני עדיין לא חולק את עמדתך הפילוסופית לגבי מה שאנחנו רוצים מעריך. בואו נפיל את הפנטזיה האינסופית-נתונים. יהיו לנו נתונים סופיים, לכן אנו רוצים שהסיכון של המעריך יקטן במהירות כפונקציה בגודל מערך הנתונים. אם הייתי שוקל אומדן לדגם מסובך, הייתי מנסה להוכיח שהוא עשה זאת לכל תפוצה במשפחה. זה לא ידרוש שום דבר קודם.

בסיה: אבל למה אתה מתכוון ל"הפצה כלשהי במשפחה "? עם דגמים מורכבים, האם זה אפילו מושג טבעי? הרשה לי לשרטט מודל בייאריסטי בסיסי היררכי:

  1. צייר כמה פרפרמטרים מהפרמטרים הקודמים למשוך מההפצות הנשלטות על ידי הפרפר-פרמטרים גררו נתונים מההפצות שנשלטו על ידי הפרמטרים.

מה המשפחה כאן?

פרדי: כאן הייתי מתייחס באופן שונה להפרפרמטרים והפרמטרים. אני מוכן להניח של- p יש את הצורה ההיררכית שלך: כפי שציינת קודם, אקבל אילוצים קשים בעמ '. אני זורק רק את הקודמת שלך על פני הפרפרמטר, שהוא אילוץ רך בעמ '. כל הגדרה של יתר הפרמטרים היא חלוקה שונה p, לכן אני רוצה לתכנן שיטה תכופה העובדת היטב לכל הגדרה כזו.

בסיה: אבל לא זרקת את ההפצות שיוצרות את הפרמטרים.

פרדי: צודק. אז אני צריך להתייחס לפרמטרים האלה בשלב 2 כנתונים שלא ניתן להבחין בהם המודל נוצר בדרך לשלב 3. הם משתנים "מטרד". אז כשאני ממוצע בממוצע על מערכי נתונים אקראיים, גם אני מבצע ניתוחי מקרה ממוצע של הפרמטרים. אבל מכיוון שאני מנסה להראות שניתוח זה מתאים לכל חלוקה, אני מבצע ניתוח גרוע ביותר של הפרפרמטר.

בסיה: מה המוטיבציה שלך להתייחס לשתי רמות אלה בצורה כה שונה ??

פרדי: אה, אני תמיד מבחין בשתי רמות. יש מערכת הפצות כלשהי. עבור כל הפצה בסט, אני רוצה להצליח בממוצע.

בסיה: אתה מסתכל על המודל ההיררכי הזה בן שלוש דרגות ורואה קבוצה של התפלגויות על פני הפצות. על ידי שימוש בקוד קודם על יתר הפרמטרים, אני הופך את זה לפיזור על התפלגויות על פני התפלגויות. או באופן שווה, חלוקה אחת גדולה. אז אני רק מנתח את הכל במקרה הממוצע. אני לא מבין מדוע תצייר קו מיוחד בין רמות 1. ו -2 של הדגם שלי.

פרדי: אבל אני לא צריך לצייר את זה שם. אני יכול לצייר אותו בכל מקום שאבחר. אתה רוצה לזרוק ניתוחים במקרה הגרוע לחלוטין. אבל אני מתחיל לערבב ניתוחים במקרה הגרוע והממוצע בדרכים שונות.

כשאני משרטט את הקו מעל לרמה 1, אז הכל במקרה ממוצע והניתוח שלי אינו ניתן להבחנה מזו של בייסי. במקרה כזה המשפחה מכילה רק חלוקה אחת p, המייצרת את הפרפרמטרים, הפרמטרים והנתונים. אז האומד שלי אינו מעריך את המאפיינים של p, הידוע. זה מייחס ערכים של משתני המטרד, שניתנו p והמערכת הנתונים שנצפתה.

וכאן הסיכון של מעריך שלי כבר לא תלוי בבחירה של p. זה ממוצע על פני הכל כולל הפרפרמטר.

בסיה: טוב! זה מה שאני ממזער תמיד. האומדן שלי מוגדר במפורש כדי למזער את הסיכון של בייס - כלומר, האובדן הצפוי של התחזית, על פי הנתון האחורי הנתון למערך הנתונים. מכיוון שהמעריך שלי ממזער את הסיכון של Bayes עבור כל מערך נתונים שהוא מקבל, כך שהוא גם ממזער את הסיכון התכוף עליו אתה מדבר, מה שממוצע בנוסף לכל מערכי הנתונים האפשריים.

פרדי: כן, האומדן שלך נראה כמו פיתרון אידיאלי אם אני מצייר את הקו מעל רמה 1, אני מקבל את קודמתך כחלק מהדגם עצמו. אבל זו תוצאה יחידה, די חלשה. על ידי בחירה לשרטט את הקו במקומות אחרים, אני מקבל לנסח משפטים נוספים אודות אומדנים. משפטים המכילים סמלים ∀ מכיוון שהם מבצעים ניתוח גרוע ביותר.

בסיה: אותה "תוצאה חלשה" היא כל מה שאני צריך אי פעם בפועל. המשפטים הנוספים שלך נכונים מספיק, אבל איך הם עוזרים לך?

פרדי: ובכן, נעים לי יותר להמליץ ​​על אומדן למדענים. אני יכול לומר להם אילו תכונות ידועות יש, כולל סוגים שונים של נכסים במקרה הגרוע.

בסיה: אך תכוף אחר יכול להמליץ ​​באותה מידה על אומדן אחר, שיש לו גם תכונות טובות אך יביא תחזיות שונות.

המשפטים שלך הם רק נקודות דיבור; הם מבלבלים את הנושא. אני לא צריך שום משפטים כדי להמליץ. המלצתי הבייסית היא להפיק את האומדן ישירות מההנחות המדעיות והיעדים ההנדסיים שלך. אני תמיד אומר למדענים להשתמש בכלל בייס הכללי: אם הם בוטחים במודל שלהם ובקודם, התחזית הטובה ביותר מהנתונים היא זו שמצמצמת את הסיכון של בייס.

פרדי: אני חושב שאתה בעצם נשען על משפט הכיתה השלם. שאתה מרגיש פותר את כל הסטטיסטיקה. מה אתה עושה כל היום? בטח עבודה מושחתת.

בסיה: ובכן, אני עוזר למדענים למסד את תפקוד המודל, הקודם והאובדן שלהם. זה לא מצריך משפטים סטטיסטיים חדשים - אבל עדיין יש לעשות מתמטיקה. יתכן ואצטרך לתכנן ולנתח התפלגויות הסתברות חדשות. אני גם מעצב ומנתח אלגוריתמים שיעזרו למדענים לחשב את התחזית הטובה ביותר.

פרדי: מגיע להם לדעת אם "התחזית הטובה ביותר" הזו תהיה טובה. אז אולי עלי לערוך ניתוח תכוף של אומדן הבייס.

בסיה: למה לטרוח? פשוט הייתי מתריע להם על הסיכון של בייז לחיזוי שלהם בפועל. מספר זה הוא מידע שימושי ביותר מכיוון שהוא מותנה במערך הנתונים שלהם בפועל.

ניתוח התדירות שלך יתן תשומת לב באותה מידה להפצות p שנפסלות על ידי מערך הנתונים שלהם בפועל. למי אכפת לעשות טוב עם אלה ?? במיוחד כאשר "עושה טוב" פירושו ביצועים ממוצעים על פני הרבה מערכי נתונים בדיוניים. אלה לא רלוונטיים.

פרדי: אבל מה אם למדענים אין עדיין "מערך נתונים ממשי"? הם ינתחו מערכי נתונים רבים. הם צריכים לקבל כמה החלטות לפני כן. ראשית, האם עליהם לאמץ את התוכנה הסטטיסטית שלך? שנית, כמה נתונים עליהם לאסוף?

אלה אכן שאלות על כמה טוב התוכנה שלך - או שלי - תעשה במערך הנתונים הממוצע בגודל n, עבור מגוון הפצות p. כל תיבת תוכנה צריכה להיות עליה מדבקה "מידע תזונתי" עם תשובות לשאלות אלו.

בסיה: אוקיי, אבל המדבקה הזו לא צריכה להתמקד בגרוע במקרה הגרוע ביותר. למדענים יש קוד קודם. התוכנה שלי מתייעצת עם הקודם, ושלך לא. אך בכל מקרה, המדענים רוצים לדעת כמה טוב התוכנה תצליח להפצות p שנבחרו מקודמותיה. יכולתי להעריך את זה עבורם על ידי דגימת הפצות ומערכי נתונים מהקודם.

פרדי: באופן עקרוני יכולת. אך בפועל, ייתכן שתרצה לפרסם את המדבקה לפני שאתה יודע מי ישתמש בתוכנה. משפטי תדירות הם נחמדים וניידים ככה - ממש כמו תוויות תזונה, הם מכוונים לעזור להרבה משתמשים שונים, שעשויים להיות בעלי קודמות שונה.

אנו יכולים לנסח אומדן תכוף מבלי לדעת את המשתמש הקודם. ואנחנו יכולים לפרסם את הסיכון הגרוע ביותר מבלי לדעת מה המשתמש היה קודם. המשתמש יודע שהסיכון במקרה הגרוע ביותר הוא לפחות גבול עליון בסיכון המקרה הממוצע שלו, לא משנה איך הוא מעדיף הממוצע.

בסיה: אני חושב שההתנגדות שלך יורדת שוב לאי נוחות חישובית! אתה רוצה להמציא אומדנים כלליים ולהוכיח משפטים כלליים ... על מנת להימנע מביצוע חישובים ספציפיים שיעניקו לך את התשובה הטובה ביותר במצבך המדויק.

אין פלא שהסטטיסטיקה התמקדה היסטורית במשפטים כלליים. לא ניתן היה לבצע חישובית יותר. אולי אני בייסית כי גילתי מוקף בכוח חישובי וטכניקות כמו MCMC. אני מכבד את הכלליות והאלגנטיות של גבולות תיאורטיים, במקרים הפשוטים שבהם אתה יכול להשיג אותם. אבל אני מעריך גם עבודות למידת מכונות המתמקדות במדידה ובביצוע מקסימאלי של הביצועים של מערכות חיזוי ספציפיות, ולא בהוכחת משפטים רחבים יותר על מערכות חלשות יותר.


תשובה 2:

כל התשובות המעניינות ובעיקר מאוד תקפות.

אני מוסיף את זה:

כשאתה, למשל, רוצה לנצח במלחמה, למצוא תרופה חדשה, להרוויח כסף בשוק המניות, לחזות את מזג האוויר או לחזות את תוצאות הבחירות, הדבר הטוב ביותר שלך הוא להשתמש בגישה של בייסאן.

במילים אחרות, הגישה הבייסית היא זו שבאמת עובדת. (בתנאי שתאכיל אותו במיטב ידיעתך לגבי הדגמים לשימוש ועל ערכי הפרמטר בו).

ההסבר לכך הוא שהסיכוי הוא על דוגמנות מציאות, והגישה הבייסיאנית מעניקה לך כוח דוגמנות טוב יותר.


תשובה 3:

אני חושב שאחרים ענו במדויק על השאלה הספציפית, אבל הייתי מוסיף גם שביאסיאן מתיישר יותר עם האופן שבו כולנו באמת מעבדים מידע חדש .... אפילו אם אתה באמת ... תדיר.

נניח שמומחה ידוע בתחום זריחות השמש אומר לך שמודל חיזוי (אלגוריתם) שזה עתה יצר אומר שזריחה עתידה להתחיל להגיע הרבה יותר מאוחר מהצפוי. למעשה תוך שבוע היא מצפה לזריחה בשעה 8:00 בבוקר. התגובה הטבעית והגיונית שלך לכך היא לקחת את ההבנה הקיימת שלך (שהזריחה הייתה בסביבות 6 בבוקר לאחרונה) ולשנות את הציפיות שלך מהזריחה של השבוע הבא.

אתה עושה זאת גם אם נראה שהמודל משתמש במתמטיקה לא ניתן למצוא חורי היגיון באלגוריתם או בתשומות. יש לך שנים של "נתונים" שנצפו שאומרים לך שהזריחה תהיה בסביבות השעה 06:00 בשבוע הבא.

זוהי הגרסה הלא-מתמטית המטומטמת של הגישה הבייסיאנית.

אפילו אלה שעשויים לבטא ממצא במונחים מוחלטים, ככל הנראה, הם בעלי אמונה בייצית.