סטטיסטיקה עירומה
צ'ארלס וילן
₪ 54.00
תקציר
איך תופסים בתי-ספר ש”מבלפים” במבחני מיצג? איך נטפליקס יודעת איזה סרטים להציע לנו? מה גורם לעלייה באבחון אוטיזם?
צ’ארלס וילן מראה לנו איך אפשר לענות על השאלות האלה, ורבות אחרות, בעזרת נתונים וכלים סטטיסטיים נכונים.
הסטטיסטיקה הולכת ונעשית כלי הכרחי כמעט בכל תחום בחיינו. ממחקרים רפואיים וסקרים פוליטיים, ועד ספורט, כלכלה וחינוך, השימוש בסטטיסטיקה רק הולך ומתעצם.
אבל הוא מגלה לנו איך הסטטיסטיקה יכולה גם לעוות נתונים והחלטות, לפעמים בגלל שימוש לא נכון בכלים סטטיסטיים, ולפעמים בכוונה להטעות. מדינאי מפורסם אמר פעם כי “ישנם שלושה סוגים של שקרים – שקרים, שקרים גסים, וסטטיסטיקה”. וילן מלמד אותנו מתי לחשוד במסקנות, ומתי הסטטיסטיקה היא פשוט עלה תאנה המכסה על שקר.
סטיית תקן, שונוּת, חציון, מקדם מֽתאם – וילן מצליח להפוך את כל הג’יבריש הזה לכלים ברורים ומובנים, ועושה זאת בהומור, עם דוגמאות מאלפות ומפתיעות, ובעיקר מקפיד לא לשעמם אף פעם.
“וילן הוא המורה למתמטיקה הכי טוב שאף פעם לא היה לכם.” San Francisco Chronicle
“הדוגמאות המאלפות בסטטיסטיקה עירומה יאלצו גם את הפחדן המתמטי הגדול ביותר להבין.” New York Times
ספרי עיון
מספר עמודים: 358
יצא לאור ב: 2022
הוצאה לאור: ידיעות ספרים
ספרי עיון
מספר עמודים: 358
יצא לאור ב: 2022
הוצאה לאור: ידיעות ספרים
פרק ראשון
שמתי לב לתופעה מעניינת. סטודנטים מתלוננים שסטטיסטיקה היא מקצוע מבלבל ולא רלוונטי, ואז אותם סטודנטים יוצאים מהכיתה ומקשקשים בשמחה בהפסקת הצהריים על ממוצעי חבטות של שחקני בייסבול (בקיץ) ועל אפקט צינון הרוח1 (בחורף) או על ממוצעי ציונים (בכל העונות). הם יודעים שדירוג המסירוֹת (passer rating) שמפרסמת ליגת הפוטבול הלאומית - נתון סטטיסטי שמתמצת את הביצועים של רַכּז ההתקפה (הקווֹרטֶרבּק) בעזרת מספר אחד ויחיד - הוא במידה מסוימת מדד שרירותי ולוקה בחסר של ביצועי רכז ההתקפה במשחק. אותם נתונים (אחוז המסירות שהושלמו, ממוצע ביארדים לכל ניסיון מסירה, אחוז המסירות לטאצְ'דָאוּן מניסיונות המסירה, ואחוז חטיפת המסירות על ידי היריב) היה אפשר לצרף גם בצורה אחרת, למשל לתת משקל גבוה או נמוך יותר לכל אחד מהגורמים האלה, וליצור מדד שונה אבל מהימן לא פחות של ביצועי הרכז. אבל כל מי שצופה במשחקי פוטבול יודע כמה נוח שיש מספר אחד שמתמצת את הביצועים האלה.
האם דירוג המסירות הוא מדד מושלם? לא. הסטטיסטיקה כמעט אף פעם לא מציעה דרך ״נכונה״ ויחידה לעשות משהו. האם הוא מספק מידע בעל ערך בצורה נגישה ונוחה? בהחלט. זה כלי נחמד שמאפשר להשווֹת בקלות בין ביצועים של שני רכזי התקפה באותו משחק. אני אוהד של השיקגו בֶּרס. במשחקי הפלייאוף של 2011 שיקגו שיחקו נגד גרין בֵּיי, וגרין ביי ניצחו. יש הרבה דרכים שאני יכול לתאר את המשחק ההוא, כולל דפים על גבי דפים של ניתוח ונתונים גולמיים. אבל הנה לפניכם ניתוח תמציתי יותר. הדירוג של ג'יי קאטלר (Cutler), רכז ההתקפה של השיקגו בֶּרס, היה 31.8. לעומתו הדירוג של ארון רוג'רס (Rodgers), רכז ההתקפה של גרין ביי, היה 55.4. אפשר גם להשוות את הביצועים של ג'יי קאטלר לביצועים שהיו לו במשחק קודם באותה עונה, שבו שיקגו שיחקו נגד גרין ביי, והוא השיג דירוג של 85.6. מכך תוכלו להבין למה שיקגו ניצחו את גרין ביי בתחילת העונה אבל הפסידו להם במשחקי הפלייאוף.
הסיכום הזה הוא תמצית שימושית מאוד של מה שקרה במגרש. האם הוא מפשט את העניינים? כן, וזה היתרון והחיסרון של כל מדד סטטיסטי. מִספר יחיד מסַפֵּר לנו שג'יי קאטלר היה הרבה פחות טוב מארון רוג'רס בהפסד של שיקגו בפלייאוף. מצד שני, המִספר הזה לא אומר לנו אם לרכז ההתקפה פשוט היה מזל רע, למשל אם הוא מסר מסירה מושלמת אבל השחקן שקיבל ממנו את הכדור שמט אותו, או אם הוא הבריק במהלכים מכריעים של המשחק (כי לכל מסירה שהושלמה יש אותו משקל במדד, גם אם היא קריטית וגם אם היא חלק ממהלך חסר חשיבות בסוף המשחק), או אם ההגנה היתה על הפנים. וכן הלאה.
מה שמעניין הוא שאותם אנשים שאין להם שום קושי לדבר על סטטיסטיקה בהקשר של ספורט, או מזג אוויר, או ציונים, מתכסים בזיעה קרה כשהמרצה מתחיל להסביר משהו כמו מדד ג'יני, שהוא כלי סטנדרטי בכלכלה למדידת אי־שוויון בהכנסות. מייד אסביר מהו מדד ג'יני, אבל בינתיים חשוב להבין שמדד ג'יני הוא בדיוק כמו דירוג המסירות בפוטבול. מדד ג'יני הוא אמצעי שימושי לתמצת מידע מורכב בעזרת מספר אחד ויחיד, וכמו רוב המדדים התיאוריים, יש לו כוח: הוא מספק דרך קלה להשווֹת את התפלגות ההכנסות בשתי מדינות, או באותה מדינה בשתי נקודות זמן שונות.
מדד ג'יני מודד עד כמה שווה התחלקות העושר (או ההכנסה) בתוך המדינה, בסולם של אפס עד אחת. הנתון יכול להיות מחושב לפי עושר או לחלופין לפי הכנסה שנתית, והוא יכול להיות מחושב ברמה של פרטים או ברמה של משקי הבית (כל המדדים האלה לא יהיו שווים לגמרי, אבל המִתאם ביניהם יהיה גבוה). למדד ג'יני, כמו לדירוג המסירות בפוטבול, אין ערך בפני עצמו; הוא רק כלי להשוואה. במדינה שבה כל משק בית מחזיק באותה כמות עושר, מדד ג'יני יהיה אפס. לעומת זאת במדינה שבה משק בית אחד מחזיק בכל העושר של המדינה מדד ג'יני יהיה אחת. מכאן אתם מבינים שככל שמדינה קרובה לאחת, האי־שוויון בהתפלגות העושר גדול יותר. לפי נתוני סוכנות הביון המרכזית של ארצות הברית (ה־CIA) - שאוספת הרבה נתונים סטטיסטיים, לידיעתכם - מדד ג'יני של ארצות הברית הוא 20.45. אבל מה זה אומר?
ברגע שמכניסים את המספר הזה להקשר הנכון הוא יכול לספר לנו הרבה. לדוגמה, מדד ג'יני בשוודיה הוא 0.23, בקנדה - 0.32, בסין - 0.42, בברזיל - 0.54 ובדרום אפריקה - 30.65. מהמספרים האלה אנחנו מקבלים מושג איפה עומדת ארצות הברית בהשוואה לשאר העולם מבחינת אי־שוויון בהכנסות. ואפשר גם להשוות בין נקודות זמן שונות. מדד ג'יני של ארצות הברית היה 0.41 ב־1997, ועלה ל־0.45 במהלך העשור הבא (הנתון האחרון של ה־CIA על התפלגות ההכנסות בארצות הברית מתייחס לשנת 2007). מכאן אנחנו לומדים באופן אובייקטיבי שבזמן שארצות הברית נעשתה עשירה יותר במהלך אותה תקופה, התפלגות העושר נעשתה פחות שוויונית. שוב, נוכל להשוות לזה את השינויים במדד ג'יני במדינות שונות באותו פרק זמן פחות או יותר. האי־שוויון בקנדה נשאר כמעט קבוע באותה תקופה. שוודיה נהנתה מצמיחה כלכלית ניכרת בשני העשורים האחרונים, אלא שמדד ג'יני בשוודיה דווקא ירד מ־0.25 ב־1992 ל־0.23 ב־2005, כלומר שוודיה נעשתה גם עשירה יותר וגם שוויונית יותר באותו פרק זמן.
האם מדד ג'יני הוא מדד מושלם לאי־שוויון? בהחלט לא, בדיוק כמו שדירוג המסירות בפוטבול הוא לא מדד מושלם לביצועים של רכז ההתקפה. אבל הוא מספק לנו מידע בעל ערך על תופעה שיש בה עניין חברתי, במתכונת נוחה לשימוש.
לאט־לאט הצלחנו לענות על השאלה שהוצגה בכותרת הפרק: מה הטעם? הטעם הוא שסטטיסטיקה עוזרת לנו לעבד ״נתונים״, שהם בעצם רק שם מרשים למידע. לפעמים לנתונים יש חשיבות פעוטה בתמונה הגדולה, למשל כשמדובר בסטטיסטיקות פוטבול. ולפעמים הם מספקים לנו מבט על טבעו של הקיום האנושי, למשל כשמדובר במדד ג'יני.
אבל - כמו שתשמעו בכל פרסומת בערוץ הקניות - זה לא הכל! האל וריאן (Varian), הכלכלן הראשי בגוגל, אמר ל״ניו יורק טיימס״ שסטטיסטיקאי יהיה ״הג'וב הסקסי״ של התקופה הבאה. אני הראשון שיודה שלכלכלנים יש לפעמים מושג מעוּות על המילה ״סקסי״. ובכל זאת, תחשבו על שאלות כמו אלה:
איך נוכל לתפוס בתי ספר שמרמים במבחנים משווים?
איך יודעים באתר Netflix איזה סרטים אתם אוהבים?
איך נוכל לדעת איזה התנהגויות או חומרים מסרטנים, בהתחשב בכך שבניגוד לבעלי חיים, עם בני אדם אי אפשר לערוך ניסויים שבהם נגרום להם לחלות בסרטן?
האם תפילה למען אנשים שעברו ניתוח משפרת את תוצאות הניתוח?
האם לימודים באוניברסיטה יוקרתית באמת מעניקים יתרון כלכלי?
מה גורם לעלייה בשכיחות האוטיזם?
בעזרת סטטיסטיקה אנחנו יכולים לענות על השאלות האלה (או לפחות נקווה שנוכל לענות עליהן בקרוב). העולם מייצר יותר ויותר נתונים, במהירות גוברת והולכת. אבל כמו שנכתב פעם ב״ניו יורק טיימס״, ״נתונים הם רק חומר הגלם של הידיעה״. סטטיסטיקה היא הכלי הכי חזק שיש לנו בשביל לרתום מידע למטרה משמעותית, ולא חשוב אם המטרה היא זיהוי שחקני בייסבול שמקבלים פחות הערכה ממה שמגיע להם או תשלום הוגן יותר למורים. הנה הסבר קצר שמראה איך סטטיסטיקה יכולה להפיק משמעות מנתונים גולמיים.
תיאור והשוואהתוצאה של משחק בּאוּלינְג היא מדד סטטיסטי תיאורי. גם ממוצע חבטות בבייסבול. רוב אוהדי הספורט בארצות הברית שכבר מלאו להם חמש שנים בקיאים בתחום של סטטיסטיקה תיאורית. אנחנו משתמשים במספרים כדי לתמצת מידע, בספורט ובכל שאר תחומי החיים. עד כמה היה מיקי מנְטֶל שחקן בייסבול טוב? ממוצע החבטות הכולל שלו לאורך הקריירה היה 0.298. זאת אמירה מובנת לכל אוהד בייסבול, וזה דבר די מדהים כשחושבים עליו, כי האמירה הזאת מסכמת קריירה של שמונה־עשרה עונות (אני מתאר לעצמי שיש גם משהו קצת מדכא בזה שלוקחים מפעל חיים של בן אדם ומצמצמים אותו למספר). מובן שאוהדי בייסבול כבר הבינו שמלבד ממוצע החבטות יש עוד מדדים תיאוריים שאפשר לבטא בעזרתם ערך של שחקן במגרש.
בארצות הברית מעריכים ביצועים לימודיים של תלמידי תיכון ושל סטודנטים לתואר ראשון באמצעות ממוצע ציונים שנקרא GPA. ציון A שווה 4 נקודות, ציון B שווה 3 נקודות, ציון C שווה 2 נקודות וכן הלאה. בתום הלימודים, כשתלמידי התיכון מנסים להתקבל לאוניברסיטה וסטודנטים באוניברסיטה מחפשים עבודה, ממוצע הציונים הוא אמצעי שימושי כדי להעריך את הפוטנציאל האקדמי שלהם. תלמיד שה־GPA שלו הוא 3.7 כנראה מוצלח יותר מתלמיד באותו בית ספר שה־GPA שלו הוא 2.5. יש לנו פה מדד תיאורי נחמד. קל לחשב אותו, קל להבין אותו, וקל להשוות בעזרתו תלמידים וסטודנטים.
אבל הוא לא מושלם. ה־GPA לא משקף את הקושי של הקורסים שהתלמידים או הסטודנטים למדו. איך אפשר להשוות בין תלמיד עם GPA של 3.4 בקורסים קלילים, לתלמיד עם GPA של 2.9 שבחר קורסים במתמטיקה, בפיזיקה ובמקצועות קשים אחרים? בתיכון שבו למדתי ניסו לפתור את הבעיה בכך שנתנו יותר משקל לקורסים קשים, כך שציון A במקצוע ״קשה״ היה שווה חמש נקודות ולא ארבע כמו בדרך כלל. זה יצר בעיות אחרות. אמי זיהתה במהירות את העיווּת שנוצר בגלל ״תיקון״ ה־GPA. לתלמיד שלוקח הרבה קורסים קשים (כמוני) כל ציון A בקורס ״לא קשה״, כמו התעמלות או כלכלת בית, יוריד את ה־GPA, אף על פי ש־A הוא הציון הכי גבוה שאפשר לקבל בקורסים כאלה. לכן הורי אסרו עלי לקחת קורס נהיגה בתיכון, כי אפילו ציון מושלם בקורס כזה היה פוגע בסיכויים שלי להתקבל לאוניברסיטה מובחרת ואז ללמוד לכתוב ספרי מדע פופולרי. במקום זה הם שילמו על שיעורי נהיגה פרטיים שלקחתי בערבים בזמן חופשת הקיץ.
יכול להיות שהם קצת נסחפו? כן. אבל אחד מהלקחים של הספר הזה הוא שהסתמכות מוגזמת על כל מדד תיאורי עשויה להוביל למסקנות מוטעות, או להתנהגות בלתי רצויה. בטיוטה הראשונה של המשפט האחרון כתבתי ״מדד תיאורי מפושט מדי״, אבל מחקתי את המילים ״מפושט מדי״, כי הן מיותרות. מדדים תיאוריים נועדו לפשט, ולכן תמיד הם מובילים לאובדן של פרטים או דקויות. כל מי שעובד עם מספרים חייב להבין את זה.
הסקהכמה דרי רחוב חיים ברחובות שיקגו? באיזו תדירות אנשים נשואים מקיימים יחסי מין? נדמה ששתי השאלות האלה שונות זו מזו לחלוטין, אבל למעשה על שתיהן אפשר לענות בעזרת כלים סטטיסטיים בסיסיים (אם כי לא באופן מושלם). אחת המטרות המרכזיות של הסטטיסטיקה היא להשתמש בנתונים שיש לנו כדי להסיק מסקנות מבוססות בשאלות רחבות שאין לנו מידע שלם עליהן. בקיצור, אנחנו יכולים להשתמש בנתונים מן ״העולם הידוע״ ולהסיק מהם מסקנות מבוססות על ״העולם הבלתי ידוע״.
בואו נתחיל בשאלת דרי הרחוב. ספירת דרי הרחוב באזור עירוני גדול היא משימה יקרה ומסובכת מבחינה לוגיסטית. אבל חשוב שיהיה לנו אומדן מספרי של האוכלוסייה הזאת כדי שנוכל לספק להם שירותים סוציאליים, כדי לזכות בהקצבות מהמדינה וכדי להשיג ייצוג בקונגרס. הכללת דרי הרחוב במִפקד תגדיל את מספר האזרחים הרשמי במדינה, וכך יגדל משקלה של המדינה בייצוג הפוליטי. אחד ההליכים החשובים בסטטיסטיקה הוא דגימה, שהיא תהליך של איסוף מידע מאזור קטן, למשל כמה שכונות, ושימוש בנתונים האלה כדי לבסס מסקנה על גודל אוכלוסיית דרי הרחוב בעיר כולה. דגימה דורשת הרבה פחות משאבים מניסיון לספור את האוכלוסייה כולה, ואם דוגמים כמו שצריך, התוצאה עשויה להיות מדויקת באותה מידה.
סקר פוליטי הוא צורה אחת של דגימה. מכון המחקר יוצר קשר עם מדגם של משקי בית שאמורים לייצג פחות או יותר את האוכלוסייה כולה, ושואל אותם מה דעתם על נושא או על מועמד מסוים. זה כמובן זול ומהיר בהרבה מלנסות ליצור קשר עם כל משקי הבית במדינה. במכון הסקרים והמחקר גאלופ מעריכים שסקר של אלף משקי בית שנבחרו בצורה נכונה בשיטה טובה נותן פחות או יותר אותן תוצאות כמו סקר שהיה נעשה על כל משקי הבית בארצות הברית.
ככה גילינו באיזו תדירות האמריקאים מקיימים יחסי מין, עם מי, ואיך. באמצע שנות התשעים של המאה הקודמת ערך ״מרכז המחקר לדעת הקהל״ (NORC) באוניברסיטת שיקגו מחקר שאפתני במיוחד על ההרגלים המיניים בארצות הברית. התוצאות התבססו על סקרים מפורטים שנערכו פנים אל פנים עם מדגם גדול ומייצג של אמריקאיות ואמריקאים בוגרים. אם תגיעו לפרק 10, תגלו מה היו התשובות. כמה ספרי סטטיסטיקה מבטיחים לכם דבר כזה?
הערכת סיכונים ומאורעות תלויי־הסתברות אחריםלאורך זמן בתי קזינו מרוויחים כסף - תמיד. זה לא אומר שהם מרוויחים כסף בכל רגע ורגע. אם אתם שומעים רעש וצלצולים, סימן שאחד המהמרים הכבדים זכה בכמה אלפי דולרים. כל תעשיית ההימורים מבוססת על משחקי מזל, ופירושו של דבר שלכל הטלת קוביות או בחירת קלף אין תוצאה ודאית. ובכל זאת, ההסתברות הבסיסית של כל מאורע רלוונטי - הגעה ל־21 בבלק־ג'ק או עצירה על אדום ברולטה - ידועה. כשההסתברויות הבסיסיות הן לטובת הקזינו (והן תמיד לטובת הקזינו), ככל שמספר ההימורים יעלה נוכל להיות יותר ויותר בטוחים שהקזינו מרוויח, גם כאשר הרעש והצלצולים נשמעים שוב ושוב.
זאת תופעה חשובה בהרבה תחומים בחיים, לא רק בבתי קזינו. הרבה עסקים צריכים להעריך את הסיכונים הכרוכים בכל מיני מאורעות לא רצויים. אין להם אפשרות להעלים את הסיכונים האלה לחלוטין, בדיוק כמו שהקזינו לא יכול להבטיח שלא תזכו אף פעם, גם לא במשחק בלק־ג'ק אחד. אבל כל עסק שעומד בפני אי־ודאות יכול לנהל את הסיכונים האלה בעזרת תכנון תהליכים שיבטיחו שההסתברות של כל מאורע בלתי רצוי, מאסון סביבתי ועד מוצר פגום, תהיה נמוכה במידה מתקבלת על הדעת. חברות בווֹל סטריט מעריכות בדרך כלל את הסיכונים המאיימים על תיקי ההשקעות שלהן בהינתן תרחישים שונים, ומשקללות כל תרחיש על פי ההסתברות שהוא יקרה. המשבר הכלכלי של 2008 הואץ בין השאר בעקבות סדרה של מאורעות שוק שנחשבו מאוד לא סבירים, כמו הסבירות שכל השחקנים בקזינו יזכו בבלק־ג'ק במשך לילה שלם. בהמשך הספר אטען שהמודלים של ווֹל סטריט היו פגומים, ושהנתונים שבהם השתמשו כדי להעריך את הסיכונים הבסיסיים היו מוגבלים מדי, אבל כרגע אני רק רוצה לומר שהסתברות היא הבסיס ההכרחי לכל מודל לניהול סיכונים.
כשאין יכולת לבטל סיכונים שאי אפשר לעמוד בהם, אנשים וחברות מחפשים הגנה מסוג אחר. כל ענף הביטוח מבוסס על גביית כסף מלקוחות תמורת הגנה מפני מפגע כלשהו, כמו תאונת דרכים או שריפה. הרווח של ענף הביטוח לא בא לו ממניעת המאורעות האלה. תאונות דרכים ושריפות מתרחשות מדי יום. לפעמים קורה אפילו שתאונת דרכים גורמת לשריפה. ענף הביטוח מרוויח כסף מגביית פרמיות גבוהות יותר ממה שצריך כדי לשלם פיצויים על תאונות דרכים ושריפות (חברות ביטוח גם עשויות לנסות להקטין את הפיצויים שהן צפויות לשלם על ידי עידוד הלקוחות לנהוג בזהירות, להקים גדרות מסביב לבריכות שחייה, להתקין גלאי עשן בכל חדר, וכן הלאה).
במצבים מסוימים הסתברות יכולה לסייע אפילו בתפיסת מעשי הונאה. חברת Caveon Test Security מתמחה במה שהם מכנים ״זיהוי פלילי באמצעות נתונים״, לאיתור דפוסים שמרמזים על הונאה. לדוגמה, החברה (שאחד ממייסדיה נמנה בעבר עם צוות הפיתוח של הבחינות הפסיכומטריות - SAT - בארצות הברית) מזהה מקרים שנמצא בהם מספר מאוד לא סביר של תשובות שגויות זהות במבחנים שנערכו בבית ספר מסוים או באתר בחינה מסוים, דפוס שהסיכויים שלו להיווצר באופן מקרי הם פחות מפעם אחת במיליון. ההיגיון המתמטי הוא זה: אין לנו הרבה מה ללמוד מקבוצה גדולה של תלמידים שעונה נכון על אותה שאלה. זה מה שהם אמורים לעשות. אולי הם מעתיקים, ואולי הם פשוט חכמים. אבל כשאותם נבחנים טועים בשאלה מסוימת, הם לא אמורים כולם לסמן אותה תשובה שגויה. אם כולם סימנו אותה תשובה, אפשר לחשוד שאולי הם העתיקו (או העבירו את התשובה ב־SMS). החברה מחפשת גם בחינות שבהן הנבחן מצליח במובהק בשאלות קשות יותר מכפי שהצליח בשאלות קלות (זה מעורר חשד שהיו לו התשובות מראש) ובחינות שבהן מספר התיקונים מתשובה לא נכונה לתשובה נכונה גדול באופן מובהק ממספר התיקונים מתשובה נכונה לתשובה לא נכונה (זה מעורר חשד שמורה או מפקח תיקנו את דפי התשובות אחרי המבחן).
לשימוש בהסתברות יש כמובן מגבלות. יכול להיות שקבוצה גדולה של נבחנים ענתה אותן תשובות שגויות רק בגלל צירוף מקרים. למעשה ככל שנבדוק יותר בתי ספר, תגדל ההסתברות שדפוסים כאלה יופיעו במקרה. אַנוֹמָליה סטטיסטית היא לא הוכחה לביצוע עבירה. דלמה קיני (Kinney), גבר בן חמישים מאטלנטה, זכה במיליון דולר בהגרלת לוטו ב־2008, ואחר כך בעוד מיליון דולר בהגרלת לוטו ב־2011. ההסתברות שדבר כזה יקרה לאותו אדם היא בערך אחד ל־25 טריליון. לא נוכל לעצור את מר קיני באשמת הונאה על בסיס החישוב הזה בלבד (אם כי אולי כדאי לברר אם יש לו קרובי משפחה שעובדים במועצה להימורים של אטלנטה). הסתברות היא כלי נשק שמצריך שיקול דעת.
זיהוי קשרים חשובים (עבודת בילוש סטטיסטית)האם עישון סיגריות מסרטן? כבר יש לנו תשובה לשאלה הזאת - אבל התהליך שהוביל אליה הוא לא פשוט כמו שנדמה. על פי השיטה המדעית, כדי לבחון השערה מדעית צריך לערוך ניסוי מבוקר שבו המִשתנֶה שמעניין אותנו (למשל עישון) הוא הדבר היחיד השונה בין קבוצת הניסוי לקבוצת הביקורת. אם נראה הבדל ניכר בין שתי הקבוצות בתוצאה כלשהי (למשל סרטן ריאות), נוכל להסיק בביטחון שהמשתנה שמעניין אותנו הוא זה שגרם לאותה תוצאה. אבל אין לנו אפשרות לעשות סוג כזה של ניסויים בבני אדם. אם השערת העבודה שלנו היא שעישון גורם לסרטן, לא נוכל לחלק בוגרי אוניברסיטה טריים לשתי קבוצות, להגיד לקבוצה אחת לעשן ולקבוצה אחת לא לעשן, ואז לראות למי יש סרטן בפגישת המחזור העשרים שלהם - זה לא יהיה אֶתי. (אנחנו יכולים לערוך ניסויים מבוקרים בבני אדם כשההשערה שלנו היא שתרופה חדשה או טיפול חדש עשויים לשפר להם את הבריאות, אבל לא נוכל לחשוף ביודעין משתתפים בניסוי למשהו שאנחנו צופים שישפיע עליהם לרעה. זהו ניסוח קצת מגושם של כלל ידוע בתחום המרתק והמורכב שנקרא אתיקה רפואית.)
אולי תגידו שלא בהכרח חייבים לערוך ניסוי מפוקפק מבחינה אתית כדי לבחון את השפעות העישון. למה אי אפשר פשוט לוותר על כל המתודולוגיה המסובכת ולהשווֹת שיעורי סרטן בפגישת המחזור העשרים בין אלה שעישנו מאז הלימודים לאלה שלא עישנו?
לא. מעשנים ולא־מעשנים נוטים להיות שונים לא רק בעישון. יכול להיות, למשל, שמעשנים נוטים יותר להרגלים אחרים, כמו שתיית אלכוהול ואכילה מופרזת, שיש להם השלכות שליליות על הבריאות. אם נגלה בפגישת המחזור שמצבם הבריאותי של המעשנים גרוע במיוחד, לא נדע אם לייחס את זה לעישון או לדברים לא בריאים אחרים שהרבה מעשנים עושים. יכולה להיות לנו בעיה חמורה גם עם הנתונים שנבסס עליהם את הניתוח שלנו. למעשנים שחלו בסרטן יש נטייה להגיע פחות לפגישת המחזור העשרים (המעשנים שמתו מסרטן כמובן לא יגיעו). לכן כל ניתוח של בריאות המשתתפים בפגישת המחזור העשרים (אם הוא קשור לעישון או לכל דבר אחר) יהיה מוּטה באופן חמור מעצם העובדה שלבני המחזור הבריאים ביותר יש יותר סיכויים להגיע. ההטיה תגדל ככל שנתרחק משנת סיום הלימודים, למשל בפגישת המחזור הארבעים או החמישים.
אנחנו לא יכולים להתייחס לאנשים כמו לעכברי מעבדה. לכן סטטיסטיקה היא כמו עבודת בילוש טובה. מהנתונים אנחנו שואבים רמזים ודפוסים שיוכלו בסופו של דבר להוביל למסקנות בעלות ערך. ודאי צפיתם באחת מסדרות הטלוויזיה המרשימות שעוסקות בשיטות הפעולה של המשטרה, כמו הסדרה CSI: ניו יורק. בסדרות כאלה בלשים ומומחים לזיהוי פלילי, שכולם חתיכים במיוחד, מתעמקים ברמזים זעירים - דנ״א מבדל סיגריה, סימני שיניים על תפוח, סיב בודד ממחצלת של מכונית - ואז משתמשים בראיות כדי ללכוד את הפושע. הקסם של הסדרות הללו הוא שלמומחים האלה אין ראיות רגילות, כמו עדי ראייה או וידאו ממצלמת אבטחה, שיעזרו להם למצוא את הפושעים, ולכן הם פונים להסקה מדעית. סטטיסטיקה עושה פחות או יותר אותו הדבר. הנתונים מספקים רמזים מבולבלים - כמו זירת פשע. הניתוח הסטטיסטי הוא עבודת הבילוש שלוקחת את הנתונים הגולמיים ומוציאה מהם מסקנה בעלת ערך.
אחרי פרק 11 אני מקווה שתדעו להעריך את סדרת הטלוויזיה שאני מתכנן להציע, שיקראו לה CSI: ניתוח רגרסיה, והיא לא תהיה שונה מאוד משאר סדרות המשטרה האלה המלאות באֶקְשן. ניתוח רגרסיה הוא הכלי שמאפשר לחוקרים לבודד קשר בין שני משתנים, למשל עישון וסרטן, ולנטרל השפעות של משתנים חשובים אחרים, כמו הרגלי אכילה, פעילות גופנית, משקל וכדומה. כשאתם קוראים בעיתון שאכילת מאפה סובין אחד בכל יום מקטינה את הסיכון לחלות בסרטן המעי הגס, אל דאגה. אין סיבה לחשוש שאי־שם במרתף של מעבדה ממשלתית חוקרים מלעיטים בכוח קבוצה של משתתפים חסרי מזל במאפי סובין, בזמן שקבוצת הביקורת בבניין הסמוך מקבלת קרואסון וריבה. מה שקורה בפועל הוא שהחוקרים אוספים מידע מפורט על אלפי אנשים, בין השאר באיזו תדירות הם אוכלים מאפי סובין, ואז משתמשים בניתוח רגרסיה כדי לעשות שני דברים הכרחיים: (1) לכַמֵּת את הקשר שהם רואים בין אכילת מאפי סובין לסרטן המעי הגס (למשל ממצא היפותטי: לאנשים שאוכלים מאפי סובין יש שיעור נמוך בתשעה אחוזים שיקרה להם סרטן המעי הגס, כאשר מנטרלים גורמים אחרים שעשויים להשפיע על הופעת המחלה). (2) לכמת את הסבירות לאפשרות שהקשר בין מאפי הסובין לשיעור הנמוך יותר של מקרי סרטן המעי הגס שנצפה במחקר הוא רק צירוף מקרים - אנומליה בנתונים של אותו מדגם - והוא לא מספק לנו תובנה בעלת ערך על הקשר בין תזונה לבריאות.
כמובן, כנהוג בסדרות טלוויזיה כאלה, השחקניות והשחקנים שיככבו ב־CSI: ניתוח רגרסיה יהיו הרבה יותר חתיכים מאנשי האקדמיה שבדרך כלל מתעמקים בנתונים מן הסוג הזה. כל היפים והיפות האלה (כולם עם תואר דוקטור, אף על פי שהם בני 23) יבחנו סדרות גדולות של נתונים וישתמשו בכלים הסטטיסטיים הכי חדשניים כדי לענות על שאלות חברתיות חשובות: מה הכלים היעילים ביותר למלחמה בפשיעה אלימה? איזה אנשים נוטים יותר מאחרים להפוך לטרוריסטים? בהמשך הספר נדון במושג שנקרא ״מוּבְהקוּת סטטיסטית״, מושג שמשתמשים בו כאשר בין שני משתנים מתגלה קשר שהסיכוי שהוא מקרי נמוך מאוד. בשביל החוקרים באקדמיה ממצא סטטיסטי כזה הוא ״האקדח המעשן״. בסדרה CSI: ניתוח רגרסיה אני מדמיין לי חוקרת שעובדת במעבדת המחשבים באישון לילה, בגלל המחויבויות שיש לה במהלך היום כשחקנית בנבחרת האולימפית של ארצות הברית בכדורעף חופים. היא מוציאה תדפיס של הניתוח הסטטיסטי ומוצאת בדיוק את מה שחיפשה: בסדרת הנתונים מופיע קשר חזק עם מובהקות סטטיסטית בין משתנה שהיא הניחה מראש שהוא חשוב ובין הופעה של אוֹטִיזְם. היא מוכרחה לשתף מישהו בפריצת הדרך הזאת תיכף ומייד!
החוקרת לוקחת את התדפיס וחוצה את המסדרון בריצה, למרות נעלי העקב וחצאית המיני השחורה ההדוקה שמפריעות לה לרוץ. היא מוצאת את השותף שלה, שנראה קצת יותר מדי שזוף ושרירי בשביל בחור שעובד ארבע־עשרה שעות ביום במעבדת מחשבים חשוכה, ומראה לו את התוצאות. הוא מבריש באצבעות את הזקנקן המטופח שלו, מוציא אקדח 9 מילימטר מסוג גלוק ממגירת השולחן ומחליק אותו לנרתיק הכתף מתחת לחליפת הוּגוֹ בּוֹס שעולה 5,000 דולר (עוד פרט לא מוסבר בהתחשב במשכורת אקדמית התחלתית די צנועה). מומחי הרגרסיה ממהרים יחדיו לפגוש את המנהל, גבר כסוף שיער שידע בחייו מערכות יחסים כושלות והתמכרות לטיפה המרה...
טוב, אתם לא חייבים לקנות את כל הגימיקים הטלוויזיוניים כדי להבין עד כמה מחקר סטטיסטי מהסוג הזה הוא חשוב. כמעט כל בעיה חברתית שחשובה לנו נדרשת למידע שנאסף בעזרת ניתוח שיטתי של סדרות נתונים גדולות (לא פעם איסוף הנתונים הרלוונטיים, שדורש הרבה כסף וזמן, ממלא תפקיד מכריע בתהליך הזה, כמו שנראה בפרק 7). אולי קצת ייפּיתי את הדמויות בסדרת הטלוויזיה שלי, אבל לא הפרזתי בחשיבות השאלות שהדמויות האלה בוחנות. קיימת ספרות אקדמית על טרוריסטים ועל מחבלים מתאבדים - נושא שקשה מאוד לחקור אותו בניסויים על בני אדם (או על עכברי מעבדה). את אחד הספרים, What Makes a Terrorist: Economics and the Roots of Terrorism (״איך נוצר טרוריסט״), כתב אחד המרצים שלי לסטטיסטיקה, אלן קרוגר (Krueger), כלכלן מאוניברסיטת פרינסטון. מסקנות הספר שאובות מנתונים שנאספו על מתקפות טרור ברחבי העולם. אחד הממצאים המפתיעים הוא שטרוריסטים הם לא עניים מרודים ולא אנשים חסרי השכלה. ״טרוריסטים״, נאמר בספר, ״נוטים להיות בנים של משפחות משכילות מהמעמד הבינוני או הגבוה״.
למה? טוב, פה נחשפת אחת המגבלות של ניתוח הרגרסיה. בעזרת ניתוח רגרסיה אנחנו יכולים לבודד קשר חזק בין שני משתנים, אבל אין לנו בהכרח אפשרות להסביר למה הקשר קיים, ובמקרים מסוימים אין לנו אפשרות לדעת בוודאות שהקשר הוא סיבתי, כלומר ששינוי במשתנה אחד באמת גורם לשינוי במשתנה האחר. במקרה של טרוריסטים, פרופסור קרוגר מעלה את ההשערה שהטרוריסטים מוּנעים על ידי מטרות פוליטיות, ולמשכילים ולעשירים יש תמריץ חזק יותר לשנות את החברה. ואולי גם דיכוי של חירויות, שגם הוא גורם שנקשר לטרור, חוֹרה במיוחד לאנשים כאלה. על פי המחקר של קרוגר, במדינות עם רמה גבוהה של דיכוי פוליטי יש יותר פעילות טרור (כשכל שאר הגורמים קבועים).
הדיון הזה מחזיר אותי לשאלה שהוצגה בכותרת הפרק: מה הטעם? הטעם הוא לא העיסוק במתמטיקה ולא היכולת להרשים חברים ועמיתים בטכניקות סטטיסטיות מתקדמות. הטעם הוא לגלות דברים חדשים על העולם שבו אנחנו חיים.
שקרים, שקרים גסים וסטטיסטיקהאפילו במקרה הטוב ביותר, ניתוח סטטיסטי כמעט אף פעם לא חושף את ״האמת״. בדרך כלל אנחנו מצליחים רק לבנות תיק נסיבתי שמבוסס על נתונים חלקיים. לכן מהרבה מאוד סיבות גם אנשים עם יושרה אינטלקטואלית שאינה מוטלת בספק יכולים לפעמים לא להסכים בנוגע לתוצאה סטטיסטית או להשלכות שלה. ברמה הכי בסיסית יכולה להיות פשוט מחלוקת על השאלה שאותה שואלים. חובבי ספורט אמריקאים יתווכחו לַנֶצח ״מי שחקן הבייסבול הכי טוב בכל הזמנים״, כי אין הגדרה אובייקטיבית של ״הכי טוב״. מדדים סטטיסטיים תיאוריים מתוחכמים יכולים לשפוך אור על השאלה, אבל הם לעולם לא ייתנו תשובה מוחלטת. בפרק הבא נראה שגם בשאלות חברתיות חשובות מתעוררת אותה בעיה בסיסית. האם הרווחה הכלכלית של מעמד הביניים באמריקה משתפרת או לא? התשובה תלויה בהגדרות של ״מעמד ביניים״ ו״רווחה כלכלית״.
יש גבול לנתונים שאפשר לאסוף ולסוג הניסויים שאפשר לערוך. אלן קרוגר, במחקר שלו על טרוריסטים, לא עקב במשך עשרות שנים אחרי אלפי צעירים כדי לראות מי מהם יהפוך לטרוריסט. זה פשוט בלתי אפשרי. באותה מידה לא נוכל ליצור שתי מדינות שהתנאים בהן שווים מכל הבחינות חוץ מדבר אחד, שבאחת יש משטר דכאני ובאחרת לא - ואז להשוות את מספר המחבלים המתאבדים שצצים בכל אחת מהמדינות. גם כשיש לנו יכולת לערוך ניסוי מבוקר בקנה מידה גדול בבני אדם, ניסוי כזה הוא לא עניין פשוט וזול. חוקרים ערכו מחקר ענק בשאלה אם תפילה מפחיתה סיבוכים אחרי ניתוח, אחת השאלות שהעליתי בתחילת הפרק. המחקר עלה 2.4 מיליון דולר (את התשובה תקבלו רק בפרק 13).
דונלד רמספלד, שר ההגנה ההוא, אמר פעם: ״אתה יוצא למלחמה עם הצבא שיש לך - לא עם הצבא שהיית רוצה שיהיה לך או שאתה מקווה שיהיה לך בעתיד״. לא משנה מה דעתכם על רמספלד (ועל המלחמה בעיראק שהוא דיבר עליה), האמירה הזאת נכונה גם במחקר. את הניתוח הסטטיסטי אנחנו עושים בעזרת הנתונים והמשאבים והמתודולוגיה הכי טובים שיש לנו. זה לא כמו פעולה של חיבור או חילוק ארוך, שבה שיטה נכונה מובילה לתשובה נכונה, ותמיד המחשב מדויק יותר מבני אדם ופחות מוּעד לטעות. ניתוח סטטיסטי דומה לעבודת בילוש טובה (ומכאן הפוטנציאל המסחרי של CSI: ניתוח רגרסיה). הרבה פעמים אנשים חכמים וישרים לא מסכימים ביניהם מה הנתונים מנסים להגיד לנו.
אבל מי קבע שכל מי שמשתמש בסטטיסטיקה הוא חכם או ישר? הספר הזה התחיל כמחווה לספר How to Lie with Statistics (״איך לשקר בעזרת סטטיסטיקה״), שראה אור לראשונה ב־1954 ומכר יותר ממיליון עותקים. האמת היא שאפשר לשקר באמצעות סטטיסטיקה. ואפשר פשוט גם בטעות. כך או כך, הדיוק המתמטי שמיוחס לסטטיסטיקה עשוי להיות מסווה לשטויות של ממש. בספר הזה נסקור הרבה מן הטעויות והסילופים הסטטיסטיים הנפוצים ביותר (כדי שתוכלו לזהות אותם, לא בשביל לנסות בבית).
נחזור לכותרת הפרק. מה הטעם ללמוד סטטיסטיקה?
כדי לתמצת כמויות עצומות של נתונים.
כדי לשפר קבלת החלטות.
כדי לענות על שאלות חברתיות חשובות.
כדי לזהות דפוסים שיכולים לעזור לנו במה שאנחנו עושים, ממכירת חיתולים ועד לכידת פושעים.
כדי לתפוס רמאים ולתבוע פושעים.
כדי להעריך את מידת היעילות של מדיניות מסוימת, של פרויקט, תרופה, טיפול רפואי או כל חידוש אחר.
וכדי לזהות את הנוכלים שמשתמשים בדיוק באותם כלים רבי עוצמה למטרות נפשעות.
אם אתם מצליחים לעשות את כל זה וגם להיראות נפלא בחליפה של הוגו בוס או בחצאית מיני שחורה, אתם מוזמנים לאודישנים לתפקיד ב־CSI: ניתוח רגרסיה.
1 אפקט צינון הרוח הוא הירידה בתחושת הקור שאנחנו מרגישים בגלל רוח קרה. בדומה לעומס החום (אבל בכיווּן הפוך ממנו), אפשר לחשב טמפרטורה ״אפקטיבית״ מתוך הטמפרטורה הנמדדת בפועל ומהירות הרוח.
2. נתוני סוכנות הביון המרכזית מתעדכנים מדי שנה בספר העובדות העולמי (CIA Factbook, www.cia.gov/library/publications/the-world-factbook)
3. לפעמים מכפילים את מדד ג'יני במאה כדי לקבל מספר שלם. במקרה כזה מדד ג'יני של ארצות הברית הוא 45.
קוראים כותבים
There are no reviews yet.