1
מהי הסטטיסטיקה? היכן פוגשים אותה? ואיך קרה שיש כל כך הרבה מומחים למקצוע?
סטטיסטיקה, הסתברות, קבלת החלטות — שלושת הנושאים העיקריים של ספר זה נמצאים כמעט בכל מקום בחיינו בין שאנו מודעים לכך ובין שלא.
הסופר הבריטי הרברט ג'ורג' וֵלס (Herbert George Wells, 1946-1866) אמר שחשיבה סטטיסטית תהיה יום אחד הכרחית לא פחות מאשר היכולת לקרוא ולכתוב, ואכן היום הזה כבר הגיע — חשיבה סטטיסטית/הסתברותית נמצאת בכל מקום ואתר בעולם המודרני.
מדי לילה אני מכוון שני שעונים מעוררים — אחד ניצב סמוך אליי והאחר במרחק מה מהישג ידי, כי על סמך נתוני העבר הגעתי למסקנה שללא שעון מעורר הסיכוי שאתעורר בזמן, קרוב לאפס, וגם עם שעון מעורר הנמצא לידי, כזה שאני יכול להגיע אליו בקלות ויכול לכבות אותו בלי לצאת מן המיטה, הסיכוי לא גבוה דיו; כאשר אני מכין את ארוחת הבוקר אני שם לב שהגבינה האהובה עליי מורכבת — לצערי הרב — מ־38% שומן ומכילה 450 קלוריות לכל 100 גרם; בדרך לעבודה אני מפעיל את אפליקציית WAZE ששולחת נתונים, כמו מיקום ומהירות, מכל המשתמשים לכל המשתמשים כדי לזהות עומסי תנועה ולהתריע על מכשולים בכביש ומצלמות מהירות; נורת אזהרה במכונית שלי מתריעה כי חסרים 4% שמן מנוע; וכשאני מגיע לעבודה אני פותח את עיתון הבוקר — בעמוד הראשי יש סקר בחירות חדש ולא מחדש, בעמודי הספורט — נתונים וטבלאות והמוסף הכלכלי כולל גודש סטטיסטי לא מבוטל.
אני סוגר את העיתון ויוצא לשיטוט ברשת. הירחון האינטרנטי שאני מנוי עליו החליט להשכיל אותי בנתון סטטיסטי די מהמם — אחד מכל 400 האנשים החיים היום בעולמנו הוא צאצא של ג'ינגיס חאן (אף כי מאחר שיש לי העדפה ברורה לאופניים על פני סוסים, הסיכוי שאני אחד מהם נראה לי קלוש ביותר). בערב אני צופה במהדורת החדשות — כמות הנתונים והמשפטים בעלי ניחוח סטטיסטי מובהק שמזרימות לי מגישות החדשות, עצומה. בוודאי יצא לכם לשמוע לא פעם ולא פעמיים במהלך ערב אחד משפטים כגון: "לפי הלשכה המרכזית לסטטיסטיקה השכר הממוצע בישראל הוא...", "מדד תשומות הבנייה עלה השנה בצורה ניכרת", "לפי OECD ישראל היא אחת המדינות עם רמות גבוהות במיוחד של חוסר שוויון", "בישראל אחוז הסטודנטיות הלומדות במוסדות להשכלה גבוהה גבוה מזה של הסטודנטים לא רק לתארים הראשון והשני, אלא גם ללימודי תואר שלישי" (אגב, זה אכן כך)... ומה לגבי מושגים כמו "מדד העוני" או "מדד יוקר המחיה"? איך מחשבים אותם?
משועמם מן החדשות אני נכנס לערוץ היוטיוב כדי לבדוק את התגובות לסרטון שהעליתי אתמול לזכרו של ונגליס (Vangelis) — המלחין היווני של מוזיקה אלקטרונית אשר השפיע עליי רבות בצעירותי — ואני רואה שהוא זכה ל־1,003 צפיות, ומצורף גם פילוח באחוזים מאילו פלטפורמות הגיעו המאזינים, מהי ההתפלגות לפי מדינות וקבוצות גיל, מהו דירוג הקטע לעומת עשרת הקטעים האחרונים שהעליתי... ומה לא. בהמשך הערב אני טובל באמבטיה בלי שום חשש, כי תצפיות רבות על בני האדם (וגם על דגים וספינות) לימדו אותי שאין שום סיכוי שאתמוסס במים. (אגב, פבלו פיקאסו סבר שזה ממש מפליא שאין אנו נמסים במי האמבט.)
בשנת 2020, בתחילתה של מגפת קורונה, הציבור הרחב התוודע לא רק לגלי המגפה אלא גם לים של מושגים סטטיסטיים. סטטיסטיקה הפכה לשפה השנייה של רבים: מקדם ההדבקה, אחוז בדיקות חיוביות (false positive, false negative), ההבדל בין סקאלה ליניארית לסקאלה לוגריתמית, אחוז האנשים שחוסנו ואחוז המתאשפזים מבין האנשים שלא חוסנו, הגיל הממוצע של אלה שנפטרו כתוצאה מן המחלה מול תוחלת החיים שמחושבת לכלל האוכלוסייה, קצב ההתפשטות של המגפה, מספר המתים למיליון נפש, אחוזי תפוסה במחלקות קורונה ואחוז האנשים אחוזי האימה מן הסיכוי להידבק, חסינות עדר, קורלציה (מילת פלא סטטיסטית שנדבר עליה בהמשך) בין המצב הסוציו־אקונומי לבין סיכויי הידבקות והחלמה... בקיצור, אפשר היה להרכיב מכל ניתוחי הקורונה קורס לא רע במבוא לסטטיסטיקה בתוספת סדנה קצרצרה העוסקת בהסתברויות קטנות.
לסטטיסטיקה חשיבות רבה ביותר עבור כל ממשלה ראויה לשמה כדי שתוכל לעשות שיקולים טובים ולקבל החלטות נכונות לגבי בריאות, ביטחון, תחבורה, סביבה, טיפול בפשיעה, טיפול בקשישים, חינוך, ועוד תחומים רבים וחשובים. למודלים סטטיסטיים יש תפקיד מכריע בכל סוג של תחזיות כמעט, יהיו אלה רעידות אדמה או עסקי ביטוח או תזוזות פוליטיות, וכיוצא באלה; סטטיסטיקה עוזרת בניהול משברים ובתכנון התגוננות מפני אסונות טבע או פגעי מלחמה. לסטטיסטיקה תפקיד חשוב בחקר הרפואה — מחקרים קליניים משתמשים בשיטות סטטיסטיות כדי לבחון תגובות של מטופלים לטיפול נתון. השימוש בסטטיסטיקה מאפשר לחוקרים בתחום הרפואה להסיק מסקנות ממידע שנאסף ולקבל החלטות מבוססות נתונים בתנאים של אי־ודאות. האם תרופה מסוימת אכן עוזרת בהתמודדות עם מחלה נתונה? האם כדאי להמליץ לגבר עם סרטן פרוסטטה לעבור ניתוח להסרת הבלוטה (radical prostatectomy) או שעדיף פשוט לעקוב בזהירות אחר התהליך? שליטה במושגים סטטיסטיים והסתברותיים יכולה למנוע טעויות והטיות רבות במחקר הרפואי.
על שימושי סטטיסטיקה במדע הרפואה שוחחתי יום אחד עם ידידי הטוב והחכם פרופ׳ איגור אלמן (Igor Elman) מבית הספר לרפואה של אוניברסיטת הרווארד. איגור הראה לי — כדוגמה למחקר לא אחראי — מכתב למערכת של 11 שורות בלבד שכתבו החוקרים ג'יין פורטר (Jane Porter) והרשל ג'יק (Hershel Jick) מאוניברסיטת בוסטון ופורסם בירחון הרפואי היוקרתי The New England Journal of Medicine בשנת 1980, תחת הכותרת המתמצתת את תוכנו: Addiction rare in patients treated with narcotics [נדירה ההתמכרות בקרב חולים המטופלים בתרופות נרקוטיות]. המכתב צוטט פעמים רבות מאוד ומסקנתו — גישה ליברלית יותר ביחס לטיפול בכאבים בעזרת אופיואידים — השפיעה על רופאים רבים אשר התעלמו הן מבעיות מתודולוגיות של המחקר (שאגב נעשה על מדגם מרשים של 39,946 חולים) הן מן העובדה שמסקנתו תקפה רק לגבי מינון נמוך של אופיואידים ורק עבור חולים הנמצאים בתנאי השגחה של בית חולים — וביד קלה, וללא כל הגבלה, ניפקו מרשמים למטופלים לשימוש ביתי.
"עכשיו, אחרי יותר מארבעים שנה מאז פרסום אותו המכתב," אמר איגור, "אנו נאבקים בבעיה נוראית בבריאות הציבור עם יותר משני מיליון אנשים, רק בארצות הברית, הסובלים מהתמכרות לאופיואידים ואשר שרובם נוטים לתחלואה ולתמותה מוגברת, כולל כ־130 מקרי מוות ממנת יתר מדי יום ביומו, שזה לא מאוד רחוק מחמישים אלף מתים בשנה."
ואכן, בשנת 2017, בריאיון ל־NPR (National Public Radio), אמר הרשל ג'יק שלו ידע אז את אשר ידוע לו היום הוא לא היה מפרסם את המכתב.
האמת היא שרוב החוקרים ברוב תחומי המדע שולחים מתישהו את ידם גם במחקר סטטיסטי — לסטטיסטיקה יש מעמד ייחודי בין הדיסציפלינות האקדמיות בכך שנדרשת מחשבה סטטיסטית בכל שלב של כל מחקר כמעט, החל מתכנון המחקר דרך בחירת המדגם וניהול הנתונים ולבסוף פירוש התוצאות.
הפרדיגמות החדשות לאגירה ולניתוח נתוני עתק [ביג דאטה] משנות את כללי המשחק בכל תחום. סטטיסטיקה נמצאת בשווקים פיננסיים, בספורט, בפרסומות... ואיפה לא. ידיד שלי שתכנן טיול למשפחתו שאל אותי שאלה סטטיסטית/הסתברותית לא טריוויאלית: "מה עדיף לבחור, מלון שזכה לציון של 98 ב־TripAdvisor המבוסס על כ־300 חוות דעת או מלון שהציון שלו 95 אך ציון זה מבוסס על יותר מ־1,000 ביקורות?" — מצד אחד, ציון 98 מרשים יותר מאשר ציון 95, אך מנגד, 1,000 ביקורות משדרות אמינות גבוהה יותר מאשר 300.
אז מה עושים?
ואם התעייפתם מן הרשימה הארוכה הזאת, הנה יש לכם הזדמנות לעצור קצת ולחשוב קצת.
התמזל מזלי וזכיתי ללמד סטטיסטיקה לא רק בבית הספר למתמטיקה ומדעי המחשב באוניברסיטה, אלא גם בפקולטות להנדסה ולפיזיקה, לחקלאות ולעבודה סוציאלית, למדעי ההתנהגות ולכלכלה, לביולוגיה ולמנהל עסקים... למיטב ידיעתי אין מקצוע אחר שנלמד בכל המקומות האלה — אלא רק סטטיסטיקה. הסיבה לכך היא שסטטיסטיקה זו שפה מיוחדת המהווה מעין דרישת קדם להבנת העולם.
ולאחר כל מה שכתבתי כאן הגיע הרגע לענות על השאלה: מה זאת סטטיסטיקה.
אין תשובה חד־משמעית. קיימות הגדרות מגוונות בספרות המקצועית, שהמכנה המשותף להן הוא שהסטטיסטיקה היא תחום מדעי שמנתח נתונים על מנת להסיק מהם מסקנות.
הנה אחת ההגדרות:
סטטיסטיקה היא אוסף של מושגים, חוקים ושיטות עבור: (1) איסוף נתונים, (2) ניתוח נתונים, (3) הסקת מסקנות מנתונים.
ולאחר כל התשבחות שהרעפתי על מדע הסטטיסטיקה אני חייב להגיד כי לדעתי זהו המוזר מכל מקצועות המדע. מדוע? ישנן סיבות אחדות ואציין שתיים מתוכן. אחת הסיבות למוזרותה של סטטיסטיקה היא שייתכן במקצוע זה מצב ששני מומחים יעבדו עם אותם הנתונים, יתבוננו באותן התוצאות בדיוק ובכל זאת יגיעו למסקנות שונות. והסיבה השנייה והעיקרית היא, שאיש לא יעלה על דעתו שהוא מומחה למשוואות דיפרנציאליות או למכניקת נוזלים או לגנטיקה מולקולרית אם מעולם לא התעמק בתחומי מדע אלה; אולם לא כך המצב בכל הקשור בסטטיסטיקה: אנשים חושבים שיש להם הבנה לא רעה של המקצוע גם אם הם מעולם לא למדו אותו באופן רציני. בשפה העברית ישנו אפילו ביטוי, "בוא ניתן למספרים לדבר בעד עצמם". המספרים מדברים בעד עצמם? לא שמעתי אף פעם את המספר "7" נושא נאום מרגש או משוחח שיחת נפש עם ידידו, "3". ואתם?
קוראים כותבים
אין עדיין חוות דעת.