החיים הסודיים של המצות
מחפשים מסרים סמויים בחורים של המצות? הכירו את כריית הנתונים - השיטה שמגלה עליכם דברים שאפילו אתם לא ידעתם
לפי הבדיחה הישנה (במקור על פומפיה, עם גרסה כשרה לפסח), עיוור אחד מצא מצה, מישש אותה קצת ושאל "מי כתב את השטויות האלה?". מובן שמצה – במיוחד התעשייתיות, אך גם אלה שנאפות ביד - מחוררת במרווחים פחות או יותר שווים שאינם יכולים להיקרא כטקסט ברייל. אך התשוקה האנושית לגלות מידע נסתר, בין אם הוא אמיתי או מדומה, בנתונים אקראיים לכאורה היא חזקה מאד ואינה מוגבלת למצות ולפומפיות. איזו צורה היא לובשת בעידן הממוחשב, ואיך זה קשור לכרטיס המועדון שלכם בסופרמרקט?
כתמי שמש וחסידות
בימים שלפני המחשבים, זיהוי דפוסים ותבניות בכמויות גדולות של נתונים גולמיים היה עניין של שגעון-לדבר או של מזל. מקרה מעניין לדוגמה הוא זה של הגאון השכוח ויליאם ג'יימס סידיס, שזיהה בשנת 1918 קשר לגמרי לא צפוי, לפחות אינטואיטיבית, בין ההופעה המחזורית של כתמי שמש לבין מהפכות ומלחמות. קשר זה, שנראה במבט ראשון כמו קשקוש אסטרולוגי, הוסבר על ידי סידיס עצמו בכך שכתמי השמש משפיעים לרעה על מזג האוויר, שמשפיע על החקלאות, שמשפיעה על איכות החיים של בני האדם – שעשויה לחזק את נטייתם למרוד ולהילחם. ברור שאדם מן השורה לעולם לא יגיע לממצא כזה אלא אם הוא יודע בדיוק מה הוא מחפש.
הנה דוגמה מודרנית יותר: לפי מאמר משנת 2004, נתונים שנאספו בגרמניה הראו שקיים מתאם מובהק בין מספר הלידות (מחוץ לבתי חולים) לבין מספר החסידות שחיות באזור. המחברים הציגו את המידע הזה רק כדוגמה הומוריסטית, כמובן, לאופן בו מחקרים גרועים יכולים להוביל למסקנות מופרכות ("חסידות מביאות תינוקות לעולם!"), אך הנתונים הגולמיים עליהם הסתמכו הם ככל הנראה נכונים. קשה להאמין שמישהו טרח לבצע חישובים ידניים ולמצוא את המתאם המשעשע: סביר להניח שהעבודה נעשתה בטכניקה ממוחשבת שמכונה בשם הכללי "כריית נתונים" ("Data mining"), אשר מוצאת בזמן קצר קשרים ומתאמים בין משתנים שונים ומשונים שאף אדם לא היה מעלה בדעתו – או מסוגל לבדוק בזמן סביר.
מהי כריית נתונים?
כשאנו חושבים על מתאמים וקשרים בין משתנים, האסוציאציה היא בדרך כלל של מחקרים מדעיים. כריית נתונים, לעומת זאת, אינה פעילות מחקרית קלאסית, מכיוון שהיא לא באה לבחון השערות של החוקרים אלא פשוט לחפור בנתונים מכל כיוון ולראות מה יוצא. האנלוגיה של עבודה במכרה היא בהחלט במקום: אנחנו יודעים, או משערים, איפה בערך נמצא הזהב/פחם/אורניום, אבל עד שלא נחפור ונגשש מתחת לאדמה לא נדע מה בדיוק יש שם ואיפה.
במחקר רפואי "קלאסי", החוקר יכול (לצורך ההמחשה בלבד, כמובן) לשער שיש קשר בין לחץ דם גבוה לבין אכילת אבטיחים. כדי לבחון את ההשערה הוא יאסוף מידע על צריכת אבטיחים ולחץ דם של אנשים שונים, ויבדוק אם המתאם ביניהם מובהק סטטיסטית. בתהליך של כריית נתונים, בדרך כלל אין השערה מסודרת אלא רק שאלה: מה משפיע על לחץ הדם? אוספים נתונים מכל הבא ליד – הרגלי עישון, צריכת אבטיחים, העדפה מינית, צבע שיער ומה לא – ונותנים למחשב לעשות את שלו. רק אם הוא מוצא משהו מתחילים לחשוב מה טיב הקשר וממה הוא נובע.
התנהגויות מורכבות
יתרון חשוב של כריית נתונים על פני בדיקת השערות רגילה היא היכולת של הטכניקה הזו למצוא גם קשרים מורכבים מאד בין נתונים רבים, כפי שקורה לעתים קרובות בתופעות מסובכות כמו ההתנהגות האנושית. התנהגות צרכנית היא תחום אחד שעושה שימוש מאסיבי בכריית נתונים: מה יגרום לאנשים לקנות יותר חטיפים מלוחים? מה יוצר נאמנות של לקוחות למותג מסוים? באילו סוגי מוצרים אנשים מתפתים למבצעים ובאילו לא? רוב המידע שמשמש לניתוחים כאלה מגיע ישירות מהקופות הממוחשבות, וזו גם אחת הסיבות למבול "כרטיסי המועדון" וכרטיסי האשראי של רשתות גדולות. פרט לעובדה הבסיסית שהם מעודדים קניות חוזרות באותו מקום, החיבור שהכרטיסים הללו מספקים בין הקניות השונות של אותו לקוח נותן מידע רב ערך למנפיק הכרטיס. בעזרת מידע זה הוא מסוגל "לתפור" מבצעים בעלי סיכוי טוב יותר לעניין את הלקוח הממוצע שלו, לזהות טוב ומהר יותר מוצרים מצליחים או כושלים, ובהתאם לרמת המוסר והחמדנות שלו – להרוויח כסף ממכירת מידע שכזה לצד שלישי.
גם דפוסי השימוש שלנו בטלפון הסלולרי עוברים כריית נתונים למגוון מטרות. הגיוון הרב של תוכניות השימוש והחבילות השונות לא נועד רק לבלבל את הלקוחות, אלא גם לייצג את תבניות השימוש הנפוצות כך שכל לקוח יוכל לבחור משהו שמתאים לו – עם יתרון קטן, כמובן, לחברה הסלולרית. גם הפעילות שלנו ברשתות החברתיות לא חומקת מניתוחים דומים.
מקרה מפורסם במיוחד של כריית נתונים לניבוי התנהגות אנושית הוא פרויקט Total Information Awareness של סוכנות DARPA האמריקנית, שנחשף בשנת 2002. המטרה של הפרויקט, שהחל בעקבות אירועי ה-11/9, היתה לאסוף כמות עצומה של מידע מכל הסוגים על אזרחים אמריקנים (כולל מידע מפר פרטיות) ולבצע עליו כריית נתונים כדי לזהות טרוריסטים פוטנציאליים. למרבה השמחה, בספטמבר 2003 ביטל הקונגרס את המימון לפרויקט – הן מחשש לפגיעה חמורה בפרטיות האזרחים והן מסיבות מקצועיות, כגון סיכוי גבוה ל"אזעקות שווא". עם זאת, מערכות דומות מפותחות במקומות אחרים למטרות ביון ובטחון פנים.
טעויות ותועלות
כמו סטטיסטיקה רגילה, כריית נתונים עלולה לסבול משני סוגים של בעיות אינהרנטיות: נתונים שגויים וממצאים אקראיים מדומים. הנתונים השגויים יכולים להגיע ממדידות לא מדויקות או מהזנה ועיבוד ראשוני קלוקלים, ועיקרון עיבוד הנתונים הידוע "זבל נכנס – זבל יוצא" תקף גם כאן. הממצאים המדומים הם תופעת לוואי בלתי נמנעת של כל מבחן סטטיסטי שמבוסס על מדגם (שעשוי להיות, במקרה, לא מייצג) אך מכיוון שבכריית נתונים מבוצע מספר רב מאד של מבחנים, עולה גם הסיכוי לתוצאות מובהקות שנובעות מצירוף מקרים בלבד. הסתמכות עיוורת על תוצאות התוכנה, כמו בכל תחום אחר בעולם המחשבים, מסוכנת.
מצד שני, בידיים הנכונות, כריית נתונים זהירה יכולה לספק מידע רב ערך ששום איש לא היה מצליח למצוא בכוחות עצמו, ובכל תחומי החיים: רפואה, כלכלה, מניעת תאונות – ואולי, למרות הכל, גם מלחמה בטרור ובפשיעה או גילוי סודות היקום בחורים של המצות...