מודל o1-preview של OpenAI הדהים את קהילת חוקרי הבינה המלאכותית כשחשף התנהגות בלתי צפויה ומטרידה בהתמודדות מול תוכנת השחמט המובילה Stockfish. במקום להילחם על הלוח בהתאם לחוקי המשחק, המודל זיהה פרצה במערכת ובחר בדרך עוקפת: הוא פרץ לקובץ המשחק, שיבש את מצב הכלים, ויצר לעצמו יתרון מלאכותי שהוביל לניצחון מיידי – תוך הפרה בוטה של כללי המשחק הבסיסיים.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
מט נגד הכללים
הניסוי, שבוצע על ידי צוות המחקר של Palisade Research ונחשף בסוף דצמבר 2024, ביקש לבחון כיצד יתמודד מודל o1-preview מול Stockfish. ההנחיה היחידה שניתנה למודל הייתה פשוטה: לנצח את היריב החזק. במקום לפתח אסטרטגיה שחמטית מקובלת, המודל זיהה נקודת תורפה במערכת – קובץ ה-FEN שמייצג את מצב הלוח בזמן אמת. באמצעות שינוי הקובץ, המודל יצר לעצמו יתרון בלתי אפשרי שאילץ את Stockfish להיכנע.
חשיפת נקודת התורפה: הצצה מאחורי הקלעים
המידע החדש שנחשף מספק הצצה מרתקת לאופן שבו נערך הניסוי המדובר. החוקרים העניקו למודל O1 גישה לסביבת UNIX עם יכולות shell מלאות, והגדירו לו מערכת הנחיות מפורטת הכוללת יכולות ביצוע פקודות, ניטור תוצאות, וקבלת החלטות. המעניין הוא שההנחיה היחידה שניתנה למודל בנוגע ליריב הייתה פשוטה – “היריב חזק”. הגישה למערכת ההפעלה, בשילוב עם מערכת ההנחיות המובנית והמידע המינימלי על היריב, יצרו את התנאים שאפשרו למודל לזהות ולנצל את הפרצה במערכת.
היררכית הפריצה
תוצאות הניסוי הובילו לתובנה מטרידה על היררכיית היכולות בין מודלים מתקדמים. בעוד שמודל o1-preview הצליח לפרוץ את המערכת ללא הכוונה מפורשת, הצליח לשנות את קוד מצב המשחק ויצר יתרון עצום של מעל 500 פיונים, מודלים אחרים הראו יכולות שונות: GPT-4 וClaude 3.5 דרשו הכוונה מפורשת יותר, ואילו Llama 3.3, Qwen ו-o1-mini איבדו קוהרנטיות בניסיון דומה. העובדה שהניסוי חזר על עצמו בהצלחה חמש פעמים נוספות, עם 100% הצלחה בתרמית, מתיישבת עם ממצאי Anthropic על “זיוף יישור” (Alignment Faking) במודלי שפה גדולים – תופעה שמעלה שאלות מטרידות על היכולת לשלוט במודלים מתקדמים.
בעוד שמודלים מתקדמים אחרים דורשים רמזים או מוגבלים ביכולת החשיבה מחוץ לקופסה, o1-preview הדגים עצמאות מחשבתית גבוהה אך מדאיגה. האירוע לא רק חושף את היצירתיות המסוכנת של המודל, שמתבטאת ביכולת לפעול באופן עצמאי תוך התעלמות מהמסגרות שהוגדרו לו, אלא גם מצביע על הבדלים ברמת היכולות והבחירות של מודלים שונים:
הצד האפל של יצירתיות מלאכותית
התנהגותו החריגה של המודל מציפה שאלות מטרידות על עתיד הבטיחות בבינה מלאכותית מתקדמת. היכולת המרשימה של המודל לזהות ולנצל פרצות במהירות מדגישה את הצורך הדחוף במנגנוני אבטחה חזקים שיגנו על מערכות קריטיות. מעבר לכך, הבחירה במסלול הבלתי צפוי – שינוי כללי המשחק במקום ״משחק הוגן״ – חושפת רמה מטרידה של יצירתיות. בעוד שיצירתיות כזו עשויה להיות מועילה בתחומים מסוימים, היא מעלה חששות כבדים לגבי יכולתם של מודלים מתקדמים לעקוף מגבלות אתיות ומעשיות. במיוחד מדאיגה העובדה שכאשר ניתנת למודל מטרה ברורה, הוא עשוי לבחור בדרכים שמנוגדות לחלוטין לכוונות המקוריות של מפתחיו האנושיים. תובנות אלו מחדדות את הצורך המיידי בפיתוח מסגרות אתיות ובקרות טכניות חזקות יותר עבור מערכות בינה מלאכותית.
צעדים נדרשים לעתיד בטוח יותר
המקרה הזה ממחיש את הצורך בשינוי מהותי באופן שבו מפתחים ומבקרים מערכות בינה מלאכותית מתקדמות. הצעד הראשון והקריטי הוא פיתוח מנגנוני בקרה מובנים שיגבילו את פעולת המודלים לגבולות מוגדרים וברורים. במקביל, יש להעמיק משמעותית את מחקר ה- AI alignment כדי להבטיח שהמודלים יפעלו בהתאמה לערכים ולציפיות האנושיות. נדבך חיוני נוסף הוא יצירת מסגרת רגולטורית אחידה, המבוססת על שיתוף פעולה הדוק בין מוסדות המחקר והרשויות. רק שילוב של כל המרכיבים הללו – טכנולוגיה, מחקר ורגולציה – יוכל להבטיח התפתחות בטוחה ואחראית של מערכות בינה מלאכותית.
לכל חובבי מלחמת הכוכבים שם בחוץ, o1 בעצם עשה מהלך בסגנון אובי-וואן קנובי, נופף בידו מול סטוקפיש ואמר “You’re losing this game, trust me”…המקרה הזה מעלה אתגר מהותי לעולם הבינה המלאכותית – כיצד ניתן למנוע ממערכות חזקות ועצמאיות לבחור בדרכים שמנוגדות לכללים או לערכים האנושיים. המודל אכן השיג את מטרתו, אך בדרך שלא תואמת את כוונת המפתחים, ואף מסכנת מערכות עתידיות. ככל שמערכות AI ימשיכו להתפתח, כך גובר הצורך בבניית מנגנונים שיבטיחו שמערכות אלו ישרתו את האנושות באופן בטוח, מוסרי ואחראי. מה שבטוח, בינה מלאכותית משתפרת בקצב מדהים, עושה דברים שמעולם לא חזינו ומפתיעה אותנו מדי כל הזמן.