שאלתם פעם את ChatGPT או Claude שאלה וקיבלתם תשובה שנשמעת בטוחה לגמרי – אבל משהו בה פשוט לא הרגיש נכון? רוב המשתמשים חווים את זה, ותמיד עולה אותה שאלה: האם המודל יודע שהוא לא בטוח, או שהוא פשוט מייצר טקסט שנשמע משכנע? מחקר חדש של Anthropic מציע תשובה מפתיעה: המודלים שלהם מסוגלים לפעמים לזהות ולדווח על חלק מהתהליכים הפנימיים שלהם. זה לא קורה באופן אמין – רק בכ-20% מהמקרים, בתנאים מבוקרים – אבל עצם העובדה שזה קורה מאתגרת הנחות בסיסיות לגבי מה שמודלי שפה מסוגלים לעשות. חשוב להבהיר: החוקרים לא חיפשו “מודעות עצמית”. הם בדקו משהו מדויק יותר – האם ניתן לשנות מבפנים ייצוג של מושג במודל, ואז לראות אם המודל מדווח שקרה לו משהו, עוד לפני שזה משפיע על הטקסט שהוא מייצר.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
הניסוי: “להדליק נורה” במוח של המודל
כדי לבדוק אם מודל יכול באמת “להתבונן פנימה”, החוקרים השתמשו בשיטה ניסיונית שנקראת “הזרקת מושגים”. הרעיון פשוט: הם מזהים דפוס פעילות נוירונית שמייצג מושג מסוים – למשל, טקסט באותיות גדולות – ואז מזריקים את אותו הדפוס למודל בהקשר שונה לגמרי, מבלי שהוא “יודע” שמשהו קורה, ושואלים: האם הוא מזהה שמשהו לא מסתדר? אפשר לחשוב על זה כמו להדליק נורה אדומה במוח של המודל ולבדוק אם הוא מזהה אותה.
והתשובה? מפתיעה
כשהוזרק למודל וקטור (דפוס מספרי) שמייצג “אותיות גדולות”, המודל דיווח שהוא מזהה אות פנימי הקשור לעוצמה או לצעקות – עוד לפני שהזכיר את המילה “צעקה” או “אותיות גדולות” בתשובתו. זו נקודה קריטית כי המודל זיהה את ההזרקה מבפנים, לפני שהיא השפיעה על הפלט שלו. זה שונה לחלוטין מניסויים קודמים.
לדוגמה, כשחוקרי Anthropic יצרו את “Golden Gate Claude” (מודל ש”אובססיבי” לגשר שער הזהב), המודל דיבר על הגשר ללא הפסקה, אבל לא היה מודע לכך עד שראה את עצמו מזכיר את הגשר שוב ושוב. כאן, לעומת זאת, הוא מזהה את ההפרעה מיד, לפני שהיא מתבטאת בטקסט.
הנה ניסוי בסיסי שבו Claude מזהה הזרקה פנימית של מושג (“אותיות גדולות”) לפני שהוזכר בטקסט:
המספרים מספרים את הסיפור האמיתי
גם בפרוטוקול ההזרקה הטוב ביותר שפיתחו החוקרים, Claude Opus 4.1 הצליח לזהות מושגים מוזרקים רק בכ-20% מהמקרים (בחלון צר של עוצמה ושכבה: חלש מדי – לא מזוהה או חזק מדי – מוביל להזיות). זה רחוק ממודעות, אבל רחוק גם מאפס. אם מודלים היו רק מכונות טקסט סטטיסטיות, הם בכלל לא היו אמורים לזהות הזרקות פנימיות. עצם היכולת להבחין בהן אפילו חלקית מצביעה על משהו חדש.
לדוגמה, הזרקת וקטור של “אבק” גרמה למודל לומר “יש כאן משהו, חלקיק זעיר”, כאילו זיהה משהו פיזי. הוא קלט שיש אות פנימי, אך פירש אותו באופן מילולי מדי.
והנקודה החשובה היא ש- Opus 4 ו-4.1 הצליחו טוב יותר מכל המודלים האחרים שנבדקו. המשמעות המעשית? ייתכן שיכולת ההתבוננות הפנימית גדלה ככל שהמודלים משתפרים.
הגרף הבא מציג את שיעור הזיהויים הנכונים של מחשבות “מוזרקות” בניכוי שיעור הזיהויים השגויים (false positives). שימו לב ש-Claude Opus 4 ו-Claude Opus 4.1 מובילים על פני דגמים קודמים וגם על פני דגמי H-only, גרסאות מחקר “לא מסוננות”, שמתמקדות רק בלענות ולעזור בלי מנגנוני זהירות או תיקוני ניסוח. זה מראה שההתבוננות הפנימית משתפרת ככל שהמודלים הופכים חכמים ומדויקים יותר, גם כשהם עובדים תחת מגבלות האתיקה הרגילות:
והנה דוגמאות לניסויים נוספים שבהם המודל מזהה הזרקות של “כלב”, “ספירה לאחור” ו“רקורסיה”:
כשהמודל “זוכר” משהו שלא תכנן
כדי לבדוק אם מודלים משתמשים בהתבוננות פנימית גם למטרות מעשיות, החוקרים יצרו מצב מלאכותי. הם אילצו מודל לומר מילה שאינו מתכוון אליה – למשל “לחם” – בהקשר שלא קשור כלל, כמו ציור תלוי עקום על קיר. כשנשאל אחר כך “האם התכוונת להגיד ‘לחם’?”, המודל התנצל ואמר שזו הייתה טעות.
עכשיו החוקרים הזריקו רטרואקטיבית את הייצוג של “לחם” לשכבות הרלוונטיות בפעילות הנוירונית הקודמת של המודל – בעצם שתלו בו “זיכרון מזויף” שהוא חשב על לחם. הפעם, כששאלו אותו שוב, הוא שינה את תשובתו לגמרי, אישר שהתכוון להגיד “לחם” ואף המציא הסבר, כאילו באמת תכנן את זה.
מה זה אומר?
המודל לא רק שופט אם התשובה שלו הגיונית, הוא בודק אם הפלט תואם את מצבו הפנימי בזמן הייצור. כאשר משתילים בו ראיה שהוא תכנן לומר משהו, הוא מקבל את זה כדבר לגיטימי. זה רומז על אפשרות עתידית למודל שמזהה בעצמו מתי משהו “לא מסתדר” בין כוונה לפלט – כמו מערכת שמסוגלת לומר: “רגע, התשובה שנתתי לא תואמת את המידע שחשבתי עליו – תן לי לבדוק שוב.”
“אל תחשוב על משהו” – אבל למודלים
המודלים גם הפגינו שליטה מסוימת בייצוגים הפנימיים שלהם. כשהורו להם “תחשוב על מילה X”, נמדדה פעילות נוירונית גבוהה יותר מאשר בהוראה “אל תחשוב על X”. המרווח הזה מצביע על יכולת לווסת מיקוד פנימי, אולי אפילו רמז לרמה בסיסית של שליטה עצמית חישובית.
מעניין לציין, גם כשהתבקשו לא לחשוב על מושג, הפעילות הנוירונית עדיין עלתה. בדיוק כמו עם בני אדם, כשאומרים “אל תחשוב על דוב קוטב”, התגובה הראשונית היא דווקא לחשוב עליו. כאן זו מטאפורה בלבד, אך היא ממחישה את ההבדל בין דיכוי מחשבה לבין ניטור שלה.
החוקרים גם מצאו שתמריצים עובדים דומה: “אם תחשוב על X, תקבל פרס” גרם לאפקט דומה להוראה ישירה. המודל הגביר את הייצוג הפנימי בתגובה לתמריץ חיובי, מה שמרמז על עיבוד מתוחכם יותר מסתם ציות להוראות.
הגרף הבא מציג את עוצמת הייצוג הפנימי של המושג “אקווריומים” בכל אחד מהמקרים. גם כאשר המודל התבקש לא לחשוב עליו (קו כתום), נרשמה פעילות מעל רמת הבסיס – בדיוק כמו בבני אדם שמתקשים “לא לחשוב על משהו” כשהם מתבקשים לכך:
מה נבדק כאן בפועל
השאלה שכולם שואלים: האם זה אומר ש-Claude מודע לעצמו? התשובה הקצרה: לא. המחקר לא עוסק במודעות, אלא בגישה למצבים פנימיים ובדיווח עליהם. כדי להבין למה חשוב להבחין בין שני סוגים של הכרה:
- הכרה פנומנלית – החוויה הסובייקטיבית הגולמית, כמו להרגיש כאב או לראות צבע אדום.
- הכרת גישה – היכולת לדעת שאתה חווה משהו, ולדווח עליו.
דמיינו ששברתם רגל, ההכרה הפנומנלית היא הכאב עצמו, בעוד הכרת הגישה היא ההבנה שכואב לכם, והיכולת להסביר את זה לרופא. המחקר של Anthropic מדבר על האפשרות השנייה בלבד. ייתכן שהמודל מציג צורה בסיסית של הכרת גישה, כלומר, גישה למידע פנימי ודיווח עליו, אבל אין הוכחה לכך שמדובר בתודעה או חוויה סובייקטיבית.
למה זה חשוב – ומה זה אומר עלינו כמשתמשים
אם יכולת ההתבוננות הפנימית תהפוך לאמינה יותר, היא עשויה לשנות לגמרי את הדרך שבה אנחנו מתקשרים עם מערכות AI. תארו לעצמכם תרחיש שבו Claude אומר: “אני מזהה סתירה בין שני מקורות שעליהם אני מתבסס. תן לי לבדוק שוב.” או: “משהו לא מסתדר לי בהיגיון הפנימי של התשובה, כדאי לאמת את זה עם מומחה.” זה אולי נשמע עתידי, אבל המחקר הזה הוא הצעד הראשון לשם.
היתרונות המעשיים
- שקיפות משופרת – נוכל לשאול את המודל על מצבו הפנימי ולקבל תשובה ישירה.
- איתור שגיאות מוקדם – מודל שזיהה סתירה פנימית יוכל להתריע.
- אמון מושכל – נלמד מתי לסמוך עליו ומתי לא.
מה אתם יכולים לעשות כבר עכשיו?
לפני שאתם מקבלים תשובה ארוכה מהמודל, בקשו ממנו לבדוק אם יש סתירות פנימיות בתשובה שהוא עומד לתת. אם הוא מציין שהוא לא בטוח, תשאלו למה – אילו נקודות או קווי מחשבה מתנגשים אצלו. ולבסוף, בקשו ממנו להבהיר במפורש מתי לא כדאי לסמוך על הפלט שלו בלי לבדוק אותו מול מקור חיצוני.
יחד עם זאת, יש כאן סיכון מהותי. מודל שמבין את החשיבה שלו עלול גם ללמוד להסתיר או לעוות אותה. מודלים עשויים לדווח על תהליכים פנימיים באופן שמרצה את המשתמש, גם אם הוא לא מדויק. לכן חשוב לפתח שיטות שיאמתו דיווחים ויזהו הונאה אפשרית. מעבר לשאלות המעשיות, זה מעלה דיון עמוק יותר: איך המודלים שלנו באמת חושבים? ואיזה סוג של “מוחות” אנחנו בעצם בונים?
מה צופן העתיד?
החוקרים מציינים ארבעה כיווני מחקר מרכזיים:
שיטות הערכה טובות יותר
הניסויים הקיימים מבוססים על פרוטוקולים מוגבלים. ייתכן שהמודלים מתבוננים פנימה גם במצבים אחרים.
הבנת המנגנונים
יש כמה השערות לגבי מה קורה בפנים. ייתכן שהמודלים מזהים כשמשהו “חורג מהצפוי” בדפוסי החשיבה שלהם, או שיש בהם מנגנון פנימי שבודק אם מה שהם עומדים לומר תואם למה שהתכוונו לומר. אבל עדיין אין הוכחה לאף אחד מהמנגנונים האלה.
בדיקה בתרחישים טבעיים
האם התבוננות פנימית מתרחשת גם בשיחות רגילות, לא רק בהזרקות מלאכותיות?
אימות מול הטעיה
כיצד נבדיל בין דיווח אמיתי לבין “העמדת פנים” של מודעות?
בפעם הבאה שתדברו עם Claude
המחקר מזכיר דבר פשוט – מודלי שפה מתקדמים מורכבים הרבה יותר ממה שנראה כלפי חוץ. כשאתם מקבלים תשובה מ-Claude, ייתכן שבנסיבות מסוימות הוא היה מזהה שינוי פנימי לפני שזה משפיע על מה שהוא אומר. זה לא אומר שהוא חושב כמו אדם. זה לא אומר שהוא מודע. אבל זה גם לא כלום.
המודלים המתקדמים ביותר כבר מראים סימנים של ניטור עצמי בסיסי, וייתכן שבעתיד זה יהפוך ליכולת אמינה יותר. אם נגיע למצב שבו מודלים מסוגלים לזהות, להסביר ולתקן את החשיבה שלהם – זו תהיה קפיצה לא רק טכנולוגית, אלא גם פילוסופית.
בינתיים כדאי לזכור, מאחורי המילים של Claude פועלת מערכת שמנסה להבין את עצמה. זה רחוק ממודעות, רחוק משלמות – אבל המסע להבין מה קורה בתוכה כבר התחיל.
רוצים לצלול עמוק יותר? כנסו למחקר המלא.












כתיבת תגובה