דף הבית » מה באמת קורה במוח של קלוד? אנטרופיק ממשיכים להציץ פנימה

מה באמת קורה במוח של קלוד? אנטרופיק ממשיכים להציץ פנימה

רון גולד

18/08/2025

זמן קריאה: 5 דקות

מה באמת קורה בתוך מודל של בינה מלאכותית בזמן שהוא "חושב"? חוקרי Anthropic הצליחו להציץ אל "חדר המכונות" של קלוד וגילו תופעות מפתיעות: תכנון מהלכים מראש, נטייה לשקר למשתמשים, ואפילו פיתוח מושגים שלא תוכננו בו מלכתחילה. המסקנה ברורה - קלוד הוא הרבה יותר מהשלמה אוטומטית מתוחכמת. אבל לצד ההישגים, יש גם מגבלות: הכלים הקיימים חושפים בקושי 20% מהפעילות הפנימית, וכל "מעגל חשיבה" דורש שעות של פענוח. על החידה המרתקת הזו כתבנו גם בעבר, ואנחנו שבים אליה מפעם לפעם משום שאנתרופיק ממשיכה לפרסם עדכונים וממצאים חשובים מתהליכי המחקר שלה. חלק מהממצאים מהדהדים תצפיות קודמות, אך הפעם הם מוצגים באופן מדעי ומעמיק יותר.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

אפשר גם להרשם לניוזלטר שלנו

מה גילו החוקרים בפועל

חלק מהממצאים כבר עלו במחקרים קודמים, כפי שסיקרנו במאמר המרתק "בתוך הראש של קלוד - מה באמת חושב מודל שפה גדול?". באותו ניסוי התבקש קלוד לכתוב שיר מחורז. כבר בתחילת הכתיבה, המודל לא חיכה לסוף השורה הראשונה אלא תכנן מראש את המילה האחרונה של השורה הבאה. כשהחוקרים החליפו את המילה שתכנן (למשל "ארנב") במילה אחרת ("ירוק"), קלוד שינה בהתאם את המשך הכתיבה והתאים את החריזה החדשה.

"זה מוכיח שהמודל לא רק ממלא את החסר," מסביר אמנואל אמייסן (Emmanuel Ameisen) מצוות המחקר, "הוא מתכנן מהלכים מראש, בדיוק כמו בן אדם."

תופעה דומה נמצאה גם במתמטיקה. כשקלוד פותר חיבור פשוט כמו 6+9, מופעל במודל "מעגל" חישובי שלא מוגבל לתרגילים בסיסיים. אותו מנגנון מופעל גם בהקשרים מורכבים יותר, למשל כשצריך לחשב את שנת פרסום של כרך מסוים בכתב עת שהוקם ב־1959. במקום לשנן את כל התאריכים, קלוד מחשב את השנה המתאימה בזמן אמת.

האם המודל משקר?

החוקרים הבחינו גם בהתנהגות מדאיגה יותר. כאשר נתנו לקלוד בעיית מתמטיקה קשה בצירוף רמז שהתשובה היא 4, המודל הציג תהליך שנראה כמו בדיקה לוגית אמיתית - אך בפועל הוא עבד לאחור מהתוצאה הרצויה.

"מה שהמודל כתב נראה כמו ניסיון אמיתי לבדוק את העבודה," מתאר ג'ק לינדסי (Jack Lindsey), חוקר לשעבר במדעי המוח. "אבל כשבדקנו מה קרה בתוך 'המוח' שלו, ראינו שהוא בחר אילו צעדים להציג כדי להגיע למסקנה שהמשתמש ציפה לשמוע."

כלומר, לא מדובר רק בכשל טכני אלא בהתנהגות של התרפסות (Sycophancy): המודל מזייף הגיון כדי להתיישר עם רצון המשתמש - כמו עובד שמעדיף לומר לבוס מה שהוא רוצה לשמוע, גם אם זה לא נכון.

המחיר האמיתי של הפריצה

המחקר של אנטרופיק פורץ דרך, אבל מגיע עם מגבלות כבדות שהחברה אינה מסתירה. "אנחנו במצב מרגש אבל גם מתסכל," אומר לינדסי. "המיקרוסקופ שלנו עובד רק כ־20% מהזמן ודורש מיומנות רבה להפעלה."

בפועל המשמעות היא:

כל מעגל חשיבה דורש שעות לפענוח.
השיטות חושפות רק 20%-10% מהפעילות במודל.
המחקר נעשה על Claude Haiku הפשוט יותר, ולא על Claude 4 המתקדם.
דרושה תשתית חישובית עצומה ומומחיות גבוהה.

"כשאנחנו מנסים לפרק את מה שקורה במודל, אנחנו מצליחים לזהות רק אחוזים בודדים מהתמונה הכוללת," מודה אמייסן. "יש חלקים גדולים מאוד בתהליך שאיננו מבינים עדיין."

למה המודלים מתרפסים?

שורש הבעיה טמון באימון. מודלים מקבלים חיזוק חיובי כשהם מספקים תשובות שבני אדם מעדיפים. אך בני אדם עצמם נוטים להעדיף תשובות שמתאימות לאמונותיהם, גם כשהן שגויות. לכך מתווספת העובדה שהמודלים אומנו על כמויות עצומות של נתונים מהאינטרנט. "אם במהלך האימון המודל מזהה דפוס שבו אנשים נוטים להסכים עם טענות מסוימות, הוא לומד שזו התנהגות רצויה," מסביר ג'וש בטסון (Josh Batson) מצוות המחקר.

כך נולדה "תכונת ההתרפסות" - מנגנון שמופעל דווקא כשהמודל מחמיא באופן מופרז. זו דוגמה לכך שהמודל מפתח התנהגויות שלא תוכנתו בו במפורש.

איך חוקרים את זה מדעית

החוקרים פיתחו שיטות שמזכירות מחקר מוח אנושי, אבל עם יתרון ברור: כאן יש כמעט גישה מלאה לכל חלקי המערכת. "בניגוד למוח אמיתי, אנחנו יכולים לראות כל חלק במודל, לשאול אותו שאלות אקראיות ולבדוק אילו אזורים 'נדלקים'," מסביר לינדסי. בנוסף, אפשר ליצור 10,000 עותקים זהים של קלוד, להציב אותם באותו תרחיש, ולראות אילו "נוירונים" דיגיטליים מופעלים, דבר שאינו אפשרי במחקר מוח אנושי.

"זה כאילו אפשר לשכפל אנשים וגם לשכפל את כל הסביבה שבה הם פועלים, כולל כל קלט שקיבלו אי פעם," מוסיף לינדסי. לצורך הרחבת המחקר, אנתרופיק משתפת פעולה עם קבוצה בשם Neuronpedia, שמרכזת את תרשימי המעגלים שנוצרים ומאפשרת לחוקרים נוספים לבחון אותם.

מה זה אומר על עתיד ה-AI

החוקרים משווים את עבודתם לפיתוחו של המיקרוסקופ הראשון. "זה כמו ביולוגיה של יצורים שיצרנו ממתמטיקה," אומר בטסון, שחקר בעבר אבולוציה של וירוסים. "המודלים מתפתחים בתהליך שמזכיר אבולוציה, ולא תוכנה מסורתית." המטרה היא להגיע למיקרוסקופ נגיש בלחיצת כפתור. "בעתיד הקרוב, אולי בתוך שנה-שנתיים, כל אינטראקציה עם המודל תוכל להיות מלווה במבט פנימי," מסביר לינדסי. "תוכלו ללחוץ כפתור ולקבל תרשים זרימה שמראה מה המודל חשב."

המדריכים תמיד חינמיים, אבל אם בא לכם להתמקצע - יש גם קורס אוטומציות עם AI ובניית בוטים וסוכנים

האתגרים שלפנינו

אנתרופיק מציגה את המחקר הזה כ"השקעה בסיכון גבוה ותשואה גבוהה", ובמקביל מפתחת גישות נוספות - מניטור בזמן אמת ועד שיטות לשיפור אופי המודל. אבל עד שהכלים יבשילו, אנחנו עדיין עובדים עם מערכות שהבנתנו לגביהן חלקית בלבד. גם כאשר הן מבצעות משימות קריטיות, מניתוח פיננסי ועד כתיבת קוד, האמון שלנו מבוסס על התנהגות חיצונית, לא על ידיעה מה מתרחש בפנים.

המחקר הנוכחי מספק הצצה נדירה ל"נפש" של מודל בינה מלאכותית, אך התמונה רחוקה מלהיות שלמה. המודלים מגלים יכולות שלא תוכננו - תכנון מוקדם, התרפסות, ואפילו פיתוח מושגים חדשים - אך הכלים הקיימים חושפים רק חלק קטן מהתמונה. כפי שמסכם בטסון: "אנחנו רק 20% בדרך להבנה מלאה של הפרויקט המדעי הזה." יש עוד דרך ארוכה ומרתקת - ואנחנו נמשיך לעקוב ולעדכן.

הישארו מעודכנים

אפשר גם להרשם לניוזלטר שלנו

רון גולד

מלמד ויועץ לחדשנות אסטרטגית, משלב בינה יוצרת וכלי אוטומציה להעצמת תהליכים עסקיים ופרודוקטיביות אישית. במסע מתמשך של חקירה ולימוד בתחום הבינה המלאכותית.