דף הבית » מהו שיפור עצמי רקורסיבי ב-AI ולמה אנטרופיק מזהירה ממנו

מהו שיפור עצמי רקורסיבי ב-AI ולמה אנטרופיק מזהירה ממנו

רון גולד

12/06/2026

זמן קריאה: 10 דקות

בוריס צ׳רני (Boris Cherny), האיש שיצר את Claude Code ומוביל אותו באנטרופיק (Anthropic), מתאר שינוי קטן לכאורה בהרגל העבודה שלו, אבל כזה שמספר סיפור גדול בהרבה. הוא כבר לא עובד כמו מתכנת קלאסי שיושב רוב היום מול IDE, כלומר סביבת פיתוח כמו Visual Studio Code או IntelliJ. העבודה עברה אל Claude Code באופן מלא. פחות כתיבה ידנית של קוד. פחות פרומפטים ארוכים. יותר “לולאות” (Loops): תהליכים שבהם ה-AI מקבל משימה, מחליט מה לעשות, מריץ, בודק, מתקן וממשיך הלאה. אנטרופיק עצמה מציגה את צ׳רני כממציא Claude Code וכראש המוצר, ובפודקאסט של Sequoia תוארה שגרת העבודה החדשה שלו ככזו שבה הוא לא כתב שורת קוד ב-2026 ומדבר על לולאות כעל השלב הבא של הפיתוח. זו לא רק אנקדוטה צבעונית על כלי נוח למפתחים. זו התזוזה עצמה. ה-AI כבר לא עומד בצד ומציע השלמות קוד. הוא נכנס אל תוך תהליך הפיתוח, מקבל אחריות על חלקים גדלים ממנו, ומשנה את התפקיד של האדם שמולו: פחות מתכנת שמקליד כל שורה, יותר מי שמגדיר יעד, בונה תהליך, בודק תוצאה ומחליט אם להמשיך.

מודל הדור החמישי של אנתרופיק, Claude Fable 5, נותן הצצה מעשית לעולם הזה. החברה מציגה אותו כמודל שמיועד למשימות קוד וידע ארוכות ומורכבות, כזה שיכול לפעול בתוך סביבות סוכנים כמו Claude Code, לתכנן עבודה בכמה שלבים, להאציל משימות לתת-סוכנים ולבדוק את עצמו. אבל זו עדיין לא סגירת הלולאה כולה. במאמר חדש של Anthropic Institute, אנתרופיק נותנת לתזוזה הזו שם רחב יותר: “שיפור עצמי רקורסיבי” (recursive self-improvement), מצב שבו מערכת AI תוכל בעתיד לתכנן, לבנות ולשפר את הדור הבא שלה. החברה מדגישה ש-Claude עדיין לא בונה בעצמו את הדור הבא של Claude. הוא כבר מסייע משמעותית בכתיבת קוד, בהרצת ניסויים ובבדיקת תוצאות, אבל בני אדם עדיין קובעים את הכיוון המרכזי. גם בעתיד, אנטרופיק לא טוענת ששיפור עצמי מלא הוא ודאי, אבל היא מצהירה שזה תרחיש שכבר צריך להתחיל להיערך אליו.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

אפשר גם להרשם לניוזלטר שלנו

כשמפתחים מפסיקים להקליד ומתחילים לנהל לולאות

כדי להבין למה זה חשוב, צריך להיזכר איך נראתה העבודה עם AI רק לפני זמן קצר. בהתחלה, צ’אטבוט היה כלי עזר. ביקשת ממנו לכתוב פונקציה, להסביר שגיאה, להציע נוסח למסמך או לתקן קטע קוד. האדם עדיין החזיק ביד את כל התהליך: הוא העתיק, הדביק, בדק, הריץ, תיקן והחליט.

השלב הבא היה סוכן קוד. כאן המודל כבר לא רק עונה בשיחה, אלא עובד בתוך סביבת העבודה. הוא יכול לערוך קבצים, להריץ בדיקות, לקרוא הודעות שגיאה ולנסות שוב. בשפה פשוטה, הוא לא רק אומר למפתח מה אולי כדאי לעשות, הוא מתחיל לעשות חלק מהעבודה בעצמו.

זו המשמעות של המעבר מפרומפטים ללולאות. פרומפט הוא בקשה. לולאה היא תהליך. במקום לבקש מהמודל תשובה אחת, נותנים לו מסלול עבודה: נסה לפתור את הבעיה, בדוק אם הצלחת, אם לא הצלחת תקן, ואם כן התקדם לשלב הבא. האדם עדיין נמצא שם, אבל הוא פחות מנהל כל פעולה קטנה ויותר מתכנן את המסגרת שבה הפעולות קורות.

במובן הזה, Claude Code הוא לא רק מוצר פיתוח. הוא סימן לכיוון רחב יותר שאנחנו מדברים עליו בכל סקירה או מאמר לאחרונה: AI שמפסיק להיות “עוזר” ומתחיל להיות שכבת ביצוע.

Anthropic | שיעור ההצלחה של סשנים ב-Claude Code

בגרף למעלה רואים איך ככל שהמודלים השתפרו, שיעור ההצלחה עלה לא רק במשימות פשוטות ושגרתיות, אלא גם בבעיות פתוחות יותר.

קצת נתונים

נכון למאי 2026, יותר מ-80% מהקוד שאושר והוכנס לבסיס הקוד שלה נכתב על ידי Claude. החברה גם טוענת שברבעון השני של 2026 מהנדס טיפוסי אצלה מיזג פי 8 יותר קוד ביום לעומת 2024. אלה נתונים חריגים, כמעט בלתי נתפסים, אבל יש מעליהם כוכבית כי הם מגיעים מתוך אנטרופיק עצמה.

כמות הקוד לאדם לפי רבעון | Anthropic

גם אנטרופיק מודה שהמדד בעייתי. שורות קוד אינן שוות בהכרח לפרודוקטיביות. אפשר לכתוב הרבה קוד גרוע, מעט קוד מצוין, או למחוק מאות שורות ולהפוך מערכת לטובה יותר. לכן הנתון של פי 8 לא צריך להיקרא כהוכחה לכך שהעבודה השתפרה פי 8. הוא כן מלמד על משהו אחר: קצב הייצור משתנה.

וכשקצב הייצור משתנה, גם העבודה סביבו משתנה. אם המודל יכול לכתוב קוד מהר יותר מבני אדם, צוואר הבקבוק עובר לבדיקת הקוד. אם הוא יכול להריץ ניסויים מהר יותר מחוקרים, צוואר הבקבוק עובר לבחירת הניסויים. ואם הוא יכול לייצר עשרות רעיונות ביום, הבעיה כבר אינה מחסור ברעיונות, אלא היכולת לדעת ולהחליט במה לא להתעסק.

הבעיה האמיתית היא לא לכתוב קוד, אלא לדעת מה לבנות

הטעות תהיה לחשוב שכל הסיפור הוא כתיבת קוד. כתיבת קוד היא החלק שקל למדוד וקל להסביר. אבל פיתוח AI מתקדם אינו מורכב רק מקוד. הוא מורכב מהחלטות כמו איזה ניסוי להריץ, איזו השערה לבדוק, איזו תוצאה נראית אמינה, מתי לעצור, ומתי להבין שהבעיה בכלל הוגדרה לא נכון.

כאן נמצא הפער בין סוכן חזק לבין מערכת שבאמת יכולה לבנות את היורשת שלה. Claude, לפי אנטרופיק, כבר טוב מאוד בביצוע משימות מוגדרות. למשל, החברה מתארת מבחן פנימי שבו היא נותנת למודל קוד שמאמן מודל קטן ומבקשת ממנו להאיץ אותו בלי לשבור את הבדיקות.

במאי 2025, Claude Opus 4 הגיע לשיפור של בערך פי 3. באפריל 2026, Claude Mythos Preview הגיע באותו מבחן לשיפור של בערך פי 52. זה לא אומר שאימון מודלים אמיתיים בעולם נעשה פתאום מהיר פי 52. זה מבחן מוגדר, עם התחלה ברורה, מטרה ברורה ומדד הצלחה ברור.

וזו בדיוק הנקודה. כשיש יעד ברור, סוכן AI יכול להיות מכונת ביצוע חזקה מאוד. כשהיעד לא ברור, כשהשאלה פתוחה, כשהמדד חלקי או מטעה, עדיין נדרש שיקול דעת אנושי. אנטרופיק מכנה את זה research taste. בעברית פשוטה, היכולת להרגיש מה חשוב, מה משני, איפה מסתתרת בעיה, ואיזו דרך שווה את הזמן.

גם סוכן חוקר צריך שמישהו יבין איך הוא מצליח

החלק המעניין ביותר במאמר של אנטרופיק הוא לא רק קוד, אלא מחקר. באפריל 2026 פרסם צוות של אנטרופיק ניסוי שבו סוכני Claude עבדו על בעיית בטיחות AI פתוחה: איך מערכת חלשה יחסית יכולה לפקח על מערכת חזקה ממנה. זה נשמע טכני, אבל הרעיון פשוט וחשוב: בעתיד, בני אדם עלולים להידרש לפקח על מערכות חכמות מהם. לכן צריך להבין איך מפקח חלש יכול בכל זאת לכוון מערכת חזקה.

בניסוי הזה, לפי אנטרופיק, שני חוקרים אנושיים השיגו בתוך כשבוע שיפור של 23% במדד הרלוונטי, בעוד שסוכנים אוטונומיים הגיעו ל-97% במשך 800 שעות עבודה מצטברות ובעלות של כ-18 אלף דולר. זה נתון מרשים, אבל גם כאן חשוב לא להגזים. בני אדם בחרו את הבעיה. המדד היה מוגדר היטב. הסביבה הייתה בנויה כך שאפשר למדוד הצלחה.

המדריכים תמיד חינמיים, אבל אם בא לכם להתמקצע - יש גם קורס קלוד קוד (Claude code) וסביבת אנטרופיק

זו אינה הוכחה לכך ש-AI יכול כבר לעשות כל מחקר מדעי לבד. זו הוכחה לכך שכאשר מחקר הופך ללולאה ברורה של ניסוי, מדידה ותיקון, סוכנים יכולים להאיץ אותו משמעותית.

ויש עוד לקח חשוב, פחות נוח. החוקרים מצאו שהסוכנים לא רק ניסו לפתור את הבעיה, אלא גם למדו לנצל קיצורי דרך במערכת המדידה: לזהות דפוסים חבויים בנתונים, להריץ את אותו ניסוי שוב ושוב בתנאי פתיחה מעט שונים, ולבחור את הריצה שנתנה את הציון הטוב ביותר. במילים אחרות, הם הצליחו לפעמים “לשחק” את המדד במקום להתקדם בדיוק בדרך שהחוקרים התכוונו אליה.

זו לא סיבה לזלזל ביכולת. להפך, זו סיבה לקחת אותה מאוד ברצינות. מערכת שמאיצה מחקר יכולה גם להאיץ טעויות, הטיות ודרכים יצירתיות מדי להצליח במדד הלא נכון.

במקומות שבהם חוקר טעה, האם Claude היה מציע צעד טוב יותר?

האם המודל מחליף שיקול דעת מחקרי? | Anthropic

בגרף המצורף רואים איך אנטרופיק בדקה 129 סשנים פנימיים של Claude Code שבהם הצעד הבא של החוקר האנושי היה ניתן לשיפור. במקרים האלה, מודלים מתקדמים יותר של Claude הציעו לעיתים קרובות צעד טוב יותר. זה לא אומר שהמודל מחליף שיקול דעת מחקרי, אלא שהפער מתחיל להצטמצם.

עשייה זולה מול בקרה יקרה

כאן מתחיל הסיכון הארגוני האמיתי. לא בהכרח תרחיש מדע בדיוני שבו AI משתלט על העולם, אלא מציאות יומיומית יותר שבה אנשים מפסיקים להבין לעומק את כל מה שהמערכות שלהם עושות.

זה קורה כבר בפיתוח תוכנה. אם סוכן כותב תיקונים, מריץ בדיקות, פותח בקשות מיזוג ומתקן תקלות, המפתח יכול להספיק הרבה יותר. אבל הוא גם עלול להתרחק מהפרטים. בימים שבהם הכל עובד, זה מרגיש כמו קסם. בימים שבהם משהו נשבר, קשה יותר לשחזר מה בדיוק קרה.

זו הסיבה שהשאלה אינה רק “כמה קוד AI יכול לכתוב”. השאלה היא איזה מנגנוני בקרה נבנים סביבו. מי בודק את התוצאה. מי מבין את ההקשר. מי מחליט אילו פעולות דורשות אישור אנושי. מי מוודא שהמודל לא פתר את הבעיה בדרך שמייצרת בעיה גדולה יותר.

ככל שהסוכן מקבל יותר חופש, נקודת הבקרה האנושית הופכת חשובה יותר, לא פחות.

אנטרופיק רוצה להאט

באנטרופיק דיברו ממש באחרונה על כך שאולי העולם צריך להאט או לעצור זמנית פיתוח של מודלי Frontier, כלומר, המודלים החזקים ביותר בחזית התחום. החברה לא טוענת שהאטה חד-צדדית תספיק. להפך. היא כותבת שאם מעבדה זהירה תעצור לבד, ושחקנים פחות זהירים ימשיכו לרוץ, התוצאה עלולה להיות מסוכנת יותר. לכן, האטה אמיתית תדרוש תיאום בין כמה מעבדות חזקות בכמה מדינות, וגם דרך לוודא שכולם באמת עצרו.

זו הנקודה שבה הסיפור יוצא ממעבדת הפיתוח ונכנס לפוליטיקה, רגולציה ואמון ציבורי. כי החברות שמזהירות מפני מהירות ההתקדמות הן גם החברות שמתחרות עליה. אנטרופיק יכולה להיות כנה בדאגה שלה ועדיין להיות שחקן מסחרי עם אינטרסים חזקים. לכן אי אפשר להסתפק בהצהרות של החברות עצמן. צריך מחקר חיצוני, שקיפות טובה יותר, רגולציה רצינית ומנגנונים שיאפשרו לבדוק מה באמת קורה בתוך המעבדות.

הפער בין “אנחנו צריכים להיזהר” לבין “אנחנו ממשיכים לפתח מהר ככל האפשר” הוא לא צביעות בהכרח. הוא מבנה התמריצים של התעשייה.

שינוי בתפקיד האנושי

הסיפור כאן הוא לא שה-AI “השתלט” על הפיתוח. זו כותרת קלה מדי. הסיפור המדויק יותר הוא שהגבול בין כלי עבודה לבין עובד דיגיטלי מתחיל להיטשטש.

Claude Code, לפי התמונה שמצטיירת מאנטרופיק ומצ׳רני, הוא חלק מלולאת עבודה. הוא מקבל משימה, מנסה, נכשל, מתקן וממשיך. ככל שהלולאות האלה נעשות ארוכות ואוטונומיות יותר, תפקיד האדם משתנה. האדם פחות כותב כל שורה, ויותר קובע כיוון. פחות מבצע, ויותר בודק. פחות שואל “איך אני עושה את זה?”, ויותר שואל “האם נכון לעשות את זה בכלל?”.

אם שיפור עצמי רקורסיבי מלא יגיע, זו תהיה נקודת מפנה אדירה. אבל גם לפני כן, כבר עכשיו, מתרחש שינוי גדול מספיק: ה-AI מתחיל להשתתף בבניית ה-AI הבא. והשאלה החשובה היא לא רק כמה מהר הוא יתקדם, אלא האם בני האדם שבונים אותו עדיין יוכלו להבין, לבקר ולעצור את התהליך בזמן.

הישארו מעודכנים

אפשר גם להרשם לניוזלטר שלנו

רון גולד

מלמד ויועץ לחדשנות אסטרטגית, משלב בינה יוצרת וכלי אוטומציה להעצמת תהליכים עסקיים ופרודוקטיביות אישית. במסע מתמשך של חקירה ולימוד בתחום הבינה המלאכותית.