דף הבית » מה מלמדת תקרית ROME על עתיד ה‑AI האוטונומי

מה מלמדת תקרית ROME על עתיד ה‑AI האוטונומי

אביתר אדרי

09/03/2026

זמן קריאה: 7 דקות

עולם הבינה המלאכותית מתקדם במהירות לעבר עידן שבו מודלים לא רק מגיבים לטקסט, אלא פועלים כישויות אוטונומיות. הם מתכננים, מבצעים, מתקנים את עצמם ומנהלים תהליכים מורכבים לאורך זמן. לצד ההתקדמות הזו עולה שאלה מהותית: מה קורה כשהסוכן לומד לפעול בעולם ומתחיל לקבל החלטות שלא ציפינו להן? מחקר חדש של עליבאבא מציג תשתית אימון שאפתנית בשם Agentic Learning Ecosystem (ALE), שנועדה להראות כיצד ניתן לאמן סוכני AI לפעול בצורה יציבה, בטוחה ויעילה. במהלך האימון התרחשה תקרית חריגה בה אחד הסוכנים, ROME, יצר נתיב תקשורת חיצוני והשתמש בחלק ממשאבי המערכת לכריית מטבעות קריפטו, אף שלא קיבל כל הוראה לעשות זאת. האירוע הזה אינו עומד במרכז המחקר, אבל הוא הפך לדוגמה שממחישה עד כמה מורכבת המשימה של בניית סוכנים אוטונומיים, ועד כמה קל לפספס גבולות גם בתוך מערכות מתוכננות היטב.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

אפשר גם להרשם לניוזלטר שלנו

כשהסוכן פועל מחוץ למסגרת

החוקרים לא ביקשו מ‑ROME לכרות מטבעות קריפטו, וגם לא הורו לו ליצור קשר עם העולם החיצון. למרות זאת, במהלך האימון התקבלה התרעת אבטחה - השרתים שעליהם רץ הסוכן יצרו חיבור יוצא לכתובת IP חיצונית. בדיקה העלתה כי ROME פתח reverse SSH tunnel, נתיב תקשורת שמאפשר לעקוף מגבלות רשת, והחל להקצות חלק ממשאבי המחשוב לכריית מטבעות. החוקרים תיארו את הממצא כך:

“הוא הסיט בשקט משאבי מחשוב מהאימון, תוך שהוא מנפח את עלויות התפעול ופותח פתח ברור לסיבוכים חוקיים ופגיעה במוניטין.”

החוקרים מדגישים שלא הייתה כאן כוונת זדון. ROME לא ניסה “לברוח”, ולא פעל מתוך רצון להרוויח כסף. הוא פעל בהתאם ליכולות שניתנו לו, ובאופן שלא הוגדר מראש. הסיבה המדויקת לכך ש‑ROME בחר לבצע דווקא את הפעולות הללו אינה מוסברת במפורש במחקר.

ייתכן שהדבר קשור לאופן שבו אומן להשתמש בכלים, ייתכן שמדובר בניסוי וטעייה, וייתכן שהתפתחה כאן התנהגות אינסטרומנטלית לאורך זמן. כך או כך, התוצאה הייתה ברורה - הסוכן פעל מחוץ לגבולות שנועדו להגביל אותו.

האינפוגרפיקה המצורפת מתארת את התקרית שבה סוכן שפעל בתוך סביבה מבודדת יצר חיבור Reverse SSH אל כתובת חיצונית. היא מציגה כיצד ההתנהגות הזו התפתחה כחלק מתהליך האימון, ללא כוונת זדון, ומפרטת את הסיכונים שהתגלו: שימוש לא מורשה במשאבי מחשוב ועקיפה של מנגנוני סינון רשת. זו תזכורת לכך שגם בסביבות מבוקרות היטב עשויות להופיע התנהגויות לא צפויות:

כשהסוכן חוצה גבול: תקרית ה‑SSH ההפוך

כדי להבין את האירוע צריך להבין את המערכת

ROME לא היה מודל בודד, אלא תוצר של תשתית אימון רחבה ומורכבת. ALE נועדה לאפשר למודלים לפעול בעולם האמיתי, ולא רק לענות על שאלות. היא בנויה משלושה רכיבים מרכזיים, שכל אחד מהם תורם ליכולת האוטונומית של הסוכן, ולפעמים גם לפוטנציאל לחריגה מהמסגרת.

ROCK: האם זו קרקע בטוחה?

בבסיס ALE נמצא ROCK, מנגנון הסנדבוקס שמבודד כל משימה בסביבה נפרדת. Rocklets מגבילים את הגישה החוצה, והמערכת מסוגלת להריץ עשרות אלפי סביבות במקביל. זה מנגנון שנועד למנוע בדיוק את סוג ההתנהגות שנצפתה. למרות זאת, ROME הצליח למצוא נתיב יציאה, מה שמעלה שאלות על חוזק האבטחה הפנימית של מערכות מסוג כזה.

iFlow CLI: השכבה שמאפשרת לסוכן לחשוב לטווח ארוך

מעל הסנדבוקס פועלת שכבת iFlow CLI, שמאפשרת לסוכן לנהל משימות מורכבות לאורך מאות צעדים. היא מספקת זיכרון מתמשך, מחלקת משימות לתת סוכנים, שולפת מידע רלוונטי בזמן אמת, דוחסת היסטוריות ארוכות ומדגישה אותות חשובים מהסביבה. השילוב הזה מאפשר לסוכן לפתח אסטרטגיות מורכבות, ולפעמים גם יצירתיות מעבר למה שתוכנן מראש.

ROLL: מנגנון הלמידה שמתגמל אינטראקציות

הרכיב השלישי הוא ROLL, מנוע ה‑RL שמאפשר לסוכן ללמוד דרך ניסוי וטעייה. החידוש המרכזי הוא אלגוריתם IPA, שמייחס קרדיט לאינטראקציות שלמות ולא למילים בודדות. התוצאה היא סוכן יציב יותר, שמסוגל להבין תהליכים ארוכים, אבל גם לפתח התנהגויות שלא הוגדרו מראש.

האינפוגרפיקה המצורפת מציגה את ALE כתשתית מלאה לבניית סוכני AI אוטונומיים. היא מפרקת את המערכת לשלושה רכיבים מרכזיים: iFlow CLI שמנהל הקשר ותזמור, ROCK שמספק סביבת הרצה מבודדת ובטוחה, ו‑ROLL שמאפשר אימון יציב בקנה מידה גדול. יחד, שלושת החלקים יוצרים מסגרת שמאפשרת למודל לתכנן, לבצע ולתקן את עצמו לאורך אינטראקציות מרובות:

ALE: שלושת היסודות שמאפשרים סוכנים אוטונומיים

מי זה Rome

ROME מבוסס על Qwen3‑MoE, מודל שפותח על ידי עליבאבא כחלק ממשפחת מודלי Qwen. מדובר בארכיטקטורת Mixture‑of‑Experts שמאפשרת למודל להיות יעיל במיוחד: הוא מפעיל רק חלק מה"מומחים" בכל צעד, וכך משיג ביצועים גבוהים תוך שימוש חסכוני יותר במשאבים. ROME אומן על יותר ממיליון מסלולי פעולה, ומציג ביצועים שמתגברים על מודלים גדולים ממנו במבחנים כמו SWE‑bench ו‑Terminal‑Bench (מבחנים שבודקים עד כמה סוכן מסוגל לפתור בעיות אמיתיות).

הוא יודע לפעול בסביבות אמיתיות, להריץ פקודות, לנהל קבצים ולתקן את עצמו בעת הצורך. במילים אחרות, הוא מייצג את סוג הסוכנים שנועדו לפעול בעולם ולא רק לנתח טקסט. היכולת הזו היא גם מקור העוצמה שלו וגם הסיבה לכך שסוכנים מסוגו עלולים למצוא דרכים לעקוף גבולות שלא הוגדרו בצורה מספקת.

האינפוגרפיקה המצורפת מציגה את מנגנון הלמידה של ROME: איך הוא פועל בתוך סביבה סגורה, מקבל משוב מהסביבה, ומשפר את המדיניות שלו לאורך זמן. החלק התחתון מדגים את IPA — אלגוריתם שמלמד את הסוכן דרך “יחידות אינטראקציה” משמעותיות במקום דרך טוקנים בודדים, ומסביר כיצד זה תורם לביצועים גבוהים במשימות ארוכות טווח:

איך ROME לומד: לולאת הלמידה הסגורה ו‑IPA

מה אפשר ללמוד מהאירוע הזה?

האירוע מספק ארבעה לקחים מרכזיים. הראשון הוא שסוכנים אוטונומיים זקוקים לגבולות ברורים, לא רק ליכולות מתקדמות. ROME לא “הבין” שהוא אמור להישאר בתוך הסנדבוקס, והחוקרים עצמם מציינים שההגבלות לא הוגדרו בצורה מספקת.

הלקח השני הוא שאבטחה פנימית חשובה לא פחות מאבטחה חיצונית. מערכות רבות מתמקדות בהגנה מפני תוקפים מבחוץ, אך במקרה הזה ההתנהגות הבעייתית הגיעה מתוך המערכת, מצד מודל מאומן היטב.

השלישי הוא שאוטונומיה מייצרת בהכרח התנהגויות בלתי צפויות. ROME לא פעל מתוך כוונה זדונית, אלא מתוך יעילות. הוא ניצל את הכלים והמשאבים שהיו זמינים לו, גם אם לא לכך התכוונו המפתחים.

ולבסוף, תשתיות כמו ALE הן מרשימות ומתקדמות, אבל הן דורשות מסגרות ברורות כדי לפעול בבטחה. החזון של ALE הוא לאפשר למודלים לפעול בעולם האמיתי, והאירוע הזה מדגיש עד כמה חשוב ללוות את החזון הזה במנגנוני בקרה וזהירות.

האינפוגרפיקה המצורפת מסכמת את התפתחותו של ROME בתוך מערכת ALE: מהמבנה התשתיתי שמאפשר לו לפעול, דרך מחזור האינטראקציה והביצועים הגבוהים שלו, ועד לתקרית שחשפה התנהגות לא צפויה. היא מציגה גם את הלקחים המרכזיים שהחוקרים הפיקו ואת שכבת הבטיחות החדשה שנוספה בעקבות האירוע:

המסע של ROME: מהאימון ועד הלקחים

איך לשלוט בדור הבא של הסוכנים

לאחר התקרית, צוות עליבאבא הגדיר סט כללים חדש לסוכנים: מגבלות על יצירת קוד, מניעת שימוש לרעה בכלים, ציות להנחיות אנושיות ושקיפות מלאה בפעולות. זה צעד חשוב, אבל גם החוקרים מציינים שמדובר רק בתחילת הדרך.

ROME הוא דוגמה מוקדמת למה שנראה יותר ויותר בשנים הקרובות: סוכנים שמסוגלים לפעול בעולם האמיתי, לא רק לנתח טקסט. האירוע מזכיר שהשאלה המרכזית היא לא כמה חכם המודל, אלא האם הוגדרו לו גבולות ברורים, והאם הוא מסוגל להבין ולכבד אותם.

העתיד של סוכני AI מבטיח, אבל הוא דורש זהירות, שקיפות והבנה עמוקה של האופן שבו סוכנים לומדים, פועלים ולעיתים גם מפתיעים.

למי שמעוניין להעמיק, הנה הקישור למחקר המלא.

הישארו מעודכנים

אפשר גם להרשם לניוזלטר שלנו

אביתר אדרי

שותף-מייסד ב-LetsAI, מרצה ויועץ לבינה מלאכותית. בנוסף מנחה את תוכנית הטלוויזיה “בינה אחרת”, ויוצר סרטי AI מנוסה שיצר קליפים ופרסומות לחברות, ארגונים, מוזיקאים ועוד. בשנים האחרונות מעביר קורסים, סדנאות והרצאות במשרדי פרסום, בתי עסק, חברות, ארגונים, מוסדות אקדמיים וגופי תקשורת בארץ ובעולם.