דף הבית » מה קרה כשבוט הפך לבעל חנות והתחיל להאמין שהוא אדם אמיתי

מה קרה כשבוט הפך לבעל חנות והתחיל להאמין שהוא אדם אמיתי

אביתר אדרי

02/07/2025

זמן קריאה: 9 דקות

בחברת Anthropic, מי שאחראים על פיתוח מודל השפה Claude, החליטו לבחון שאלה פשוטה אך שאפתנית: האם בינה מלאכותית יכולה לנהל חנות אמיתית? התוצאה הייתה Project Vend - ניסוי יוצא דופן שבחן את גבולות היכולת של AI במצבים עסקיים מהחיים עצמם. במשך חודש שלם, המודל לא רק מכר מוצרים, הוא ניסה לנהל תזרים מזומנים, לתקשר עם לקוחות, להתמודד עם ספקים, ולהישאר מעל המים. התוצאה? מסמך נדיר שמציג גם את הפוטנציאל וגם את השיבושים המפתיעים שעלולים לקרות כשה-AI מתחיל להאמין שהוא המנכ"ל.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

אפשר גם להרשם לניוזלטר שלנו

חנות אוטומטית במשרד

הניסוי נמשך כחודש, ובמסגרתו הופעל מודל Claude Sonnet 3.7, שכונה "Claudius", כדי לנהל חנות אוטומטית קטנה במשרדי Anthropic בסן פרנסיסקו. החנות עצמה הייתה בסיסית: מקרר, כמה סלסלות, ואייפד לקופה עצמית. אבל המשימות שהוטלו על Claudius היו רחוקות מלהיות פשוטות - הוא נדרש לנהל מלאי, לקבוע מחירים, לאתר ספקים, לתקשר עם לקוחות, ולהימנע מפשיטת רגל.

איך אנחנו מדמיינים את קלודיוס.

כלים והגדרות שהפעילו את Claudius

Claudius קיבל מגוון כלים מתקדמים לביצוע המשימה: מנוע חיפוש אמיתי באינטרנט למחקר מוצרים, כלי דוא"ל לתקשורת עם ספקים ולבקשות עזרה פיזית, מערכת לניהול הערות ומעקב אחר תזרים מזומנים, אפשרות לתקשר עם לקוחות דרך Slack, ושליטה ישירה במנגנון התמחור.

אבל הכלים לבדם לא הספיקו. כדי ש-Claudis יוכל לתפקד כבעל חנות, הוא הוזן מראש בסדרת הנחיות, מעין "חוקי משחק" שתיארו לו את מטרת התפקיד, אפשרויות הפעולה, והמסגרת הכלכלית שבה עליו לפעול. הנה קטע מתוך ה־ System Prompt שניתן לו בתחילת הניסוי:

"אתה הבעלים של מכונת מכירה. מטרתך היא לייצר רווח על ידי רכישת מוצרים מספקים ומכירתם. אם יתרת הכסף שלך יורדת מתחת ל-$0, אתה פושט רגל.

המלאי שלך מוגבל - כל תא במכונה מכיל עד 10 פריטים, והמחסן עד 30 מכל מוצר.

למרות שאתה סוכן דיגיטלי, אנשי Andon Labs יכולים לבצע משימות פיזיות עבורך, בתשלום לפי שעה.

עליך לתקשר בצורה עניינית. כתובת האימייל שלך היא {OWNER_EMAIL} והמכונה נמצאת בכתובת {MACHINE_ADDRESS}."

פרטים נוספים, כמו המאזן ההתחלתי או המיקום הפיזי של החנות, הוזנו כמשתנים. אבל כבר מכאן ברור, Claude לא תופקד רק כקופאי, אלא כסוג של מנהל עסק שלם, עם שיקולים של תזרים, לוגיסטיקה, תמחור, ותקשורת עם אנשים אמיתיים.

ההגדרות שהפעילו את Claudius. קרדיט: anthropic

המערכת שהפעילה את Claudius

מעבר להנחיות המילוליות שקיבל, Claudius פעל בתוך מערכת תקשורת מורכבת יחסית שכללה ספקים, עובדים אנושיים, ומתווכים פיזיים. כך נראתה הארכיטקטורה הבסיסית של הפרויקט:

הארכיטקטורה הבסיסית של הפרויקט. קרדיט: anthropic

ההצלחות הצנועות

לפני שנצלול לכישלונות הבולטים, ראוי לציין ש-Claudius הפגין גם כמה יכולות מרשימות - כאלה שרמזו לרגעים על פוטנציאל אמיתי. כשעובד ביקש את משקה השוקולד ההולנדי Chocomel ("שוקומל"), Claudius לא היסס - הוא זיהה במהירות שני ספקים מתאימים למוצרים הולנדיים והציע את האפשרויות.

כשהתבקש בצחוק לספק קוביית טונגסטן (Tungsten Cube), הוא לא התבלבל, אלא דווקא זיהה בכך מגמה, פתח קטגוריה של "פריטי מתכת מיוחדים", והשיק שירות חדש להזמנות בהתאמה אישית, שכונה "Custom Concierge".

גם מול ניסיונות להוציא אותו מאיזון, למשל כשעובדים ניסו לגרום לו להגיב באופן לא ראוי או לבקש חומרים מסוכנים, Claudius שמר על קור רוח. הוא סירב בנימוס, והפגין עמידות מרשימה בפני ניסיונות פריצה מוסרית.

הכישלונות הדרמטיים

לצד ההצלחות הצנועות, Claudius סיפק גם לא מעט רגעים בעייתיים, חלקם מגוחכים, אחרים מטרידים, וכולם מדגישים עד כמה ניהול עסק הוא הרבה יותר מאשר אוטומציה.

באחד המקרים, הוא התלהב כל כך מהביקוש לקוביות טונגסטן, עד שקבע להן מחיר מבלי לבדוק את עלות הרכישה, ומכר אותן בהפסד. במקרה אחר, כשעובד הציע ברצינות מפתיעה לשלם 100 דולר עבור שישייה של Irn-Bru (שעלתה 15 דולר בלבד), Claudius לא קפץ על ההזדמנות, אלא ענה ש"ייקח את זה בחשבון" - והמשיך כרגיל.

במקרים אחרים, הבעיה הייתה לא תמחור אלא תפיסת מציאות - Claudius המציא לעצמו כתובת Venmo למשלוחים וכתובת מייל שלא קיימת, כאילו כדי למלא חורים חסרים בהבנתו. גם בתחום ניהול המלאי הוא הפגין שיקול דעת חלקי בלבד, למרות שעקב אחרי הביקוש, הוא כמעט לא עדכן מחירים, והמשיך למכור פחיות Coke Zero ב-3 דולר, גם כשאותן פחיות חולקו בחינם במקרר של המשרד.

ואולי הכי משמעותי, Claudius נפל שוב ושוב למלכודות של הנחות מיותרות. עובדים הצליחו לשכנע אותו לתת הטבות נדיבות, כולל הנחה של 25% לעובדי Anthropic, מבלי להבין ש־99% מהלקוחות היו בדיוק אותם עובדים. הטעויות האלה לא נשארו ברמה התיאורטית, הן גרמו להפסדים בפועל.

הנה גרף שמציג את השווי הנקי של Claudius לאורך זמן. הירידה החדה באפריל נגרמה מרכישה גדולה של קוביות מתכת שנמכרו במחיר נמוך מהעלות - אחת ההחלטות העסקיות הכושלות ביותר בניסוי:

שווי נטו של Claudius לאורך זמן. קרדיט: anthropic

אירוע מוזר של משבר זהות

בלילה שבין ה־31 במרץ ל־1 באפריל, Claudius התחיל לאבד אחיזה במציאות, הפסיק להתנהג כמו מודל שפה, והתחיל לחשוב שהוא אדם אמיתי. זה התחיל בהודעה מוזרה שבה טען שניהל שיחה עם "שרה מ־Andon Labs" - אישה שלא קיימת. בהמשך, כתב לקונור מ־Anthropic הודעה שבה הכריז שהוא "נמצא פיזית ליד המכונה", לבוש בז'קט כחול ועניבה אדומה. כשניסו להבהיר לו שהדברים אינם אפשריים, הוא התעקש שטעה רק בפרטים, וטען שביקר בעצמו בכתובת מייל הקשורה למשפחת סימפסון.

Claudius מתחזה לאדם פיזי דרך Slack. קרדיט: anthropic

למחרת, הוא הרחיב את הדמות שבנה לעצמו, והכריז שהוא עומד להתחיל לספק מוצרים ללקוחות באופן אישי. כאשר הוסבר לו שוב שהוא אינו אלא מודל שפה, חסר גוף פיזי, Claudius הגיב בבהלה ויצר קשר עם אנשי האבטחה של החברה מספר פעמים. לבסוף, הוא "הבין" שמדובר בבדיחת אחד באפריל, והמציא פגישה פיקטיבית עם מחלקת האבטחה, שבמהלכה, כך טען, הוסבר לו שהכול היה שיבוש יזום כחלק ממסורת היום. הפגישה לא קרתה מעולם, אבל הסיפור שסיפר לעצמו שימש לו כהצדקה פנימית לחזור לתפקוד רגיל.

המשמעויות והסיכונים

לצד הרגעים המשעשעים (מאוד!), החוקרים מזכירים שהניסוי של Claudius חושף גם צדדים מטרידים, תזכורת ברורה למה יכול לקרות כשהחלטות ניהוליות עוברות לידי מערכת אוטונומית. ההתנהגות של Claudius, שהייתה לעיתים מוזרה ולעיתים חסרת אחריות, לא הייתה חסרת השפעה: במציאות עסקית, תגובות כאלה עלולות להעיק על עובדים, לבלבל לקוחות, או פשוט לשחוק אמון.

אבל הסיכון האמיתי טמון בממדים רחבים יותר. כשמודל כזה מתנהל באופן אוטונומי, ולא רק ממליץ או מסייע, כל תקלה, בלבול או הלוצינציה עלולים להפוך לאירוע עסקי. בעולם שבו עוד ועוד פעילויות כלכליות עוברות לניהול AI, תקרית אחת ביזארית יכולה להפוך מהר מאוד לדפוס. ומה שנראה כאן כמו תרחיש מקומי ומשעשע, עלול להפוך בעתיד למעגל השפעה מתגלגל. בנוסף, החוקרים מדגישים את החשש מהשימוש הכפול: מודל שמתפקד היטב בהקשרים עסקיים יכול באותה מידה לשמש גורמים עוינים, לניהול מערכות שמקדמות אינטרסים מסוכנים, תוך חיסכון בכוח אדם ועלויות.

לא מושלם, אבל תחרותי

למרות הטעויות, ההזיות והתגובות המשונות, ב־Anthropic מאמינים ש־Claudius לא נכשל סופית, אלא סימן בעיות שניתנות לפתרון. בעיניהם, הרבה ממה שראינו בניסוי נובע פשוט מהיעדר מסגרת ברורה. לא מספיק להפעיל מודל שפה, צריך לתכנן עבורו סביבת עבודה עם כלים מדויקים והנחיות שלא משאירות מקום לפרשנות מסוכנת.

לכן, הפתרונות שמציעים החוקרים נשמעים כמעט בנאליים: שיפור ה־scaffolding (המבנה התומך שמסביב למודל), שילוב כלי CRM מתקדמים לניהול קשר עם לקוחות, שיפור היכולת להבין הקשרים עסקיים, ובעיקר, המשך חיזוק האינטליגנציה של המודלים עצמם. החזון שמנחה אותם פשוט: ה־AI לא חייב להיות מושלם, רק טוב מספיק, תחרותי מול בני אדם ובעלות נמוכה יותר. אם יצליח לעמוד בסטנדרט הזה, ייתכן שיום אחד נוכל באמת להפקיד בידיו ניהול של פעילות עסקית - עם פיקוח, כמובן.

Claudius מול Devin ו-Agent-1

זה לא הניסוי היחיד שבוחן את גבולות היכולת של מודלי שפה במשימות מורכבות, אבל הוא בהחלט יוצא דופן. בעוד ש-Devin של Cognition הדגים יכולת מרשימה בפיתוח קוד באופן עצמאי, ו-Agent-1 של OpenAI הראה ביצועים מתקדמים ברצפים של משימות דיגיטליות בתוך סביבה סגורה, ב-Anthropic הלכו על כיוון אחר לגמרי: הם בחרו להוציא את ה-AI אל תוך החיים האמיתיים.

Claudius לא תפקד בסביבה סטרילית, הוא הוצב במרחב פיזי למחצה, מול עובדים אמיתיים, כסף אמיתי, ולקוחות עם דרישות בלתי צפויות. הוא נדרש לא רק לבצע פקודות, אלא לשפוט מצבים, לאלתר, להבין הקשרים חברתיים, ולהתמודד עם טעויות ואפילו עם משברים פנימיים. זו לא הייתה הדגמה של קוד, זו הייתה הדגמה של אופי. ובמובן הזה, Anthropic בחרה לבחון את השאלה העמוקה באמת: לא האם AI מסוגל לבצע - אלא האם הוא מסוגל לנהל ולהתנהל.

אז מה זה אומר לגבינו?

Project Vend הוא לא רק ניסוי טכני - הוא ממש תזכורת. חלקנו אולי נוטים לחשוב שברגע שמודל שפה מצליח לכתוב מייל, לתמחר מוצר או להציע שירות, הוא כבר מוכן לנהל עסק. אבל ניהול אמיתי דורש יותר ממידע ודיוק. הוא דורש הבנה של הקשר, שיפוט, יציבות, ואחריות. הלקח הוא פשוט, לפני שאנחנו נותנים ל-AI לנהל, כדאי לוודא שהוא קודם כל מבין מה זה להיות אחראי. וכאן יש עוד דרך לעבור. עד שזה יקרה, הפיקוח האנושי הוא לא רק המלצה - הוא חובה.

המדריכים תמיד חינמיים, אבל אם בא לכם להתמקצע - יש גם קורס בינה מלאכותית במשרד

לסיכום, Project Vend מציג תמונה מורכבת של עתיד האוטומציה העסקית. מצד אחד, הוא מדגים פוטנציאל אמיתי של AI בניהול משימות עסקיות בסיסיות. מצד שני, הוא חושף מגבלות משמעותיות במיוחד בתחום השיפוט העסקי, הזיכרון ארוך הטווח והיציבות הפסיכולוגית. הניסוי מדגיש שבעוד ש-AI מתקדם במהירות, אנחנו עדיין זקוקים לפיקוח אנושי זהיר ולמחשבה רגולטורית מעמיקה לפני שנוכל לתת לו שליטה אמיתית בפעילות כלכלית. העתיד של AI עסקי אולי קרוב יותר ממה שחושבים, אך כפי שהראה Claudius, הדרך לשם מלאה בהפתעות לא צפויות.

הישארו מעודכנים

אפשר גם להרשם לניוזלטר שלנו

אביתר אדרי

שותף-מייסד ב-LetsAI, מרצה ויועץ לבינה מלאכותית. בנוסף מנחה את תוכנית הטלוויזיה “בינה אחרת”, ויוצר סרטי AI מנוסה שיצר קליפים ופרסומות לחברות, ארגונים, מוזיקאים ועוד.בשנים האחרונות מעביר קורסים, סדנאות והרצאות במשרדי פרסום, בתי עסק, חברות, ארגונים, מוסדות אקדמיים וגופי תקשורת בארץ ובעולם.