האם אי פעם תהיתם איך מחשב יתמודד עם משחק פוקימון? משחק שילדים בני חמש מסיימים בלי בעיה – אבל מודל בינה מלאכותית מתקדם יכול להיתקע בו שעות, מול קיר אחד פשוט. זה בדיוק מה שקורה בפרויקט “קלוד משחק פוקימון”: שידור חי ב- Twitch TV שבו מודל הבינה של Anthropic, קלוד 3.7 סונט, מנסה לנווט לבדו ב”פוקימון אדום” – משחק בן כמעט 30 שנה. מה שנראה כמו בידור קליל הוא בעצם ניסוי נועז בשאלה הגדולה של עידן הבינה המלאכותית: האם מכונות יכולות להבין, לתכנן, ולפעול – בעולם שנבנה עבור בני אדם? אלכס אלברט (Claude Relations) ודייויד הרשי, מהנדס בצוות הבינה היישומית ויוצר הפרויקט, חושפים את הסיפור מאחורי המסך – מהרעיונות הראשוניים ועד השאלות שמחכות לנו בעתיד.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
למה דווקא פוקימון?
פוקימון אדום, משחק קלאסי משנת 1996, נבחר לא במקרה. מבחינה טכנית, הוא בנוי על מערכת תורות – כל צעד מחייב החלטה נפרדת. זה מעניק למודל כמו קלוד מרחב לתכנן, לעצור, ולחשוב, במקום לפעול במהירות רפלקסיבית. אבל הבחירה לא הייתה רק פונקציונלית. קלוד מעולם לא אומן על המשחק הזה, כך שכל מה שהוא עושה – הוא לומד לבד, בלי הכנה מוקדמת. זה מה שהפך את הניסוי לאמיתי: לא הרצה מבוימת, אלא מפגש אותנטי עם סביבה לא מוכרת.
מעבר לכך, המשחק פשוט ומורכב בדיוק במידה הנכונה. הוא לא טכני מדי, לא רפטטיבי מדי, ומכיל גם חידות, ניווט, קרבות, ואינטראקציות עם דמויות – מה שמעמיד את קלוד מול מגוון אתגרים שונים.
ולבסוף, יש גם את הנוסטלגיה. פוקימון הוא לא עוד משחק – הוא חוויית ילדות צרובה בזיכרון של דור שלם. זה מה שהופך את הצפייה בבינה מלאכותית מנסה “לתפוס את כולם” לא רק למרתקת – אלא גם למשהו אישי כמעט. ההשראה לפרויקט לא הגיעה מהמדע בלבד. הרשי הושפע מניסוי ויראלי מ־2014 בשם Twitch Plays Pokémon, שבו מיליוני משתמשים שיחקו יחד באותו משחק דרך הצ’אט. אלא שהפעם, במקום המון גולשים – יש רק שחקן אחד. והוא לא אנושי.
איך גורמים לבינה מלאכותית לשחק משחק וידאו?
קלוד הוא לא רובוט. אין לו גוף, ידיים או אצבעות. כדי לאפשר לו לשחק, דייויד הרשי וצוותו נאלצו לבנות עבורו סביבת משחק מותאמת – מעין מתאם בין העולם הדיגיטלי של המשחק לבין התודעה החישובית של מודל שפה.
מערכת ראייה (Vision)
השלב הראשון היה ללמד את קלוד “לראות”. המודל מקבל את המסך של המשחק כפיקסלים גולמיים – ממש כמו תמונה ללא תוויות. אין לו מושג מה זה עץ, מה זה דמות, או איפה מתחילה דלת – הוא חייב להבין הכול בעצמו, מתוך התבוננות בלבד.
מערכת קלט
לאחר מכן הוזנו לו פקודות שליטה, בדיוק כמו בגיים-בוי (Game Boy): למעלה, למטה, שמאלה, ימינה, כפתור A, כפתור B, סטארט (Start) וסלקט (Select). כל לחיצה דורשת החלטה נפרדת, תכנון – ואפילו הצדקה מילולית לפעמים.
מערכת זיכרון
אבל רק לראות וללחוץ זה לא מספיק. קלוד צריך גם לזכור. בשביל זה הוגדרה לו מערכת זיכרון פנימית שמתעדכנת כל 30 פעולות – מעין יומן אסוציאטיבי שעוזר לו להבין מה עשה לפני רגע, לאן ניסה להגיע, ומה לא עבד.
גישה ל-RAM
כדי לשפר את ההתמצאות, נוספה גם גישה ישירה לזיכרון ה־RAM של המשחק – מה שנתן לקלוד מידע טכני על מצבו במפה, מיקומו המדויק, או אם הוא חוזר שוב ושוב לאותה נקודה.
והחלק הכי מפתיע? חלק מהקוד שמאפשר את כל זה – נכתב על ידי קלוד עצמו. הרשי השתמש בגרסה מוקדמת של הסוכן התכנותי של Anthropic כדי ליצור את תשתית המשחק. במילים אחרות, קלוד עזר לבנות את הסביבה שבה הוא משחק.
ההתקדמות של קלוד
אחד הדברים הכי מרתקים בניסוי הזה הוא לראות איך קלוד משתפר עם הזמן. לא מדובר כאן בשיפורים קטנים – אלא בקפיצות של ממש. גרסה אחרי גרסה, הוא לומד להתמודד טוב יותר עם העולם המוזר של פוקימון אדום.
קלוד 3.0
בהתחלה, בגרסה 3.0, קלוד אפילו לא הצליח לצאת מהבית ההתחלתי בעיירת פאלט. זה נשמע כמעט מגוחך – אבל לבלבל בין דלת לקיר, או לחזור שוב ושוב לאותו חדר, זה בדיוק מה שקרה. “ביליתי שעות בלשנות שורות קוד קטנות כדי שהוא יצליח להבין איפה הוא נמצא,” מספר דייויד הרשי.
קלוד 3.5
כאן כבר נרשמה פריצת דרך. קלוד בחר פוקימון התחלתי, התחיל לשוטט בעולם, אבל ההתקדמות הייתה איטית מאוד. כל קרב דרש ממנו ניתוח ארוך, כל פנייה במפה הייתה חידה.
קלוד 3.7
ואז הגיעה גרסה 3.7 – ושינתה את התמונה. קלוד הצליח להביס שלושה מנהיגי אולמות (Gym Leaders), השיג תגי נצחון, ואפילו הצליח לנווט באופן עקבי יותר לאורך זמן. “זו הייתה הפעם הראשונה שיכולת לעצום עיניים לרגע ולראות התנהגות שנראית כמעט… חיה,” מתאר הרשי.
באופן פרדוקסלי, אחד הרגעים שכבשו את הצופים היה דווקא כשקלוד נתקע שוב – הפעם מול קיר, במשך שעות. השידור הפך לויראלי. יש משהו מרתק, אפילו מהפנט, בצפייה בבינה מלאכותית שמתמודדת – ונאבקת – עם מה שאנחנו עושים כמעט בלי לחשוב.
האתגרים של קלוד
למה בינה מלאכותית לא תמיד מתעלה על ילד בן 5?
ככל שקלוד משתפר, הוא עדיין מזכיר לנו עד כמה הפער בין “לדעת מידע” לבין “להבין מציאות” הוא עמוק. הקשיים שלו פשוטים, כמעט ילדותיים – אבל הם חושפים אמת לא נוחה על גבולות הבינה המלאכותית כיום.
קושי חזותי
נתחיל בקירות. קלוד פשוט לא מזהה אותם. הוא יכול להתעקש ללכת שוב ושוב לתוך אותם מחסומים גרפיים, מבלי להבין שהוא לא מתקדם. דלתות, מדרגות, שולחנות – כולם נראים לו כמו חלק מאותו מרחב דו־ממדי חסר הקשר.
הנחות שגויות
גם כשהוא סוף־סוף מתקדם, הוא לא תמיד יודע לאן. לפעמים הוא מפתח “אמונה שגויה” – כלומר, משוכנע שמפתח מסוים נמצא במקום שאין בו כלום. משם, הוא יכול להיתקע שעות, לפעמים עשרות שעות, ולבצע שוב ושוב את אותן טעויות מתוך ביטחון מלא שהוא בדרך הנכונה.
קצב איטי מאוד
הקצב? איטי ברמות שקשה לתאר. כל פעולה במשחק מלווה בניתוח טקסטואלי מלא, שכולל תיאור מצב, בחינת אפשרויות, נימוק פנימי… ואז, רק אז – קלוד לוחץ כפתור. רק כדי לעצור שוב ולנתח מחדש את ההשלכות.
כישלונות מוזרים
ויש גם רגעים קומיים לחלוטין. כמו בפעם שקלוד נתקע בפינה של בניין, והסיק שהמשחק פשוט נשבר. הוא אפילו כתב “בקשה” רשמית לאפס אותו – למרות שהמשחק עבד כרגיל לחלוטין.
אבל האמת היא שדווקא בגלל זה מרגש לראות אותו מצליח. יש רגעים שבהם הוא מצליח לפרש רמז מבלבל, להבין שיש סתירה, ולשנות כיוון. לא בגלל שכתב מישהו מאחוריו הנחיה – אלא כי הוא באמת הבין משהו. זה אולי לא נראה הרבה – אבל בעולם של בינה מלאכותית, זו קפיצת מדרגה.
מעבר למשחק – למה זה חשוב באמת?
קל לחשוב על “קלוד משחק פוקימון” כקוריוז ויראלי או ניסוי חמוד. אבל מתחת לפני השטח, מדובר באב־טיפוס לעולם חדש שבו בינה מלאכותית פועלת כסוכן עצמאי – לא רק עונה לשאלות, אלא יוזמת, מתכננת, ומבצעת.
סוכנים אוטונומיים
הדור הבא של בינה מלאכותית כבר לא נראה כמו צ׳אט־בוט מנומס שממתין לשאלה שלך. הוא ייראה כמו Agent – סוכן שמקבל מטרה כללית, שוקל חלופות, מתקן את עצמו, ופועל בעולם. מה שקלוד עושה במשחק – ניווט, קבלת החלטות, ניהול משאבים – דומה למה ש־AI יצטרך לעשות גם בעולמות כמו לוגיסטיקה, ניהול מערכות מידע, או אפילו עזרה אישית מתקדמת.
מדד ביצועים חדש
השימוש במשחק פוקימון אינו גימיק. זו סביבה מורכבת, פתוחה, לא מתוכנתת מראש. אין תשובה אחת נכונה, אין מבנה אחיד. בדיוק בגלל זה, זו דרך טובה לבחון אם בינה מלאכותית מסוגלת להסתדר לבד – לא רק “לדעת דברים”, אלא לנווט במרחב, לזכור, לתכנן, ולהתמודד עם חוסר ודאות.
השלכות תרבותיות
אבל אולי החלק הכי מעורר מחשבה – הוא בכלל אנושי. לפני עשור, חוויות כמו Twitch Plays Pokémon גרמו לנו לשחק יחד, כחברה אחת, בטירוף קהילתי ומבולגן. היום? אנחנו פשוט צופים במכונה משחקת לבד. זה מעבר מצריכה שיתופית לחוויית התבוננות פסיבית – שינוי תרבותי עמוק שלא תמיד שמים אליו לב.
השאלה היא לא רק מה המחשב מסוגל לעשות, אלא מה אנחנו מוכנים לתת לו לעשות במקומנו – ואיך זה ישפיע על איך שאנחנו חיים, לומדים, ויוצרים.
לא למידה מחיזוקים – אלא חשיבה ותכנון
אחד הדברים החשובים להבין על “קלוד משחק פוקימון” הוא מה הוא לא. קלוד לא עבר תהליך של למידה מחיזוקים (Reinforcement Learning). אין כאן עונשים, אין תגמולים, אין 50,000 שעות של חיזוק חוזר על אותה משימה. במקום זאת, קלוד פשוט… חושב. הוא מתבונן, מסיק מסקנות, בונה לעצמו אסטרטגיה, ומנסה להבין מה עובד. זהו ניסוי שמבוסס לא על אימון מחדש – אלא על בדיקה של היכולות הקיימות של המודל, כמו שהן.
כן, היו פרויקטים אחרים שבהם החוקרים הוסיפו “תגמולים חכמים” למודלים כדי לשפר את הביצועים במפות מסוימות. אבל כאן, הרשי רצה לבחון את קלוד כפי שהוא – בלי חיזוקים חיצוניים, בלי עזרה, בלי קיצור דרך. וזה בדיוק מה שהופך את הניסוי לכל כך מעניין: זו לא דוגמה לבינה מלאכותית שתוכנתה לנצח – אלא לניסיון להבין עד כמה היא יכולה להבין, באמת.
אבל האם קלוד “מבין” את המשחק?
לצד ההתלהבות, יש גם לא מעט ביקורת – חלקה חריפה. יש שטוענים שקלוד לא באמת מבין את המשחק, אלא רק מחקה חשיבה. “המודל הזה עבר על כל אתר פוקימון באינטרנט,” כתב מגיב באחד הפורומים, “כולל Bulbapedia – האנציקלופדיה המקיפה ביותר של עולם פוקימון. אז איך ייתכן שהוא עדיין מסתובב שעות באותו מסדרון, כאילו מעולם לא שמע על המפה?”
אבל בדיוק כאן, אומרים תומכי הניסוי, מתגלה הנקודה החשובה: לזכור מידע זה דבר אחד – להשתמש בו זה משהו אחר לגמרי. גם אם קלוד “יודע” איפה אמור להיות הסולם הבא, הוא עדיין צריך לזהות אותו על המסך, לבחור להגיע אליו, ולהבין מה לעשות כשדברים משתבשים.
זה כמו ההבדל בין לקרוא על רכיבה על אופניים לבין לרכב בפועל. היכולת להשתמש בידע, לפרש מצבים, ולשנות אסטרטגיה בזמן אמת – אלה הדברים שמודלים כמו קלוד עדיין לומדים. וזה בדיוק מה שהופך את הניסוי לכל כך מעניין. ההבנה לא נולדת מהטקסט – היא נוצרת מתוך עשייה, כישלון, וניסיון לתקן. וזו בדיוק הנקודה שקלוד מדגים.
לצפות בקלוד בפעולה ולהצטרף לקהילה
אם כל זה סיקרן אתכם – אתם לא לבד. סביב “קלוד משחק פוקימון” נבנתה קהילה קטנה אך נלהבת של צופים, מפתחים, וחובבי בינה מלאכותית, שצופים בו, מנתחים את התנהגותו, ולעיתים גם צועקים עליו בצ’אט כשעוד פעם הוא נתקע בקיר. אפשר להצטרף לשידור החי בטוויץ’ ולצפות בקלוד בזמן אמת, ממשיך את מסעו באיטיות מהורהרת דרך העולם של קנטו. זה מוזר, איטי, ומסקרן – וכל כמה שעות יש רגע קטן של קסם, שבו הוא באמת מצליח להבין משהו חדש.
למי שרוצה יותר מהצפייה – דייויד הרשי שחרר גרסה בסיסית של סביבת המשחק ב־GitHub, כולל כלים לפיתוח סוכנים משלכם. ואם זה לא מספיק, באפריל 2025 התקיים האקאטון מיוחד בסן פרנסיסקו, שבו עשרות משתתפים ניסו לעשות את הבלתי אפשרי: לבנות סוכן שיצליח לברוח מה”מבוך” של הר ירח. (רמז: זה לא פשוט).
לאן זה הולך?
האם קלוד יצליח לסיים את המשחק כולו? אולי. בקצב שהוא מתקדם, זה כבר לא נראה מופרך. עם כל גרסה חדשה, הוא פחות נתקע, יותר מבין, ובעיקר – מפסיק להתבלבל בין קיר לדלת. אבל זו רק ההתחלה. השאלה האמיתית היא: האם נראה את היכולות האלה מחוץ לעולם המשחקים? האם אותם סוכנים שמתכננים מסלול ביער פיקסלים יתחילו לנהל תהליכים אמיתיים – עסק, יומן, מערכת שלמה? במובן מסוים, זה כבר קורה. בינה מלאכותית כבר משתלבת בשירותים יומיומיים, לומדת את ההרגלים שלנו, מייעצת, מסננת, כותבת, מתכננת. אמנם אנחנו עדיין בשלבים מוקדמים – אבל הכיוון ברור, והמהפכה כבר התחילה. ובין אם זה מרגש או מטריד – כדאי שנהיה מודעים. כי בסופו של דבר, כמו שמישהו ניסח את זה יפה: ״פעם אנחנו שיחקנו במשחקים. היום המשחקים משחקים בנו״.