מערכת סינתטית חדשה של גוגל מייצרת מפות ומסלולים ומלמדת מודלים להבין מרחב בצורה הדומה ליכולת האנושית. המחקר מציג טענה ברורה – אפשר לאמן מודלים מולטימודליים לא רק לזהות מה מופיע בתמונה, אלא גם להבין את החוקים שמכתיבים איך מותר לנוע בתוכה. לשם כך פיתחו החוקרים פס ייצור אוטומטי שמייצר מפות מלאכותיות, מסמן עליהן מסלולים תקפים ומאפשר למודלים ללמוד מיומנות שבני אדם מפעילים כמעט בלי לחשוב. זה ניסיון להתמודד עם פער בסיסי – מודלים יודעים לזהות אובייקטים, אך מתקשים להבין חיבוריות, גבולות ומגבלות תנועה.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
למה מודלים מתקשים להבין מפות
בני אדם קוראים מפה כמעט בלי לחשוב. מבט קצר מספיק כדי להבחין בין שביל לקיר, להבין את מבנה המרחב ולתכנן מסלול. מודלים, לעומת זאת, רואים תמונה שטוחה. הם מסוגלים לזהות חיות בגן חיות, אבל אם מבקשים מהם למצוא מסלול מהכניסה לבית הזוחלים, הם עלולים לשרטט קו שחוצה דוכנים, גדרות או אזורים סגורים. כפי שמתאר המחקר, הם מצוינים בזיהוי מה שיש בתמונה, אך מתקשים להבין את היחסים הגאומטריים והטופולוגיים בין האובייקטים.
הסיבה לכך פשוטה. אין מספיק דאטה שמלמד אותם את דקדוק המרחב. כדי ללמד מודל את החוקים האלה נדרשות מיליוני מפות עם מסלולים מסומנים ידנית, משימה יקרה, איטית ולעיתים בלתי אפשרית, במיוחד כשמפות של קניונים, מוזיאונים ופארקים הן לרוב קניין פרטי. התוצאה היא שמודלים מתקדמים נחשפים לאינספור תמונות, אך כמעט לא מקבלים דוגמאות שמלמדות אותם מהו מסלול תקין.
MapTrace: פס ייצור סינתטי של מפות ומסלולים
כדי להתגבר על מחסור בדאטה מסומן, גוגל פיתחה את MapTrace, מערכת אוטומטית שמייצרת מפות מלאכותיות, מזהה בהן אזורי הליכה, בונה גרף ניווט ומפיקה מסלולים תקפים. הכול נעשה ללא מגע יד אדם, במבנה שמזכיר פס ייצור: כל שלב מספק את חומר הגלם לשלב הבא, ומודלים שונים משמשים בו זמנית כיצרנים וכמבקרים.
התהליך מתחיל ביצירת מפות מגוונות. מודל שפה מייצר תיאורים עשירים כמו “גן חיות עם שבילים מקושרים”, “קניון עם חצר אוכל” או “פארק פנטזיה עם אזורים נושאיים”. התיאורים מוזנים למודל טקסט לתמונה שמייצר מפות מורכבות.
לאחר מכן המערכת מקבצת צבעים במפה כדי ליצור מסכות מועמדות של אזורי הליכה. לא כל מסכה תקינה, ולכן מודל נוסף, ה‑Mask Critic, בוחן כל מסכה ומחליט אם היא מייצגת רשת שבילים אמיתית. טעויות נפוצות כוללות בלבול בין צבעי רקע לשבילים, טקסט שנבלע במסכה ושבילים דקים שנעלמים.
כאשר מתקבלת מסכה תקינה, היא מומרת לגרף פיקסלים, ייצוג שבו כל נקודה היא צומת וכל חיבור בין פיקסלים סמוכים הוא קשת. כך ניתן לחשב מסלולים בצורה קלאסית, בדומה למערכות ניווט.
בשלב האחרון המערכת דוגמת נקודות התחלה וסיום, מחשבת את המסלול הקצר ביותר באמצעות אלגוריתם ומפעילה Path Critic שמוודא שהמסלול נשאר בתוך השבילים ואינו חוצה אזורים אסורים. גם כאן מופיעות טעויות, כמו זיהוי שגוי של אזורי רקע כמעברים, פספוס שבילים דקים או מסלולים שנראים סבירים אך אינם מחוברים באמת.
איך מודדים אם מסלול נכון
כדי להעריך את איכות המסלולים, החוקרים השתמשו במדד NDTW, גרסה מנורמלת של Dynamic Time Warping. המדד מאפשר להשוות בין מסלול שחזה המודל לבין מסלול אמת, גם אם שני המסלולים שונים באורך או בקצב הדגימה.
לפי גוגל, החישוב כולל ארבעה מרכיבים מרכזיים: יישור דו ממדי של שני המסלולים, מטריצת עלות מצטברת שמראה את המחיר של כל התאמה, מטריצת מרחקים זוגיים שמציגה את המרחק בין כל נקודה לנקודה, והשוואת קואורדינטות שמדגישה את בעיית ההיסט הזמני בין המסלולים. ככל שהמדד נמוך יותר, כך המסלול שחזה המודל קרוב יותר למסלול האמת.
שיפור משמעותי ביכולת הניווט
כדי לבדוק אם המערכת אכן מלמדת מודלים להבין מרחב, החוקרים אימנו כמה מודלים על תת קבוצה של הדאטה, 23,000 מסלולים, ובחנו אותם על MapBench, אוסף מפות אמיתיות שהמודלים לא נחשפו אליו קודם. התוצאות היו חד משמעיות: Gemini 2.5 Flash ירד במדד NDTW מ-1.29 ל-0.87, ו-Gemma 3 27B ירד מ-1.29 ל-1.13.
שיעור ההצלחה של Gemma עלה ב-6.4 נקודות, וכל המודלים הפכו ליציבים יותר ופחות נוטים להפיק מסלולים לא תקינים. המודלים לא רק השתפרו – הם גם נכשלו הרבה פחות.
החוקרים בחנו גם את איכות ההחלטות של המבקרים האוטומטיים. ה‑Path Critic הגיע לדיוק של 76% עם 8% חיובי שגוי, ואילו ה‑Mask Critic הגיע לדיוק של 83% עם 9% חיובי שגוי. הטעויות נבעו בעיקר מדמיון צבעים בין שבילים לרקע, טקסט שנבלע במסכה ושבילים דקים שלא זוהו.
מה המשמעות של מודל שמבין מרחב
היכולת להבין חיבוריות ומגבלות תנועה פותחת בפני מודלים שורה של יישומים חדשים. מודל שמסוגל לקרוא מפה באמת יכול להציע ניווט אינטואיטיבי גם במפות מורכבות, כמו מפות רכבת תחתית או תצלומי לוויין. יכולת כזו יכולה לאפשר לרובוטים לנווט במחסנים, בתי חולים ושדות תעופה על בסיס תוכניות קומה בלבד, בלי צורך בחיישנים ייעודיים.
במקביל, כלים נגישים יוכלו לתאר מסלול ברור לאנשים עם לקות ראייה, בצורה שמבוססת על הבנה אמיתית של המרחב. כפי שמדגיש המקור, היכולת להבין מסלולים וחיבוריות פותחת מגוון יישומים עתידיים.
האתגר האמיתי עוד לפנינו
MapTrace מראה שמודלים יכולים ללמוד היגיון מרחבי אם מספקים להם את הדאטה הנכון, גם כשהוא סינתטי. אבל העולם האמיתי מורכב בהרבה: מפות אינן אחידות, סימונים משתנים בין מקומות, ולעיתים מופיעים רעשים, טעויות ושינויים שלא קיימים במפות שנוצרו במעבדה.
לכן עולה השאלה האם שני מיליון מפות מלאכותיות מספיקות כדי ללמד מודל להתמודד עם הכאוס של המציאות. את התשובה נדע רק כשהמודלים יידרשו לנווט במפות שלא דומות לשום דבר שנוצר בתהליך הסינתטי.
הדאטה-סט המלא של MapTrace, הכולל את כל המפות והמסלולים הסינתטיים ששימשו במחקר, זמין להורדה בקוד פתוח. הקישור מאפשר לכל מי שמעוניין לבחון את הדאטה, לשחזר את הניסויים או להשתמש בו כבסיס למחקר נוסף.












