דף הבית » ראנוויי מציגה: מודלי עולם כלליים (general world models)

ראנוויי מציגה: מודלי עולם כלליים (general world models)

אביתר אדרי

17/12/2023

זמן קריאה: 7 דקות

האם מודלי עולם כלליים (general world models) הם הדור הבא של בינה מלאכותית חזותית?

* סרטון ההסבר מהערוץ של ראנוויי ביוטיוב.

מה הם מודלי עולם כלליים General World Models?

מודלי עולם כלליים (GWM) או General World Models אמורים להיות הדור הבא של מודלי ה-AI לוידאו. למי שלא מכיר, ראנוויי Runway ai היא אחת מהחברות המובילות בשוק מחוללי הוידאו. עם מותגים חזקים ביותר כמו Gen1 (מחוללי וידאו לוידאו) או Gen2 (מחולל טקסט לוידאו) הם נמצאים בחזית טכנולוגיית הוידאו הג'נרטיבית. לחברה שווי שוק של כחצי מיליארד דולר והיא אחד הסטארטאפים המבטיחים בתחום זה. הצוות של Runway מחזיק באמונה שהפריצה המשמעותית הבאה בבינה מלאכותית תנבע ממערכות שמסוגלות להבין את העולם החזותי ואת הדינמיקה שלו. אמונה זו הובילה אותם ליזום פרויקט מחקרי חדש וארוך-טווח הממוקד במה שהם מכנים מודלי עולם כלליים (General World Models).

מודל עולם, לתפיסתם, הוא מערכת בינה מלאכותית הבונה ייצוג פנימי של סביבה ומשתמשת בייצוג זה כדי לחזות אירועים עתידיים באותה סביבה. עד כה, המחקר במודלי עולם התמקד בעיקר בתרחישים מוגבלים ומבוקרים ביותר, כמו סביבות מדומות דמויות משחקי וידאו או הקשרים ספציפיים כמו פיתוח מודלי עולם לנהיגה. המטרה של מודלי עולם כלליים, כפי שצוות Runway מדמיין, היא לתאר ולשער טווח רחב של מצבים ואינטראקציות, בדומה לאלה שבעולם האמיתי.

אפשר לחשוב על מערכות ג'נרטיביות כמו Gen-2 כצורות מוקדמות ומוגבלות מאוד של מודלי עולם כלליים. כדי ש-Gen-2 יוכל לייצר סרטונים קצרים ריאליסטיים, הוא פיתח "הבנה" מסוימת של פיזיקה ותנועה. עם זאת, היכולות שלו עדיין מוגבלות מאוד, והוא מתקשה עם תנועות מצלמה או עצמים בעלי מורכבות גדולה.

כדי לבנות מודלי עולם כלליים, יש מספר אתגרי מחקר פתוחים שהצוותים של Runway עובדים עליהם. לדוגמה, מודלים אלה יצטרכו לייצר מפות עקביות של הסביבה, ואת היכולת לנווט ולבצע אינטראקציה באותן סביבות. הם צריכים לתפוס לא רק את הדינמיקה של העולם, אלא גם את הדינמיקה של יושביו, מה שכרוך גם בבניית מודלים ריאליסטיים של התנהגות אנושית.

אנסטסיס גרמנידיס (Anastasis Germanidis), מייסד-שותף וה-CTO של Runway‏, מספר שהעידן הבא של אמנות ידרוש פרדיגמה חדשה. מודלים חדשים אלה יהיו בעלי הבנה מקיפה, הגיונית, מדויקת פיזית ומרחבית יותר של העולם, מה שיוביל גם לג'ינרוט סרטונים ריאליסטיים ומדויקים יותר. לטענתו, למחוללי הוידאו הקיימים יש בעיה מובנית: הם מתקשים בהבנה של העולם ברמה עמוקה יותר (חוקי פיזיקה, סיבה ותוצאה וכן הלאה). לשם ההשוואה, מודלי שפה גדולים (LLMs) מתבססים על הנחת יסוד: הרבה דאטה ומודלים גדולים יותר מובילים להבנה גדולה יותר של העולם. אבל ה"ייקום" של אותם מודלי שפה מתמקד במישור השפתי - הם מבינים שפה, מילים ומשפטים (טוקנים). בוידאו זה הופך להיות מסובך יותר ו-Token prediction בהקשר של וידאו לא משקפת באמת הבנה של העולם.

במה מודלי עולם כלליים שונים מ-LLM?

בדומה למודלי שפה, מודלי עולם כלליים מקבלים כמות דאטה עצומה, אבל מידע זה אינו רק במישור טקסטואלי. הוא מכיל גם קבצי וידאו, תמונות וקבצי קול - בדומה לאדם, כל אלה הם אינפוטים שעוזרים למכונה להבין "איך העולם עובד". בעזרת כל המידע הזה, המודל בונה לעצמו מעין "מפה מנטאלית".

כניסוי מחשבתי, דמיינו כלב שמטייל בשכונת מגוריו. הוא מכיר את מסלולי ההליכה הקבועים בהם הוא צועד עם בעליו. הוא יודע שאם ייקחו את הפנייה הראשונה ימינה, יש סיכוי גבוה יותר שיגיעו לפארק, שם יפגוש כלבים אחרים (מטרה חיובית/רצויה). הוא גם יודע שאם יבחרו בפנייה שמאלה הם יעברו ליד כלב תוקפני אחר, שאותו הוא פחות מחבב (מטרה שלילית/לא רצויה). הוא גם יודע לשייך מיקומים מסוימים לאירועים מסוימים, חיוביים או שליליים (כמו למשל קצביות שבסביבותיהן יש שיירי בשר, אותם הוא אוהב לנשנש). כל אלו, המראות, הצלילים, המיקומים והרמזים שאסף על הדרך הופכים ל"מפה" של היקום שלו. בהתאם לנתונים, הכלבלב שלנו למד לחזות תוצאות מסוימות ו/או להתאים את ההתנהגות שלו לשינויים.

עכשיו דמיינו שאתם כותבים פרומפט דומה ב-Gen2 של Runway (מחולל תמונות Text to Image שמסוגל לג'נרט סרטון מפרומפט מילולי). הפרומפט שלכם מתאר מסעו של כלב אל עבר פארק. בפרומפט רשום שבמהלך הטיול הכלב חלף על פני כלב תוקפני יותר. כאן המודל אמור "להבין" שאם עברנו ליד כלב תוקפני, יש לג'נרט את תגובת שני הכלבים אחד לשני (למרות שלא תיארנו את התרחיש הספציפי הזה). בהמשך הכלב מגיע לפארק הכלבים ורואה כלבים חברותיים יותר, איתם הוא אוהב לשחק. כאן ה-AI אמור "להבין" את הסצינה ולתאר את התרגשות הכלב ואת המשחק משובב הלב של חבורת הכלבים (למרות שלא הזנו תיאור מדויק של אותה התרחשות). או במילים אחרות, דמיינו בינה מלאכותית שיכולה לחזות אירועים בעולם האמיתי בגלל איך שהעולם האמיתי עובד, ולא בגלל המילים שקדמו לו או התיאור המילולי הספציפי שהוזן לתוכו.

מסלול הליכה של כלב כ-GWM

* מסלול ההליכה של הכלב ותהליך קבלת ההחלטות שלו על סמך היכרותו עם ה"עולם" שלו, משולים ל-GWM

מודלי העולם הכלליים של Runway אמורים לגרום ל-Gen1 ול-Gen2 "להבין" את העולם בו ההתרחשות מתקיימת. אם האינפוט שהם מקבלים יהיה של כיריים עולים בלהבות, הוא אמור להבין שבסצינה הבאה יבוא כבאי לכבות את האש, או שאולי האש תטפס ותצית גם את הוילון הסמוך. ראנוויי מקווים שאם הם יצליחו לאמן את המודלים הללו לזהות את הפריים הבא או הטוקן הבא ברצף של התרחשויות, המודלים יקבלו הבנה מדויקת של המציאות, לרבות ה"למה" וה"איך" של העולם. לדבריהם, הבנה זו תהיה טובה יותר מזו של מודלי שפה גדולים כמו ChatGPT למשל.

* מודלי עולם יוכלו להבין סיבה ותוצאה ותהליכים בסיסיים המדמים את העולם האמיתי: סיר בוער על האש יוביל (כנראה) לשריפה של הבית ולבואם של מכבי האש.

סדנת מחוללי וידאו ו-AI בוידאו

הצטרפו לסדנת ה-AI בוידאו שלנו והכירו את מחוללי הוידאו המובילים בשוק. הנה טעימה ממה שתלמדו בסדנה: עבודה עם ראנוויי (Runway) Gen1 ו-Gen2, שימוש במברשת התנועה (Motion Brush) בראנוויי, הנדסת פרומפטים במחוללי וידאו, קאיבר (Kaiber) – מחולל מבוסס סטייבל דיפיוז'ן, וונדר סטודיו (Wonder Studio), יצירת אווטארים מדברים 3D עם HetGen, תרגום ודיבוב סרטונים לשפות אחרות, ועוד הרבה דברים טובים! פרטים והרשמה בלינק הבא. הזינו את קוד הקופון LETSAI וקבלו גם הנחה!

שווה קריאה - עוד תכני AI בוידאו שכדאי לכם להכיר...

פיקה לאבס משיקים גרסת ווב חדשה למחולל הוידאו שלהם - לקריאה לחצו כאן או על התמונה.

כל השדרוגים והחידושים של Gen2 - לקריאה לחצו כאן או על התמונה.

רוצים להתמקצע?

בואו ללמוד איתנו בינה מלאכותית בקורס המקיף, העשיר והמבוקש בשוק. הצטרפו לאלפים הרבים שכבר עברו את הקורסים והסדנאות שלנו. פרטים והרשמה באתר.

לקבלת הנחה במחיר הקורסים – הזינו את קוד הקופון LETSAI

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

אפשר גם להרשם לניוזלטר שלנו

אביתר אדרי

שותף-מייסד ב-LetsAI, מרצה ויועץ לבינה מלאכותית. בנוסף מנחה את תוכנית הטלוויזיה “בינה אחרת”, ויוצר סרטי AI מנוסה שיצר קליפים ופרסומות לחברות, ארגונים, מוזיקאים ועוד.בשנים האחרונות מעביר קורסים, סדנאות והרצאות במשרדי פרסום, בתי עסק, חברות, ארגונים, מוסדות אקדמיים וגופי תקשורת בארץ ובעולם.