מודל דיפיוז’ן (Diffusion) הוא הקסם שיוצר את תמונות ה-AI המטורפות שכולנו למדנו להכיר ולאהוב. אבל האם הוא היחיד? בואו נדבר רגע על מודל אחר, מעניין לא פחות, שאולי עוד יפתיע בגדול – מודל auto-regressive.
אני יובל אבידני – מומחה סייבר והגנה על אתרי אינטרנט ביום, וינשוף AI בלילה. אני מפתח אתרים מבוססי למידת מכונה ובוטים מבוססי AI, והיום אני רוצה לדבר איתכם על מודל ג’נרטיבי חדש מבית היוצר של גוגל, שסביר להניח שמעולם לא שמעתם עליו.
* יובל אבידני
היכולת של מחוללי התמונות המוכרים כמו לאונרדו, מידג’רני או פרום לג’נרט תמונות באמצעות בינה מלאכותית מדהימה אותנו בכל פעם מחדש! אין ספק שמדובר ביכולת מדהימה ששינתה את כללי המשחק, לא צריך יותר מאגרי סטוק של תמונות – אפשר ליצור בקלות כמעט כל מה שרוצים, והכל משתפר כל הזמן. אבל מה קורה שם מתחת למכסה המנוע?
קצת על דיפוזיה
קצת על דיפיוז’ן (דיפוזיה \ בעבוע בעברית) – היכולת להסיר רעש מתמונה שכל כולה רעש אחד גדול. היכולת הזו, בשילוב עם הזנה של טקסט, היא מה שמאפשר לנו לקבל את הקסם של תמונה שנוצרת בצורה שמרגישה קסם.
זה מה שעושים כולם – מידג’רני, לאונרדו, סטביליטי AI… כולם בסוף נשענים על מודל הדיפיוז’ן הזה, שמסוגל להבין טקסט ולבצע המרה של קידוד לתמונה.
מודל חדש בשכונה
במקביל לדיפיוז’ן קיימים גם מודלים אחרים. אחד מהם הוא מודל שנקרא “אוטו-רגרסיב”, או אם ממש תרצו באנגלית – auto-regressive.
הרעיון מאחוריו הוא לא להשתמש במודל דיפיוז’ן, שנשען כאמור על פענוח מרעש של תמונות. אלא להיפך, הוא עובד בצורה של התאמה בין תיאור לתיאור אחר.
בואו ניקח יכולות תרגום למשל: מודל אוטו-רגרסיבי יקבל המון מידע שייראה בערך כך:
עברית – “אני אוהב את המדריכים של יובל אבידני”
אנגלית – “I love Yuval Avidani’s tutorials”
הוא יבצע קידוד של כל אחד מהמשפטים, ויבין שהקידוד של העברית הוא ה”תאום” של הקידוד באנגלית. ואז כאשר אבקש תרגום, המודל האוטו-רגרסיבי ידע לתרגם. ככה AI מבצע תרגום בעצם.
ואם כך, חשבו להם בגוגל על רעיון מעניין: למה שבמקום מודל דיפיוז’ן, מוצלח ככל שיהיה, לא נקח את המודל האוטו-רגרסיבי, ונקח המון דאטה שמצד אחד מתארת את תוכן התמונה ומצד שני יודעת להתאים לערך של תמונה אחרת, וכך ניצור את התמונה?
* Text-to-image generation explained – What is an auto-regressive approach | ערוץ היוטיוב של Google Research
בואו נמחיש שוב:
מצד אחד יש לנו תיאור של תמונה – “מורגן פרימן עושה סלפי עם אד שירן”
מצד שני יש לנו את התמונה בפועל, שאותה אנחנו הופכים ל”אסימונים”, לערכים מספריים, ואותם אנחנו מקודדים. כך שלצורך הדוגמא, נניח שהערך המקודד של התמונה הזו הוא “770-770″, המשמעות היא שהמודל האוטו-רגרסיבי יבין ש”מורגן פרימן עושה סלפי עם אד שירן” בעצם מתאים ל-“770-770”, והאמת היא שלא רק זה, אלא הערך המקודד של התיאור של התמונה, הוא זה שיתאים לערך המקודד של התמונה.
* זה לא מורגן פרימן או אד שירן 😜 Made with AI
כך למעשה אנחנו מקבלים מאגר עצום שבו יש לנו “התאמות” בין ערכים מקודדים של תיאורים של תמונות לבין הערכים המקודדים של התמונות עצמן.
מחשבה מעניינת. אבל האם היא עובדת טוב יותר מאשר מודל הדיפיוז’ן? האם גוגל מצליחים להתעלות כאן מעל מידג’רני וסטייבל דיפיוז’ן?
הרעיון של שימוש במודל אוטו-רגרסיבי במקום מודל דיפיוז’ן הוצג ע”י גוגל לפני זמן רב. נכון לכתיבת שורות אלה, אנחנו לא רואים התעלות כלשהי על הכלים המובילים, אבל אי אפשר להתעלם מכך שמדובר ברעיון מאוד מעניין, שלפי מה שמציג לורנס מורוני מצוות המחקר של גוגל (שלדבריו, ספציפית, אני מאוד מאמין למרות היותו מגוגל), יש פוטנציאל באמת אדיר. לורנס מורוני, הוא אחת הדמויות האהובות עלי בעולם ה-AI, על אף היותו גוגלר. והוא מציג שלא רק שיש תוצאות טובות למודל האוטו-רגרסיבי, אלא ממש רואים הבדל בין המודלים השונים, למשל בין מודל קטן שאומן על מספר יחסית קטן של 350 מיליון פרמטרים, לבין מודל גדול יותר שאומן על 20 מיליארד פרמטרים!
הע(א)רה: כשאנחנו אומרים פרמטרים, אנחנו מתכוונים ל”משתנים” שנמצאים בתוך רשת נוירונים “עמוקה”, שמודל ה-Machine Learning לומד איך לקבוע את הערכים שלו. אז אנחנו רואים בבירור: מודל קטן – תוצאה פחות טובה, מודל גדול – תוצאה יותר טובה. יהיו שיגידו שמספר הפרמטרים של המודל לא קובע בהכרח, זה אולי נכון בתוצרים טקסטואלים, אבל ספציפית כאן, ביצירת תמונות ושימוש במודל אוטו-רגרסיבי, אנחנו רואים את ההבדלים המשמעותיים.
- מצד ימין בתמונה – המודל הגדול שגם הבין איך לשלב טקסט,
- מצד שמאל – המודל הקטן שבו רואים תוצאות פחות מרשימות בלשון המעטה.