אנבידיה עשתה זאת שוב! עם השקת סדרת המודלים המולטימודאליים הגדולים (LLM) שלה, NVLM 1.0, החברה ממשיכה לשנות את פני תעשיית ה-AI ולהניע קדימה את מחקר הבינה המלאכותית. מודלים אלה צפויים להוביל לשינויים משמעותיים במגוון תחומים בתעשייה.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
NVLM 1.0: ביצועים מרשימים ומולטימודאליות
בעולם שבו מודלים שפתיים גדולים (LLM) תופסים מקום מרכזי באינטראקציה עם מכונות, החידושים שמביאים לשולחן מודלים מולטימודאליים הם מהפכה של ממש. NVLM 1.0 – משפחת מודלים רב-שפתיים מבית NVIDIA שמצליחה לשלב בצורה חסרת תקדים בין שפה לראייה, ובכך לפתור בעיות מורכבות שדורשות הבנה של שני התחומים במקביל.
מה שמייחד את NVLM 1.0 הוא לא רק יכולתו להתמודד עם משימות ראייה-שפה בצורה מרשימה, אלא גם השיפור שהוא מביא במשימות טקסטואליות בלבד, כמו מתמטיקה וכתיבת קוד. לאחר אימון מולטימודאלי, המודל מצליח לשפר את ביצועיו הטקסטואליים מעבר למה שהיה קודם, בניגוד למודלים אחרים שנוטים לסבול מהדרדרות בביצועים לאחר אינטגרציה מולטימודאלית. בעידן שבו נדרשת הבנה מעמיקה של מידע חזותי לצד טקסטואלי, NVLM 1.0 מסמן את הדרך להמשך הפיתוחים בתחום האינטליגנציה המלאכותית ומציב אתגר אמיתי למודלים המסחריים המובילים.
הכוכב המרכזי בסדרה הוא מודל NVLM-D-72B, בעל 72 מיליארד פרמטרים, שמציג ביצועים מרשימים במיוחד במשימות ראייה-שפה (vision-language) ובמשימות טקסט בלבד. המודל נועד להתחרות במובילי השוק, דוגמת GPT-4 של OpenAI והמודלים המתקדמים של גוגל, תוך שמירה על גישה חדשנית ופתוחה.
מאפיינים מרכזיים של NVLM 1.0
NVLM 1.0 הוא מודל מולטימודלי, כלומר, הוא משלב נתונים טקסטואליים וויזואליים כדי לפתור בעיות מורכבות במשימות שפה וראייה. הכוח של המודל בא לידי ביטוי בכך שהוא מצליח להבין, לנתח ולהגיב על תמונות וטקסט יחד, ומציג ביצועים שמתחרים במודלים מסחריים כמו GPT-4o. עם זאת, היתרון המרכזי שלו הוא שבניגוד למודלים אחרים, לאחר תהליך האימון, NVLM מצליח לא רק להחזיק בביצועים גבוהים במשימות ויזואליות, אלא גם לשפר את יכולותיו במשימות טקסטואליות בלבד.
במחקר של NVLM 1.0 ישנן דוגמאות רבות שממחישות את היכולות המולטי-מודליות של המודל:
- פתרון בעיות מתמטיות חזותיות: NVLM 1.0 מסוגל לקרוא בעיות מתמטיות כתובות, לבצע חישובים ולספק הסבר צעד-אחר-צעד, תוך הצגת נוסחאות מתמטיות ברורות בפורמט Latex.
- זיהוי הומור בתמונות: לדוגמה, המודל מזהה את ההומור בתמונה שמציגה ניגוד בין “המאמר” לבין “התקציר” שלו דרך תמונות של לינקס עוצמתי (LYNX) לעומת חתול ביתי. יכולת זו מצביעה על השילוב של OCR (זיהוי תווים אופטי) עם הבנה סמנטית עמוקה של ההקשרים החזותיים והלשוניים.
בתמונה מעלה, מודל ה-AI החדש של NVIDIA מנתח מם ומדגים את יכולתו לפרש הומור חזותי.
- מיקום אובייקטים בתמונה: המודל יכול לבצע ניתוח של תמונות ולזהות הבדלים בין אובייקטים, כגון שאלות לגבי ההבדל בין חפצים הממוקמים בצד שמאל, מרכז וימין בתמונה. יכולת זו מדגימה את המומחיות של NVLM במשימות הדורשות זיהוי מדויק ומיקום של אובייקטים שונים בתמונה.
ביצועים מרשימים
תוצאות בנצ’מרק המשוות את מודל ה-NVLM-D של NVIDIA לענקיות בינה מלאכותית כמו GPT-4, Claude 3.5 ו-Llama 3-V, מציגות את הביצועים התחרותיים של NVLM-D במשימות חזותיות ושפה שונות.
גישת הקוד הפתוח
אחד המרכיבים החשובים בהכרזה הוא השימוש בגישת קוד פתוח. אנבידיה פותחת את המודל ואת משקליו לציבור הרחב ומבטיחה לשחרר גם את קוד האימון בעתיד. גישה זו משנה את התפיסה הקיימת בתעשייה, שבה רוב המודלים המתקדמים נשמרים כסגורים וקנייניים.
דמוקרטיזציה של הטכנולוגיה והנגשתה להמונים ולמפתחים
למה לשחרר מודל בקוד פתוח? כי זה טוב לכולם! החברה מבטיחה שימוש נרחב במודלים שלה ויצירת יחסי תלות במוצרים שלה, ומשתמש הקצה או המפתח מרוויח גישה לטכנולוגיות מתקדמות ומהפכניות. היום קוראים לזה “דמוקרטיזציה של הטכנולוגיה”. יתרונות השיטה ברורים!
- דמוקרטיזציה של המחקר: פתיחת הגישה למודלים מאפשרת לחוקרים ואנשי מקצוע מכל העולם לעבוד עם הטכנולוגיה המתקדמת ביותר.
- האצת פיתוח AI: נגישות חופשית תוביל להאצת קצב המחקר והחדשנות.
- שיתופי פעולה רחבים: האפשרות לחוקרים ולארגונים קטנים לתרום ולקדם את התחום.
אחד ההיבטים המרכזיים בפרויקט NVLM 1.0 הוא הפתיחות שלו לקהילה המדעית. בניגוד למודלים מסחריים רבים אחרים, צוות המחקר שמאחורי NVLM בחר לשחרר את משקלי המודל (model weights) לציבור. הדבר מאפשר לחוקרים ומפתחים להשתמש במודל כבסיס לפיתוחים חדשים ולבצע שיפורים נוספים, ובכך תורם משמעותית לקידום התחום.
בנוסף, הצוות מתכנן לשחרר את קוד האימון (training code) באמצעות מערכת Megatron-Core, מה שיאפשר לקהילה לפתח מודלים נוספים ולבצע אופטימיזציה לאימון שלהם על בסיס התשתית הקיימת. שיתוף הפעולה עם הקהילה המדעית הפתוחה מדגיש את הרצון להאיץ את הפיתוחים בתחום האינטגרציה בין שפה וראייה ולהביא לפריצות דרך נוספות.
הורדת משקולות המודל
NVIDIA מספקת גישה למשקולות המודל באתר הרשמי של NVIDIA. הקוד לאימון צפוי להתפרסם בקרוב. להורדת המשקולות (בהאגינגפייס) לחצו כאן.
לא רק ניתוח תמונה, אלא גם הבנה של טקסט וקונטקסט
NVLM 1.0 מציג שיפור משמעותי בהשוואה למודלים קודמים. בפרט, הדגם 72B מתוך משפחת המודלים השיג את התוצאות הטובות ביותר במבחנים כמו OCRBench ו-VQAv2, המודדים יכולות זיהוי תווים ושאלות ותשובות מבוססות חזותית. מה שמרשים עוד יותר הוא שיפור הדיוק הממוצע של NVLM 1.0 במשימות מבוססות טקסט בלבד, כגון משימות מתמטיקה וקוד. המודל הצליח להעלות את הדיוק הממוצע ב-4.3 נקודות לאחר אימון מולטימודלי, דבר שממצב אותו כאחד המודלים המובילים לא רק במשימות חזותיות, אלא גם במשימות טקסט מורכבות.
השיפור הזה במשימות טקסטואליות הוא תוצאה של גישה ייחודית שאומצה בתהליך האימון: במהלך האימון המולטימודלי, המודל מתבסס על הבסיס השפתי הקיים שלו, אך איננו מקפיא אותו לחלוטין כפי שנעשה במודלים אחרים. גישה זו מאפשרת שיפור ולא ירידה בביצועי הטקסט, דבר המהווה פריצת דרך.
הביצועים של NVLM-D-72B עומדים בשורה אחת עם המודלים המובילים בשוק, ואף מתעלים עליהם במשימות מסוימות. בין היתר, המודל מצטיין במשימות ראייה-שפה, ומדגים יכולת תחרותית חזקה מול חברות כמו OpenAI, Anthropic וגוגל.
ארכיטקטורה של מודל
אחד החידושים הטכנולוגיים המרכזיים שמבדילים את NVLM 1.0 ממודלים אחרים הוא השילוב בין שתי גישות מבנה עיקריות: גישת ה-decoder-only וגישת ה-cross-attention, שתי גישות שונות לעיבוד המידע.
- גישת ה-decoder-only: זוהי גישה שבה המודל מעבד את כל סוגי הקלט (טקסט ותמונות) באותו אופן. יתרונה בכך שהיא מאפשרת הסקה והיגיון משולבים על טקסט ותמונות יחד.
- גישת ה-cross-attention: גישה זו מעבדת טקסט ותמונות בנפרד ומשלבת אותם באמצעות מנגנון תשומת לב מיוחד. יתרונה ביעילות בטיפול בתמונות ברזולוציה גבוהה.
שילוב זה יוצר אדריכלות היברידית חדשה שמצליחה להפיק את היתרונות של שתי השיטות, תוך חיסכון בזמני אימון ושיפור היכולות ההגיוניות של המודל. מצד אחד, המודל מפיק יכולות ההסקה משופרות מגישת ה-decoder-only, ומצד שני, הוא משפר את יעילות העיבוד החזותי באמצעות גישת ה-cross-attention. האדריכלות ההיברידית הזו מצליחה להפיק את היתרונות של שתי הגישות, תוך חיסכון משמעותי בזמני האימון ושיפור היכולות הלוגיות של המודל. התוצאה היא מודל גמיש ויעיל יותר, המסוגל להבין ולעבד בצורה מתקדמת הן מידע טקסטואלי והן מידע חזותי, ובכך למזער את החסרונות של כל גישה בנפרד.
בנוסף לכך, המודל עושה שימוש בפתרון טכני מתקדם הנקרא “1-D tile-tagging”. פתרון זה מיועד לאימון על תמונות ברזולוציה גבוהה והוא משפר את היכולת של המודל להתמודד עם בעיות הקשורות לזיהוי חזותי ולנושאים כמו OCR. גישה זו היא שיפור ייחודי שמביאה NVLM להישגים טובים במיוחד במשימות של ראייה ושפה גם יחד.
NVLM 1.0 משלב מאגרי נתונים איכותיים ומגוונים במסגרת תהליך האימון המולטימודלי שלו. צוות החוקרים התמקד ביצירת מאגר נתונים שאינו רק גדול אלא גם איכותי ומגוון, מתוך ההבנה שהאיכות והגיוון של הנתונים חשובים יותר מהכמות בלבד. לדוגמה, לצורך שיפור יכולות החישוב והקידוד, שולב בתהליך האימון כמות משמעותית של בעיות מתמטיות ונתוני reasoning (היסק) חזותיים. השימוש בנתונים איכותיים אלו מסייע למודל לפתח יכולות טובות יותר בהתמודדות עם משימות רב-תחומיות
השפעה על התעשייה
השקת NVLM 1.0 מביאה לתעשיית ה-AI מספר תובנות משמעותיות:
- הגברת התחרות: נבידיה מערערת את הדומיננטיות של החברות הגדולות, כמו OpenAI וגוגל, ומציבה אתגר למודלים הקנייניים שלהן.
- האצת החדשנות: בזכות גישת הקוד הפתוח, השימוש הרחב במודל צפוי לדרבן פיתוח מהיר יותר וחדשנות רבה יותר.
- שינוי במודלים העסקיים: נגישות למודלים פתוחים ברמה גבוהה עשויה לשנות את דפוסי ההכנסות בתעשייה, וליצור מודלים חדשים של מוניטיזציה.
מחשבות אחרונות: NVLM 1.0 הוא לא רק צעד טכנולוגי משמעותי, אלא גם מהלך שמציב סטנדרט חדש בשקיפות ונגישות. עם הזמן, ההשפעה של מהלך זה על תעשיית הבינה המלאכותית תתברר במלואה, אך כבר כעת ברור שאנבידיה מציבה רף חדש של שיתוף פעולה וחדשנות, תוך האצה של הקדמה בתחום ה-AI.