מטא לא עוצרת ומשדרגת את מודל הדגל שלה – לאמה (Llama), עם גרסה משופרת: 3.2, הכוללת כמה חידושים פורצי דרך. המודל זמין בכמה גדלים, כאשר המודלים המולטימודאליים מתאפיינים בגודל של 11 מיליארד ו-90 מיליארד פרמטרים, ומיועדים לעיבוד תמונה וטקסט בו זמנית. במקביל, המודלים הקטנים יותר, בגודל של 1B ו-3B, מותאמים להרצה במכשירי קצה כמו סמארטפונים וטאבלטים. הביצועים של המודלים המולטימודאליים מצטיינים במיוחד, כאשר מודל ה-11B מפגין ביצועים חזקים ועוקף מודלים סגורים כמו קלוד 3 ו-GPT-4 בגרסאות הקטנות. גם בתחום עיבוד הטקסט, מודל ה-90B משתווה ואף מתחרה במודלים המובילים בתחום. המודל החדש מתאים לשימוש במגוון רחב של יישומים, כגון ניתוח תמונות, עיבוד טקסט וראייה ממוחשבת, והכול תוך שמירה על ביצועים גבוהים ושמירה על פרטיות המשתמשים. במאמר זה נבחן את המאפיינים המרכזיים של לאמה 3.2, נציג את הנתונים הטכניים והביצועים שלו ונבחן את יישומיו הפוטנציאליים בשוק.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
מאפיינים מרכזיים של לאמה 3.2
לאמה 3.2 משלב מספר מודלים בעלי פרמטרים שונים המותאמים למגוון שימושים. המודל מוצע בגרסאות טקסט בלבד ובגרסאות מולטימודאליות, כאשר ניתן לבחור בין מודלים קטנים המותאמים למכשירי קצה, לבין מודלים גדולים המיועדים ליישומי ראייה ממוחשבת מתקדמים.
מבנה המודל והארכיטקטורה
המודלים בלאמה 3.2 נבנים בטווח של 1B ועד 90B פרמטרים:
-
1B ו-3B: אלו הם מודלים קלים יותר שמתאימים במיוחד למכשירי קצה כמו סמארטפונים וטאבלטים. הם תוכננו לפעול עם כוח חישוב מוגבל ולבצע עיבוד טקסט מקומי על המכשיר. המודלים תומכים בעיבוד טקסט חכם, ומסוגלים לבצע סיכום שיחות, קריאת מסמכים והוראות, וכן קריאה של כלים חכמים ישירות מהמכשיר.
-
11B ו-90B: אלו הם מודלים מולטימודאליים (טקסט + תמונות) המיועדים לעיבוד תמונות מורכב. היכולת שלהם להתמודד עם משימות כמו ניתוח תמונות ברזולוציה גבוהה וגרפים מתקדמים הופכת אותם לכלים יעילים במיוחד ליישומים תעשייתיים ומחקריים.
עיבוד מקומי ושמירה על פרטיות
אחת התכונות הבולטות של לאמה 3.2 היא היכולת שלו לבצע עיבוד מקומי על מכשירים ניידים ומערכות קצה. בעזרת טכנולוגיות כמו PyTorch ExecuTorch, המודלים יכולים לרוץ באופן מקומי מבלי להזדקק לחיבור תמידי לענן. פעולה זו מאפשרת שמירה על פרטיות – מאחר והמידע נשאר על המכשיר, הנתונים האישיים לא נשלחים לשרתים חיצוניים, מה שמגביר את הפרטיות. במקביל, היא מאפשרת גם זמן תגובה מהיר – עיבוד מקומי מביא לכך שהתגובות של המערכת הן כמעט מיידיות, מה שמאפשר למשתמשים ליהנות מחוויית שימוש חלקה ואינטואיטיבית. בנוסף, המודלים מותאמים במיוחד למערכות מבוססות Qualcomm, MediaTek ו-Arm, המובילות בתחום המערכות על שבב (SoC) למכשירי קצה ניידים. התמיכה בטכנולוגיות אלו הופכת את לאמה 3.2 לכלי גמיש המותאם לפלטפורמות ניידות.
ביצועים והערכות על פי נתוני השוואה
לאמה 3.2 עבר מבחני ביצועים נרחבים במגוון רחב של תחומים, כאשר המודלים נבחנו במעל ל-150 מערכי נתונים מורכבים הכוללים עיבוד שפה, הבנת טקסט וניתוח חזותי. במסגרת מבחנים אלו, לאמה 3.2 הצליח להתחרות במודלים סגורים מתקדמים כמו GPT-4 וקלוד 3 (Claude) ואף לגבור עליהם במקרים רבים. הדגש על מגוון רחב של שימושים מאפשר למודלים של לאמה להיות מובילים במגוון רחב של יישומים, עם דגש מיוחד על ביצועים גבוהים גם במכשירי קצה כמו סמארטפונים וטאבלטים.
ביצועים במבחני טקסט
המודלים הקטנים של לאמה 3.2, בגודל 1B ו-3B, מתאפיינים ביכולות עיבוד טקסט מתקדמות, עם יכולת לטפל בעד 128 אלף טוקנים בהקשר אחד. במבחנים שבוצעו, מודלים אלו הציגו ביצועים מרשימים במיוחד בתחומי סיכום טקסט, הוראות פעולה ושימוש בכלים חכמים.
תוצאות מבחני טקסט:
-
מודל ה-1B: הציג ביצועים גבוהים יחסית למודל בגודלו, עם ציונים של 59.4 במבחן MATH ו-59.5 במבחן GSM8K. מבחנים אלו מעריכים את יכולות ההבנה והחשיבה המתמטית של המודל, וציונים אלו מהווים שיאים למודלים שנועדו לפעול במכשירי קצה.
-
מודל ה-3B: הצליח להציג ביצועים יוצאי דופן, עם ציון של 78.6 במבחן ARC Challenge ו-77.4 במבחן GSM8K. בנוסף, במבחנים של סיכום טקסטים וכתיבה מחדש, מודל זה התעלה על מתחרים כמו Gemma 2 ו-Phi 3.5. המודל גם הוכיח יכולות גבוהות בעיבוד שפה טבעית וביכולת להבין ולהגיב לשאלות מורכבות.
הודות לתמיכה רחבה במעבדים מבוססי Qualcomm ו-MediaTek, ובזכות היותם אופטימליים עבור מעבדי Arm, המודלים של לאמה 3.2 בגרסאות ה-1B וה-3B מצליחים להפיק ביצועים ברמה הגבוהה ביותר בקטגוריית המכשירים הניידים.
ביצועים במבחני ראייה ממוחשבת
המודלים הגדולים יותר של לאמה 3.2, בגדלים של 11B ו-90B, מיועדים למשימות מולטימודאליות הדורשות שילוב בין טקסט לתמונה. הם הצטיינו במבחני עיבוד תמונות ברזולוציה גבוהה וניתוח מסמכים מורכבים, ומסוגלים לבצע הבנה עמוקה של תכנים חזותיים בשילוב עם טקסט.
תוצאות מבחני ראייה ממוחשבת:
-
מודל ה-11B: במבחני ניתוח גרפים, מפות ומסמכים מורכבים, מודל זה הצליח לגבור על מודלים סגורים כמו קלוד 3 וגירסאות קטנות של GPT-4. לדוגמה, במבחנים של ניתוח מסלולי מפות, המודל הראה יכולת לזהות תנועות מורכבות ולספק תשובות מדויקות המבוססות על ניתוח מפורט של המידע החזותי.
-
מודל ה-90B: הצליח להתבלט במבחני עיבוד חזותי מתקדמים הכוללים ניתוח תמונות ברזולוציה גבוהה, תיאור של תוכן חזותי ושילוב של תובנות טקסטואליות. מודל זה מספק שילוב חזק של הבנת טקסט ותמונה, מה שהופך אותו לאידיאלי עבור תעשיות הדורשות עיבוד נתונים מורכב, כמו תעשיות רפואיות, מדעיות ועסקיות.
המודלים המולטימודאליים של לאמה 3.2 מהווים פתרון גמיש ויעיל עבור יישומים כמו ניתוח מסמכים מורכבים, הבנת גרפים מורכבים, ותיאור ויזואלי מדויק של תכנים על פי הקשר טקסטואלי.
אינטגרציה ותמיכה רחבה במערכות שונות
לאמה 3.2 תוכנן לתמוך באינטגרציה חלקה במגוון סביבות פיתוח, כולל מערכות מקומיות, ענן, ומכשירי קצה. המודלים תומכים במגוון פלטפורמות טכנולוגיות מתקדמות כגון AWS, Databricks, Microsoft Azure, NVIDIA, ועוד. התמיכה הרחבה במערכות מבוססות ARM ומכשירי ניידים הופכת את לאמה 3.2 לפתרון מתקדם במיוחד עבור יישומים מגוונים, החל מיישומי קצה ניידים ועד ליישומי ענן מתקדמים.
המודלים של לאמה 3.2, בין אם טקסטואליים בלבד או מולטימודאליים, מספקים למפתחים כלים גמישים ופתוחים לבנייה של יישומים מבוססי AI בכל תחומי החיים, תוך שמירה על הביצועים הטובים ביותר בשוק.
השוואת ביצועי מודלי Llama 3.2
Credit: Meta
הארכיטקטורה הטכנית של לאמה 3.2 – להשיג יותר עם פחות!
לצורך תמיכה ביכולות המתקדמות של לאמה 3.2, מטא יישמה מספר טכנולוגיות ותהליכי אימון מתקדמים:
מודלים גדולים מאמנים מודלים קטנים
דיסטילציה (Distillation): תהליך שבו מודלים גדולים כמו לאמה 3.1 8B משמשים כמורים עבור מודלים קטנים יותר, כמו ה-1B וה-3B. בתהליך זה, המודל הגדול מספק למודל הקטן מידע מתמטי על התוצאות הרצויות, ובכך מאפשר לו לשמר ביצועים גבוהים גם בגודל קטן יותר.
התייעלות – צמצום הרשת מבלי להתפשר על איכות
גיזום (Pruning): טכניקה שבה מצמצמים את מספר הנוירונים ברשת העצבית תוך שמירה על ביצועים. בלאמה 3.2, הגיזום אפשר למודלים הקטנים לרוץ על מכשירים בעלי כוח חישוב מוגבל מבלי לוותר על איכות התוצאות. תהליך הגיזום של לאמה 3.2 כולל שיטות מתקדמות להסרת פרמטרים לא רלוונטיים מהרשת הנוירונית, ובכך לצמצם את גודל המודל מבלי לפגוע בביצועיו.
חלון הקשר של 128K
תמיכה ב-128K טוקנים: אחד השיפורים המרכזיים בלאמה 3.2 הוא הגדלת התמיכה באורך הקשר ל-128 אלף טוקנים, מה שמאפשר למודל להתמודד עם מסמכים ארוכים מאוד ושיחות מורכבות יותר. חשוב לציין שמדובר בחלון קונטקסט יחסית קטן ממה שהמתחרות מציעות: ב-ChatGPT וב-Claude יש חלון הקשר של 200K ובמודלי ג’מיניי תמצאו חלון הקשר מטורף של מיליון ואף 2 מיליון טוקנים.
יישומים פוטנציאליים של לאמה 3.2
היכולת של לאמה 3.2 לשלב בין עיבוד טקסט ותמונה פותחת בפניו דלתות למגוון רחב של יישומים תעשייתיים ומחקריים. בין השימושים האפשריים למודלים הללו ניתן למצוא:
מציאות רבודה (AR)
לאמה 3.2 מאפשר פיתוח יישומי מציאות רבודה (AR) שמשתמשים בראייה ממוחשבת כדי לספק תובנות בזמן אמת על גבי וידאו. לדוגמה, יישומים שיכולים לזהות אובייקטים במרחב, לתאר אותם ולספק תובנות על פעולות מומלצות.
ניתוח מסמכים מורכבים
לאמה 3.2 מאפשר למפתחים ליצור יישומים שמסוגלים לנתח מסמכים מורכבים ולהפיק מהם תובנות בצורה מהירה ואפקטיבית. לדוגמה, המודל יכול לסכם טקסטים ארוכים, לספק תובנות מיידיות ולהצביע על נושאים חשובים.
חיפוש ויזואלי מתקדם
השימוש במודלים מולטימודאליים של לאמה 3.2 מאפשר פיתוח מנועי חיפוש ויזואליים מתקדמים שיכולים לסדר ולנתח תמונות על פי התוכן שלהן. זהו פתרון אידיאלי עבור תעשיות שמבוססות על עיבוד וניתוח של מידע חזותי כמו תעשיית המדיה, מחקר ופיתוח ועוד.
הורדות וקישורים נוספים
כדי להוריד את המודלים של לאמה 3.2 ולהתחיל לפתח יישומים מתקדמים, ניתן לגשת לקישורים הבאים:
- דף ההכרזה הרשמי על השקת לאמה 3.2.
- הורדת המודלים מהאתר הרשמי.
- הורדת המודלים מהאגינגפייס (Hugging Face).
מטא ממשיכה להפגיז עם מודלים קוד פתוח שזמינים לציבור הרחב ולמפתחים. מדובר בגישה מבורכת בתעשיית ה-AI שמנגישה טכנולוגיה מתקדמת להמונים. זוהי “דמוקרטיזציה של הטכנולוגיה” במובן הכי טהור של המונח, ועם כל הטענות והביקורת כלי מארק צוקרברג, פייסבוק ומטא בשנים האחרונות, בתחום ה-AI הם מגדלור של קדמה, אחריות וגישה פתוחה וחיובית. מודלי לאמה (Llama) אינם רק פתוחים, אלא באמת טובים! השילוב של עיבוד טקסט ותמונה במודל פתוח וזמין לכלל המפתחים הופך אותו לכלי מרכזי בפיתוח יישומים חכמים ומורכבים. היכולת להריץ את המודלים על מכשירים ניידים ומערכות קצה, יחד עם ביצועים מרשימים בתחומים כמו הבנה חזותית וניתוח טקסט, מציבים את לאמה 3.2 בחזית הטכנולוגיה של הבינה המלאכותית. כשמגיע – מגיע… כל הכבוד צוקי!