היום (24.9.24) שחררה גוגל עדכון לסדרת מודלי Gemini – הנה כל מה שחשוב לדעת. העדכונים כוללים שיפורים מרשימים ביכולות חישוביות, הפחתת עלויות משמעותית, שיפור בזמני תגובה, והגדלת כמות הבקשות שמפתחים יכולים לבצע בו זמנית. השיפורים והשינויים מאפשרים להנגיש טכנולוגיות חכמות יותר ויעילות יותר לכלל המפתחים והחברות ברחבי העולם, וגם למשתמשים פרטיים שיכולים להשתמש במודלים בפלטפורמת גוגל AI סטודיו. אבל האם יש פה בשורה אמיתית? יצאנו לבדוק.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
בקצרה:
- זול יותר: הפחתת מחיר של מעל 50% ב-Gemini 1.5 Pro (עבור קלט ופלט של פרומפטים עם פחות מ-128K טוקנים).
- נדיב יותר: הכפלה של מגבלות השימוש ב-Gemini 1.5 Flash הגדלת מגבלת השימוש פי 3 ב-Gemini 1.5 Pro.
- מהיר יותר: הכפלה של מהירות הפלט והקטנת זמני ההשהיה פי 3.
קצת יותר בהרחבה…
שני מודלים חדשים ל-Gemini 1.5 עם שם מקורי במיוחד (!) ובשורה אמיתית למפתחים
העדכון האחרון כולל השקה של שני מודלים חדשים, המותאמים לייצור יישומים מבוססי AI בפרויקטים מורכבים ומקיפים. המודלים החדשים עונים לשם (ההו כה מקורי) Gemini-1.5-Pro-002 ו-Gemini-1.5-Flash-002. כנראה שלאף אחד בגוגל לא היה מעוף למשהו מקורי יותר מאשר 002. נו טוב… לפחות קיבלנו שדרוגים והוזלות.
הפחתת עלויות
גוגל הודיעה על הפחתה של יותר מ-50% במחירי מודל ה-Gemini 1.5 Pro עבור שימוש בטוקנים (קלט ופלט). המחיר המופחת כולל גם הפחתת עלויות משמעותית בזיכרון המטמון. עבור מפתחים, מדובר בירידה משמעותית בעלויות הפיתוח, במיוחד כאשר עובדים עם קלטים ופלטים קצרי טוקנים (פחות מ-128 אלף טוקנים).
מגבלות שימוש גבוהות יותר
כדי להקל על מפתחים לבנות יישומים מבוססי AI, גוגל הגדילה את מגבלות הבקשות לדקה (RPM) לשתי הגרסאות של Gemini. מודל ה-Flash מגיע כעת ל-2,000 בקשות לדקה, ואילו מודל ה-Pro מגיע ל-1,000 בקשות לדקה, עלייה מרשימה מהמגבלות הקודמות של 1,000 ו-360 בהתאמה. שדרוג זה מאפשר למפתחים לבצע מספר גדול יותר של פעולות בצורה מהירה ויעילה יותר, מה שמקל על פיתוח מוצרים מורכבים ומקיפים.
ביצועים מהירים יותר
מעבר להפחתת העלויות והגדלת מגבלות השימוש, גוגל שיפרה את מהירות הפלט של המודלים. עתה ניתן להפיק פלט במהירות גבוהה פי שניים מזו של הגרסאות הקודמות, תוך הקטנה בשליש בזמני ההשהיה (Latency). משמעות הדבר היא שמפתחים יכולים לצפות לתגובה מהירה יותר מהמודלים, דבר המייעל את תהליך הפיתוח ומפחית את זמן ההמתנה לתשובות ולפעולות.
איך מקבלים גישה למודלים החדשים?
כל אחד יכול לקבל גישה בקלות למודלים החדשים והמתקדמים של גוגל, לרבות מודלי Gemini 1.5 002 החדשים, ומודלים ניסיוניים אחרים, דרך פלטפורמת המפתחים של גוגל – Google AI Studio.
- פשוט כנסו לאתר.
- השלימו את הליך ההרשמה בעזרת חשבון הגוגל שלכם.
- בחרו במודל הרצוי.
- ויאללה בלגן – יש לכם גישה לקונטקסט עצום בחינם ולמודלים מתקדמים. פאן פאן פאן!
קונטקסט גדול וביצועים גבוהים יותר בתחומים מגוונים
המודלים המעודכנים של Gemini 1.5 תוכננו לספק ביצועים טובים במגוון רחב של משימות, במיוחד עבור משימות טקסטואליות, קוד, ומולטימודאליות. בין היתר, המודלים מסוגלים להתמודד עם סינתזת מידע מורכב ממסמכים ענקיים, לרבות מסמכי PDF של 1,000 עמודים, כמו גם שאלות מתוך קבצי קוד גדולים מאוד, המכילים יותר מ-10,000 שורות. בנוסף, המודלים יכולים לעבד תכנים מסרטונים בני שעה שלמה ולהפיק מהם תוכן מועיל. ראוי לציין שנכון להיום מודלי ג’מיניי הם היחידים שמסוגלים “לראות” ולנתח קבצי וידאו – וזו יכולת סופר שימושית וייחודית לגוגל.
שיפורים במתמטיקה והבנת קונטקסט ארוך
במבחני ביצועים שונים, ה-Gemini 1.5 הראה עלייה של כ-20% ביכולות מתמטיות, במיוחד במבחנים כמו HiddenMath, המיועד לפתרון בעיות מתמטיות תחרותיות, ו-MATH. מדובר בהישג משמעותי הממחיש את יכולות החישוב המורכבות של המודלים. בנוסף, המודלים מציגים שיפור של 7% בביצועים במבחן ה-MMLU-Pro, גרסה מאתגרת יותר של מבחן הביצועים הפופולרי MMLU.
הבנה של קונטקסט ארוך היא אחת מהיכולות המרכזיות של סדרת Gemini, ואכן, מודל ה-Gemini 1.5 Pro מגיע כעת עם חלון קונטקסט עצום של 2 מיליון טוקנים, מה שמאפשר עיבוד מידע רב ומתמשך. יכולת זו פותחת פתח למגוון שימושים, כגון הבנה מעמיקה של סרטונים, עיבוד מסמכים ארוכים, וניתוח קבצי קוד גדולים – כל זאת תוך שמירה על איכות פלט גבוהה ומועילה. רק לשם השוואה, הן קלוד והן מודלי ChatGPT “מתהדרים” בחלון קונטקסט של 200,000 טוקנים, ואילו בגוגל מדברים על הקשר גדול פי 10. זה הופך את מודלי ג’מיניי 1.5 פרו (ושימו לב – מדובר במודלים שזמינים בגוגל AI סטודיו ולא בגרסה הוובית ה”רגילה” של ג’מיניי) למפלצות ניתוח ועיבוד נתונים. יכולת שליפת המידע מקונטקסט גדול, כמו גם מיעוט הטעויות וההזיות הופך את Gemini לפתרון טוב לא רק עבור מפתחים, אלא גם עבור מי שמבקש לנתח ולעבד דטאות בהיקף גדול.
בתמונה מטה: מבחן “מחט בערמת שחת” (NIAH) “Needle In A Haystack” שנועד לבדוק את היכולות של מודלי שפה גדולים לשלוף ולאחזר מידע מקונטקסט גדול. ג’מיניי 1.5 פרו מצטיין עם מעל 99% דיוק בשליפת מידע ממאגרים גדולים.
שיפור בהבנה חזותית וביצירת קוד
המודלים המעודכנים מציגים שיפורים גם בתחום הראייה הממוחשבת (Computer Vision) ושיפורים בכתיבת קוד ב-Python, כאשר נצפתה עלייה של 2-7% בביצועים במדדים אלה. מדובר בהתקדמות משמעותית עבור מפתחים הזקוקים למודלים המשלבים הבנה של טקסט, קוד ודימויים חזותיים מורכבים. אלו הופכים את Gemini 1.5 לכלי חזק במיוחד עבור מפתחים בתחום המולטימדיה, הווידאו והקוד, שיכולים כעת להתמודד עם משימות רבות יותר בו זמנית.
גישה רחבה יותר ושינויים במסנני תוכן
במסגרת השדרוגים, גוגל מציעה גישה חינמית למודלים של Gemini דרך Google AI Studio ו-Gemini API, מה שמאפשר למפתחים להשתמש במודלים ללא צורך בהשקעה כספית ראשונית. למפתחים בארגונים גדולים, המודלים זמינים גם דרך Vertex AI של Google Cloud. המודל המשולב על פלטפורמות אלו מציע חוויית פיתוח נוחה וידידותית עם אפשרות לשימוש ברבדים מורכבים של טקסט וקוד.
גוגל גם עדכנה את מסנני התוכן של המודלים, מתוך רצון להעניק למפתחים שליטה רבה יותר בתכנים המתקבלים מהמודלים. בניגוד לגרסאות קודמות בהן המסננים הופעלו אוטומטית, כעת המפתחים יכולים לקבוע בעצמם כיצד יש להפעיל את מסנני התוכן בהתאם לדרישות הפרויקט שלהם. שינויים אלו מסייעים במתן מענה גמיש ומותאם אישית לכל פרויקט, תוך שמירה על עקרונות הבטיחות של גוגל בנוגע לתכנים.
גרסה ניסיונית משודרגת ל-Gemini 1.5 Flash-8B
לצד העדכונים במודלים הסטנדרטיים, גוגל השיקה גרסה ניסיונית נוספת עם השם המאוד מסובך “Gemini-1.5-Flash-8B-Exp-0924”. גרסה זו כוללת שיפורים משמעותיים בתחומים טקסטואליים ומולטימודאליים, והיא זמינה כעת דרך Google AI Studio ו-Gemini API. השיפורים כוללים ביצועים טובים יותר במטלות טקסטואליות ובתחום המולטימדיה, והיא נבנתה על סמך משוב חיובי ממפתחים שניסו את הגרסה הניסיונית הקודמת.
האם יש פה בשורה אמיתית?
האם פצח פה עידן חדש של דומיננטיות בשווקי ה-AI הג’נרטיבי מצד גוגל?
כנראה שלא.
אמנם משפחת מודלי Gemini 1.5 המעודכנים של גוגל מסמנים התקדמות משמעותית בשוק הבינה המלאכותית, ואמנם יש פה הפחתת מחירים מבורכת, שיפורים בביצועים, הגדלת מגבלות שימוש ויכולות מרשימות של דליית מידע מקונטקסט ארוך, אך לא ראינו פה משהו שלא ראינו בעבר.
זה אותו דבר מאותו דבר, אבל קצת יותר טוב. ועם זאת – אין פה מהפכה או הפגנת עליונות טכנולוגית (מה ש-OpenAI ו-Anthropic עושות על בסיס יומי כבר שנתיים).
אז נכון – גוגל ממשיכה להעניק למפתחים כלים חכמים ויעילים לפיתוח מוצרים חדשים. ונכון – השיפור המתמשך במודלים אלו מבטיח שנראה בעתיד יישומים מתקדמים יותר, עם פוטנציאל לשינויים בתחומים כמו מתמטיקה, הבנה חזותית, וניתוח קוד מורכב. ונכון – ככל שהיכולות של Gemini משתפרות, כך מתרחב המגוון של פתרונות מבוססי AI שיכולים לשמש חברות ומפתחים ברחבי העולם. אבל אין פה חדש תחת השמש. אין פה בשורה אמיתית. אין פה גיים צ’יינג’ר.
אז מה כן יש פה?
בסופו של יום, מודלים כמו Gemini 1.5 מאפשרים למפתחים סדרה של יתרונות ופונקציונליות רבה יותר:
- נגישות גבוהה יותר לפיתוח עם AI עבור מפתחים ואנשים ללא רקע טכני: גם אנשים ללא רקע טכני יכולים לפתח אפליקציות מבוססות AI, מה שמספק כלים לפתרון בעיות מורכבות הרבה יותר. לדוגמה, משתמשים שלא כתבו קוד מעולם יכולים כעת לבצע משימות קידוד מסובכות בזכות כלים כמו ג’מיני.
- שיפור במתמטיקה ובהגיון: מודלים כמו Gemini 1.5 מציגים שיפורים ניכרים במתמטיקה והגיון, תכונות קריטיות לפיתוח יישומים הדורשים פתרון בעיות חישוביות מורכבות. המודלים הללו משפרים את יכולותיהם בניתוח בעיות מתמטיות מורכבות ומשלבים יכולות של פתרון בעיות בשלבים. תחום ה-AI במתמטיקה ופיזיקה עדיין לא מספיק חזק. הוא עדיין לא מספיק מדויק ועדיין חווה טעויות והזיות – כל שיפור בתחום זה מבורך! זה לא מושלם, אבל זה יותר טוב מהמקום בו היינו אתמול.
- השפעה של חוויות ארוכות טווח על פיתוח כלים חדשניים: הגידול בחלון ההקשר של Gemini מאפשר למודלים אלו לעבד כמויות גדולות של מידע וזה יוצר שימושים חדשים ומעניינים בפיתוח כלים שמתמודדים עם כמויות מידע אדירות. מדובר בצורך אמיתי ואולי ה-צורך שברגע שנעבור אותו, יהפוך כלי AI להרבה יותר רלוונטיים להרבה יותר אוכלוסיות. יש הבדל בין ניתוח קובץ PDF בן 50 עמודים, כמו מה ש-ChatGPT או קלוד יודעים לעשות היום (מעבר לזה הם כבר מתחילים לפשל), ובין ניתוח קובץ PDF בן 800 עמודים בצורה מוצלחת. כשנהיה במקום הזה, תהיה פה קפיצה טכנולוגית אמיתית והנגשה אמיתית של טכנולוגיה ג’נרטיבית להרבה מאוד אנשים (עורכי דין, מנהלי חשבונות, סופרים, פקידים, מנהלי משאבי אנוש, אנליסטים, תסריטאים ועוד רבים וטובים שנכון להיום, מודלי השפה הקיימים פשוט לא מספיק טובים או לא מספיק אינטואיטיביים עבורם). בנישה הזו (קונטקסט גדול) גוגל ממשיכה להוביל, ואת זה (בינתיים) אף אחד לא יכול לקחת לה! היכולת להבין ולטפל גם בטקסט, תמונות, וידאו ואודיו באופן יעיל יותר, תוך שילוב מידע ממספר מקורות למערכת אחת שלמה, הוא תכונה חיונית להמשך הרלוונטיות של הכלים הללו לציבור הרחב.
- עלייתם של סוכנים ג’נרטיביים (AI Agents): המודלים החדשים צפויים להניע התפתחות של יישומי סוכנים חכמים, המסוגלים לפעול על פי הנחיות המשתמשים בצורה עצמאית – למשל לספק תשובות, לבצע משימות ולסייע בקבלת החלטות. השיפור בראייה ממוחשבת ושילוב של יכולות ניתוח נתונים ויזואליים יאפשרו לסוכנים הללו לעבוד בצורה חכמה ואינטואיטיבית יותר לצד בני אדם.
- הפחתה משמעותית בעלויות פיתוח: אחת המטרות המרכזיות במהלך של גוגל היא הפחתת העלויות עבור מפתחים בשימוש במודלים. עם ההפחתות במחירי הטוקנים ושיפור בתשתיות, הפלטפורמה מאפשרת למפתחים לפתח יישומים בצורה כלכלית ונגישה יותר. כך גוגל מעודדת מפתחים לנדוד לפלטפורמות ולכלים שלה, ולהשתמש במודלים שלה דרך חבילות תמיכה חינמיות, מדריכי פיתוח וכלים נוחים יותר לשימוש, מה שמאפשר יצירת אפליקציות מתקדמות גם למשתמשים מתחילים וגם למפתחים ותיקים כאחד.
במלה אחת: נחמד.
במשפט אחד: עם שחרור המודל הבא של OpenAI או Claude אף אחד לא יזכור את שדרוג מודלי Gemini ל-002.