יום חמישי, ה־15 בפברואר 2024, ייזכר כנראה כאחד הימים הדרמטיים בהתפתחות הבינה המלאכותית היוצרת. הסיבה: OpenAI הציגה לעולם את Sora – מודל וידאו באיכות שגורמת לרעידת אדמה בתעשייה. אבל כמה שעות קודם לכן גוגל יצאה בהכרזה חגיגית לא פחות: מודל שפה מפואר שאמור לשבור את השוק עם לא פחות ממיליון טוקנים בקונטקסט! מה זה אומר, ולמה זה כל כך חשוב? הינה הפרטים.
אבל לפני הכול – הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלי חדש שיוצא…
ממליצים לכם להצטרף גם לקהילות ה-AI של LetsAI בוואטסאפ ובטלגרם. רוצים לשמוע על הקורסים וסדנאות ה־AI שלנו? לחצו פה.
רקע
גוגל, שנכנסה קצת באיחור למרוץ ה־GenAI, אף על פי שבמשך הרבה שנים היה נראה שהיא המובילה בכל מה שקשור ל־AI, חשה את הדחף להדביק את הפער והשקיעה בכך מאמצים רבים. לאחר השקת Bard (על בסיס מודל השפה שלה LaMDA), שלא הצליח לספק את הסחורה עד הסוף, היא המשיכה לשפר אותו והעבירה אותו למודל חדש יותר בשם PaLM 2. אומנם השיפור היה ניכר אבל לא מספיק דרמטי להחזיר את גוגל למעמד המובילה שנהנתה ממנו אך לפני שנים אחדות.
בגוגל לא אמרו נואש ופנו לחטיבת המחקר הטרייה שלהם המכונה DeepMind (בעבר חברת סטארט־אפ עצמאית שגוגל רכשה, וכיום חטיבה פנימית בגוגל) כדי לגייס את צוות החטיבה למשימה. ייתכן שב־DeepMind חרקו מעט שיניים, כי מה לעשות, Generative AI זה לא המיקוד המקורי שלהם – הם בכלל אוהבים לאמן סוכנים בסביבות משחק כדי שיוכלו לפתור בעיות רציניות בעולם האמיתי, אבל מה לא עושים בשביל שהבוס יהיה מרוצה.
כעבור בילד־אפ לא קצר ולחשושים מאחורי הקלעים שהמודל החדש של גוגל התוגבר באמצעות דיפמיינד יביא למהפך המיוחל ויכריע את OpenAI, הינה סוף סוף הוא הגיע. המודל Gemini שוחרר בהכרזה גדולה: ״ברוכים הבאים לעידן ג׳מיני.״ אלא שגם כאן כגודל הציפיות כך גם האכזבות – גוגל נתפסה עם המכנסיים למטה לאחר שהציגה דמו לא ממש אמין של יכולות המודל, ושוב התחילה ברגל שמאל. גם Gemini הגדול מעורר ספקות ולא חוטף את הגביע. ג׳מיני מגיע ב־3 תצורות:
- גרסת נאנו הקטנה, מיועדת למכשירים כמו ניידים ויישומי IOT.
- גרסת הפרו הרגילה.
- וגרסת האולטרה המתקדמת שנועדה לנצח את GPT-4.
עברו עוד כמה חודשים ואולטרה נפתח לציבור. המודל הוא טוב, אבל זה עדיין לא מספיק. קשה מאוד להוריד את GPT-4 מכס המלכות. ואז גוגל עושה מהלך זריז בלי התראה מוקדמת ומפילה עלינו את ג׳מיני 1.5 (גרסת פרו, בתור התחלה) עם מיליון טוקנים! זה כבר גיים צ׳יינג׳ר רציני! ברמה הטכנית גוגל ניצחה את OpenAI לפחות לזמן מה. אבל אז OpenAI חטפה את כל תשומת הלב עם ההכרזה על Sora, ו־Gemini 1.5 קצת נשכח במעבה הפיד המתגלגל. אבל בואו לא נשכח – ג׳מיני 1.5 הוא עדיין מודל טוב, אפילו טוב מאוד, ויש לו יכולת יוצאת דופן ששווה להכיר.
ג׳מיני פרו 1.5 – יודע לשלוף מידע גם מסרטונים!
חוץ מעניין מיליון הטוקנים שנרחיב עליו תכף, לג׳מיני פרו 1.5 יש עוד יתרון דרמטי: הוא מסוגל לנתח סרטונים – כן, כן! זה בעצם משהו שאנחנו רואים לראשונה במודלי שפה. הוא לא רק מנתח את הפריימים אלא גם מתאר את מה שקורה בסרטון ויכול לציין מיקום מדויק שבו מתרחש משהו מסוים. לפעמים וידאו ישמש כמקור מידע נוסף או כחלק מהפרומפט שממנו נרצה לשאול את השאלה ולקבל מהמודל תשובה מילולית. דוגמה מעניינת: אפשר להקליט מסך בעת שימוש באפליקציה, להמתין שהמודל יבין את ההתנהגות מהסרטון ואז לשאול אותו איך הוא מציע לפתור באג מסוים.
יכולת ניתוח הסרטונים של ג’מיני 1.5 פרו מרשימה ביותר!
מהיר מאוד ומבין עברית, אך יש גם מינוסים
כמו שאר המודלים בסדרה גם ג׳מיני 1.5 נותן מענה טוב בעברית. הוא מהיר יותר מכל המודלים הגדולים האחרים (אם שמים בצד את ארכיטקטורת groq), הוא רהוט, הוא עונה בפסקאות מסודרות שמקילות את הקריאה, והוא גם די יצירתי. באופן כללי הוא מודל טוב, אפילו טוב מאוד, אבל לצד זה יש לפעמים גם כמה קטעים מעצבנים. מה שאותי אישית הכי מעצבן, הוא הצנזורה שלו שנעשית בכמה רבדים. לעיתים הוא מסרב לענות על שאלות מסוימות. זה מילא; אבל קשה יותר כשהוא משיב תשובה ריקה. למעשה הוא כן משיב אבל איזה שהוא מנגנון צנזורה החליט שהתשובה בעייתית ולכן מחק אותה. זה משהו שלדעתי מקשה מאוד על העבודה עם המודל ביישומים חיצוניים אמיתיים, ואני מקווה שגוגל ישפרו את זה בהמשך.
איך משתמשים?
הגישה לג׳מיני 1.5 עוד לא פתוחה לציבור. כדי להתנסות בו צריך להירשם לרשימת המתנה, ולהמתין. גם אחרי שמקבלים גישה, המודל מיועד למפתחים שרוצים לבדוק את היכולות שלו, ולכן התפעול נעשה באזור ה־Studio, שהוא מעין חצר משחקים (Playground) להתנסות במודל. ההתנסות בשלב זה היא בחינם ללא הגבלה, כך שזאת בהחלט הזדמנות נפלאה לבדוק את היכולות המעניינות שנפתחות לנו עם גודל הקונטקסט העצום של מיליון טוקנים. בואו נדבר על זה!
להלן השלבים: הירשמו ל־Studio עם חשבון הגוגל שלכם. לאחר מכן כנסו ללינק הבא.
מה עושים עם מיליון טוקנים?
מיליון טוקנים – מה זה אומר, ומה עושים עם זה?
אז בעצם כל פעולה של מודל שפה כוללת שליחה של איזה שהוא פרומפט למודל וקבלת מענה. יחד עם הפרומפט אנחנו מעבירים למודל גם קונטקסט, הקשר. ההקשר הוא בדרך כלל מהלך השיחה שניהלנו. מהלך השיחה מאפשר למודל לענות לנו. לכל מודל יש מגבלת זיכרון של התוכן שהוא יכול לעבד בבת אחת ולהתבסס עליו בתשובה. כל הטקסט שהמודל עובד איתו, הכולל גם את הקלט ואת כל מה שנלווה אליו, וגם את הפלט שהוא מפיק כתשובה, מכונה ‘קונטקסט‘.
היכולת המקסימלית של המודל לעבד טקסט מכונה ‘חלון קונטקסט‘ (או חלון הקשר). אחד היתרונות של קלוד3 למשל הוא חלון קונטקסט ארוך במיוחד – 200,000 טוקנים (גם בגרסה החינמית). ובתרגום לעברית – קחו את מספר הטוקנים, חלקו ל־5 וקבלו פחות או יותר את מספר המילים שאפשר להזין למודל. בכל הנוגע לג׳מיני 1.5, אנחנו מדברים על מיליון טוקנים, וזה אומר בעברית כ־200 אלף מילים. בחישוב זריז זה בערך שני ספרים בינוניים. חשבו על זה.
סרטון – עיבוד כמות נתונים גדולה בעזרת חלון ההקשר העצום של ג’מיני 1.5 פרו. במקרה שלנו, תמלול השיחות של אפולו 11
מה אפשר להכניס במיליון טוקנים – המון! שעה של וידאו או 11 שעות של אודיו או יותר מ־30 אלף שורות קוד או יותר מ־700 אלף מילים (באנגלית) ו־200 אלף מילים בעברית.
מה עושים עם כל כך הרבה מילים?
ובכן, הרבה דברים. למשל אתם יכולים לקבל תובנות על טקסטים ארוכים; אתם יכולים לכתוב פרק המשך לספר מסוים או להבין את העלילה כולה ולא להסתפק רק בשאלה נקודתית על חלק מהטקסט. אבל חשבו על היישומים האפשריים בתחום עריכת דין למשל – המודל מסוגל לסקור פסקי דין רבים ולהציע תובנות, וזה משהו שהיום אינו אפשרי; חשבו על עבודה על קוד – כדי שהמודל יוכל לתת פתרונות אמיתיים הוא צריך להבין אפליקציה שלמה המתפרסת על עשרות אלפי שורות קוד; חשבו על שיחה שניהלתם עם צ׳טבוט במשך הרבה חודשים ואפילו שנים. הוא יכול לזכור כל פרט מהשיחה ולהזכיר אותו בהקשר הרלוונטי; ויש עוד כל כך הרבה יישומים.
בסרטון – דמו של פתרון בעיות בשורות קוד מרובות בעזרת חלון הקונטקסט העצום של ג’מיני 1.5
הנתונים המחמיאים וההטעיה לגביהם
במבחן המכונה ׳מחט בערמת שחת׳ (Needle in a Haystack) ג׳מיני מראה ביצועים מאוד גבוהים. לטענת גוגל, על כל פרט ספציפי שנשאל את המודל, גם בקונטקסט ארוך מאוד של מיליון טוקנים ואפילו 10 מיליון (!), הוא יצליח ב־100% מהפעמים כמעט לענות נכונה. זה בהחלט הישג משמעותי כי קונטקסט ארוך לבדו אינו מספיק, צריך שתהיה למודל היכולת להכיר את הפרטים השונים המצויים בו. וג׳מיני עושה את זה יפה מאוד. במבחן דומה שנעשה לקלוד 2.1 למשל הביצועים היו גרועים בהרבה. וזה אומר שגם אם תבקשו מקלוד סיכום של מאמר ארוך, הוא עדיין יתעלם מהרבה מאוד פרטים, אף על פי שהסיכום יכול להישמע הגיוני ונחמד. במשימת סיכום שכזאת נראה שג׳מיני יעשה עבודה טובה יותר. אגב, אם תהיתם, לקלוד3 אופוס (המודל החדש והחזק ביותר של Claude) יש נתוני הצלחה דומים לאלה של ג’מיני 1.5 – מעל 99% בשליפת מידע נקודתי מחלון הקשר גדול.
עם זאת, צריך לשים לב שמבחן המחט בערמת שחת אינו השאלה היחידה שעלינו לשאול בנוגע לקונטקסט ארוך, כי שליפה של מידע נקודתי זה נחמד ויפה, אבל בהרבה מקרים אנחנו מחפשים יותר מזה; אנחנו מחפשים יכולת הסקת מסקנות על פרטים שונים בטקסט. ופה זה קצת יותר קשה כיוון שבאופן כללי יכולות ההסקה של ג׳מיני לא תמיד מבריקות, כלומר לא ברמה של GPT-4. אז גם בקונטקסט ארוך הוא לפעמים עלול להסיק מסקנות שגויות, וצריך לשים לב לזה. אבל אם אנחנו שואלים אותו שאלה כללית ומובנת על נושאים שונים בטקסט ולא רק על נושאים בודדים, יש סיכוי טוב שהוא יענה בצורה טובה.
מבחן מחט בערמת שחת שנעשה על מודל קלוד המתקדם ביותר (2.1 עם 200 אלף טוקנים) מראה כשלים רבים באחזור מידע נקודתי מתוך הקונטקסט במיוחד אם הוא מכיל יותר מ־70 אלף טוקנים. לעומת זאת, קלוד 3 וג’מיני 1.5 פרו מצטיינים ומראים הצלחה של יותר מ־99% בשליפת מידע נקודתי מחלון הקשר גדול.
לסיכום
בכל הנוגע לשיווק האגרסיבי של גוגל ולהבטחות הגדולות, אני עדיין לא בטוח שג׳מיני אכן שם אם כי הוא בהחלט מודל טוב. וגם אף אחד לא יכול להתווכח עם מיליון טוקנים בקונטקסט – זה בהחלט מרשים ואפילו מאוד פרקטי בתחומים רבים. וגם יכולת הבנת הווידאו היא יתרון מובהק שאי אפשר להתעלם ממנו. ובכל זאת אני חושב שג׳מיני לא מספיק חכם ולוקה לעיתים ביכולת ההסקה שלו בהשוואה ל-GPT-4, וזה משפיע באופן רוחבי על כל הביצועים שלו. נוסף על כך, הוא סובל מבאגים שקורים בגלל ענייני בטיחות, משהו שאולי ישתפר בהמשך. כרגע היתרונות שלו הם בעיקר ברמה הטכנית, ויש סיכוי גבוה שברגע שיצא GPT-5 הוא כבר לא יהיה במקום הראשון גם בזה. אבל עד אז ג׳מיני 1.5 הוא מודל טוב ומעניין מאוד ששווה להכיר. אם סולחים לו על הגליצ׳ים, הוא יכול להיות גם כלי עבודה מצוין.
חוות דעת נוספת
רוצים חוות דעת נוספת? מצרף לכם את סרטון התרשמות של שחר גולן, חבר וקולגה, מג’מיני 1.5: