בעוד העולם נלחם בזירות קרב מרובות, גוגל יוצאת אתמול (6.12.23) בחזית הטכנולוגית עם השקת מודל הדגל שלהם – Gemini, מודל הבינה המלאכותית המתקדם ביותר שקיים אצלה בארסנל.
שמעות רבות רצו בשנה האחרונה על Gemini, המתכונן לקחת את הכתר מ-GPT-4 של OpenAI, ומבטיח להפוך את כל מה שידעתנו על בינה מלאכותית למיושן.
סונדאר פיצ’אי, מנכ”ל גוגל, טוען בגאווה כי Gemini הוא הישג טכנולוגי מרשים, עם גמישות בלתי נתפסת בין מרכזי נתונים למכשירים ניידים.
“יכולות פורצות דרך” – כך הוא מתאר את היכולת של Gemini לעזור למפתחים ולקהל העסקי לחדש ולגדול בעולם הדיגיטלי.
אז על מה כל הרעש? טוב שאתם שואלים!
Gemini נוצר בזכות עבודתם המשותפת והנרחבת של צוותים רבים ב-Google, ובהם גם צוותים ב-Google Research.
זהו מודל שנבנה מלכתחילה כמודל מולטי-מודאלי, ושיודע לעבד ולשלב סוגים שונים של מידע כולל טקסט, תמונות, אודיו, וידאו וקוד.
בשונה מג׳בטה 4 , אשר בנוי בצורה של מודל טקסט עם תוספות שמגיעות עם הזמן ומנסות להשתלב בתוך היכולות הכלליו, המודל של גוגל אומן כבר מהיום הראשון על הרעיון של מולטי מודליות.
לפי גוגל, Gemini הוא גם המודל הכי גמיש שהם יצרו — הוא מסוגל לרוץ על סוגים שונים של פלטפורמות, ממרכזי נתונים ועד מכשירים ניידים.
היכולות פורצות הדרך שלו יקנו למפתחים וללקוחות ארגוניים דרכים חדשות לפתח ולצמוח באמצעות בינה מלאכותית.
Gemini 1.0, הגרסה הראשונה של המודל, קיימת בשלושה גדלים שונים:
- Gemini Ultra — המודל הכי גדול ומתוחכם, למשימות מורכבות ביותר.
- Gemini Pro — הדגם המושלם לביצוע שלל משימות בהיקפים גדולים.
- Gemini Nano – המודל היעיל ביותר לביצוע משימות על המכשיר עצמו (on-device) שמגיע בשתי תצורות למטרות שונות.
הגרסה הראשונה של ג’מיני יכולה להבין, להסביר וליצור קוד באיכות גבוהה בשפות התכנות הפופולריות בעולם, כמו ל-C++, Python, Java, ו-Go.
גוגל טוענים כי הם העמידו את מודלי Gemini בבחינות קפדניות כדי להעריך את הביצועים שלהם במגוון רחב של משימות.
תכלס, המודל שבאמת מעניין אותנו הוא ה Gemini Ultra שבמשימות רבות, מהבנת תמונה טבעית, דרך חשיבה מתמטית ועד להבנת אודיו ו-וידאו, טובים יותר ב-30 מתוך 32 המדדים (benchmarks) המקובלים בענף.
Gemini Ultra הוא הדגם הראשון שביצועיו עולים על אלה של מומחים אנושיים ב-MMLU (הבנת שפה רב-משימתית מסיבית).
הוא קיבל ציון של 90.0% ב-MMLU, בדיקה המשלבת 57 תחומים כגון מתמטיקה, פיזיקה, היסטוריה, משפטים, רפואה ואתיקה כדי לבחון את הידע העולמי ואת יכולות פתרון הבעיות של מודלים.
הציון הזה הוא הציון הגבוה ביותר שיתקבל במבחן מסוג שכזה עלידי מכונה אי-פעם!!!
להלן תוצאות ההשוואה בינו לבין GPT4:
*שימו לב כי ההשוואה היא בין מודל האולטרה 32k Cot למול מודל ה4 5-shot
(בעברית, מדובר בתהליך אימון שונה של המודל בצורת קבלת ההחלטות )
תמונה: גוגל
מה באמת השוס הגדול?
בפשוט, תהליך האימון.
במהלך העבודה על המודל, העבודה היתה על כל 32k הפרמטרים מהיום הראשון, דבר שמשפיע בצורה ישירה על יכולת ההסקה של המודל (מה שלא היה אצל המתחרים)
אבל זה לא רק זה, מהיום הראשון המודל אומן על כל סוגי הדאטא הנגישים לגוגל, כמו לדוגמא יוטיוב… המודל שאומן על סרטונים קיבל יכולות מרשימות של הסקה בריל טיים של קלטים שוני, ואת זה עדיין לא ראינו!
תמונה: גוגל
מי שרוצה יכול כבר היום לגעת במודל המדובר דרך הפלטפורמה של bard, אם כי מדובר במודל הפרו, שביצועיו לא טובים יותר מאשר GPT3.5,
בצער רב, גוגל כרגע מאכזבת אותנו המשתמשים בכל מה שקשור לבארד, ההכרזה על דגם האולטרה לא עוזרת לנו כרגע בהרבה כי פשוט אין לנו גישה אליו, וכנרה שעד שיהיה, GPT5 כבר יהיה בחוץ.
אז בינתיים, נשאר לנו רק לעבור קצת על היוטיובים שיצאו ולהרהר על איך יראה העולם עוד שנה.
והנה סרטון שיעזור לכם בזה.
והכי חשוב! אל תשארו מאחור!
בינה מלאכותית היא נחלת הכלל, עכשיו השאלה היא מה תעשו עם זה