ועידת Google I/O 2024 שהתקיימה ב־14.5.24 בקליפורניה (ושודרה בלייב סטרימינג לכל העולם), הייתה ברובה בסימן בינה מלאכותית. גוגל הציגה שורה של עדכונים למוצריה (כמו Gemini 1.5 Pro ו־Gemini Nano) לרבות הרחבת חלון הקונטקסט של ג’מיני ל־2 מיליון טוקנים! כל זאת לצד שיפורים נוספים בשירותים כמו חיפוש, Google Photos ו־Google Workspace. עם הדגמות מרשימות של יכולות AI מתקדמות גוגל הראתה כיצד היא מתכננת להמשיך ולהוביל את מהפכת הבינה המלאכותית ולהשפיע על דפוסי השימוש שלנו.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
הועידה של גוגל לא מתקיימת בחלל ריק – אי אפשר להתעלם ולא להזכיר את ההשקה המתוקשרת שנערכה יום לפני כן, של OpenAI (בטיימינג אכזרי), ובה הושק מודל שפה גדול חדש וחזק מאוד: GPT-4 Omni שהולך להיות נגיש לכלל הציבור בחינם לגמרי (!) וכבר זמין לשימוש למנויים בתשלום. התחרות בענף רותחת גם כך, אך בימים אלה זה מרגיש שעלינו מדרגה. בציוץ ארסי במיוחד עקץ סם אלטמן (מנכ”ל ומייסד OpenAI את המתחרים בגוגל) וצייץ בחשבון ה־X הפרטי שלו:
“אני מנסה לא לחשוב על מתחרים יותר מדי, אבל אני לא יכול להפסיק לחשוב על ההבדל האסתטי בין OpenAI ל־Google.”
i try not to think about competitors too much, but i cannot stop thinking about the aesthetic difference between openai and google pic.twitter.com/hRFYhzm5K8
— Sam Altman (@sama) May 16, 2024
אז האם ענקית החיפוש והטק באמת תצליח לשנות את האופן שבו אנו מתקשרים עם הטכנולוגיה? האם היא תצליח להוביל את עולם הטכנולוגיה כפי שעשתה בעשורים האחרונים? בסקירה זו ננסה לענות על שאלות אלה תוך כדי הצגת מגוון החידושים והשדרוגים שעליהם הכריזה גוגל בוועידה.
ועידת Google I/O בפחות מ-10 דקות!
בסרטון הבא גוגל מגישים לנו תקציר של עיקרי הוועידה בפחות מעשר דקות. מעדיפים תוכן ויזואלי? הסרטון הזה בשבילכם.
עידן הג’מיני – האומנם?
לפני שנה בוועידת I/O 2023 הציגה Google את תוכניותיה לפיתוח מודל ג’מיני – מודל מולטי־מודאלי המשלב טקסט, תמונות, וידאו, קוד ועוד. מאז השיקה החברה מספר דגמים של ג’מיני (שבתחילה כונה ‘בארד’). אלו קיבלו תגובות צוננות ובעיקר התגמדו לעומת היכולות והביצועים של מודלים נעלים הרבה יותר כמו GPT4 או Claude2 ו־Claude3. הרמז הראשון לשינוי הגיע עם השקת ג’מיני 1.5 Pro, שהיוותה פריצת דרך בתחום הקונטקסט הארוך עם יכולת לעבד עד מיליון טוקנים. הייתה זו בשורה של ממש לאחר תקופה ארוכה שבה היה נדמה שגוגל רק מגיבה לאירועים ולא יוזמת אותם (ובטח לא מצליחה להציב את עצמה לפני המתחרות שלה).
בוועידה הציגה גוגל מודל חדש ומסקרן: Gemini Flash. ג’מיני פלאש הוא מודל AI חדש המתמקד במתן תגובות מהירות במיוחד למשימות צרות או תכופות. הוא מהיר יותר ב־50% ועולה 95% פחות מהמודלים הגדולים יותר כמו GPT-4 ו־Gemini Pro. מה שמייחד את Gemini Flash, הוא היכולת שלו להתמודד עם משימות שבהן מהירות התגובה היא קריטית, וצריך לשמור על ביצועים גבוהים. כמו כן, הוא תומך בחלון קונטקסט של מיליון טוקנים (כמו ג’מיניי פרו 1.5), ומאפשר שילוב של טקסט, תמונות, וידאו ואודיו באינפוטים. השילוב של מהירות, יעילות ותמיכה בקונטקסט ארוך עשויים להפוך את Gemini Flash לכלי שימושי למפתחים ויוצרים המחפשים פתרונות AI מהירים ואמינים. העובדה שיש לו חלון הקשר עצום (מיליון טוקנים) וכן מהירות ומולטי־מודאליות (היכולת לקלוט ולעבד מגוון רחב של אינפוטים), יכולה להפוך אותו לכלי עוצמתי במיוחד. האם משפחת ג’מיני 1.5 (פלאש ופרו) יצליחו להציב תחרות ל־GPT4 אומני (Omni) החדש מבית OpenAI? התשובה לשאלה זו שווה מיליונים (או אף מיליארדים).
Project Astra: AI – עוזר AI בזמן אמת
פרויקט Astra הוא גרסה של ג’מיני המגיבה בזמן אמת, כלומר סייען בינה מלאכותית אקטיבי שפועל ללא השהייה (או כך לפחות לפי הדמו – בגוגל פעמים רבות הדמו לחוד והמציאות לחוד). לפי ההבטחות של גוגל, הוא מסוגל לעזור בפתרון בעיות מתמטיות שלב אחר שלב בזמן הכתיבה ואף לשתף פעולה עם המשתמש בלוח לבן, לשאול שאלות ולתת עצות. אסטרה מאפשר למשתמשים לנתח בזמן אמת אובייקטים המוצגים לו, לשמור על רצף שיחה זורם ולהתייחס לאלמנטים שונים בשיחה. הממשק האינטראקטיבי מאפשר למשתמשים לשאול שאלות על הסביבה שלהם ולקבל תשובות מיידיות ומדויקות. מה שמייחד את פרויקט Astra, הוא היכולת שלו להבין ולהגיב לעולם הדינמי בצורה הדומה לאופן שבו בני אדם פועלים. המערכת קולטת ומעבדת מידע ממקורות שונים, כולל וידאו, קול וטקסט, ושומרת על הקשר בין האירועים לאורך זמן. יכולת זו מאפשרת לו לספק תגובות מהירות ומדויקות במגוון רחב של תרחישים.
מוזמנים לצפות בדמו המרשים של פרויקט אסטרה שעלה בערוץ היוטיוב של גוגל. אם מה שמתואר פה באמת דומה למה שנקבל בפועל, מדובר בכלי מדהים ושימושי במיוחד!
Gemini AI Teammate: סייען AI צמוד
AI Teammate הוא פיצ’ר חדש בסביבת העבודה של Gemini for Workspace. זהו ‘עוזר AI’ שמבצע משימות שונות בשבילכם – יש לו חשבון אימייל משלו, הוא מגיב לצ’אטים, משלים משימות ב־Google Docs וב־Sheets, ואף מחפש מידע ברשת במקומכם. הקונספט הוא שינוי בתפיסה – AI הוא לא עוד כלי אלא עמית לעבודה. בכנס הוצג צ’טבוט בשם ‘Chip’ עם זהות ייחודית וחשבון Workspace משלו. הבוט יכול לענות על שאלות בקבוצות צ’אט בהתבסס על מידע שנשמר מקבוצת הצ’אט, לשתף מידע ואף להשיב במשלוח אימיילים. מה שמייחד את ה־AI Teammate, הוא היכולת לבנות בסיס ידע על סמך המידע המשותף של כל הצוות ולא רק ממשתמש יחיד. בכך הוא יכול להפיץ מידע לכל חברי הצוות ולהיות כלי מרכזי לשיתוף ידע ותמיכה במשימות יום־יומיות.
חיפוש חכם מבוסס AI
אם יש פיצ’ר שעליו גוגל תקום ותיפול, זה ביכולת החיפוש. לפני הכול גוגל היא מנוע חיפוש, וכחברה יש לה מונופול עולמי מוחלט בתחום זה. עלייתם של מודלי השפה והצ’טבוטים הכניסו את גוגל ללחץ – הם מאיימים למוטט את המודל העסקי שלה (המושתת על רווחים ממפרסמים שקונים מגוגל דאטה שנצבר מדפוסי השימוש של משתמשיה). אם גוגל תצליח לחולל מהפכה בדרך שבה אנחנו מחפשים מידע, יש מצב שהיא תמציא את עצמה מחדש. האם סוף סוף נזכה לחזות בפונקציית חיפוש ג’נרטיבית אמיתית? לפי הדמו וההבטחות של גוגל נראה שכן. מוזמנים לצפות בסרטון ולשפוט בעצמכם – כך ייראה עתיד החיפוש לדעת גוגל:
השינוי המובהק ביותר הוא בתצוגת ה־AI בחיפוש. הודות למודלים הג’נרטיביים ממשפחת ג’מיני שגוגל פיתחה, מתאפשר חיפוש בשיטות חדשות כמו חיפוש תמונות ושאלות מורכבות יותר. הדמו אפילו הציג חיפוש מבוסס וידאו שבו אפשר לצלם סרטון ובה בעת לשאול שאלה על מה שהמצלמה קולטת, וגוגל תספק תשובה (מדובר ביכולת חדשה ב־Google Lens המאפשרת להקליט וידאו ולשאול שאלות בזמן אמת ולקבל תשובות מהאינטרנט). לטענת גוגל, הניסיון שנערך מחוץ למעבדות, הראה עלייה בשימוש ובשביעות הרצון של המשתמשים, והחברה הכריזה על השקת התצוגה החדשה בארצות הברית והשקה עולמית בקרוב. החיפוש החדש והחכם הזה מרגיש יותר אינטואיטיבי, אבל השאלה האמיתית היא: מה זה יעשה למודל החיפוש הישן של גוגל המשלב בין מענה לצורך קיים של המשתמשים ובין הצורך להקפיץ תוצאות חיפוש של מפרסמים שמשלשלים לכיסי גוגל מיליארדים בתקציבי מדיה? כמו כן, תהייה נוספת (שכל הזמן עולה לאחר הפרזנטציות של גוגל) היא: כמה מתוך מה שאנחנו רואים באמת יקרה בפועל? כמה חלק הפיצ’ר החדש יעבוד באמת, והאם הוא באמת יהיה יעיל ופרקטי כמו שעולה מהדמו?
אוהבים לטייל? תשמחו לגלות שגוגל פיתחה יכולת תכנון חדשה לחיפוש ב־Gemini Advanced, שמאפשרת לתכנן טיולים, אירועים ועוד בצורה חכמה וממוקדת יותר. היא יודעת להביא בחשבון מגוון פרמטרים כמו שיקולי מקום, זמנים ולוגיסטיקה כדי להקל על המשתמשים בתהליך התכנון ולחסוך להם זמן ומאמץ.
חיפוש תמונות חכם מבוסס AI
שיפור נוסף שעליו הכריזה גוגל, הוא חיפוש זיכרונות חכם המבוסס על תמונות המשתמש (Ask Photos). הפיצ’ר מאפשר חיפוש מתקדם יותר בזיכרונות המשתמש. לדוגמה, אפשר לשאול שאלות על התמונות שלנו בעזרת מודלי AI לרבות שאלות מורכבות כמו: הצג לי את התמונות הטובות ביותר מהפארקים הלאומיים שבהם ביקרתי, או הזכר לי מה היה הנושא של מסיבת יום ההולדת של בתנו לפני שנה; וג’מיני יספק סיכום מקיף של האירועים השונים הקשורים לנושא או תשובה עניינית וממוקדת.
איך זה עובד? פיצ’ר Ask Photos מזהה את השאלות שלנו ומבצע חיפוש מתקדם בשמנו תוך כדי איתור מילות מפתח רלוונטיות כמו מקומות, אנשים ותאריכים וגם מושגים כמו ‘מסיבת יום הולדת עם נושא’. לאחר מכן הוא בוחן את תוצאות החיפוש ובוחר את התשובות הכי רלוונטיות. המולטי־מודאליות של Gemini מאפשרת ל־Ask Photos להבין בדיוק מה קורה בכל תמונה ואפילו לקרוא טקסט בתמונה אם צריך. הפיצ’ר מכין תגובה רלוונטית ובוחר אילו תמונות וסרטונים להחזיר. חשוב לציין ש־Ask Photos עדיין ניסיוני ולא תמיד ייתן תשובות מדויקות. כמו כן, אם תתקנו אותו או תספקו מידע נוסף, Ask Photos יזכור את הפרטים לפעם הבאה.
קונטקסט ארוך ומולדטי־מודאליות
האם ג’מיני 1.5 Pro וחלון הקונטקסט העצום שלו יחולל מהפכה בעיבוד מידע? מודל זה מאפשר עיבוד מידע בהיקפים עצומים הכוללים מאות עמודים של טקסט, שעות של אודיו או וידאו ומאגרי קוד שלמים. החידוש בקונטקסט הארוך מאפשר שאלות ותשובות מקיפות יותר ומקדם את החזון של גוגל להגיע לחלון קונטקסט אין־סופי. כמו כן, גוגל הכריזה על הרחבת הקונטקסט ל־2 מיליון טוקנים, וזה פותח למפתחים אפשרויות חדשות לגמרי. הפיצ’ר לא זמין לציבור הרחב בשלב זה אלא רק למפתחים שיירשמו לקבלת גישה לכלי. אפשר להירשם לרשימת המתנה ל־Google AI Studio או ב־Vertex AI.
שדרוגים ב־Google Workspace: סיכומים חכמים ועוזרים וירטואליים
ג’מיני שולב גם ב־Google Workspace ומאפשר סיכום של מיילים חשובים, ניתוח מסמכים וקבצים מצורפים ואפילו סיכום של פגישות מוקלטות. הגרסה המשודרגת של ג’מיני 1.5 Pro זמינה ב־Workspace Labs. נוסף על כך, ג’מיני מאפשר קבלת סיכום של הפעילויות האחרונות ישירות בפאנל הצדדי של Workspace, וזה יאפשר לכם להישאר ממוקדים במשימות החשובות ביותר.
עדכונים וחידושים ב־Android
בכנס הוכרזו שיפורים משמעותיים במערכת ההפעלה Android 15 כולל יכולות חדשות לזיהוי גנבה, המגינות על המכשיר ועל המידע שבו לפני, במהלך ולאחר גנבה. נוסף על כך, נוספו עדכונים ל־Wear OS 5 וליכולות החדשות של Android כמו שיתוף תכנים והזרמת מדיה למכשירים חדשים כמו רכבי Rivian. גוגל עדכנה עוד שג’מיני יחליף את Google Assistant כעוזר האישי המוגדר כברירת מחדל באנדרואיד, וכן שג’מיני Nano – עם יכולות מולטי־מודאליות – יציע חווית שימוש מעמיקה יותר בסמארטפונים כולל יכולות כמו יצירת כיתובים לתמונות, מענה על שאלות במאמרים ועוד.
האם Veo יצליח להתחרות ב־Sora?
גוגל משיקה מודל טקסט לווידאו חדש. בדמו זה נראה טוב. טוב מאוד! האם לסורה יש מתחרה רציני? נאלץ לחכות עד ששני המודלים יהיו זמינים בפריסה רחבה לציבור. גוגל מספר שמחולל הווידאו שלהם מסוגל ליצור סרטים באיכות 1080p על בסיס טקסט, תמונות רפרנס או סרטוני רפרנס. בסרטון הבא אפשר לראות דוגמאות ליכולות של הכלי החדש. האם יש פה צ’רי פיקיניג? כמעט בטוח שכן (בגוגל כמו בגוגל זה לרוב כך). עם זאת, נראה שיש פה כלי חזק שיכול לסייע ליוצרים להביא את הרעיונות שלהם לקדמת הבמה. מסקרן ביותר…
משכם של הסרטונים ש־Veo מייצר הוא מעל דקה. המודל (כך לפי הדוגמאות באתר) מבוסס על הבנה מתקדמת של שפה טבעית וסמנטיקה ויזואלית שמאפשרת לו ליצור סצנות המתאימות במדויק להנחיות הטקסט. הוא מאפשר גם עריכה ספציפית של אזורים מסוימים בווידאו (אינפיינטינג) ויכול לשלב תמונה עם הנחיה טקסטואלית ליצירת וידאו בהתאם לסגנון המבוקש (Image to Video). נוסף על כך, Veo יכול ליצור ולהרחיב קליפים עד 60 שניות ואף יותר, וזה עושה אותו כלי רב עוצמה. הכלי מפגין עקביות ונראה יציב יחסית (לא ברמה של סורה אבל הרבה יותר טוב מכל מחולל וידאו מסחרי שזמין בשוק כיום). כל סרטון שנוצר באמצעות Veo מסומן בסימן מים. באתר הבא אפשר לראות דוגמאות נוספות לסרטונים שג’ונרטו ב’ויאו’.
Music FX: מחולל מוזיקה שמגיב לשינויים בזמן אמת
גוגל משיקה גם מחולל מוזיקה ג’נרטיבי חדש שיוצר מוזיקה מתוך פרומפטים. מה שמיוחד בכלי הזה, הוא היכולת שלו להגיב בזמן אמת לשינויים בסגנון המוזיקלי. ככה זה נראה (או יותר נכון – נשמע):
הכלי נגיש לשימוש חופשי לציבור הרחב – מוזמנים לנסות בעצמכם!
LearnLM: מודלים ללמידה מותאמת אישית
משפחת מודלים חדשה המיועדת ללמידה משלבת בתוכה את חיפוש, Android, Gemini ו־YouTube. נעשה שיתוף פעולה עם מוסדות חינוך ועם מומחים להתאמה משופרת של התכנים לתלמידים. LearnLM היא משפחת מודלי AI חדשה שתוכננה במיוחד לתמיכה בלמידה. המודלים פותחו על בסיס מחקר חינוכי כדי שחוויות ההוראה והלמידה יהיו אקטיביות, אישיות ומעוררות יותר. LearnLM מבוסס על טכנולוגיות מתקדמות של Google DeepMind ו־Google Research ומיועד לשפר את חוויות הלמידה במוצרים מוכרים כמו חיפוש, YouTube וצ’אט עם Gemini. המודלים של LearnLM מתוכננים לעודד למידה פעילה, לנהל עומס קוגניטיבי ולהתאים את עצמם לצרכים ולמטרות של הלומד. לדוגמה אפשר להשתמש ב־LearnLM בחיפוש של Google כדי להבין נושאים מורכבים בצורה פשוטה או ב־YouTube כדי לשאול שאלות במהלך צפייה בסרטונים חינוכיים ולקבל הסברים נוספים.
נוסף על כך, Google מפתחת כלים חדשים כמו Illuminate ו־Learn About שמיועדים להרחיב את אפשרויות הלמידה. Illuminate מפרק מאמרים מחקריים לשיחות אודיו קצרות עם תובנות מרכזיות, ו־Learn About מציע חוויית למידה מותאמת אישית באמצעות תמונות, סרטונים ופעילויות.
חומרה: השקת Pixel 8A ו־TPU דור 6
Pixel 8A: סמארטפון חדש בתקציב נמוך
גוגל השיקה את ה־Pixel 8A, שהוא אופצייה זולה יותר לסדרת הפיקסלים המובילה. הסמארטפון כולל מסך עם קצב רענון של 120Hz ומעבד Tensor G3 בדיוק כמו ה־Pixel 8 Pro.
TPU דור 6: קפיצת מדרגה בביצועים
בכנס הוכרז על TPU דור 6 – השיפור החדש ביותר בתשתית החומרה של גוגל – שמספק ביצועים גבוהים במיוחד ומיועד לשימושים עתידיים במודלים.
האתגר הגדול של Google: מימוש החידושים וההובלה בתחום AI
במבט על, ועידת Google I/O 2024 הציגה מגוון חידושים מרשימים המחזקים את מעמדה של גוגל בחזית מהפכת הבינה המלאכותית. היכולות המתקדמות (ונכון להיום ללא תחרות) שהוצגו בוועידה, כמו חלון הקשר של 2 מיליון טוקנים ופרויקט Astra, מעידות על הפוטנציאל העצום של המודלים החדשים. עם זאת, העומס הרב של ההכרזות וחוסר הבהירות לגבי מועדי השקת המוצרים מעוררים שאלות רבות. גוגל תמיד היו טובים בלהבטיח אבל פחות טובים בלקיים (או ליתר דיוק – פחות טובים בלעמוד בציפיות שהם עצמם יצרו).
מצד אחד, גוגל ממשיכה להוביל בתחום עם חידושים כמו Gemini 1.5 Pro ו־Gemini Flash. מצד שני, ההכרזות הרבות והעיכובים בהשקת המוצרים עלולים להקשות על החברה לשמור על הרלוונטיות שלה. חוסר הוודאות לגבי מועד השקת הכלים החדשים והתלות בביטויים כמו “ישוחרר בהמשך השנה” מסכנים את גוגל באיבוד היתרון התחרותי. גוגל נמצאת בנקודה קריטית: מצד אחד היא מציגה יכולות מחקר ופיתוח מרשימות, ומזה שנים רבות היא ‘יושבת’ על טכנולוגיות AI מהמתקדמות שידעה האנושות עד כה, אך מצד שני היא מתקשה להמיר אותן למוצרים מוגמרים ושימושיים בשוק. נדמה שגוגל לא מצליחה להתמקד אולי בשל החשש הכלכלי שלה, אולי בגלל הניסיון שלה לדחות את הקץ ולהימנע משינוי המודל העסקי שלה ואולי בגלל יצירת תרבות ארגונית שדיכאה יזמות אישית של עובדים ומנהלים ועודדה בריחת מוחות (בעיקר למתחרות).
ההצלחה העתידית של החברה תלויה ביכולת שלה ליישם את החידושים שהציגה ולגרום למשתמשים לאמץ אותם (בהנחה שהם באמת יעבדו כפי שהובטח בכנס). הוועידה השנה הייתה מרשימה ומלאה בהבטחות, אבל
“This is not our first rodeo”. כבר היינו בסרט הזה וראינו שלל השקות בשנים קודמות עם הבטחות למוצרים ולשירותים שנראו מהפכניים, אבל לא תורגמו להצלחה מסחרית או למוצר יציב ושמיש. כעת נותר רק להמתין ולראות אם גוגל תצליח להוביל את תחום ה־AI ולממש את הפוטנציאל העצום שהציגה בכנס, או לכל הפחות תצליח לא להישאר מאחור, כי בינתיים OpenAI ואנטרופיק מאכילות אותה אבק.