כל הכתבות של אברהם יצחק מאיר (אביץ) במגזין Let's AI בינה מלאכותית https://letsai.co.il/author/abitz/ בינה מלאכותית Mon, 04 Nov 2024 08:17:37 +0000 he-IL hourly 1 https://wordpress.org/?v=6.5.5 https://letsai.co.il/wp-content/uploads/2024/03/cropped-logo-lets-ai-32x32.webp כל הכתבות של אברהם יצחק מאיר (אביץ) במגזין Let's AI בינה מלאכותית https://letsai.co.il/author/abitz/ 32 32 איך יוצרים תמונת AI שמשלבת שני אנשים אמיתיים ושתי לורות (LoRA)? https://letsai.co.il/two-loras-image-generation/ https://letsai.co.il/two-loras-image-generation/#respond Mon, 04 Nov 2024 07:45:31 +0000 https://letsai.co.il/?p=34910 כיצד ניתן לג’נרט אנשים אמיתיים עם בינה מלאכותית? ומה קורה אם רוצים יותר מאדם אמיתי אחד בתמונה – איך עושים את זה? במאמר קודם, לימדנו אתכם כיצד לאמן לורה (LoRA) עם Flux בתוך פלטפורמת FAL – למדריך המלא לחצו כאן. כעת, נעמיק בטכניקה שתאפשר לכם ליצור תמונות AI שבהן מופיעות שתי דמויות של אנשים אמיתיים, […]

הפוסט איך יוצרים תמונת AI שמשלבת שני אנשים אמיתיים ושתי לורות (LoRA)? הופיע ראשון בLet's AI בינה מלאכותית

]]>
כיצד ניתן לג’נרט אנשים אמיתיים עם בינה מלאכותית? ומה קורה אם רוצים יותר מאדם אמיתי אחד בתמונה – איך עושים את זה? במאמר קודם, לימדנו אתכם כיצד לאמן לורה (LoRA) עם Flux בתוך פלטפורמת FAL – למדריך המלא לחצו כאן. כעת, נעמיק בטכניקה שתאפשר לכם ליצור תמונות AI שבהן מופיעות שתי דמויות של אנשים אמיתיים, שמבוססות על שתי לורות נפרדות. גם הפעם נעשה זאת  באמצעות פלטפורמת FAL. אגב, בסרטון הראשון שלנו אימנו את הלורה על מודל Flux Dev, אבל מאז יצאו גרסאות מתקדמות של מודל Flux, כמו Flux1.1 Pro – פה תמצאו מדריך לשימוש בגרסה זו.

 

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

 

סרטון הסבר

הקלטתי לכם סרטון הסבר שמפרט את השיטה, צעד אחר צעד – מוזמנים לצפות בו, ולאחר מכן להעמיק במדריך הכתוב שמופיע בהמשך המאמר. בסרטון אני מדגים איך אני מג’נרט תמונה שלי, ולצדי אורי בז’רנו היקר. אורי הואיל בטובו לשלוח לי את הקוד של הלורה (LoRA) שאימן כל בסיס תמונות הפנים שלו. בסרטון הקוד של הלורה מוסתר (וכמובן שאם אתם מאמנים לורה, הקפידו שהקוד הזה נשאר סודי ובידיים שלכם בלבד – אל תשתפו אותו עם איש, שכן אז הוא יוכל לג’נרט תמונות ריאליסטיות שלכם בכל סיטואציה, מיקום או תרחיש).

 

 

השילוב בין לורות בפלטפורמת FAL

פלטפורמת FAL מציעה אפשרויות מתקדמות לעיבוד תמונה ולעריכה, לרבות אימון לורות. אחת מהאפשרויות המתקדמות היא יצירת דמונות מורכבות עם יותר מאדם אמיתי אחד, באמצעות שימוש בטכניקת אינפיינטינג (Inpainting) ומסכות (Mask). טכניקה זו מתמקדת ביצירת חלקים ספציפיים בתמונה על בסיס מסכה מוגדרת מראש, אותה ניתן ליצור בתוכנות חיצוניות כמו קאנבה (Canva) ואז להעלות ל-Fal. הייחוד בשיטה זו הוא בכך שהוא מאפשר לשלב שתי לורות שונות בתמונה אחת – מה שמוביל לתוצאות מרשימות וריאליסטיות במיוחד. אז איך עושים את זה?

 

המדריכים תמיד חינמיים, אבל אם בא לכם להתמקצע - יש גם קורס לאונרדו, אסטריה ובניית מודלים
קורס לאונרדו, אסטריה ובניית מודלים

 

שלב 1: יצירת תמונת הבסיס

השלב הראשון הוא יצירת תמונה ראשונית שתשמש בסיס לעריכה. נתחיל על ידי כתיבת הנחיה מילולית (prompt) לתיאור התמונה הרצויה, כולל המאפיינים של הדמויות השונות. לדוגמה, פקודה כמו “Two men standing and looking to the camera” תיצור תמונה של שתי דמויות זו לצד זו, מביטות למצלמה.

 

חשוב לציין, במקרים רבים, המודל נוטה לשכפל את הדמות הראשית, ולכן אפשר להוסיף הוראות ספציפיות יותר כגון “One looking left, the other right” כדי למנוע כפילות בלתי רצויה.

 

שלב 2: יצירת המסכה

בכדי לערוך אזור ספציפי בתמונה (שבו נרצה לג’נרט דמות חדשה, המבוססת על לורה אחרת), יש ליצור מסכה שתנחה את המודל באיזה אזור לבצע את השינויים.

להלן השלבים:

  1. השתמשו בתוכנת עריכה כמו קאנבה כדי ליצור מסכה והעלו את תמונת הבסיס לתוך הכלי, כדי לערוך אותה.
  2. בחרו בכלי “צייר” וצבעו בלבן את האזור בו תרצו להחליף את הפנים של הדמות.
  3. השאירו שוליים מסביב לאזור המסומן על מנת לאפשר למודל חופש פעולה.
  4. החליפו את הרקע לשחור כדי להגדיר בהמשך למודל מהו האזור שאנחנו לא רוצים שהוא ישנה בתמונה.
  5. שמרו את המסכה בפורמט PNG תוך הקפדה על שמירה על אותן פרופורציות כמו בתמונת הבסיס.

יצירת מסכה בקאנבה

יצירת מסכה בקאנבה

 

איך מסכה עובדת? 

המסכה משמשת כמפה המנחה את המודל אילו אזורים בתמונה יש לשנות ואילו יש להשאיר ללא שינוי. האזורים הצבועים בלבן במסכה מסמנים את החלקים אותם רוצים להחליף או לעדכן, בעוד האזורים הצבועים בשחור מציינים את החלקים שאמורים להישאר כפי שהם. לדוגמה, כאשר רוצים להחליף דמות מסוימת בתמונה, צובעים בלבן את כל האזור של הדמות הזו. חשוב להותיר שוליים מסביב לאזור הלבן, שכן אלו מספקים למודל חופש פעולה ביצירת התמונה החדשה ומסייעים להבטיח שהתוצאה תיראה טבעית וריאליסטית. השימוש במסכה מאפשר למשתמש שליטה מדויקת בתהליך העריכה, ומסייע להימנע מעריכות ידניות מורכבות.

 

שלב 3: העלאת המסכה לפלטפורמת FAL ובחירה באינפיינטינג

בפלטפורמת FAL, בחרו באפשרות “inpainting” – הכפתור נמצא בחלק העליון של המסך (שנו את Text to Image ל-inpainting). בתוך אפשרות זו תוכלו להעלות את קובץ המסכה.

 

אינפיינטינג ב-Fal

אינפיינטינג ב-Fal

 

להלן השלבים:

  1. טענו את תמונת הבסיס והמסכה: בלשונית Image URL העלו את התמונה המקורית שבה אתם רוצים לשתול פנים של אדם נוסף.
  2. החליפו את הקוד של הלורה: תחת אפשרות Loras הדביקו ב-Path את הקוד של הלורה השנייה (זו שאומנה על פניו של האדם השני – במקרה שלנו – אורי בז’רנו).
  3. הוסיפו פרומפט מילולי: הוסיפו הנחיה שמגדירה למודל בדיוק כיצד הדמויות צריכות להופיע בתמונה המתוקנת, כדי לקבל תוצאה איכותית.

 

לאחר אישור הפקודה, המודל יג’נרט רק את האזור הלבן וייצור שם את הפנים של הדמות השנייה, בעזרת הלורה החדשה.

 

יצירת תמונה עם שתי לורות

יצירת תמונה עם שתי לורות

 

והנה התמונה הסופית, בה ניתן לראות אותי לצד אורי בז’רנו. תמונה שנוצרה עם שתי לורות שונות והובילה לתמונה סופר ריאליסטית ואמינה.

 

אביץ ואורי בז'רנו

אביץ ואורי בז’רנו – Made with AI

 

דגשים להצלחה בתהליך

  • דיוק ביצירת המסכה: המסכה צריכה להיות רחבה יותר מקווי המתאר של הדמות שאתם רוצים לשנות – השארת שוליים מתאימים תאפשר למודל לג’נרט פנים, מבלי להיות מוגבל למבנה וגודל הפנים המקוריות שמתחת המסכה.
  • ניסוח מדויק של הפקודות: ניסוח מעורפל עלול להוביל לתוצאות בלתי צפויות. היו מדויקים ככל האפשר בתיאור התמונה הסופית.
  • שימוש בלורה איכותית: בבניית מודלים ואימון לורות יש חשיבות מכרעת לאיכות חומרי הגלם שעליהם אנחנו מאמנים. חשוב מאוד להקפיד שהדאטה-סט שלכם איכותי (תמונות מגוונות בצולמות בתנאים שונים, זויות שונות, תאורות שונות וכדומה), וכמובן שאיכות ורזולוציית התמונות גבוהות. להרחבה, קראו את המדריך הראשון שלנו ליצירת דמות עקבית.
  • מודלים נוספים: אנחנו אימנו את הלורה שלנו ב-Flux, אך אין זה מחייב – כדאי לדעת שאפשר לאמן לורות על מגוון רחב מאוד של מודלים שזמינים בתוך פלטפורמת Fal.

 

לא רק AI – גם תמונות אמיתיות!

טכניקת שילוב לורות בפלטפורמת FAL אינה מוגבלת רק ליצירת תמונות חדשות מהיסוד, אלא מאפשרת גם השתלת אדם בתמונה קיימת ואמיתית (בעזרת השיטה שהדגמנו במדריך זה). שימוש זה פותח אפשרויות יצירתיות מגוונות – החל מהוספת דמויות חסרות לתמונה קבוצתית ועד לשיפור אלבומי תמונות אישיים. עם זאת, לצד היתרונות הברורים, יש להכיר גם את הסכנות הטמונות בשיטה זו. מאחר שהטכנולוגיה יכולה ליצור דמויות ריאליסטיות ומשכנעות ביותר, היא עלולה לשמש לרעה לשם הפצת תוכן מזויף (Deepfake ו-Fake News) או להטעיית הציבור. הסכנות הללו מדגישות את החשיבות שבהקפדה על שימוש אתי, שמירה על פרטיות וציות להנחיות ברורות בנוגע לזכויות דמויות. מומלץ לוודא תמיד שקוד הלורה והנתונים האישיים של האדם המאומן נשמרים בצורה מאובטחת, ושאין שיתוף ללא הסכמה מפורשת של בעל התמונה.

 

לא תהליך פשוט, אך גם לא מורכב מדי

שילוב שתי לורות בתמונה אחת בפלטפורמת FAL הוא תהליך שאמנם דורש ידע טכני והשקעת זמן, אך אינו מורכב באופן שמצריך מומחיות עמוקה. השיטה מאפשרת להשיג תוצאות אמנותיות וריאליסטיות ברמה גבוהה במיוחד – כאלה שקשה מאוד להגיע אליהן באמצעות כלים סטנדרטיים אחרים. התהליך מחבר בין יכולות מתקדמות של מודלים גנרטיביים בבינה מלאכותית לבין היכולת להעניק לכל תמונה מגע אישי, מדויק ומשכנע.

 

על אף שמדובר בשיטה שכוללת מספר שלבים וכלים – כמו שימוש בתוכנות לעיצוב מסכות ויישום הפקודות בפלטפורמת FAL – היא אינה מסובכת במיוחד. הקפדה על ההוראות בשלבים השונים תאפשר לכל משתמש להפיק תמונות מרשימות ולהרחיב את גבולות היצירתיות שלו. מי שילמד את הטכניקה יגלה עולם חדש של אפשרויות ליצירת תוכן מותאם אישית, שמהווה גשר בין אומנות דיגיטלית לטכנולוגיה חדשנית.

הפוסט איך יוצרים תמונת AI שמשלבת שני אנשים אמיתיים ושתי לורות (LoRA)? הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/two-loras-image-generation/feed/ 0
מודלים רוצים ללמוד – מה זה אומר בעצם? https://letsai.co.il/models-want-to-learn/ https://letsai.co.il/models-want-to-learn/#respond Sat, 31 Aug 2024 18:34:44 +0000 https://letsai.co.il/?p=28304 בעולם הבינה המלאכותית, ישנם מעט אנשים שמצליחים להבין את המורכבות והפוטנציאל הגלום בטכנולוגיה כפי שעושה איליה סוצקבר. סוצקבר, המוח מאחורי ההתקדמות המדהימה של OpenAI, שגם עזב את החברה בסערה השנה, תיאר את ההתפתחות של המודלים במונחים שמתחברים לאמונה ולרצון ללמידה. אך מה בדיוק עומד מאחורי האמירה שלו, “המודלים רוצים ללמוד”? איך האמונה והגישה הזו מתרגמות […]

הפוסט מודלים רוצים ללמוד – מה זה אומר בעצם? הופיע ראשון בLet's AI בינה מלאכותית

]]>
בעולם הבינה המלאכותית, ישנם מעט אנשים שמצליחים להבין את המורכבות והפוטנציאל הגלום בטכנולוגיה כפי שעושה איליה סוצקבר. סוצקבר, המוח מאחורי ההתקדמות המדהימה של OpenAI, שגם עזב את החברה בסערה השנה, תיאר את ההתפתחות של המודלים במונחים שמתחברים לאמונה ולרצון ללמידה. אך מה בדיוק עומד מאחורי האמירה שלו, “המודלים רוצים ללמוד”? איך האמונה והגישה הזו מתרגמות להצלחות מעשיות בשטח? במאמר זה ננסה לפענח את התפיסה הייחודית של סוצקבר ונבחן כיצד היא משפיעה על התקדמות הבינה המלאכותית.

 

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

 

הצצה לחשיבה של איליה סוצקבר

באחד הראיונות, דריו אמודיי, מנכ”ל Anthropic והאיש שעומד מאחורי Claude, סיפר שכאשר הגיע לראיון ב-OpenAI, פגש את איליה סוצקבר, שאמר לו: “תראה, המודלים רוצים ללמוד.” אמירה זו נראית משונה במבט ראשון, אך מבט עמוק יותר חושף גישה חדשנית ומתקדמת לתהליך הלמידה של מודלים גנרטיביים.

 

גישה של אמונה ודחיפה קדימה

בביקורו בישראל ב-2023, איליה סוצקבר התבטא באמירה אחרת שמחברת היטב לאותה גישה: “התקדמות בבינה מלאכותית היא עניין של אמונה, אמונה חזקה יותר מביאה לתוצאות טובות יותר. ככל שאתה דוחף יותר אתה משיג יותר.” על פי פרסומים, איליה (שהיה מעין מנטור לסם אלטמן מנכ”ל OpenAI) טען בפניו שהקפיצה הבאה בתחום מתרחשת כל פעם מתוך ביטחון ואמונה חזקה ביכולת המודלים להשתפר.

 

ביטחון בפיתוח המודלים: גישתו של סם אלטמן

סם אלטמן מציג את הביטחון הזה בהצהרותיו על הפיתוח העתידי של GPT-5 ו-GPT-6. למרות שהשדה מלא באי ודאות, אלטמן מרשה לעצמו להבטיח שהדורות הבאים יהיו חכמים יותר מהקודמים, ואף מציין כי “אנחנו נמצאים בשלב שבו ניתן לקבוע כמעט בבטחה ש-GPT-5 יהיה חכם יותר מ-GPT-4.” גישה זו נובעת מהאמונה שהיכולת שלנו להבין ולנצל את המודלים רק תלך ותשתפר.

איך הכל מסתדר יחד?

הגישה של איליה סוצקבר שמאמינה ש”המודלים רוצים ללמוד” מתארת את המודלים כבעלי יכולת להתפתח כל עוד הם נחשפים לסביבה הנכונה. זה אומר שכל עוד נספק להם מידע מגוון ועשיר, הם ימשיכו להתפתח ולהשתפר. הם יותר דומים למוח האנושי שמתפתח מגירויים ואירועים, ופחות למערכת מכנית שיש לתכנת. כמו שהמוח האנושי לומד דרך חשיפה נכונה למידע, כך גם המודלים ילמדו, ויממשו את הפוטנציאל שלהם אם נמשיך לדחוף אותם לכיוונים הנכונים.

 

זה מתחבר לגישת ההקופסה השחורה”, שאומרת שאנחנו לא באמת יודעים מה קורה מתחת “מכסה המנוע” של מודלי חישוב. אנחנו יודעים לבנות אותם. אנחנו יודעים לאמן אותם, אבל אנחנו לא יודעים באמת איך הם עובדים או איך הם “חושבים”.

 

רק השבוע נחשפנו לשמועות ש-OpenAI משתמת במודל Strawberry (לשעבר Q*) לטובת אימון מודל אחר בשם אוריון. כלומר, כיום ישנת8 מודלים שמאמנים מודלים ולא רק אנשים שמאמנים מודלים.

 

האמונה ככוח מניע

היכולת לראות את הפוטנציאל ולהאמין שהמודלים יכולים להשתפר היא מה שמוביל את ההתקדמות בבינה מלאכותית. איליה סוצקבר וסם אלטמן מאמינים שנמשיך למצוא את הדרכים לשפר את המודלים ולהביא אותם לרמות חדשות של אינטליגנציה ויכולת.

 

עם זאת, כיום שניהם מחזיקים בעמדות דיי מנוגדות. אלטמן מתעדפת פיתוחים מהירים ודראסטיים, ככל הנראה על חשבון בטיחות, בקרה ואחריות, ואילו סוצקבר, לשעבר המדען הראשי של החברה, פרק בדיוק על רקע גישה זו, שלא מתעדפת בטיחות. גישה “לא אחראית” זו (לראייתו) היא מה שדחפה אותו החוצה.

 

בכל אופן, הגישה הזו – לתת למודלים ללמוד – לא רק עוזרת לנו להגיע לתוצאות טובות יותר, אלא גם מניעה את כל התחום קדימה. בעולם שבו הבינה המלאכותית הופכת לחלק מרכזי מחיינו, האמונה היא הכוח שמוביל את החדשנות וההתפתחות. השאלה היא מי מאחורי ההגה, מי שולט בדאטה שהמודל גומע, מי מאמן אותו בפועל ומה יהיו תוצאות אימון זה…

הפוסט מודלים רוצים ללמוד – מה זה אומר בעצם? הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/models-want-to-learn/feed/ 0
הסיכום השבועי של אביץ: דברים עצבניים שקרו השבוע ב-AI https://letsai.co.il/avitz-sikum002/ https://letsai.co.il/avitz-sikum002/#respond Sun, 18 Aug 2024 08:46:28 +0000 https://letsai.co.il/?p=27186 שבוע נוסף עבר ואני רוצה לשתף אתכם בכל מה שקרה בעולם ה-AI בשבוע שעבר. תמצאו פה מודל שפה חדש ומסקרן, מודל וידאו מהיר במיוחד, מבט על ביצת ה-AI ומה שמתרחש ב-OpenAI, גוגל ואנטרופיק. אפילו אילון מאסק יקפוץ לביקור. קדימה – בואו נצלול פנימה…     מודל Flux – האיכות הגבוהה שכולם מדברים עליה השבוע המשיך […]

הפוסט הסיכום השבועי של אביץ: דברים עצבניים שקרו השבוע ב-AI הופיע ראשון בLet's AI בינה מלאכותית

]]>

שבוע נוסף עבר ואני רוצה לשתף אתכם בכל מה שקרה בעולם ה-AI בשבוע שעבר. תמצאו פה מודל שפה חדש ומסקרן, מודל וידאו מהיר במיוחד, מבט על ביצת ה-AI ומה שמתרחש ב-OpenAI, גוגל ואנטרופיק. אפילו אילון מאסק יקפוץ לביקור. קדימה – בואו נצלול פנימה…

 

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

 

מודל Flux – האיכות הגבוהה שכולם מדברים עליה

השבוע המשיך מודל התמונה האיכותי Flux להפציץ ביכולותיו המרשימות. מעבר ליכולת המדהימה של אימון מודל אישי ועריכה (Inpaint), נוספו גם אמצעי שליטה מתקדמים כמו ControlNet. במאמר הבא דורי אדר עשה השוואה מעניינת בינו ובין מידג’רני V6 כדי לנסות ולהכריע מי המלך החדש. התוצאות מפתיעות. ככל שהזמן עובר משתחררים עוד ועוד יכולות עבור המודל המרהיב הזה. עבדכם הנאמן אימן את המודל על תמונות שלו והתוצאות אמינות באופן די מפחיד… התהליך לא מאוד מסובך אבל דורש מעט התעסקות ויש הדרכה טובה של מאט וולף ביוטיוב.

 

 

שבטע שעבר אביתר אדרי פרסם בקהילות שלנו על דרך נוספת לאמן מודלים עם Flux. זה מה שהוא כתב:

 

“בוני המודלים באשר הם – האם ידעתם שב”אסטריה” (Astria) תמצאו גם את Flux! מה שיאפשר לכם לבנות מודלים פסיכיים של עצמכם ולשתול את עצמכם בשלל סיטואציות הזויות. מזכיר שיש לנו קורס בניית מודלים (עם לאונרדו ואסטריה), והוא נכלל כיחידת תוכן גם בתוך הקורס המקיף (ניתן לרכוש אותו בנפרד או כחלק מהמקיף). ופלוס נוסף – כל משתתפי הקורסים שלנו מקבלים קרדיטים חינם ל-Astria (חברה ישראלית מצוינת ומחולל תמונות מבוסס סטייבל).”

 

בניית מודלים עם Flux ב-Astria

בניית מודלים עם Flux ב-Astria

 

מהירות היא שם המשחק! GEN-3 Alpha Turbo

מודל הוידאו GEN-3 Alpha המדהים מגיע במהדורת Turbo שמאפשרת לג’נרט סרטונים קצרים מאוד מהר (יחסית), וגם במחיר זול יותר ואפילו נגיש לכולם. אגב, המודל זמין גם למי שלא משלם (בכמות מוגבלת כמובן). זו חתיכת פריצת דרך כי האיכות פה הייתה חלום עד לפני חודש, ועכשיו זה ממש בהישג יד. אבל חייבים לסייג – תחום הוידאו עדיין תחום קשה, יש המון בעיות בחלק גדול מהיצירות וצריך הרבה סבלנות ושקידה – מי שיש לו את זה, מוציא תוצרים מטורפים. אה כן – וצריך גם חוש יצירתי ודמיון מפותח. לא יזיק. אם אתם רוצים לראות איך הכל מתחבר, ממליץ לכם לצפות בוובינר יצירת סרטים עם AI בהנחיית אביתר אדרי וגיא גוטמן.

 

פה תמצאו סקירה מקיפה על Gen3 alpha – האח הגדול של ג’ן 3 אלפא טורבו.

 

הרמס (Hermes 3) – מודל שפה פתוח שעושה רושם

השבוע יצא מודל שפה חדש בשם Hermes 3, המגיע גם בתצורת 405B פרמטרים. מתברר שהמודל הזה מסתדר מצוין גם עם השפה העברית, מה שהופך אותו לשחקן חדש ומעניין בזירה.

 

קוד וקלוד

קלוד (Claude) ממשיך לככב כהתמכרות מספר אחת. מי שמבין את העוצמה נשאב פנימה. הוא מוכיח את עצמו ככלי עוצמתי ושימושי עבור כל מי שיודע לנצל את כוחותיו, בדגש על מפתחים ויוצרי תוכן. אגב, אם פספסתם את הוובינר המטריף שלנו על קלוד, בהשתתפות עומר הררי, שחר גולן, תום הגלעדי ואביתר אדרי – צפו בו… לא תתאכזבו! הוא ייתן לכם המון רעיונות לקחת את הכלי המטורף הזה 10 צעדים קדימה.

 

ובאותה נשימה – הנה כמה שימושים לא שגרתיים שאפשר לעשות עם קלוד ושסביר שלא חשבתם שהוא יכול לבצע. למשל – עיצוב מסמכים בקלות ובמהירות, וללא שום צורך בתוכנות עיצוב כמו קאנבה או אינדיזיין. הכל במדריך הקצרצר הבא שהעלאתי לאתר לפני יומיים:

 

קלוד יודע גם לעצב מסמכים!

 

אגב, אנטרופיק הוסיפו פיצ׳ר מדהים וחדש לקלוד, שרלוונטי בעיקר למפתחים. יכולת זיכרון מטמון (Prompt caching) לפרומפטים ארוכים במיוחד (או לידע מוקדם שמכניסים למודל בתוך הקונטקסט… איך שתרצו להסתכל על זה). זו אמנם יכולת שגוגל כבר הביאו לפני זמן מה לג׳מיני אבל כולנו אוהבים יותר את קלוד, וזה חתיכת חסכון כספי ליישומים מסוימים. 

 

קצת יותר בהרחבה: הפיצ’ר מאפשר למפתחים לשמור בזיכרון מטמון הקשר שנמצא בשימוש תכוף בין קריאות API. היכולת הזו מפחיתה עלויות עד 90% ומשפרת זמני תגובה עד 85% עבור פרומפטים ארוכים. היא זמינה כעת בבטא עבור המודלים Claude 3.5 Sonnet ו-Claude 3 Haiku, עם תמיכה עתידית ב-Claude 3 Opus. למי זה יכול להתאים?

 

  • סוכני שיחה עם הוראות ארוכות או מסמכי הוראות שמועלים לפלטפורמה.
  • עוזרי קידוד עם גישה לבסיס קוד מסוכם.
  • עיבוד מסמכים גדולים.
  • מסמכי הוראות מפורטים וארוכים לטובת Fine Tune של התגובות של קלוד.
  • שיפור ביצועים בתרחישים הכוללים מספר סבבים של שימוש בכלים ושינויים איטרטיביים, כאשר כל שלב בדרך כלל דורש קריאה חדשה ל-API.
  • אינטראקציה עם ספרים, מאמרים ותוכן ארוך אחר (בקונטקסט גדול במיוחד).

 

סונו: גידול מרשים ללא חדשנות

למרות שסונו (Suno) לא שיחררו שום דבר חדש השבוע, הם הוכרזו כסטארטאפ שצומח הכי מהר בתחום ה-AI. זה תואר מרשים בהחלט, וכנראה מבשר על העתיד הצפוי להם. והנה עוד כמה נתונים מעניינים על מחולל המוזיקה המדהים הזה. הפלטפורמה של סונו שימשה כ-12 מיליון משתמשים בפחות משנה מאז היווסדה. במקביל, החברה גייסה 125 מיליון דולר בסבב מימון, מה שהעלה את שווי החברה ל-500 מיליון דולר! סונו מתכוונת להשתמש בהון שגייסה לטובת האצת פיתוח המוצרים שלה, הרחבת צוות העובדים (כולל יוצרי מוזיקה, חובבי מוזיקה וטכנולוגים), והמשך פיתוח הטכנולוגיה והמודלים של החברה.

 

רוצים הצצה מרתקת אל מאחורי הקלעים של סונו? במאמר שעלה אצלנו בפברואר ראיין ארז רובינשטיין את קינן פרייברג – מייסד שותף בסונו. 

 

ארז רובינשטיין מראיין את קינן פרייברג – מייסד שותף בסונו (Suno)

 

ומה עם סם אלטמן ו-OpenAI? יותר ציפיות מתוצאות

השבוע, למרות הציפיות הרבות, OpenAI לא סיפקו שום דבר מרגש במיוחד. היה הייפ סביב נושא התותים, אך בינתיים לא הגיעו תוצאות מיוחדות. אם אתם לא בלופ ועדיין לא מבינים מה הקשר בין תותים, צירוף האותיות והתווים Q ו-*, ציוצים בטוויטר וסנאי – ממליץ לכם לקרוא את המאמר המרתק של עומר הררי, שעוסק בחרושת השמועות על המודל המפלצתי שאלטמן בונה במרתפי החברה.

 

פרויקט Q* (Strawberry) של OpenAI – כל מה שידוע עד כה

 

גוגל: חידושים בתחום החומרה והתוכנה

גוגל דווקא כן שיחררו כל מיני דברים מעניינים. הם הציגו את יכולות ה-AI במכשיר החדש שלהם ״פיקסל 9״. תוכלו לדבר עם ג’מיניי ישירות דרך המכשיר הנייד ולבקש ממנו לעזור לכם לעשות שופינג, ליצור תמונות, ואף לכתוב מיילים (אפילו בסגנון שייקספיר אם מסיבה לא ברורה זה משהו שתרצו לעשות). יכולות עיבוד התמונה והוידאו של המכשיר יוכלו להמליץ לכם על מתכונים, לאור המוצרים הזמינים במקרר שלכם (האם יצא טעים או לא – על אחריותכם בלבד). יכולות חיפוש מתקדמות ואינטואיטיביות, מצלמה מתקדמת עם יכולות אינפיינטינג וריטוש תמונות מובנות. שכחתם להוסיף את החברה לתמונה שבדיוק הלך לשירותים? פיצ’ר חדש יאפשר לכם להוסיף אנשים לתמונות גם לאחר שהתמונה צולמה.

 

החברה גם השקיעה בסרטון השקה מבדר במיוחד – ממליץ לכם לצפות בו.

 

 

האם באמת כל ההבטחות “מחזיקות מים”? עם המוניטין של גוגל אין לדעת, אבל דבר אחד בטוח – הם יודעים לייצר טלפונים חכמים מצוינים, כך שיש מצב שה”פיקסל 9″ יהיה אחלה סמארטפון.

 

גוגל גם שיחררו לעולם (בארה״ב כרגע) את מודל התמונה הלא פראייר שלהם Imagen 3. בסרטון הזה תוכלו לראות דוגמאות לתוצרים של המודל המעניין הזה, וגם הצצה לאופן בו הוא עובד. 

 

 

פה תמצאו עוד מידע על Imagen3, ואם יש לכם VPN, תוכלו להתנסות בו באתר הבא (שכן הוא לא זמין בישראל בעת הזו).

 

גוגל גם הנחיתו מחירים ל Gemini Flash וסה״כ ממשיכים להרביץ עבודה (אם כי נהנים ממוניטין נמוך עדיין). במרוץ ה-AI לגוגל יצא שם רע, אבל הם עושים מאמצים כבירים כדי לשחרר טכנולוגיות חדשות ומוצרים מעניינים. אני מוכן לתת להם צ’אנס.

 

 

אילון מאסק והבלאגן של גרוק 2

כרגיל, אילון מאסק מצליח לעשות בלגן – הפעם מדובר בשחרור מודל גרוק 2 (למשלמים) ברשת X (לא להתבלבל עם Groq – זה משהו אחר). המודל מייצר תכנים ללא צנזורה ואף תמונות המבוססות על Flux.

 

ואם כבר מדברים (שוב) על Flux, שימו לב לתמונה הבאה: קפצתי לביקור מול נחל ערוגות – תצפית מאזור פני קדם. טוב נו… לא באמת. נראה לכם שמישהו יכול לצאת מהבית בימים טרופים אלה?! מזל שיש את Flux.

 

אביץ מג'ונרט ב-Flux

אביץ מג’ונרט ב-Flux

 

 

 

 

 

הפוסט הסיכום השבועי של אביץ: דברים עצבניים שקרו השבוע ב-AI הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/avitz-sikum002/feed/ 0
קלוד יודע גם לעצב מסמכים! https://letsai.co.il/claude-design/ https://letsai.co.il/claude-design/#respond Fri, 16 Aug 2024 04:00:14 +0000 https://letsai.co.il/?p=26893 האם ידעתם שקלוד מסוגל לייצר טבלאות, גרפים ואף לעצב מסמכים? כן כן – שמעתם נכון! לא עוד שעות ביזבוז שעות מיותרות על עיצוב מסמכים – כעת, בעזרת מודל השפה המטורף של אנטרופיק – Claude – תוכלו ליצור מסמכים מעוצבים בצורה מקצועית תוך דקות, עם שליטה מלאה על התוצאה הסופית – והכל בחינם, ללא תוכנות מורכבות […]

הפוסט קלוד יודע גם לעצב מסמכים! הופיע ראשון בLet's AI בינה מלאכותית

]]>
האם ידעתם שקלוד מסוגל לייצר טבלאות, גרפים ואף לעצב מסמכים? כן כן – שמעתם נכון! לא עוד שעות ביזבוז שעות מיותרות על עיצוב מסמכים – כעת, בעזרת מודל השפה המטורף של אנטרופיק – Claude – תוכלו ליצור מסמכים מעוצבים בצורה מקצועית תוך דקות, עם שליטה מלאה על התוצאה הסופית – והכל בחינם, ללא תוכנות מורכבות וללא שום ידע מקדים בעיצוב!

 

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

 

צפו בסרטון ההדגמה המלא שהכנתי וגלו עד כמה זה קל ופשוט

 

פיצ’ר שקט עם השפעה עצומה

בעולם שבו יש לא מעט כלים לעיצוב מסמכים, פתאום מגיע פיצ’ר שכביכול נראה צדדי, אבל למעשה יכול להפוך לכלי פרקטי במיוחד לכל בעל מקצוע. עם המעבר לקלוד 3.5 סונטה באמצע יוני 2024, חברת Anthropic הוסיפה ל-Claude יכולת מדהימה לעצב מסמכים ברמה גבוהה בעזרת קוד HTML ו-CSS. הכלי, שמציע גם תמיכה מדהימה בעברית, מאפשר לכם להמשיך ולעבוד עם התבנית שנוצרה עבורכם גם בעתיד, מה שמביא לחיסכון אדיר בזמן ומשאבים.

 

איך זה עובד?

התהליך פשוט להפליא:

יצירת הסקיצה:

  • התחילו עם מסמך ברמת סקיצה כללית. זה יכול להיות טקסט פשוט שאתם רוצים לשדרג ולעצב בצורה מקצועית.
  • העלו אותו לקלוד או העתיקו והדביקו את הטקסט בתוך חלונית הפרומפט.

שימוש ב-Claude

  • בקשו מ-Claude לעצב את המסמך שלכם (להמחשה, צפו בסרטון מעלה). תוכלו להגדיר לו את סגנון העיצוב, צבעים, פונטים וכל פרט שתרצו. 
  • לדוגמה, היעזרו בפרומפטים בסגנון הזה: “הפוך את הטקסט הבא למסמך HTML והשתמש בכל הכישרון שלך כדי לעשות את זה מרשים, מיוחד ויפה, עם ויזואליזציה, תרשימים וגרפים מאוד יפים“. אני אפילו הוספתי “סומך עליך” למרות שממש לא חובה.

שיפורים והתאמות:

  • אפשרו ל-Claude לבצע שיפורים נוספים לפי הדרישות שלכם. אתם יכולים לשחק עם הקוד, לשנות פרטים ולהתאים את התוצאה לצרכים המדויקים שלכם.
  • הוסיפו תמונות או לוגואים על ידי שיתוף ה-URL של התמונות. בסרטון אני מדגים איך אני מעתיק לינקים של תמונות מהרשת, אך כמובן שעליכם לוודא שיש לכם זכויות יוצרים על התמונות. ניתן כמובן להעלות את התמונות ישירות לקלוד.
  • השתמשו בפרומפטים כמו “תייפה את המסמך” או “הוסף שוליים” כדי לדייק את התוצאה.

 

קלוד יודע גם ליצור גרפים או לעצב מסמכים

קלוד יודע גם ליצור גרפים או לעצב מסמכים

שמירה והמשך עבודה:

  • התבנית ש-Claude ייצור עבורכם לא מוגבלת. תוכלו לשמור אותה ולהשתמש בה שוב בעתיד לכל מסמך חדש שתיצרו.
  • בחלונית ה-Artifacts (שמופיעה מצד ימין של המסך) תוכלו ללחוץ על Publish ואז לשתף את הלינק לתבנית הקוד שקלוד יצר עבורכם.
  • היעזרו גם בכפתור ההורדה ושמרו את המסמכים על המחשב. 
  • ניתן גם לפתוח את הקובץ שקיבלתם בדפדפן וללחוץ על Ctrl+P (הדפסה), ולשנות את ההגדרות ל-Save as PDF, ותוך רגע יש לכם מסמך PDF מעוצב.

 

 

יתרונות ברורים לכל בעל מקצוע

– פשטות ומהירות: בתוך דקות, תקבלו מסמך מעוצב ברמה מקצועית.
– שליטה מלאה: אתם קובעים את סגנון העיצוב, ומקבלים בדיוק את מה שאתם רוצים.
– תמיכה בעברית: אין צורך להתפשר על העיצוב בגלל בעיות תמיכה בשפה.
– גמישות והתאמה אישית: כל עיצוב שנוצר ניתן לשינוי והתאמה נוספת.

 

למה לא כולם מדברים על זה?

אנחנו בתעשיית ה-AI עפים על הכלי הזה (קלוד) ועל הפיצ’ר הזה (Artifacts), אבל בחוץ רבים עדיין לא מבינים את המהפכה שקורית פה! ייתכן שהפיצ’ר הזה עדיין לא קיבל את תשומת הלב הראויה לו, אבל זהו כלי שיכול לשנות את אופן העבודה שלכם. בעוד רבים מחפשים פתרונות בעיצוב ב-Canva או Designer של מיקרוסופט, קלוד מציע פתרון אחר, מבוסס שיח טבעי עם מודל שפה, עם יכולת ליצירת עיצובים מותאמים אישית לחלוטין, שיכולים לשמש אתכם שוב ושוב.

 

הכלי הזה מצוין לכל אחד – בין אם אתם סטארטאפיסטים, פרילנסרים, מורים, או כל בעל מקצוע אחר שצריך להציג תוכן בצורה מרשימה. קלוד כאן כדי להקל עליכם, לחסוך לכם זמן ולתת לכם את הכלים ליצירת מסמכים שאי אפשר להתעלם מהם. עם שליטה מלאה על התוצאה ותמיכה בעברית, קלוד מביא את יכולות העיצוב לרמה חדשה. אז למה אתם מחכים? נסו את הכלי החדש והפכו כל מסמך שלכם למשהו מיוחד.

 

 

הפוסט קלוד יודע גם לעצב מסמכים! הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/claude-design/feed/ 0
סיכום שבועי: התפתחויות משמעותיות בתעשיית ה-AI בשבוע (וקצת) האחרונים https://letsai.co.il/sikum-avitz/ https://letsai.co.il/sikum-avitz/#respond Sun, 04 Aug 2024 14:38:38 +0000 https://letsai.co.il/?p=26052 סיכום חדשות מהשבוע שחלף בעולמות הבינה המלאכותית. אין ספק שהיה שבוע היה עמוס באירועים ובחידושים מרתקים בתעשיית ה-AI. הנה סקירה מקיפה על ההתפתחויות הבולטות ביותר. אפשר לסכם את השבוע (וקצת) הזה במשפט הבא: כשב-OpenAI מאיטים, הקוד הפתוח (והסינים) מאיצים.     מודלי וידאו: הקצב גובר בשבועות האחרונים OpenAI שחררו טיפין טיפין עוד טיזרים ממודל הוידאו […]

הפוסט סיכום שבועי: התפתחויות משמעותיות בתעשיית ה-AI בשבוע (וקצת) האחרונים הופיע ראשון בLet's AI בינה מלאכותית

]]>

סיכום חדשות מהשבוע שחלף בעולמות הבינה המלאכותית. אין ספק שהיה שבוע היה עמוס באירועים ובחידושים מרתקים בתעשיית ה-AI. הנה סקירה מקיפה על ההתפתחויות הבולטות ביותר. אפשר לסכם את השבוע (וקצת) הזה במשפט הבא: כשב-OpenAI מאיטים, הקוד הפתוח (והסינים) מאיצים.

 

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

 

מודלי וידאו: הקצב גובר

בשבועות האחרונים OpenAI שחררו טיפין טיפין עוד טיזרים ממודל הוידאו הבאמת מדהים שלהם Sora. הם הודיעו שהם נוקטים כעת באסטרטגיה זהירה ושישחררו את המודלים העוצמתיים שלהם בהדרגה. הטכנולוגיה שהם הציגו היא באמת בפער משמעותי מעל השאר, ולכן הם יכולים להרשות את זה לעצמם. אבל לא ברור לעוד כמה זמן.
.

 

 

כי בינתיים מודלי וידאו נוספים נפתחים לציבור ורק השבוע ראינו את קלינג (Kling), מודל הוידאו הסיני, נפתח לציבור הרחב.

 

בנוסף, Gen-3 Alpha של RunwayML הציג יכולת חדשה של “תמונה לוידאו”, אשר מהווה פריצת דרך בתחום (תכונה זו הייתה מורגשת בחסרונה עד כה, והייתה זמינה רק ב-Gen2).

 

מודל וידאו סיני נוסף בשם Vidu נכנס לשוק.

 

 

פה תוכלו לראות סרט אנימציה קצר שנוצר ב”וידו” על ידי Ainimate Lab, בשיתוף עם Vidu. בעולם של קרח ושלג, דוב קוטב נחוש יוצא למסע יוצא דופן על פני הגלובוס, מתמודד עם אינספור אתגרים בדרך להעביר מתנה מיוחדת – כך כתבו בחשבון היוטיוב של החברה על הסרטון המקסים הזה.

 

 

 

מודלי שפה: מטא שואפת לפסגה

בתחום מודלי השפה יש התפתחות מואצת, בעיקר הודות למטא (Meta), שהפתיעה בשחרור המודל הפתוח החזק ביותר כיום – Llama 3.1 (לאמה 3.1 405B), לצד עוד שני מודלים קטנים מאותה סדרה. אלה מבטיחים תרומה משמעותית לעולם הקוד הפתוח עם השפעות לטווח הארוך.

 

 

ואם כבר מדברים על וידאו ומטא, השבוע Meta שחררו לקוד הפתוח מודל סגמנטציה לוידאו ברמה מאוד גבוהה. הוא נקרא SAM-2. כלומר הוא יודע לבודד אובייקט מסוים מתוך הסרטון, מה שמאפשר אחר כך תהליכי עבודה שונים כמו מחיקה של האוביקט, טישטוש, הבלטה מהרקע ועוד. תעשיית האפקטים צריכה בדיוק את כלי שכזה, ועכשיו כשהוא כאן, פעולות אלו הופכות מהירות וקלות מתמיד. בנוסף על המודל הם גם שיחררו חצר משחקים כיפית, בה תוכלו לנסות את המודל גם על סרטונים שלכם ולייצר מהר מאוד אפקטים מעניינים. בינתיים זה חינם!

 

סרטון התדמית ל-sam2 שפרסמה Meta.

Credt: sam2.metademolab.com

 

מוזיקה ובינה מלאכותית: Udio מתחדשת

נעבור לתחום המוזיקה, שהתפתח המון בחודשים האחרונים. Udio השיקה את גרסה 1.5 בסוף השבוע שעבר. מעבר לשיפורים כלליים, נוספה לכלי המדהים הזה יכולת מאוד מעניינת של רמיקס, אשר זמינה גם לקבצי אודיו שלכם (שאתם מעלים לכלי). התכונה זמינה גם עבור הקלטות באורך של עד 2:10 דקות. למרות שעדיין יש חולשה בתמיכה בעברית, השדרוג הזה מעניין מאוד ומציע אפשרויות יצירתיות חדשות למשתמשים.

 

הפרדת ערוצים (Stems) ב-Udio.

 

תמונות ובינה מלאכותית: פריצות דרך מרגשות

מידג’רני השיקו את גרסה 6.1, אך המהפכה האמיתית הייתה בחברת Dark Forest Labs שהוקמה על ידי יוצאי Stability AI. החברה השיקה סדרה של שלושה מודלים בשם Flux, כאשר שניים מהם פתוחים לציבור וכוללים מודל מהיר במיוחד בשם Schnell (שזה כמובן ׳מהר׳ בגרמנית), המסוגל ליצור תמונה תוך שנייה בודדת, ובעלות של 0.003 דולר בלבד. כלומר תוכלו ליצור 333 תמונות בעלות של דולר בודד. כל זה דרך API באתרים כמו Replicate או fal.ai, או דרך שירות שלהם. נסו את Flux Schnell ב-Replicate.

 

אבל מכיוון שהמודל הוא קוד פתוח, הוא יכול לרוץ גם על מחשב שלכם בהינתן חומרה טובה מספיק, ולהשתלב בתהליכי יצירה עם Comfy UI (הם כבר שיחררו את הרכיב לקומפי). המודל החזק ביותר שלהם בגירסת Pro אינו ניתן להורדה, אלא רק לקריאה ב-API. הוא עולה 5 סנט לתמונה ודורש יותר זמן, אבל התוצאות באמת מדהימות!

 

עוד חדשות מעניינות בתחום התמונה: קאנבה (Canva) רכשה את לאונרדו (Leonardo AI), פלטפורמת יצירת תמונות שמבוססת ברובה על קוד פתוח, אבל לאחרונה פיתחה מודל מאוד איכותי שלהם, מאפס, בשם ״פניקס״. מודל מדויק מאוד, שיוגע לג’נרט טקסט (באנגלית), וגם מאפשר עריכה בעזרת הנחיות טקסטואליות. ככל הנראה אנחנו נראה אותו בקרוב בתוך קאנבה, וזה שידרוג ענק!

 

במקביל חברת Krea הודיעה שיכולת יצירת תמונה באתר שלהם תאמץ בקרוב את Flux מה שיביא גם כן לשיפור משמעותי.

 

קול ובינה מלאכותית: OpenAI ממשיכים להתוות את הדרך

ובתוך כל זה, OpenAI התחילה השבוע לשחרר גישה למודל הקולי המתקדם שלה. הדמואים המרהיבים הופכים לשיתופים של משתמשים אמיתיים וזה בהחלט שומט את הלסת. יש גם כמה דוגמאות יפות בעברית. ובנוסף SearchGPT, תכונת חיפוש ג’נרטיבית שתוטמע ישירות בתוך ChatGPT גם החלה להגיע לחלק מהמשתמשים. התרשמויות בהמשך.

הפוסט סיכום שבועי: התפתחויות משמעותיות בתעשיית ה-AI בשבוע (וקצת) האחרונים הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/sikum-avitz/feed/ 0
עשו לנו קטע – האם GPT-4o הוא בעצם GPT-5?! https://letsai.co.il/gpt-4o-is-gpt5/ https://letsai.co.il/gpt-4o-is-gpt5/#comments Mon, 13 May 2024 22:55:20 +0000 https://letsai.co.il/?p=19599 דמיינו לעצמכם רגע: מודל חדשני שמביא עימו מהפכה טכנולוגית בקנה מידה שלא הכרנו. GPT-4o הוא לא רק שם חדש אלא פריצת דרך מהותית הכוללת טוקנייזר יעיל פי 2.2 בעברית, מולטי־מודאליות אמיתית ויכולות מתקדמות שלא היו בקודמו. אז למה OpenAI לא קראו לו GPT-5? ומה המשמעות של השדרוגים האלה לעתיד הבינה המלאכותית? במאמר זה נצלול לעומק […]

הפוסט עשו לנו קטע – האם GPT-4o הוא בעצם GPT-5?! הופיע ראשון בLet's AI בינה מלאכותית

]]>
דמיינו לעצמכם רגע: מודל חדשני שמביא עימו מהפכה טכנולוגית בקנה מידה שלא הכרנו. GPT-4o הוא לא רק שם חדש אלא פריצת דרך מהותית הכוללת טוקנייזר יעיל פי 2.2 בעברית, מולטי־מודאליות אמיתית ויכולות מתקדמות שלא היו בקודמו. אז למה OpenAI לא קראו לו GPT-5? ומה המשמעות של השדרוגים האלה לעתיד הבינה המלאכותית? במאמר זה נצלול לעומק השיקולים של OpenAI, נבין את המגמות המובילות של הטכנולוגיה החדשה ואת החזון של התקדמות הבינה המלאכותית בשנים הקרובות. הצטרפו אלינו למסע מרתק בעולם ה־AI.

 

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

 

עשו לנו קטע

בעצם GPT-4o הוא מודל חדש. לגמרי.

יש לו טוקנייזר חדש בעברית היעיל פי 2.2 מהקודם! יש לו מולטי־מודאליות אמיתית שלא הייתה בקודמו, ועוד הרבה מעבר.

 

חלפה שנה – מה נשתנה?

למען האמת, עברה יותר משנה מאז GPT-4; זה אומר ש־OpenAI בקלות היו יכולים לתת לו את השם GPT-5 או GPT-4.5, וזה היה מקובל. אבל הם בחרו לתאר אותו כ’שלוחה’ של GPT-4 למרות שזה לא נכון ברמה הטכנית.

 

למה לא לקרוא לזה GPT-5

למה? כי הסיפור של OpenAI כרגע הוא שכל מודל חדש צריך להיות ‘הרבה יותר חכם’ מקודמו. ריבוי יכולות וכל מיני פיצ’רים מגניבים זה לא נחשב. סם אלטמן הכריז קבל עם ועולם ש־GPT-5 יהיה הרבה יותר חכם מ־GPT-4, אבל בה בעת הוא אמר שאין צפי ברור מתי GPT-5 יצא. במילים אחרות: “כשנגיע למודל הרבה יותר חכם מ־GPT-4, נקרא לו GPT-5; עד אז נמשיך להוסיף כל מיני אותיות בסיום של GPT-4.”

גישה מעניינת. אבל חשובה. לא רק ברמה השיווקית. גם מבחינת המטרה שהחברה שמה לעצמה. ההבנה היא ש־AGI זה בינה מלאכותית מאוד מאוד חכמה. ו־OpenAI ‘מרשה לעצמה’ לציין התקדמות רק כאשר היא מתקרבת אל היעד הזה. לעומת זאת, ודאי שהמודל שהיא השיקה כרגע, שמפגין יכולות קוליות יוצאות דופן (ולמעשה טכנולוגיה חדשה לגמרי), הוא עוד צעד בדרך ל־AGI אבל זה לא התקדמות דרך ה’ליבה’ אלא דרך יכולת.

 

 

התאוריה שלי בנוגע לחסך בדאטה שמונע התקדמות אל עבר ה־AGI הנכסף

התאוריה שלי, המסתמכת גם על דברים של יאן לה־קון, היא שכרגע מאוד קשה ליצור מודלים הרבה יותר חכמים כיוון שיש לנו חסך בנתונים מסוג חדש. אם כן, ייתכן שהחידוש של סייען קולי יוביל לאיסוף דאטה חדש שבסופו של דבר יאפשר גם את GPT-5 שכאשר ‘נמצא אותו’, הוא יתגלה. התאוריה שלי היא כזו – מה שעוצר היום בינה מלאכותית מלקבל החלטות נבונות בעולם האמיתי הוא מחסור בדאטה קונקרטי על החיים שלנו בעולם האמיתי. קריאת טקסטים, תיאורים כלליים, האזנה לשיחות וצ’אטים וצחקוקים ברשתות החברתיות – זה לא מספיק בשביל לפעול כאן ועכשיו ולקבל החלטות נכונות מספיק. ולכן מה שבינה מלאכותית צריכה יותר מכל כדי להיות ממש מוטמעת בחיים שלנו, הוא מספיק דאטה על ההתנהלות שלנו בחיים.

לא אמרתי משהו חדשני, אני יודע. אבל…

 

תחזית על השלב הבא של טכנולוגיות המוטמעות בחיי היום־יום

זה הולך לקרות כך –

תזכרו טוב טוב את מה שאני אומר. הינה אני כותב את זה, ויש סיכויים גבוהים מאוד שזה מה שהולך לקרות: השלב הבא הוא שהטכנולוגיה תהפוך לחלק אינטגרלי משמעותי בהרבה בחיים שלנו. קחו את ‘מהפכת הסמארטפון’ ותכפילו פי 10. מה זה אומר? שגישה לידע, כלים, טכנולוגיה, אפשרויות – הכול יוטמע בחיי היום־יום שלנו באופן עמוק. בינה מלאכותית קולית (סייען אמיתי, ע”ע Her מה ש־OpenAI הציגו היום, ועוד נרחיב על זה, ולמה זה כל כך דרמטי ושונה ממה שהיה עד עכשיו) שתהיה צמודה לאוזן שלנו 24/7 למעשה תנחה אותנו בכל צעד ושעל ותחבר אותנו לידע עלינו, על הסביבה שלנו, על זיכרונות שלנו לרבות ניתוחים מקצועיים לכל מה שקורה איתנו.

 

זה מה שיוביל לחזון שעובדים עליו הרבה שנים, והוא לא קורה: טכנולוגיה לבישה. הטכנולוגיה תהיה ממש חלק מהגוף שלנו, לצורך העניין (זה ממש בשנים הקרובות, לא משהו רחוק). בראש ובראשונה זה יקרה כי נפיק מזה ערך משמעותי ונרצה בזה. וזה לא יעמיס עלינו עוד טרחה ועוד מכשיר או אביזר מיותר.

 

איך טכנולוגיה לבישה תספק את הדאטה הדרוש להתקדמות הבינה המלאכותית? ובכן, הטכנולוגיה הלבישה, יותר משתעזור לנו, תעשה דבר נוסף – היא תאסוף את המידע מכל מה שמתרחש בעולם ובחיים ובממשק שלנו איתם.

 

המדריכים תמיד חינמיים, אבל אם בא לכם להתמקצע - יש גם קורס AI בינה מלאכותית למנהלים ובכירים
קורס ai למנהלים

 

עיקרון נוסף – יצירת מודלים חדשים מדאטה חדש

ועכשיו נסביר עוד עיקרון – המודלים הגנרטיביים היום מתפתחים בכל שדה שבו יש לנו כר פורה ומשמעותי של נתונים. סונו ומודלים דומים שיוצרים מוזיקה, אפשריים בגלל שיש לנו את ספוטיפיי (דאטה שמצמיד קול למילים בטקסט, ותיוגי סגנון). המודל ויגל שיוצר ריקודים מצחיקים אפשרי בגלל שיש לנו את טיקטוק. בלעדיהם לא היה אפשר לאמן את המודלים. בכוונה נתתי 2 דוגמאות טיפה נישתיות כי ברור שיש לנו תמונות, טקסטים ונתונים בכמויות מזה שנים. אבל ההפתעה היא דאטה ‘שמגיח’ בזכות הרגלים של בני אדם המשתמשים בטיק־טוק, בספוטיפיי ועוד; אלה דברים שלא היו קורים לולי הסמארטפון.

 

כל מציאות חדשה של הרגלים המוניים יכולה לאפשר הצטברות של דאטה חדש = מודלים חדשים. במקרה שלנו: טכנולוגיה לבישה שנשלטת דרך מחוות הידיים שלנו, תנועות העיניים שלנו, אולי אפילו המחשבות שלנו במידה מסוימת – כל זה אומר שהמידע של תנועות העיניים שלנו, מחוות הידיים וההתנהגות של העולם החיצוני בהתאם – ייאספו לדאטה. זו המגמה.

 

מה צופן לנו העתיד עם התקדמות הבינה המלאכותית

השלב הבא הוא מודלים שמאומנים ממילא על כל הקשרים הללו: יכולות התמצאות והתנהלות אמיתית בעולם, החוליה החסרה היום כדי להטמיע בינה מלאכותית דרך רובוטים או אמצעים אחרים בתוך העולם הפיזי. מה זה יעשה לנו? גם אנחנו נהנה מהתוצרים, בוודאות. מה שיקרה הוא מה שקורה היום עם Waze – מצד אחד אנחנו מתנוונים ופחות מבינים בניווט ובמה שקורה בדרך; מצד שני אנחנו מסונכרנים ויעילים יותר. מה שקורה כשאנחנו יושבים מאחורי ההגה היום, יקרה בכל צעד ושעל בחיים. אנחנו נתנהל באופן מסונכרן יותר כאנושות. בתור יחידים ייתכן שנהיה מנוונים יותר אבל נהיה מתוגברים מאוד בידע וביכולות של התמצאות במרחב ובזמן בצורה הרבה יותר רחבה מהחלון הצר שאנחנו תופסים בדרך כלל. זה יאפשר לנו גם לרקום שיתופי פעולה מוצלחים יותר ולהתקדם במחקר משותף או ביצירה משותפת בצורה טובה יותר. זה תמיד מעגל כזה שיש בו הריסה ובנייה.

 

האם צריך להתחיל לפחד?

אני קצת מתחיל לפחד. נכנס בי פחד מסוים מהסיפור הזה. אני צריך עוד להרהר על זה. הבינה המלאכותית המתפתחת ושילובה האינהרנטי בחיינו עשויים לשנות את המציאות היום־יומית של כולנו באופן דרמטי, לטוב ולרע. מצד אחד, יש הבטחה לחיים יעילים, מסונכרנים ומחוברים יותר עם גישה לידע ולכלים בכל רגע נתון. מצד שני, יש חשש מאובדן העצמאות, מהתלות ההולכת וגוברת בטכנולוגיה ומהשפעות בלתי צפויות על החברה והתרבות. אנחנו עומדים בפני עתיד שבו הגבולות בין האדם לטכנולוגיה מיטשטשים, וזה מעלה שאלות מוסריות ואתיות רבות. איך נתמודד עם האתגרים האלה? האם נוכל לשמור על זהותנו האנושית בעידן של בינה מלאכותית מתקדמת? התחושה הזאת של פחד ואי־ודאות היא טבעית, ומזמינה אותנו לחשוב לעומק על הכיוונים שאליהם אנו הולכים, וכיצד נוכל לנווט בהם בצורה אחראית וחכמה.

 

 

הפוסט עשו לנו קטע – האם GPT-4o הוא בעצם GPT-5?! הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/gpt-4o-is-gpt5/feed/ 2
צילומי אוכל במידג׳רני עם Character Reference https://letsai.co.il/character-reference-midjourney/ https://letsai.co.il/character-reference-midjourney/#respond Sun, 14 Apr 2024 18:19:55 +0000 https://letsai.co.il/?p=15114   מידג׳רני (Midjourney) ממשיך להיות כלי AI מוביל! וזה מפתיע לאור העובדה שמדובר בחברה קטנה המונה כ־40 עובדים, ואין לה משקיעים חיצוניים, ובכל זאת זוהי חברה רווחית (בין היחידות כנראה בתחום ה־AI). לאחרונה החברה הוסיפה כלי חדש: פרמטר בשם Character Reference (–cref) שנועד לעזור למשתמשים לייצר דמות עקבית בתמונות שונות, אבל מתברר שהוא גם מאפשר […]

הפוסט צילומי אוכל במידג׳רני עם Character Reference הופיע ראשון בLet's AI בינה מלאכותית

]]>
 

מידג׳רני (Midjourney) ממשיך להיות כלי AI מוביל! וזה מפתיע לאור העובדה שמדובר בחברה קטנה המונה כ־40 עובדים, ואין לה משקיעים חיצוניים, ובכל זאת זוהי חברה רווחית (בין היחידות כנראה בתחום ה־AI). לאחרונה החברה הוסיפה כלי חדש: פרמטר בשם Character Reference (–cref) שנועד לעזור למשתמשים לייצר דמות עקבית בתמונות שונות, אבל מתברר שהוא גם מאפשר להחיל מאפיינים קיימים על תמונה חדשה ולשמור על מבנה של אלמנטים שאינם דמויות (כמו למשל סלט ירקות).

 

הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלי חדש שיוצא.

ממליצים לכם להצטרף גם לקהילות ה־AI של LetsAI בוואטסאפ ובטלגרם. רוצים לשמוע על הקורסים וסדנאות ה־AI שלנו? לחצו פה.

 

 

מה זה Character Reference? 

בדומה ל’סטייל רפרנס‘ (–sref) ששומר על סגנון עקבי, הפרמטר החדש (שהיה צפוי שיגיע) Character Reference עוצמתי במיוחד! מלבד היותו כלי לשמירה על עקביות בג’ינרוט דמויות הוא מאפשר גם לשמור על עקביות של מאפיינים בתמונות. הכלי מאפשר לאמץ קווי אופי של דמות המופיעה בתמונה שאתם מכניסים או בתמונה שיצרתם בעבר, ולהחיל אותם על התמונה החדשה. זה נותן לנו המון שליטה שחסרה לנו עד עכשיו, לא רק על דמויות אנושיות אלא גם על חפצים דוממים כמו למשל הסלט שבתמונה המופיעה מטה.

 

איך הכלי החדש עוזר לנו? 

תארו לעצמכם בעל מסעדה שרוצה צילומים מקצועיים למנות שלו. אין בעיה. הוא מצלם את המנה עם מצלמת הטלפון שלו, מעלה למידג׳רני, עובד ב־Character Reference, מייצר פרומפט מאוד בסיסי בסגנון ‘צילום אוכל מקצועי של סלט‘, והופ! יש לו תמונה של הסלט שלו בסגנון החדש שהוא רוצה וצריך. נכון, לפעמים יש פשלות כמו גזר שצץ בטעות או עלים סגולים, אבל קל יחסית לתקן את זה באמצעות פרומפט שלילי (מה לא לכלול בתמונה; רושמים בעזרת הפרמטר –no) או במחיקה עם כפתור האינפיינטינג vary region (או בעריכה חיצונית עם כלים כמו הקנבס של לאונרדו או פוטושופ ג’נרייטיב פיל).

 

לדעתי, נכון להיום מידג׳רני הוא מחולל התמונות הכי מרהיב, מפורט ואיכותי שיש בשוק. הוא השתפר מאוד בהקשבה לפרומפט בגרסה 6 ונפתח למגוון עצום של וריאציות וסגנונות (נוסף לתכונות כמו weird ו־chaos). נוסף על כך יש לו כלי שליטה מדהימים (עריכה מקומית, רפרנס סגנון, רפרנס דמות, וריאציה ׳חזקה׳ וקונטרולנט בקרוב). והכי חשוב: הוא יוצא מדיסקורד לממשק ווב אלגנטי וקל להפעלה! (עדיין לא זמין לכולם). 

 

דוגמאות

הינה שתי דוגמאות יפות לשימוש ב־Character Reference:

 

וריאציה לסלט עם CREF

1) תמונת סלט שנעשית מקצועית בלחיצת כפתור (זקוקה למעט תיקונים אבל הכיוון בהחלט עובד). מאפייני הסלט נשמרים בזכות Character Reference.

 

הפרומפט שבו השתמשתי:

 

professional food photography of salad –cref https://s.mj.run/jnWnt0cYEXA

 

סלט ירקות עם CREF

תמונת סלט שנעשית מקצועית בלחיצת כפתור באמצעות Character Reference

 

וריאציה נוספת שאהבתי (מידג׳רני קלסי במקרה הזה, אבל מגניב שזה מתקבל מייד ובקלות:

 

וריאציה נוספת של הסלט במידג׳רני

וריאציה נוספת של הסלט במידג׳רני

 

אותנטיות עם CREF

2) תמונה של זוג נחמד בבית קפה. נראית אותנטית יחסית בזכות הסגנון הספציפי והלא קלסי של הדמויות ובזכות Character Reference.

 

הפרומפט שבו השתמשתי:

 

Man and woman dating in coffee shop –chaos 20 –ar 3:2 –cref https://s.mj.run/I67DH0ZQ0lA https://s.mj.run/a2TtDW0iM5I https://s.mj.run/7dILy6OcYus

 

אשתי ואני, השראה לזוג בבית קפה

אשתי ואני, השראה לזוג בבית קפה

הפוסט צילומי אוכל במידג׳רני עם Character Reference הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/character-reference-midjourney/feed/ 0
ג׳מיני פרו 1.5 – מה עושים עם מיליון טוקנים בחלון ההקשר? https://letsai.co.il/gemini-pro-1-5/ https://letsai.co.il/gemini-pro-1-5/#respond Sun, 07 Apr 2024 18:35:04 +0000 https://letsai.co.il/?p=15528 יום חמישי, ה־15 בפברואר 2024, ייזכר כנראה כאחד הימים הדרמטיים בהתפתחות הבינה המלאכותית היוצרת. הסיבה: OpenAI הציגה לעולם את Sora – מודל וידאו באיכות שגורמת לרעידת אדמה בתעשייה. אבל כמה שעות קודם לכן גוגל יצאה בהכרזה חגיגית לא פחות: מודל שפה מפואר שאמור לשבור את השוק עם לא פחות ממיליון טוקנים בקונטקסט! מה זה אומר, […]

הפוסט ג׳מיני פרו 1.5 – מה עושים עם מיליון טוקנים בחלון ההקשר? הופיע ראשון בLet's AI בינה מלאכותית

]]>
יום חמישי, ה־15 בפברואר 2024, ייזכר כנראה כאחד הימים הדרמטיים בהתפתחות הבינה המלאכותית היוצרת. הסיבה: OpenAI הציגה לעולם את Sora – מודל וידאו באיכות שגורמת לרעידת אדמה בתעשייה. אבל כמה שעות קודם לכן גוגל יצאה בהכרזה חגיגית לא פחות: מודל שפה מפואר שאמור לשבור את השוק עם לא פחות ממיליון טוקנים בקונטקסט! מה זה אומר, ולמה זה כל כך חשוב? הינה הפרטים.

 

אבל לפני הכול – הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלי חדש שיוצא…

 

 

ממליצים לכם להצטרף גם לקהילות ה-AI של LetsAI בוואטסאפ ובטלגרם. רוצים לשמוע על הקורסים וסדנאות ה־AI שלנו? לחצו פה.

 

רקע

גוגל, שנכנסה קצת באיחור למרוץ ה־GenAI, אף על פי שבמשך הרבה שנים היה נראה שהיא המובילה בכל מה שקשור ל־AI, חשה את הדחף להדביק את הפער והשקיעה בכך מאמצים רבים. לאחר השקת Bard (על בסיס מודל השפה שלה LaMDA), שלא הצליח לספק את הסחורה עד הסוף, היא המשיכה לשפר אותו והעבירה אותו למודל חדש יותר בשם PaLM 2. אומנם השיפור היה ניכר אבל לא מספיק דרמטי להחזיר את גוגל למעמד המובילה שנהנתה ממנו אך לפני שנים אחדות.

 

בגוגל לא אמרו נואש ופנו לחטיבת המחקר הטרייה שלהם המכונה DeepMind (בעבר חברת סטארט־אפ עצמאית שגוגל רכשה, וכיום חטיבה פנימית בגוגל) כדי לגייס את צוות החטיבה למשימה. ייתכן שב־DeepMind חרקו מעט שיניים, כי מה לעשות, Generative AI זה לא המיקוד המקורי שלהם – הם בכלל אוהבים לאמן סוכנים בסביבות משחק כדי שיוכלו לפתור בעיות רציניות בעולם האמיתי, אבל מה לא עושים בשביל שהבוס יהיה מרוצה.

 

כעבור בילד־אפ לא קצר ולחשושים מאחורי הקלעים שהמודל החדש של גוגל התוגבר באמצעות דיפמיינד יביא למהפך המיוחל ויכריע את OpenAI, הינה סוף סוף הוא הגיע. המודל Gemini שוחרר בהכרזה גדולה: ״ברוכים הבאים לעידן ג׳מיני.״ אלא שגם כאן כגודל הציפיות כך גם האכזבות – גוגל נתפסה עם המכנסיים למטה לאחר שהציגה דמו לא ממש אמין של יכולות המודל, ושוב התחילה ברגל שמאל. גם Gemini הגדול מעורר ספקות ולא חוטף את הגביע. ג׳מיני מגיע ב־3 תצורות:

 

  • גרסת נאנו הקטנה, מיועדת למכשירים כמו ניידים ויישומי IOT.
  • גרסת הפרו הרגילה.
  • וגרסת האולטרה המתקדמת שנועדה לנצח את GPT-4.

 

עברו עוד כמה חודשים ואולטרה נפתח לציבור. המודל הוא טוב, אבל זה עדיין לא מספיק. קשה מאוד להוריד את GPT-4 מכס המלכות. ואז גוגל עושה מהלך זריז בלי התראה מוקדמת ומפילה עלינו את ג׳מיני 1.5 (גרסת פרו, בתור התחלה) עם מיליון טוקנים! זה כבר גיים צ׳יינג׳ר רציני! ברמה הטכנית גוגל ניצחה את OpenAI לפחות לזמן מה. אבל אז OpenAI חטפה את כל תשומת הלב עם ההכרזה על Sora, ו־Gemini 1.5 קצת נשכח במעבה הפיד המתגלגל. אבל בואו לא נשכח – ג׳מיני 1.5 הוא עדיין מודל טוב, אפילו טוב מאוד, ויש לו יכולת יוצאת דופן ששווה להכיר.

 

ג'מיני 1.5

ג’מיני 1.5 פרו עם חלון הקשר של מיליון טוקנים – עוקף את המתחרים בסיבוב!

 

ג׳מיני פרו 1.5 – יודע לשלוף מידע גם מסרטונים!

חוץ מעניין מיליון הטוקנים שנרחיב עליו תכף, לג׳מיני פרו 1.5 יש עוד יתרון דרמטי: הוא מסוגל לנתח סרטונים – כן, כן! זה בעצם משהו שאנחנו רואים לראשונה במודלי שפה. הוא לא רק מנתח את הפריימים אלא גם מתאר את מה שקורה בסרטון ויכול לציין מיקום מדויק שבו מתרחש משהו מסוים. לפעמים וידאו ישמש כמקור מידע נוסף או כחלק מהפרומפט שממנו נרצה לשאול את השאלה ולקבל מהמודל תשובה מילולית. דוגמה מעניינת: אפשר להקליט מסך בעת שימוש באפליקציה, להמתין שהמודל יבין את ההתנהגות מהסרטון ואז לשאול אותו איך הוא מציע לפתור באג מסוים.

 

יכולת ניתוח הסרטונים של ג’מיני 1.5 פרו מרשימה ביותר!

 

 

 

מהיר מאוד ומבין עברית, אך יש גם מינוסים

כמו שאר המודלים בסדרה גם ג׳מיני 1.5 נותן מענה טוב בעברית. הוא מהיר יותר מכל המודלים הגדולים האחרים (אם שמים בצד את ארכיטקטורת groq), הוא רהוט, הוא עונה בפסקאות מסודרות שמקילות את הקריאה, והוא גם די יצירתי. באופן כללי הוא מודל טוב, אפילו טוב מאוד, אבל לצד זה יש לפעמים גם כמה קטעים מעצבנים. מה שאותי אישית הכי מעצבן, הוא הצנזורה שלו שנעשית בכמה רבדים. לעיתים הוא מסרב לענות על שאלות מסוימות. זה מילא; אבל קשה יותר כשהוא משיב תשובה ריקה. למעשה הוא כן משיב אבל איזה שהוא מנגנון צנזורה החליט שהתשובה בעייתית ולכן מחק אותה. זה משהו שלדעתי מקשה מאוד על העבודה עם המודל ביישומים חיצוניים אמיתיים, ואני מקווה שגוגל ישפרו את זה בהמשך. 

 

איך משתמשים?

הגישה לג׳מיני 1.5 עוד לא פתוחה לציבור. כדי להתנסות בו צריך להירשם לרשימת המתנה, ולהמתין. גם אחרי שמקבלים גישה, המודל מיועד למפתחים שרוצים לבדוק את היכולות שלו, ולכן התפעול נעשה באזור ה־Studio, שהוא מעין חצר משחקים (Playground) להתנסות במודל. ההתנסות בשלב זה היא בחינם ללא הגבלה, כך שזאת בהחלט הזדמנות נפלאה לבדוק את היכולות המעניינות שנפתחות לנו עם גודל הקונטקסט העצום של מיליון טוקנים. בואו נדבר על זה!

 

להלן השלבים: הירשמו ל־Studio עם חשבון הגוגל שלכם. לאחר מכן כנסו ללינק הבא.

 

מה עושים עם מיליון טוקנים?

מיליון טוקנים – מה זה אומר, ומה עושים עם זה?

אז בעצם כל פעולה של מודל שפה כוללת שליחה של איזה שהוא פרומפט למודל וקבלת מענה. יחד עם הפרומפט אנחנו מעבירים למודל גם קונטקסט, הקשר. ההקשר הוא בדרך כלל מהלך השיחה שניהלנו. מהלך השיחה מאפשר למודל לענות לנו. לכל מודל יש מגבלת זיכרון של התוכן שהוא יכול לעבד בבת אחת ולהתבסס עליו בתשובה. כל הטקסט שהמודל עובד איתו, הכולל גם את הקלט ואת כל מה שנלווה אליו, וגם את הפלט שהוא מפיק כתשובה, מכונה ‘קונטקסט‘.

 

היכולת המקסימלית של המודל לעבד טקסט מכונה ‘חלון קונטקסט‘ (או חלון הקשר). אחד היתרונות של קלוד3 למשל הוא חלון קונטקסט ארוך במיוחד – 200,000 טוקנים (גם בגרסה החינמית). ובתרגום לעברית – קחו את מספר הטוקנים, חלקו ל־5 וקבלו פחות או יותר את מספר המילים שאפשר להזין למודל. בכל הנוגע לג׳מיני 1.5, אנחנו מדברים על מיליון טוקנים, וזה אומר בעברית כ־200 אלף מילים. בחישוב זריז זה בערך שני ספרים בינוניים. חשבו על זה.

 

סרטון – עיבוד כמות נתונים גדולה בעזרת חלון ההקשר העצום של ג’מיני 1.5 פרו. במקרה שלנו, תמלול השיחות של אפולו 11

 

 

מה אפשר להכניס במיליון טוקנים – המון! שעה של וידאו או 11 שעות של אודיו או יותר מ־30 אלף שורות קוד או יותר מ־700 אלף מילים (באנגלית) ו־200 אלף מילים בעברית. 

 

מה עושים עם כל כך הרבה מילים?

ובכן, הרבה דברים. למשל אתם יכולים לקבל תובנות על טקסטים ארוכים; אתם יכולים לכתוב פרק המשך לספר מסוים או להבין את העלילה כולה ולא להסתפק רק בשאלה נקודתית על חלק מהטקסט. אבל חשבו על היישומים האפשריים בתחום עריכת דין למשל – המודל מסוגל לסקור פסקי דין רבים ולהציע תובנות, וזה משהו שהיום אינו אפשרי; חשבו על עבודה על קוד – כדי שהמודל יוכל לתת פתרונות אמיתיים הוא צריך להבין אפליקציה שלמה המתפרסת על עשרות אלפי שורות קוד; חשבו על שיחה שניהלתם עם צ׳טבוט במשך הרבה חודשים ואפילו שנים. הוא יכול לזכור כל פרט מהשיחה ולהזכיר אותו בהקשר הרלוונטי;  ויש עוד כל כך הרבה יישומים.

 

בסרטון – דמו של פתרון בעיות בשורות קוד מרובות בעזרת חלון הקונטקסט העצום של ג’מיני 1.5

 

 

הנתונים המחמיאים וההטעיה לגביהם

במבחן המכונה ׳מחט בערמת שחת׳ (Needle in a Haystack) ג׳מיני מראה ביצועים מאוד גבוהים. לטענת גוגל, על כל פרט ספציפי שנשאל את המודל, גם בקונטקסט ארוך מאוד של מיליון טוקנים ואפילו 10 מיליון (!), הוא יצליח ב־100% מהפעמים כמעט לענות נכונה. זה בהחלט הישג משמעותי כי קונטקסט ארוך לבדו אינו מספיק, צריך שתהיה למודל היכולת להכיר את הפרטים השונים המצויים בו. וג׳מיני עושה את זה יפה מאוד. במבחן דומה שנעשה לקלוד 2.1 למשל הביצועים היו גרועים בהרבה. וזה אומר שגם אם תבקשו מקלוד סיכום של מאמר ארוך, הוא עדיין יתעלם מהרבה מאוד פרטים, אף על פי שהסיכום יכול להישמע הגיוני ונחמד. במשימת סיכום שכזאת נראה שג׳מיני יעשה עבודה טובה יותר. אגב, אם תהיתם, לקלוד3 אופוס (המודל החדש והחזק ביותר של Claude) יש נתוני הצלחה דומים לאלה של ג’מיני 1.5 – מעל 99% בשליפת מידע נקודתי מחלון הקשר גדול.

 

עם זאת, צריך לשים לב שמבחן המחט בערמת שחת אינו השאלה היחידה שעלינו לשאול בנוגע לקונטקסט ארוך, כי שליפה של מידע נקודתי זה נחמד ויפה, אבל בהרבה מקרים אנחנו מחפשים יותר מזה; אנחנו מחפשים יכולת הסקת מסקנות על פרטים שונים בטקסט. ופה זה קצת יותר קשה כיוון שבאופן כללי יכולות ההסקה של ג׳מיני לא תמיד מבריקות, כלומר לא ברמה של GPT-4. אז גם בקונטקסט ארוך הוא לפעמים עלול להסיק מסקנות שגויות, וצריך לשים לב לזה. אבל אם אנחנו שואלים אותו שאלה כללית ומובנת על נושאים שונים בטקסט ולא רק על נושאים בודדים, יש סיכוי טוב שהוא יענה בצורה טובה.

 

מבחן מחט בערימת שחת: השוואה בין קלוד3 לקלוד 2.1 ולג’מיני

מבחן מחט בערמת שחת שנעשה על מודל קלוד המתקדם ביותר (2.1 עם 200 אלף טוקנים) מראה כשלים רבים באחזור מידע נקודתי מתוך הקונטקסט במיוחד אם הוא מכיל יותר מ־70 אלף טוקנים. לעומת זאת, קלוד 3 וג’מיני 1.5 פרו מצטיינים ומראים הצלחה של יותר מ־99% בשליפת מידע נקודתי מחלון הקשר גדול.

 

לסיכום

בכל הנוגע לשיווק האגרסיבי של גוגל ולהבטחות הגדולות, אני עדיין לא בטוח שג׳מיני אכן שם אם כי הוא בהחלט מודל טוב. וגם אף אחד לא יכול להתווכח עם מיליון טוקנים בקונטקסט – זה בהחלט מרשים ואפילו מאוד פרקטי בתחומים רבים. וגם יכולת הבנת הווידאו היא יתרון מובהק שאי אפשר להתעלם ממנו. ובכל זאת אני חושב שג׳מיני לא מספיק חכם ולוקה לעיתים ביכולת ההסקה שלו בהשוואה ל-GPT-4, וזה משפיע באופן רוחבי על כל הביצועים שלו. נוסף על כך, הוא סובל מבאגים שקורים בגלל ענייני בטיחות, משהו שאולי ישתפר בהמשך. כרגע היתרונות שלו הם בעיקר ברמה הטכנית, ויש סיכוי גבוה שברגע שיצא GPT-5 הוא כבר לא יהיה במקום הראשון גם בזה. אבל עד אז ג׳מיני 1.5 הוא מודל טוב ומעניין מאוד ששווה להכיר. אם סולחים לו על הגליצ׳ים, הוא יכול להיות גם כלי עבודה מצוין.

 

חוות דעת נוספת

רוצים חוות דעת נוספת? מצרף לכם את סרטון התרשמות של שחר גולן, חבר וקולגה, מג’מיני 1.5:

 

 

הפוסט ג׳מיני פרו 1.5 – מה עושים עם מיליון טוקנים בחלון ההקשר? הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/gemini-pro-1-5/feed/ 0
15 התובנות של יאן לה-קון (ראש תחום ה־AI במטא) על בינה מלאכותית https://letsai.co.il/the-15-insights-of-jan-lecun/ https://letsai.co.il/the-15-insights-of-jan-lecun/#respond Fri, 15 Mar 2024 06:00:50 +0000 https://letsai.co.il/?p=12469 בריאיון מרתק בן 3 שעות יאן לה-קון, ראש תחום ה־AI במטא וחוקר מוביל בתחום למידת המכונה, שיתף את לקס פרידמן בגישתו האופטימית בנוגע לעתיד הבינה המלאכותית. לה-קון מאמין ש־AI תביא להעצמה אנושית ודוחה את תרחישי האימה של השתלטות מכונות. הוא מדגיש את הצורך בסבלנות וטוען שהפריצות הבאות יגיעו מכיוונים שונים – יותר במודלים כמו JEPAs […]

הפוסט 15 התובנות של יאן לה-קון (ראש תחום ה־AI במטא) על בינה מלאכותית הופיע ראשון בLet's AI בינה מלאכותית

]]>
בריאיון מרתק בן 3 שעות יאן לה-קון, ראש תחום ה־AI במטא וחוקר מוביל בתחום למידת המכונה, שיתף את לקס פרידמן בגישתו האופטימית בנוגע לעתיד הבינה המלאכותית. לה-קון מאמין ש־AI תביא להעצמה אנושית ודוחה את תרחישי האימה של השתלטות מכונות. הוא מדגיש את הצורך בסבלנות וטוען שהפריצות הבאות יגיעו מכיוונים שונים – יותר במודלים כמו JEPAs ופחות במודלי שפה גנרטיביים.

 

אבל לפני הכול – הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלים חדשים שיוצאים.

ממליצים לכם להצטרף גם לקהילות ה-AI של LetsAI בוואטסאפ ובטלגרם. רוצים לשמוע על הקורסים ועל סדנאות ה־AI שלנו? לחצו פה.

 

הריאיון המלא

 

לקס פרידמן אירח את יאן לה-קון (ראש תחום ה־AI של מטא ואחד החוקרים המכוננים של למידת המכונה בעשורים האחרונים) בפודקאסט שלו לריאיון שלישי במספר. הריאיון ארך כמעט 3 שעות, אבל זה לא הפריע לו לקבל יותר מ־280 אלף צפיות בתוך יום אחד. ייתכן שרוב הצופים לא באמת צפו עד הסוף, או צפו בקושי בחצי שעה. וגם אני לא באמת צפיתי.

 

הנקודות המרכזיות בגישתו של לה-קון:

  • אופטימיות (תרחיש האימים שבינה מלאכותית תשמיד אותנו אינו סביר. במקום זאת האנושות תתעצם בזכות בינה מלאכותית).

 

  • סבלנות (AGI יגיע, אבל לא כל כך מהר).

 

  • פריצות הדרך הבאות יגיעו מכיוונים שונים; לא ממודלי שפה ובאופן כללי לא מבינה מלאכותית גנרטיבית.

 

הינה 15 נקודות חשובות נוספות שהודגשו בריאיון:

  1. מודלי שפה גדולים (LLMs) כמו GPT-4 ולאמה 2 אינם מספיקים כדי להגיע לאינטליגנציה על אנושית כיוון שאין להם יכולת להבין את העולם הפיזי, אין להם זיכרון מתמשך ויכולת תכנון והיסק.
  2. ילד בן 4 נחשף ל־10 בחזקת 15 בתים של מידע באמצעות חוש הראייה שלו לעומת 10 בחזקת 13 בתים בלבד שעליהם מאומנים LLMs. רוב הלמידה וההבנה שלנו מגיעה מאינטראקצייה עם העולם האמיתי ולא משפה.
  3. מודלי joint embedding (JEPAs) עם ארכיטקטורה מנבאת הם כיוון מבטיח יותר לבינה מלאכותית אנושית בהשוואה למודלי שפה גנרטיביים (הערה – לה-קון שוקד על פיתוח מודלי JEPAs, והוא חלוק על גישתם של OpenAI שאפשר להגיע ל־AGI באמצעות בינה מלאכותית גנרטיבית).
  4. האופטימיזציה לתכנון פעולות צריכה להיעשות במרחב הייצוגים המופשטים ולא במרחב המילים. מערכות דיאלוג עתידיות צריכות לחשוב ולתכנן את התשובה שלהן לפני שהן מייצרות טקסט (הערה – לה-קון מעריך שהפיתוח של ׳מודלי פעולה׳ שיניעו רובוטים לא תיעשה באמצעות מודלי שפה).
  5. לה-קון מציע לנטוש מודלים גנרטיביים לטובת ארכיטקטורות joint embedding וייצור אוטו־רגרסיבי; מודלים הסתברותיים לטובת מודלי אנרגיה; ושיטות ניגודיות (contrastive) לטובת שיטות מוסדרות.
  6. לה-קון חושב שלמידת חיזוק (reinforcement learning) צריכה לשמש רק לכוונון דק (fine-tune) של מודל עולם שנלמד ברובו מראש ללא הנחיה (unsupervised) וללא למידת המודל מאפס (הערה – ייתכן שבכך הוא רומז לגישה של דיפמיינד התומכת בהשגת פתרון מלא לבעיות עולמיות בלמידת חיזוק).
  7. פלטפורמות קוד פתוח הן הפתרון למניעת ריכוז יתר של כוח בידי חברות בודדות. כך כל אינטראקצייה שלנו עם העולם הדיגיטלי תתווך באמצעות מערכות AI. הדרך היחידה לגיוון היא פלטפורמות AI ופיתוח שימושים מגוונים בעזרתן (הערה – זאת הגישה שלה-קון מוביל במטא, המייעדת את המודלים החזקים שלה לקוד פתוח).
  8. לה-קון טוען שאי אפשר ליצור מערכת AI חסרת הטיות, כי הטיות נמצאות ‘בעין המתבונן’. הפתרון הוא גיוון והיצע של מבחר מערכות AI שונות, בדיוק כפי שאנחנו רוצים עיתונות חופשית ומגוונת.
  9. לה-קון אופטימי לגבי היכולת של בני אדם לפתח מערכות AI בטוחות ומועילות ולהוסיף להן מדרג של מעקות (guard rails) מתאימים. הוא אינו רואה בכך סכנה קיומית מיידית.
  10. לה-קון חולק על הטענה של אנשים כמו אלון מאסק שמערכות AI עלולות להיות מסוכנות ובלתי ניתנות לשליטה כמו נשק גרעיני. לדעתו התפתחות בינה מלאכותית תהיה תהליך הדרגתי שהמערכות הטובות בו ישמשו לאיזון המערכות המזיקות.
  11. לה-קון צופה עתיד שבו רובוטים הומנואידים יהיו נפוצים ויסייעו בביצוע משימות ביתיות מורכבות, אבל זה מצריך שנים של פיתוח מודלים להבנה ולתכנון של העולם האמיתי (הערה – הרובוטים שיסתובבו בינינו בעתיד, עדיין לא ממש קרובים).
  12. לה-קון אופטימי לגבי העתיד, כי בינה מלאכותית תיתן יכולות של “צוות אסיסטנטים חכמים” לכל אדם, ותגביר את האינטליגנציה הכללית של האנושות. השפעתה על האנושות תהיה כהשפעתה של המצאת הדפוס.
  13. “האינטליגנציה היא משאב הנחוץ ביותר… כל הטעויות של האנושות נובעות מחוסר אינטליגנציה או מחוסר ידע. אז לעשות אנשים חכמים יותר – יכול להיות רק דבר טוב” (נקודה מעניינת מאוד).
  14. לה-קון מציין שיש עוד הרבה אתגרים פתוחים בתחום, כמו איך ללמוד ולהבין את העולם מקטעי וידאו באמצעות ארכיטקטורות joint embedding, איך לבצע תכנון עם מודל עולם נלמד, ואיך ללמוד מודל היררכי לתכנון פעולות.
  15. לסטודנטים לתארים מתקדמים הוא ממליץ להתמקד בלמידה עצמית של מודלים להבנת העולם מתוך נתונים, בתכנון באמצעות מודלים כאלה, ובלמידת מודלים היררכיים לתכנון.

 

לסיכום

הריאיון מציג את גישתו של לה-קון ב־15 נקודות מרכזיות. הוא מדגיש את המגבלות של מודלי שפה גדולים וקורא להתמקדות ביכולות ההבנה של העולם הפיזי, בזיכרון מתמשך ובתכנון. לה-קון תומך בפלטפורמות של קוד פתוח, בגיוון של מערכות AI ובפיתוח מעקות להבטחת הבטיחות. הוא אופטימי לגבי עתיד שבו AI תשמש כ”צוות של אסיסטנטים חכמים” לכל אדם ותגביר את האינטליגנציה הכללית של האנושות. הריאיון ממליץ לסטודנטים להתמקד בלמידה עצמית של מודלים להבנת העולם, בתכנון ובפעולה, וכך הוא מסתיים.

הפוסט 15 התובנות של יאן לה-קון (ראש תחום ה־AI במטא) על בינה מלאכותית הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/the-15-insights-of-jan-lecun/feed/ 0
איך מודלי-שפה גדולים לומדים? https://letsai.co.il/learn-llm/ https://letsai.co.il/learn-llm/#comments Mon, 26 Feb 2024 06:00:00 +0000 https://letsai.co.il/?p=10921 ״האם אני יכול לאמן בוט על המידע הארגוני שלי והוא יעזור לי בכל המשימות בארגון?״ ״האם אפשר ללמד בוט את כל התורה כולה והוא ייעץ בפסיקת הלכה?״   שאלות כאלה ואחרות אני שומע מדי פעם. וכדי שאוכל לתת לכם מושג מה אפשרי ומה לא. אני צריך לתת סקירה על האופן שבו מודלי שפה לומדים. מוכנים? […]

הפוסט איך מודלי-שפה גדולים לומדים? הופיע ראשון בLet's AI בינה מלאכותית

]]>
״האם אני יכול לאמן בוט על המידע הארגוני שלי והוא יעזור לי בכל המשימות בארגון?״
״האם אפשר ללמד בוט את כל התורה כולה והוא ייעץ בפסיקת הלכה?״
 
שאלות כאלה ואחרות אני שומע מדי פעם. וכדי שאוכל לתת לכם מושג מה אפשרי ומה לא. אני צריך לתת סקירה על האופן שבו מודלי שפה לומדים.
מוכנים? קדימה!
 

אבל לפני הכל – הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלי חדש שיוצא…

 

 

* הערה: כאשר אני מדבר על “למידה”, אני מתכוון גם כן ל”אימון”. אימון ולמידה הם מושגים קרובים ויתכן שהם זהים במשמעות כאן.

 

סוגי אימון

כיום למידה של מודלי שפה מתחלקת ל-3 קטגוריות בשלבים שונים של הפיתוח ומשך חייהם:

 

1. אימון מוקדם.
2. אימון ממוקד (אפשר לקרוא לו גם ׳חידוד׳, באנגלית Fine-Tuning).
3. למידה מתוך הקונטקסט (משהו שאני מכנה ״חומר פתוח״).

 

עכשיו אמשיל את זה לשלבי הלמידה בחייו של אדם:

 

1. השלב המוקדם, אפשר לדמות אותו ללמידה שמתרחשת בבית הספר. ילד יושב בבית הספר ופוגש כל מיני עולמות ידע, לומד איך לחשוב איך לחקור איך לשאול שאלות, מכיר עולמות של דמיון, של מחקר אמפירי, של יצירתיות, של ידע היסטורי, חשיבה מתמטית ועוד. כל אלה מפתחים את עולמו האינטלקטואלי ומעניקים לו בעיקר מיומנויות לעתיד. פרטי הידע בבית הספר הם לא הדבר הגורלי לעתיד המקצועי של האדם – אבל החשיפה המגוונת למדיומים השונים של הידע מפתחים את עולמו האינטלקטואלי.

 

2. בשלב השני התלמיד עובר ללימודים גבוהים בהם הוא משתלם במקצוע מסוים. הידע שהוא רוכש כרגע ככל הנראה ישמש אותו בצורה משמעותית יותר בקריירה העתידית. הוא מתמחה בחשיבה ספציפית לתחום ספציפי. הרבה מפרטי הידע שהוא רוכש יתכן שיעזרו לו, ויתכן שייבלעו איפשהו במח בלי שהוא יזכור אותם באופן ספציפי – אבל עדיין ההבנה של צורת החשיבה המסוימת של אותו תחום לעומק תעניק לו את המיומנות הנדרשת לעבודה בתחום הנ״ל.

 

3. כאשר אדם עוסק כבר בתחום עצמו, למשל רפואה. הוא נזקק מפעם לפעם לפתוח ספרים, לעיין במחקרים חדשים, אולי לעלעל ברשומות רפואיות של מטופלים קודמים וכדומה. אין בכך מגרעה. אין זה אומר שהוא לא יודע את המקצוע שלו, או שלא למד מספיק טוב לפני. הידע הספציפי שנגיש לו לתוך אירוע ספציפי שמזדמן לפניו – הוא ידע ברור מאוד, שהוא יכול להתייחס אליו בו במקום. הלמידה המקדימה וגם הלימודים המקצועיים שלו נתנו לו את הכלים לדעת איך לגשת למאמר, מה לחפש בו, איך להתייחס לשפה המיוחדת שהוא כתוב בה וכדומה. ביצוע משימה עם ״חומר פתוח״ הוא בעצם השלב האחרון בלמידה, שגם הוא נשען קומה על גבי קומה על כל מה שלמד לפני.

 

אם כן יש להבחין בין מיומנויות לידע מסוים. הרבה מהלמידה מכוונת לפיתוח מיומנויות. בין אם זה מיומנות כללית של שפה, הגיון, הסקת מסקנות וכו׳ ובין אם זה מיומנות ספציפית יותר של הבנה מקצועית רפואית, התמצאות במושגים, היכרות עם מבנה הגוף ופיתוח אינטואיציות לזיהוי בעיות וכדומה.

 

ההבדל בין מיומנות לידע לא תמיד מובחן כל כך, ולעיתים מיומנות היא ידע וידע הוא מיומנות וזה גם בסדר. אבל ככל שאנו מתקדמים עם הלמידה היא הופכת להיות יותר ויותר ממוקדת ידע, וככל שאנו חוזרים ליסודות – הם שייכים יותר לתחום המיומנויות הכלליות.

 

ונחזור למודלי שפה בבינה מלאכותית.

 

אימון מוקדם

השלב הראשון, האימון המוקדם, הוא שלב שהמודל מתאמן על המון המון טקסט. הוא מכיר את העולם, את השפה, את יחסי הגומלין, את ההיגיון. הוא לומד להיות יצירתי, לשאול שאלות, למצוא מידע בתוך כמות גדולה של מלל, לסכם, להאריך, לקצר, לסגנן ועוד ועוד…

 

האתגר בשלב הזה הוא העלות הגבוהה שלו. מעבר לצורך לאסוף כמות גדולה של טקסטים עליהם המודל מתאמן יש צורך בהרבה כח עיבוד וגם לא מעט זמן כדי לאמן את המודל על הטקסטים הללו.

 

לגבי ידע ספציפי: האימון המוקדם יכול להקנות למודל גם ידע ספציפי. זה קורה בעיקר לגבי פרטים שחוזרים על עצמם הרבה בתוך ערימות המידע שהוא עובר עליהם. אבל אין לצפות שהוא יזכור במדויק כל פרט שנמצא שם, כמו שילד לא ממש זוכר הרבה מהדברים ספציפיים שלמד בבית הספר, וזה בסדר. צריך לדעת שאימון מוקדם על כמויות גדולות של תוכן לא בהכרח יובילו לדיוק בפלט בהקשר של התוכן הזה בהמשך. ניסוי שנערך ע״י מטא (Meta) לפני כשנה וחצי הראה שגם מודל שאומן מראש על כמויות גדולות של מאמרים אקדמיים – עדיין “הזה” המון נתונים שלא היו ולא נבראו בהקשר של אותם מאמרים, ועשה זאת בסגנון אקדמי משכנע מאוד, אבל המידע הספציפי לא היה נכון בהרבה מהמקרים.

 

חידוד (Fine-Tuning)

מגיעים לשלב ה”חידוד” – זה שלב פשוט יותר ונגיש גם לבני אנוש כמונו. אימון מסוג Fine Tuning מתבסס על מספר קטן יחסית של דוגמאות (לרוב מאות או אלפים בודדים) שבהן אנחנו מספקים למודל דוגמאות חיות איך אנו מצפים שהוא יגיב לקלטים (Inputs) מסוימים. מעניקים לו צמדים של שאלות ותשובות למשל, והוא לומד את סגנון ואופי ההתנהגות המצופה. ידע ספציפי פה הוא גם כן לא ערובה מושלמת להצלחה, אם כי כאן הוא כבר ער יותר לעובדות מאשר באימון המוקדם. כפי שאמרנו – האיזון הוא בין מיומנות לבין ידע. שלב זה הוא מעין שלב ביניים ונועד לחדד את המודל לקראת משימה בעלת אופי מסוים. כפי שהקבלנו את זה ללימודים אקדמיים מקצועיים.

 

למידה מתוך הקונטקסט (“חומר פתוח”) / In-context learning

הדבר האחרון הוא ״חומר פתוח״ או “למידה בתוך הקונטקסט”. הכוונה היא שכאשר אנו נותנים את הפרומפט למודל, שהוא לרוב שאלה – אנו מספקים לו גם כן כמות טקסט לפני כן, שממנו אנו מצפים שהוא ינסח את התשובה. למשל אפשר לתת לו מאמר ולשאול אותו שאלות על המאמר. כל מה שנמצא בתוך הקלט של המודל נקרא ״קונטקסט״ ובמקרה הזה זה כולל את המאמר וגם את השאלות. התשובה שתינתן תהיה מדויקת הרבה יותר מהיכולת של המודל לענות מ”הידע הכללי” עליו אומן קודם לכן – מכיוון שהפעם החומר ׳מונח לפניו׳, גלוי באופן נקודתי לאירוע הזה. כמו אותו רופא שפותח ספר ועונה מתוכו.

 

למידה בתוך הקונטקסט (In-context learning) הופכת ליותר ויותר משמעותית ככל שאורך חלון הקונטקסט של המודלים גדל. כיום יש לנו מגבלה שבכל מודל יש אורך מקסימלי של קונטקסט שלתוכו אפשר לשפוך מידע ולבקש תשובה מתוכו. מודל ״קלוד״ למשל מסוגל לעבד כמות גדולה יחסית של טקסט בו זמנית, קרוב ל-200 אלף מילים באנגלית (בעברית זה בערך רבע מזה). אז נניח אפשר לתת לו גם ספר שלם ולבקש שיתייחס אליו בתשובה.

 

 

הכללה (Generalization) והגיון (reasoning)

למידה מתוך קונטקסט מוצלחת בעיקר בגלל שיש בה יכולת ״הכללה״ (Generalization) שמובילה להבנת ההיגיון (reasoning) כלומר: לא רק שהמודל יכול לתת מענה ספציפי לעובדות שמופיעות לו בטקסט – הוא אף יכול בעצם לבצע משימות רבות שנובעות מתוך הבנה כוללת של הטקסט, בין אם זה הצלבה של מידע ובין אם זה ממש פיענוח של מוטיבים עמוקים ששזורים בטקסט ודורשים העמקה. דוגמא פשוטה לזה: משימת תרגום על שפה חדשה שהמודל לא אומן עליה מראש, לא באימון המקדים ולא באימון המקצועי והמחודד. ניתן לדחוף ספר תחביר + מילון שלם לתוך מודל עם קונטקסט ענק (ג׳מיני פרו 1.5!) ולבקש ממנו לתרגם קטע והוא ידע לעשות את זה יפה, כי בבת אחת הוא “רואה” לפניו גם את ספר הלימוד של השפה וגם את המשימה ומבצע את הכל יחד. זה בהחלט מופלא!

 

הקושי ב-In-context learning

הקושי עם למידה מתוך קונטקסט זה עלות ומהירות. עיבוד כמות גדולה כל כך של תוכן בכל קריאה יכולה להיחשב בזבזנית. היא עלולה לקחת זמן ארוך לכל קריאה (באזור הדקה למשל) וזה לא תמיד נוח לעבוד באופן הזה. עם זאת עדיין יש פה יתרונות עצומים, בדגש על יכולת ההכללה.

 

RAG (Retrieval-Augmented Generation)

קצת על RAG

כאשר אורך הקונטקסט לא מספיק – יש טכניקה נוספת שמשתמשים בה שנקראת RAG או Retrieval-Augmented Generation, שבאופן עקרוני היא אותו סוג של למידה, אלא שמצרפים מנגנון נוסף שחיצוני למודל השפה שאחראי לספק לתוך הקונטקסט את הפרוסה המתאימה מתוך המידע בהתאם לאופי השאלה.

 

טכניקת Retrieval-Augmented Generation (RAG) מסייעת בשיפור הדיוק והאמינות של מודלים ג’נרטיביים באמצעות עובדות שנאספו ממקורות חיצוניים. במילים אחרות, זה ממלא פער באופן שבו מודלי שפה גדולים (LLMs) עובדים. מתחת למכסה, LLM מורכבים מ”רשתות נוירונים” הנמדדים על בכמות הפרמטרים שהם מכילים. הפרמטרים של LLM (מודלי שפה גדולים) מייצגים בעיקר את התבניות הכלליות של האופן שבו בני אדם משתמשים במילים כדי ליצור משפטים. אותה הבנה עמוקה, שלפעמים נקראת “parameterized knowledge”, הופכת את ה-LLMs לשימושיים ומהירים בתגובה לפרומפטים כלליים. עם זאת, זה לא משרת משתמשים שרוצים צלילה עמוקה יותר לנושא ספציפי וממוקד יותר.

 

עם RAG, משתמשים יכולים למעשה לקיים שיחות עם מאגרי מידע, מה שפותח סוגים חדשים של חוויות – שלם שעולה על סך חלקיו. לדוגמה, מודל AI ג’נרטיבי המשולב עם אינדקס רפואי יכול להיות עוזר מצוין עבור רופא או אחות. אנליסטים פיננסיים יפיקו תועלת מסייען AI המקושר לנתוני שוק. למעשה, כמעט כל עסק יכול להפוך את המדריכים הטכניים או המדיניים שלו, סרטונים או יומנים לבסיסי ידע שיכולים לשפר את ה-LLMs. מקורות אלה יכולים לאפשר שימושים כמו תמיכה בלקוחות, הדרכת עובדים ועוד.

 

יתרונות וחסרונות

השיטה הזו לא תמיד עובדת טוב כי יש פה כמה מרכיבים שיכולים להשתבש בדרך. כשנדרשת משימה של הכללה והבנה RAG פחות מוצלח כי הוא יכול להביא כל פעם רק חלק מהמידע. אולם כאשר מדובר על שאלה שנוגעת למידע מקומי ספציפי שניתן לאתר אותו דרך קירבה סמנטית לשאלה (סוג של חיפוש, לא מילולי לגמרי אלא יותר דרך המשמעות) – אז RAG יכול לעשות עבודה טובה גם כשמדובר בכמויות אסטרונומיות של מידע הוא יאתר את החלק הרלוונטי ויגיש אותו לקונטקסט לטובת ניסוח התשובה ע״י מודל השפה.

 

״למידה בתוך הקונטקסט״ היא הסיבה שההכרזה של גוגל על מודל ג׳מיני 1.5 החדש עם קונטקסט של מיליון טוקנים (כ-750,000 מילים באנגלית) היא משמעותית כל כך. יש לזה המון יישומים שדורשים הכללה של המון ידע חדש שהמודל לא אומן עליו מראש.

 

למידה אקטיבית

פרט אחרון: למידה אקטיבית. זה אמנם נושא שלא ממש מפותח במודלי שפה עדיין, אבל הוא קורה אצל בני אדם. אנחנו ממשיכים ללמוד כל הזמן. כל אינטראקציה עם העולם היא למעשה הזדמנות ללמידה. מודלי שפה, מעבר ל-3 ההזדמנויות שציינתי – בעקרון לא לומדים דברים חדשים. אם יש צ׳אט או בוט שהמפתחים שלו בנו איזה מנגנון של חידוד תוך כדי תנועה זה אולי אפשרי, אבל בעקרון זה לא קורה.

 

בהקשר הזה OpenAI הלכו לכיוון מעניין כאשר הם הוסיפו מנגנון של זיכרון לטווח ארוך של ChatGPT שהוא מסוגל תוך כדי שיחה לזהות פרטי מידע מסוימים ששווה לשים אותם בזיכרון. הוא מנסח משפטים ושומר אותם בצד, כך שבפעם אחרת הוא יוכל למשוך אותם בחזרה לתוך הקונטקסט ולענות בהתחשב בהם. באופן הזה יש הדמייה מסויימת של למידה אקטיבית, אם כי בפועל זה מנגנון חיצוני שמשתמש בלמידה בתוך הקונטקסט. יתכן שעוד נראה שיפורים מעניינים בשדה הזה.

הפוסט איך מודלי-שפה גדולים לומדים? הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/learn-llm/feed/ 1
מה אומרת ה-G של ה-AGI? https://letsai.co.il/agi-g/ https://letsai.co.il/agi-g/#respond Thu, 22 Feb 2024 10:46:23 +0000 https://letsai.co.il/?p=10620 האם תהיתם פעם מה אומרת ה-G של ה-AGI? רגע רגע… צעד אחד אחורה… האם אתם יודעים בכלל מה זה AGI? אז ככה – AGI זו “בינה מלאכותית כללית״ (Artificial General Intelligence), או ״בינה כללית, מלאכותית״. אבל מה זה בעצם אומר ולמה זה אחד מהדברים שככל הנראה הולכים להשפיע על עתידה ומסלולה של האנושות בצורה דרמטית […]

הפוסט מה אומרת ה-G של ה-AGI? הופיע ראשון בLet's AI בינה מלאכותית

]]>
האם תהיתם פעם מה אומרת ה-G של ה-AGI? רגע רגע… צעד אחד אחורה… האם אתם יודעים בכלל מה זה AGI? אז ככה – AGI זו “בינה מלאכותית כללית״ (Artificial General Intelligence), או ״בינה כללית, מלאכותית״. אבל מה זה בעצם אומר ולמה זה אחד מהדברים שככל הנראה הולכים להשפיע על עתידה ומסלולה של האנושות בצורה דרמטית בשנים הבאות?

 

הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלי חדש שיוצא…

ממליצים לכם להצטרף גם לקהילות ה-AI של LetsAI בוואטסאפ ובטלגרם.
 
 
בינה מלאכותית כללית AGI

בינה מלאכותית כללית AGI

 

למידת מכונה ו”הכללה”

בעבר כתבנו על AGI והסכנות הטמונות בחובה של הטכנולוגיה המהפכנית הזו. אבל היום אנחנו רוצים להסתכל עליה מזוית אחרת. נהוג לחשוב על AGI בתור בינה מלאכותית שיכולה לעשות הכל. לא רק תמונות, או מוזיקה או טקסט. אלא הכל. ובדרך כלל עולה בראש איזה רובוט כזה שמתנהל בעולם ומסוגל לבצע פעולות וגם לדבר וגם להבין וגם וגם וגם…

אבל האם AGI מתייחס לכמות רבה של דברים שמחוברים יחד או – לאיכות חדשה של בינה מלאכותית? אז בואו נדבר רגע על ״הכללה״.

 

אחת התכונות הבולטות בתחום “למידת מכונה”, שמניע היום את פיתוחי הבינה המלאכותית היא יכולת ״הכללה״ (באנגלית Generalization). הכללה פירושה – יכולת לבצע מטלה שהמודל לא אומן עליה באופן ספציפי לפני כן. בזכות ההכללה שנוצרה אצלו בנוגע לאימונים השונים שהוא עבר, עד כדי כך שהוא מסוגל להעתיק עקרון מתחום אחד לתחום אחר.

 

אם נסתכל על בני אדם ברור לנו שלמידה מגוונת מעשירה את עולם המושגים שלנו ועוזרת לנו להבין טוב יותר הרבה דברים גם מחוץ לתחומים הספציפיים. למשל עיסוק במתמטיקה או תכנות עוזר לנו לחשוב על העולם באופן כללי בצורה יותר לוגית, ולא רק לפתור תרגילים מתמטיים במבחן. באותו אופן – הכוח המשמעותי של בינה מלאכותית היא כאשר היא מגיעה לרמת הכללה ומייצרת וחורגת מתחום האימון, או מהדאטה שעליו אומנה.

 

הבנה כללית ולא ריבוי כלים

כשמדברים על AGI, המילה General לא מדברת על ריבוי כלים שמשמשים מערכת אחת בחיבור מכניסטי חיצוני, אלא על ׳הבנה כללית׳ של העולם או של ההגיון של דברים רבים. כאשר הגענו למצב כזה של בינה חכמה מספיק היא תוכל גם כן להפעיל כלים רבים, זה נכון, אבל העקרון פה הוא עמוק יותר מאשר סתם חיבור של דברים.

 

בינה מלאכותית כללית AGI

לא מכלול של של כלים, אלא יישות עם יכולת הבנה כללית

 

לפעמים אנשים תוהים למה כלים מסוימים שיוצאים לשוק לא מבצעים את החיבורים שהיו משפרים אותם בקלות. למשל הרבה זמן תהינו למה ChatGPT לא מחובר לאינטרנט, הרי זה די קל מבחינה פיתוחית לבצע את זה. ובאמת הרבה חברות ביצעו את החיבור הזה עוד לפני ש-OpenAI ביצעו אותו… וכך בדברים נוספים נראה שהיה אפשר לממש את הפוטנציאל בצורה יותר משמעותית עם כל מיני חיבורים או התממשקויות כאלה ואחרות, אבל משום מה OpenAI לא עשו זאת, בעוד שסטרטאפים אחרים דווקא כן.

 

אנו צריכים לחשוב על הרעיון של יצירת תמונות בתור סוג של בינה, לא רק כלי טכני. ועל יכולת יצירת טקסט כסוג של בינה. ואז נשאלת השאלה: איזו איכות של בינה נקבל כאשר היא תמזג את הבינה שיוצרת תמונות עם הבינה שיוצרת טקסט למשל?  לא כיכולת טכנית, אלא כיכולת הכללה פרטית שמתמזגת ליכולת הכללה כללית יותר. בפעם האחרונה שסאם אלטמן דיבר על GPT-5 הוא דיבר בדיוק על זה. הוא אמר שאפשר היה לשלב כל מיני יכולות באופן חיצוני, אבל הדבר החשוב ביותר הוא לגרום ל-GPT להיות חכם יותר. וחכם יותר זה ההבנה הכללית הזו, שממילא תהיה לה השלכה על כל דבר שהמודל יעשה מעכשיו. כאן גם המקום לציין שחברת OpenAI חרטה על דגלה את השאיפה לבנות AGI לתועלת כל האנושות. הם חותרים בפועל להגשמת חזון זה, ונראה גם שהם בדרך הנכונה. מה יהיו ההשלכות של מהלך שכזה? ספרים רבים יכתבו על שאלה זו בדיוק!

 

 

לסיכום, AGI זו בינה מלאכותית חכמה, שהבנת העולם הפיזי, הלוגיקה, השפה ועוד – מתחברים לה לדבר אחד. כמו שהמח שלנו מחבר את הדמיון והמוטוריקה והדחפים והמחשבות והזיכרון והכל, וזה מזין את זה.

הפוסט מה אומרת ה-G של ה-AGI? הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/agi-g/feed/ 0
אביץ לוקח את ג׳מיני אולטרה לסיבוב https://letsai.co.il/geminiadvanced/ https://letsai.co.il/geminiadvanced/#respond Fri, 09 Feb 2024 10:13:40 +0000 https://letsai.co.il/?p=8998 גוגל שיחררו את התותח הכבד ביותר שלהם עד כה בתחום הבינה המלאכותית – הג׳מיני אולטרה! (Gemini Ultra 1.0) והחלטתי לקחת אותו לסיבוב. במאמר הבא אסקור את התובנות והמסקנות שלי לאור ההתנסות הראשונית.   אבל לפני הכל – הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלי חדש שיוצא… ממליצים […]

הפוסט אביץ לוקח את ג׳מיני אולטרה לסיבוב הופיע ראשון בLet's AI בינה מלאכותית

]]>
גוגל שיחררו את התותח הכבד ביותר שלהם עד כה בתחום הבינה המלאכותית – הג׳מיני אולטרה! (Gemini Ultra 1.0) והחלטתי לקחת אותו לסיבוב. במאמר הבא אסקור את התובנות והמסקנות שלי לאור ההתנסות הראשונית.

 

אבל לפני הכל – הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלי חדש שיוצא…
ממליצים לכם להצטרף גם לקהילות ה-AI של LetsAI בוואטסאפ ובטלגרם.

 

סרטון ההתנסות שלי בכלי

בסרטון הבא אני לוקח את ג’מיני לסיבוב. תוכלו לראות בו מגוון טסטים והשוואות שעשיתי (בעיקר אל מול ChatGPT4).

 

 

 

בארד עובר מתיחת פנים ומתהדר בשם חדש: ג’מיני

נתחיל עם זה שהצ׳אט הותיק של גוגל (עם הרקורד המאכזב) בארד (BARD), עבר מתיחת פנים קלילה וכעת ייקרא שמו בישראל ג׳מיני! (בתקווה שיביא מזל…)

 

Bard becomes Gemini | בארד הופך לג’מיני

 

 

איך נרשמים?

  • ג׳מיני מגיע בכמה ואריאציות וכדי לגשת למודל העוצמתי ביותר צריך להירשם לתוכנית המתקדמת Gemini Advanced.

 

  • מנוי חודשי יעלה 20$ לחודש (מוכר מאיפשהו?) אבל מקבלים חודשיים ראשונים חינם, אז אמרתי יאללה ננסה!

 

  • כדי להתחיל לעבוד עם Gemini לחצו פה והירשמו עם חשבון הגוגל שלכם. כדי לשדרג למנוי בתשלום (מזכיר שיש חודשיים חינם) לחצו פה.

 

מנוי בתשלום לג'מיני אולטרה

מנוי בתשלום ל-Gemini Advanced המושתת על המודל ג’מיני אולטרה 1.0

 

 

התרשמות ראשונית

הטוב הרע והמכוער…

אמ;לק – עידן חדש אין כאן.

אבל הוא עדיין מראה יתרונות בשדות מסויימים שיתכן שאשתמש בו בהמשך…

נתחיל מהטוב: 

  • ג׳מיני מהיר! הוא בוודאי מהיר יותר מ-GPT-4 ומבדיקה מאוחרת יותר שערכתי הוא עשוי גם לעקוף את GPT-3.5.

 

  • יש לו עברית טובה עם קרוב ל-0 שגיאות ממה שאני ראיתי.

 

  • סגנון התשובה שלו לרוב מסודר ונקי, מחולק לנושאים – וזה ממש נעים בעין.

 

  • נראה שהוא כותב קוד מצויין, לעיתים אולי טוב יותר מ-GPT-4. לא ערכתי השוואה מעמיקה אבל מהניסיון הקצר שלי הוא נתן פייט יפה מאוד. באחד הניסיונות שלי ביקשתי שיתכנת משחק סנייק, אבל מצחיק. הוא הציע שהנחש יהיה שיכור וינוע לכיוונים אקראיים וגם אלכסון. זה בהחלט עבד וגרם למשחק להיות משעשע ומאתגר יותר (ראו דקה 37 בסרטון מעלה).

 

  • יש לו גישה טבעית לאינטרנט, וגם למסמכים אישיים, אבל – כאן מגיע האבל… הוא לא עקבי בזה ולא מעט מבוגבג ועונה לא נכון. וזה קצת מבאס… אבל בחלק מהבדיקות שעשינו הוא ענה טוב יותר מ-GPT-4 בנוגע לידע שנמצא ברשת.

 

  • יש לו כמה יתרונות נאים בממשק שאינם נוגעים ישירות למודל השפה, כמו היכולת לראות תמיד 3 גרסאות לתשובה, לבקש הארכה או קיצור או שינוי הטון של התשובה. להעביר את התשובה מיידית למסמך גוגל או לטבלה ועוד. זה לפעמים נח וזה פלוס לא רע…

 

הרע

ונעבור לדברים היותר מבאסים:

  • ככלל, לא מדובר במודל חכם במיוחד. בשאלות שדורשות מעט חשיבה מעמיקה הוא לא הצליח להגיע לרמה של GPT-4. אבל זה בסדר: אף אחד לא מצליח עד היום.

 

  • יכולת הויז׳ן (ניתוח תמונה) שגוגל כה מתפארים לגביה, היא בינונית גם כן. הוא לא מסוגל לנהל שיחה מתמשכת על ניתוח תמונה, שזה מאוד מוריד בחוויה מבחינתי.

 

  • הוא מפעיל צנזורה כבדה על תמונות שיש בהן אנשים, שזה אנטי מכשול רציני, שכן  מן הסתם חלק גדול מהעבודה עם תמונות מבוססת על תמונות של אנשים.

 

  • והנורא מכל – הוא מלא באגים. במקרים רבים מסרב לבצע מה שמתבקש למרות שהוא יכול. משהו שם לא מוברג עד הסוף 🤔 ברמת ה-Fine Tunning. אותה נקודה ש-OpenAI עמלו עליה קשות באמצעות הרבה משוב אנושי. לפעמים זה הופך את החוויה איתו למתסכלת ביותר.

 

אגב, אם אתם רוצים לקרוא קצת יותר על פיצ’ר ג’ינרוט התמונות של ג’מיני, הכנו לכם מדריך מקיף של שחר גולן.

 

בארד יודע לג'נרט תמונות

מדריך לג’ינרוט תמונות עם בארד/ג’מיני

 

 

סיכום ביניים:

בינתיים אני על החבילה בתשלום כי היא נותנת חודשיים ראשונים חינם, וזמן טוב לבדוק אותו. ממה שנראה ברמת כתיבת פוסטים שיווקיים, או כתיבה יצירתית הוא עושה עבודה טובה ויתכן שאאמץ את השימוש בו (לצד צ’אט גיפיטי המוכר והאהוב). בשאר הדברים – אני עוד לא יודע, צריך להתנסות עוד. חשוב לזכור שמדובר בגרסה ראשונית שזה עתה הושקה ושסביר שימצאו באגים. מצד שני, נכון לעכשיו הוא לא “העיפרון הכי מחודד בקלמר”. גוגל אלופים בהכרזות ומילים גבוהות, ולצערנו אנחנו ממשיכים לקבל מוצרים בינוניים, חצי אפויים והרבה פחות טובות מהאלטרנטיבות של המתחרים (כן ChatGPT ו-claude ai… אני מדבר עליכם). מצד שני הוא בהחלט מביא תוצרים יפים מבחינות מסוימות. 

 

האם שווה להפסיק את המנוי ל-ChatGPT ולעבור לג’מיניי? אני לא בטוח. כל עוד יש חודשיים חינם אין שום בעיה להחזיק בשניהם. מה יהיה בהמשך… נצטרך להמשיך להתנסות ולחוות דעה מבוססת יותר לאחר שחלק מהבאגים יתוקנו.

 

קצת יותר על המודלים של ג’מיני

אם אתם רוצים להרחיב קצת יותר על המודלים החדשים של גוגל וג’מיני, עומר הררי כתב עליהם סקירה מקיפה – מוזמנים לקרוא בלינק הבא.

 

Gemini בינה מלאכותית גוגל

תמונה: גוגל

הפוסט אביץ לוקח את ג׳מיני אולטרה לסיבוב הופיע ראשון בLet's AI בינה מלאכותית

]]>
https://letsai.co.il/geminiadvanced/feed/ 0