סיכום חדשות מהשבוע שחלף בעולמות הבינה המלאכותית. אין ספק שהיה שבוע היה עמוס באירועים ובחידושים מרתקים בתעשיית ה-AI. הנה סקירה מקיפה על ההתפתחויות הבולטות ביותר. אפשר לסכם את השבוע (וקצת) הזה במשפט הבא: כשב-OpenAI מאיטים, הקוד הפתוח (והסינים) מאיצים.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
מודלי וידאו: הקצב גובר
בשבועות האחרונים OpenAI שחררו טיפין טיפין עוד טיזרים ממודל הוידאו הבאמת מדהים שלהם Sora. הם הודיעו שהם נוקטים כעת באסטרטגיה זהירה ושישחררו את המודלים העוצמתיים שלהם בהדרגה. הטכנולוגיה שהם הציגו היא באמת בפער משמעותי מעל השאר, ולכן הם יכולים להרשות את זה לעצמם. אבל לא ברור לעוד כמה זמן.
.
כי בינתיים מודלי וידאו נוספים נפתחים לציבור ורק השבוע ראינו את קלינג (Kling), מודל הוידאו הסיני, נפתח לציבור הרחב.
בנוסף, Gen-3 Alpha של RunwayML הציג יכולת חדשה של “תמונה לוידאו”, אשר מהווה פריצת דרך בתחום (תכונה זו הייתה מורגשת בחסרונה עד כה, והייתה זמינה רק ב-Gen2).
מודל וידאו סיני נוסף בשם Vidu נכנס לשוק.
פה תוכלו לראות סרט אנימציה קצר שנוצר ב”וידו” על ידי Ainimate Lab, בשיתוף עם Vidu. בעולם של קרח ושלג, דוב קוטב נחוש יוצא למסע יוצא דופן על פני הגלובוס, מתמודד עם אינספור אתגרים בדרך להעביר מתנה מיוחדת – כך כתבו בחשבון היוטיוב של החברה על הסרטון המקסים הזה.
מודלי שפה: מטא שואפת לפסגה
בתחום מודלי השפה יש התפתחות מואצת, בעיקר הודות למטא (Meta), שהפתיעה בשחרור המודל הפתוח החזק ביותר כיום – Llama 3.1 (לאמה 3.1 405B), לצד עוד שני מודלים קטנים מאותה סדרה. אלה מבטיחים תרומה משמעותית לעולם הקוד הפתוח עם השפעות לטווח הארוך.
ואם כבר מדברים על וידאו ומטא, השבוע Meta שחררו לקוד הפתוח מודל סגמנטציה לוידאו ברמה מאוד גבוהה. הוא נקרא SAM-2. כלומר הוא יודע לבודד אובייקט מסוים מתוך הסרטון, מה שמאפשר אחר כך תהליכי עבודה שונים כמו מחיקה של האוביקט, טישטוש, הבלטה מהרקע ועוד. תעשיית האפקטים צריכה בדיוק את כלי שכזה, ועכשיו כשהוא כאן, פעולות אלו הופכות מהירות וקלות מתמיד. בנוסף על המודל הם גם שיחררו חצר משחקים כיפית, בה תוכלו לנסות את המודל גם על סרטונים שלכם ולייצר מהר מאוד אפקטים מעניינים. בינתיים זה חינם!
סרטון התדמית ל-sam2 שפרסמה Meta.
Media error: Format(s) not supported or source(s) not found
הורד קובץ: https://sam2.metademolab.com/assets/landing_video-TJPr-nem.mp4?_=1Credt: sam2.metademolab.com
מוזיקה ובינה מלאכותית: Udio מתחדשת
נעבור לתחום המוזיקה, שהתפתח המון בחודשים האחרונים. Udio השיקה את גרסה 1.5 בסוף השבוע שעבר. מעבר לשיפורים כלליים, נוספה לכלי המדהים הזה יכולת מאוד מעניינת של רמיקס, אשר זמינה גם לקבצי אודיו שלכם (שאתם מעלים לכלי). התכונה זמינה גם עבור הקלטות באורך של עד 2:10 דקות. למרות שעדיין יש חולשה בתמיכה בעברית, השדרוג הזה מעניין מאוד ומציע אפשרויות יצירתיות חדשות למשתמשים.
הפרדת ערוצים (Stems) ב-Udio.
תמונות ובינה מלאכותית: פריצות דרך מרגשות
מידג’רני השיקו את גרסה 6.1, אך המהפכה האמיתית הייתה בחברת Dark Forest Labs שהוקמה על ידי יוצאי Stability AI. החברה השיקה סדרה של שלושה מודלים בשם Flux, כאשר שניים מהם פתוחים לציבור וכוללים מודל מהיר במיוחד בשם Schnell (שזה כמובן ׳מהר׳ בגרמנית), המסוגל ליצור תמונה תוך שנייה בודדת, ובעלות של 0.003 דולר בלבד. כלומר תוכלו ליצור 333 תמונות בעלות של דולר בודד. כל זה דרך API באתרים כמו Replicate או fal.ai, או דרך שירות שלהם. נסו את Flux Schnell ב-Replicate.
אבל מכיוון שהמודל הוא קוד פתוח, הוא יכול לרוץ גם על מחשב שלכם בהינתן חומרה טובה מספיק, ולהשתלב בתהליכי יצירה עם Comfy UI (הם כבר שיחררו את הרכיב לקומפי). המודל החזק ביותר שלהם בגירסת Pro אינו ניתן להורדה, אלא רק לקריאה ב-API. הוא עולה 5 סנט לתמונה ודורש יותר זמן, אבל התוצאות באמת מדהימות!
עוד חדשות מעניינות בתחום התמונה: קאנבה (Canva) רכשה את לאונרדו (Leonardo AI), פלטפורמת יצירת תמונות שמבוססת ברובה על קוד פתוח, אבל לאחרונה פיתחה מודל מאוד איכותי שלהם, מאפס, בשם ״פניקס״. מודל מדויק מאוד, שיוגע לג’נרט טקסט (באנגלית), וגם מאפשר עריכה בעזרת הנחיות טקסטואליות. ככל הנראה אנחנו נראה אותו בקרוב בתוך קאנבה, וזה שידרוג ענק!
במקביל חברת Krea הודיעה שיכולת יצירת תמונה באתר שלהם תאמץ בקרוב את Flux מה שיביא גם כן לשיפור משמעותי.
קול ובינה מלאכותית: OpenAI ממשיכים להתוות את הדרך
ובתוך כל זה, OpenAI התחילה השבוע לשחרר גישה למודל הקולי המתקדם שלה. הדמואים המרהיבים הופכים לשיתופים של משתמשים אמיתיים וזה בהחלט שומט את הלסת. יש גם כמה דוגמאות יפות בעברית. ובנוסף SearchGPT, תכונת חיפוש ג’נרטיבית שתוטמע ישירות בתוך ChatGPT גם החלה להגיע לחלק מהמשתמשים. התרשמויות בהמשך.