כל מי שמתעסק בבינה מלאכותית, יודע שהמהפכה הבאה היא ללא ספק מהפכת הווידאו שהולכת לשנות את עולם יצירת התוכן, הטלוויזיה והקולנוע בדרך שלא הכרנו. והסצנה הזו רותחת – מסין מגיח “קלינג” (Kling) ומאיים לקחת ל־Sora של OpenAI את הבשורה; Luma הגיעו משום מקום עם Dream Machine והפילו לכולנו את הלסת; ואז עלה לי רעיון – מה יקרה אם אחבר את תוצרי הווידאו המדהימים של הכלים החדשניים הללו עם אפסקיילר הווידאו של Krea. התוצאות מטריפות!
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
הסינים לא מחכים לאף אחד – האם קלינג ינצח את סורה?
הטכנולוגיה הכי מדוברת היום היא Sora של Open AI. הכלי הושק בפברואר 2024 ועם השקתו הבטיחה OpenAI לשנות את כל מה שידענו על וידאו, אבל בינתיים השאירה אותנו רק עם הציפייה. אבל במזרח לא מחכים לאף אחד! בזמן ש’סורה’ זמינה אך ורק ליחידי סגולה שקיבלו גישה ועדיין לא זמינה לציבור, בסין כבר החלו להשתמש ב’קלינג’ (Kling) – מחולל וידאו מרשים במיוחד, שנראה כמתחרה רציני ביותר של סורה! נכון להיום הוא פתוח רק לאזרחי סין. לפי מה שראינו באתר של החברה, ומסרטונים שמשתמשים מסין פרסמו ב־X (טוויטר לשעבר), זה נראה מדהים. ילד אוכל המבורגר בהנאה, פנדה מנגנת בגיטרה, כלבלב מתהלך בנונשלנטיות על חוף הים או סתם חלב מוקצף נשפך לכוס אספרסו – הכול נראה פשוט מצוין. פוטו־ריאליסטי, מדויק ופשוט מרהיב. הינה כמה דוגמאות מתוצרי הווידאו שהכלי המדהים הזה יודע לייצר:
פרומפט: ילד סיני עם משקפיים נהנה מצ’יזבורגר טעים בעיניים עצומות במסעדת מזון מהיר | Credit: kling.kuaishou.com
פרומפט: כלב מגזע קורגי עם משקפי שמש צועד על חוף של אי טרופי | Credit: kling.kuaishou.com
פרומפט: פנדה ענקית המנגנת בגיטרה ליד האגם | Credit: kling.kuaishou.com
לומה מפתיעים: “דרים משין” הגיח משום מקום ושמט לכולנו את הלסת!
ואז פתאום, בלי שאף אחד שם לב, ב־13.6.24 צץ משום מקום Dream Machine של לומה. הפעם מדובר במודל שכבר פתוח לשימוש של הציבור הרחב ואפילו בחינם. החברה פתחה גישה חופשית לחבילת התנסות ובה 30 סרטונים בחודש.
מי את לומה, ומאיפה באת?!
לומה היא חברת סטארט־אפ צעירה שפיתחה טכנולוגיות מתקדמות של בינה מלאכותית ליצירת תוכני 3D ווידאו ריאליסטיים מטקסט או מתמונות. את החברה ייסדו ב־2021 צוות יזמים וחוקרי AI מנוסים, כולל המנכ”ל Amit Jain, שהיה מומחה בחברת אפל להנדסת מערכות ראייה ממוחשבת ומצלמות. לומה גייסה מעל 70 מיליון דולר במימון הון סיכון, והצוות שלה, הכולל מומחים בתחום הראייה הממוחשבת, גרפיקה ולמידת מכונה, עובד להגשמת החזון של הנגשת יצירת תוכן ב־3D באמצעות AI לכולם. בעידן של שינויים מהירים כל טכנולוגיה חדשה מצליחה לרגש אותנו לזמן קצר בלבד עד שמגיעה הבאה ומכניסה אותנו להתרגשות מחודשת. עם זאת, Luma מאופיינת בגישה רעננה ומסקרנת בתחום יצירת הווידאו, וכדאי להכיר את הכלים שלה ולהתנסות בהם. תוכלו לקרוא על הכלים של לומה פה.
אם אתם רוצים להתמקצע, כדאי שתדעו שאנחנו מלמדים על לומה ודרים משין לעומק בקורס יצירת סרטים עם AI.
הטכנולוגיה של לומה, דרים משין
לומה משתמשת בטכנולוגיית Dream Machine, מודל בינה מלאכותית שמייצר במהירות וידאו איכותי וריאליסטי מטקסט ומתמונות. היא מנצלת מודל טרנספורמר יעיל שמאומן ישירות על וידאו, ומסוגלת לייצר סצנות עם הבנה פיזיקלית של המרחב, בדיוק ובעקיבות תוך כדי שמירה על תנועה חלקה וסינמטוגרפיה מדהימה. לומה מאופיינת באיכויות שעד עכשיו לא ראינו באף מודל ששוחרר לציבור הרחב, וזה מה שמיוחד בה. היא עדיין לא מושלמת, ויש לא מעט באגים והזיות, אבל בהחלט מדובר בקפיצת מדרגה (10 מדרגות למעשה) מכל מודל וידאו שראינו עד היום.
כדי להדגים את הקפיצה הטכנולוגית המדהימה של לומה בהשוואה למודלים אחרים שהכרנו, שלי אור גיסר ואני ערכנו סרטון קצר לרמיקס שעשינו יחד לשיר Hurricane. בקליפ תוכלו לראות השוואה בין ג’ינרוטי וידאו־על בטכניקה של הנפשת תמונה סטטית (Image to video) בלומה דרים משין ובראנוויי והאפייר.
מגבלות והתאמת ציפיות
אף על פי שהמודל מרשים, יש לו מגבלות, אי־דיוקים, עיוותים וקצת הזיות, במיוחד עם פרומפטים מורכבים, אבל אני חושב שהוא יעיל ומדויק בעיקר בעבודה עם תמונות רפרנס. הביקוש ל־Dream Machine היה כה גבוה עד שלומה הציגה מערכת להמתנה בתור. חלק מהמשתמשים ממתינים כל הלילה כדי שהפרומפטים שלהם יעובדו. בסיום ההמתנה אפשר ליצור וידאו בשתי דקות. עוד ביום ההשקה לומה פעלה כדי להגדיל את השרתים, ונכון לעכשיו זמני ההמתנה אינם ממושכים, והסרטונים מגיעים מהר יחסית.
טיפים והמלצות
- קבלו טיפ – אם אתם רוצים שהסרטים שלכם יג’ורנטו בלי המתנה בכלל, פשוט פתחו יוזר חדש (הרשמה עם חשבון גוגל) ותקבלו תוצאות מיידיות. נראה שחברת לומה נותנת עדיפות למשתמשים חדשים כדי לא לייאש אותם בהמתנה – אסטרטגיה חכמה מאוד!
- חשבתם שהתוצרים של לומה מדהימים? עוד לא ראית איך הם נראים עם Enhancer – האפסקיילר של Krea. לקחתי את התוצרים ששלי ואני יצרנו עם לומה (מהסרטון שראיתם מעלה), והכנסתי אותם ל־Video Upscaler של Krea, שיודע לחדד ולהוסיף פרטים, להגדיל רזולוציה ו־FPS. מדהים לראות איך כלי AI שונים משלימים זה את זה ויוצרים תוצר מטורף! התוצאה לפניכם (את המוזיקה הוספנו ממאגר הסאונדים החינמי של Clipchamp של מיקרוסופט).
ומה עם הסאונד?
ראינו איך מחוללי וידאו ואפסקיילרים מאפשרים לנו להגיע לתוצאות מדהימות ולהפוך למשרד פרסום של איש אחד: גם עורך וידאו, גם צלם, גם במאי, וכל זה מבלי לקום מהכיסא. אבל מה לגבי הפסקול – המוזיקה והסאונד? בקורס מידול סאונד ודיפ פייק שלי ושל אביתר אדרי נלמד אתכם כל מה שאתם צריכים לדעת על בניית מודלי קול, יצירת מוזיקה עם AI ויצירת תכנים ויראליים.