פיצ’ר הליפסינק (Lip Sync) החדש של ראנוויי Runway ai, מחולל הווידאו המוביל, פתוח לציבור הרחב.
אבל לפני הכול – הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלי חדש שיוצא…
ממליצים לכם להצטרף גם לקהילות ה-AI של LetsAI בוואטסאפ ובטלגרם. רוצים לשמוע על הקורסים וסדנאות ה־AI שלנו? לחצו פה.
קצת על ראנוויי
ראנוויי, שתמיד עמדה בחזית הטכנולוגית של כלי הווידאו הג’נרטיביים, אהובה במיוחד על יוצרי וידאו ברחבי העולם, ויש לכך סיבות טובות! במשך השנה האחרונה היא הקפידה לשחרר פיצ’רים מתקדמים בקצב מסחרר. זה התחיל ב־Gen1 (מחולל Video2Video), המשיך ב־Gen2 (מחולל Text2Video) וממשיך בשורה של שדרוגים: מברשת התנועה (Motion Brush) המאפשרת להנפיש אזורים מוגדרים בתוך הסרטון, ובקרת המצלמה (Camera Motion) שנתנה ליוצרים חופש אדיר ושליטה על כיוון תנועת המצלמה ועל ההתרחשות בסרטון.
תחרות עזה בנישת הדיבוב והנפשת התמונות
לראנוויי, סטארט־אפ צעיר עם שווי שוק מוערך של חצי מיליארד דולר, יש לא מעט מתחרים! בעבר היא עמדה כמעט לבדה בנישת מחוללי הווידאו, אך מהר מאוד צמחו לה מתחרים כמו פיקה (Pika) שנוגסת בנתח השוק שלה. מהר מאוד חברות נוספות הציגו כלי הנפשת תמונות דומים המאפשרים לקחת תמונה סטטית ולהפיח בה חיים כסרטון. חברות כמו דומו (Domo), לאונרדו ואפילו פרום (Prome) גם השיקו כלים כאלה.
אך התחרות לא באה רק מצד מחוללי וידאו קלסיים או מחוללי תמונות שהוסיפו פי’צרים של עיבודי וידאו; היא הגיעה גם מצד כלים ליצירת אווטארים והנפשתם כמו D-ID הישראלית או הייג’ן (Heygen), שאף השיקה לאחרונה את גרסה 5.0 שלה. כלים אלה מתמחים ביצירת ‘ראשים מדברים’ (Talking Heads). הם מאפשרים לעבוד עם תמונה סטטית (לרבות תמונות שנוצרו בכלים אחרים) ולהנפיש אותה (להוסיף לה דיבוב, לג’נרט את תנועות השפתיים ולהתאים את הבעות הפנים). החברה היחידה שלה מודל Text2Speech שתומך גם בעברית היא D-ID, ואילו שאר הכלים תומכים רק בהעלאה של הקלטה קולית בעברית ובהנפשת הפנים לפיה. גם בגזרת מחוללי האווטארים התחרות לא עצרה; הייג’ן ו־D-ID הציגו מוצרים חדשניים ומהפכניים כמו סוכני AI ג’נרטיביים ויצירת אווטארים הייפר ריאליסטיים כולל כאלה שנוצרו על בסיס סרטונים שהעלו המשתמשים עצמם.
בשלב זה פיקה מיהרה ליישר קו ושחררה גם היא פי’צר הנפשת ודיבוב תמונות סטטיות: ליפ סינק (Lip Sync). ונראה שזה היה הקש ששבר את גב הגמל. כשפיקה, המתחרה הישירה של ראנוויי, משחררת כלי שמציב אותה כאלטרנטיבה ל־D-ID או הייג’ן ויכול לשמש כיתרון יחסי למשתמשים המתלבטים אם לעבוד עם הממשק הוובי של ראנוויי או שלה, לראנוויי לא נותרת ברירה. היא חייבת ליישר קו גם היא. כן, זה היה צפוי ומתבקש, והינה זה קורה.
דיבוב והנפשת תמונות בתוך ראנוויי
הפיצ’ר החדש של Runway מאפשר לכם להנפיש תמונת פנים בעזרת מודל Text to Speech או הקלטה קולית. ראו דוגמה בסרטון (הקרינג’י) מטה:
גייסנו את רוס גלר (דייויד שווימר מ”חברים”) להציג לכם את הפיצ’ר החדש. מתנצלים מראש על הסרטון הקרינג’י…
איך זה עובד?
- כנסו לאתר של ראנוויי.
- בחרו בכלי: Generative Audio.
- העלו תמונה: אפשר לבחור מהמאגר של ראנוויי או מהתמונות שכבר נמצאות בתיקיית הנכסים שלכם בראנוווי, ואפשר גם להעלות תמונה מהמחשב או מהטלפון.
- הקלידו טקסט או העלו הקלטה קולית.
- אם הקלדתם טקסט, בחרו בקול מתוך המבחר העשיר של ראנוויי (נכון לרגע זה הכלי לא תומך ב־Text to Speech בעברית, ולכן תיאלצו להסתפק בהקלטה קולית).
- לחצו על Generate, וזהו בתוך זמן קצר הסרטון שלכם יהיה מוכן.
דגשים והמלצות
- כדי שהאודיו יהיה תואם לליפ סינק, הוא חייב לכלול מילים שמדוברות בבירור. הקפידו על הגייה תקינה ותאפשרו למודל של ראנוויי להנפיש את הפנים ואת תנועת השפתיים של הדמות.
- לא רק תמונות; גם סרטונים! בניגוד לכלים אחרים המודל של ראנוויי מאפשר להנפיש ולדובב גם קבצי וידאו ולא רק תמונות סטטיות.
- הקפידו שהפנים בתמונה או בסרטון יפנו ישירות אל המצלמה וממורכזות מהכתפיים ומעלה (לא קרובות מדי למצלמה).
- חשוב שהתמונות או הסרטונים שלכם יהיו יחסית פוטו־ריאליסטיות ומספיק דומות לפנים אנושיות (עיניים, אף ופה), אחרת המודל יתקשה להנפיש אותן.
- אם אתם מנפישים סרטון, הקפידו שהוא לא יכלול תנועות יוצאות דופן של הפה, של המצלמה, של הגוף או של הראש. כמו כן, רצוי שלא יהיו בו שינויי תאורה מובהקים.