טוב עזבו הכל. אבל באמת עכשיו – עזבו הכל (!) וצפו בסרטונים הללו! ברוכים הבאים לעתיד שברגע זה הפך להווה. ברוכים הבאים לעולם בו לא ניתן להבחין בין סרטון אמיתי שצולם ע”י בן אנוש ובין סרטון מג’ונרט. ברוכים הבאים ל-Sora – מודל ה-Text2Video החדש של OpenAI.
הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלי חדש שיוצא…
סרטון מציאותי שהופק באמצעות Sora
הסרטון הזה לא אמיתי!
הסרטון הזה לא אמיתי! הוא לא צולם בשום מצלמה ולא נערך בשום תוכנת עריכת וידאו. הוא פשוט נוצר במחולל הוידאו החדש Sora של OpenAI מהפרומפט הבא:
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
איפה היינו לפני 10 חודשים ואיפה אנחנו היום!
לשם השוואה – שימו לב איפה היינו לפני 10 חודשים (תחילת 2023) ואיפה אנחנו היום. הסרטון הבא של וויל סמית’ אוכל ספגטי קיבל מאות אלפי צפיות והוא נוצר בעזרת סטייבל דיפיוז’ן, ע”י המשתמש “Robot Named Roy”.
עכשיו השוו את זה לסרטון של האסטרונאוט מעלה. שימו לב למרקמים, לכיסוי הראש הסרוג, לטקסטורה של העור, לעקביות בתאורה. מלבד אופן ההליכה המוזר של האסטרונאוט, מדובר בהפקה שקשה להאמין שנוצרה במחולל וידאו בתהליך דיפוזיה מתקדם, ולא צולמה על ידי מצלמה אמיתית! לא יאמן!! ומה שמפחיד שזו רק ההתחלה. זו נקודת הפתיחה של הטכנולוגיה הזו. חשבו על קצב ההתקדמות והפיתוח של כלי ה-AI המטריפים הללו – תראו מה עברנו בפחות משנה, ועכשיו נסו לדמיין איפה נהיה שנה מהיום. כמה שעכשיו זה נראה מדהים, עוד שנה זה כבר יהיה קרוב למושלם. וזו מחשבה קצת מפחידה. מה זה אומר על מציאות ודימיון? על אותנטי מול פייק? על הקלות הבלתי נסבלת שבה כל אדם בכל מקום יכול לייצר “מציאות”? מה זה אומר על הונאות או סחיטות? על עולם הפשע שתמיד יודע לנצל כל טכנולוגיה חדשה…
יודעים מה… הלכתי רחוק. מה זה אומר על יוצרי הוידאו? הצלמים, העורכים, המפיקים? מה זה אומר על חברות שלמות שיקרסו בן לילה כי כבר לא יצטרכו אותן? מה זה אומר על מאגרי הסטוק של סרטונים? שאלות שחשוב לשאול ואני כלל לא בטוח שיש לי את התשובות…
סרטונים שנוצרו בסורה בשיטת Text to Video
שימו לב לסרטונים הבאים – כולם נוצרו מהנחיות טקסט בלבד. אין בהם שום רפרנס ויזואלי ו/או סרטון ששימש כשכבת בסיס. פשוט סרטונים שנוצרו מהנחיות טקסטואליות. מ-ד-ה-י-ם!!!
למי יש גישה לכלי?
נתחיל מהסוף. הוא לא זמין. לפחות לא לכם. נכון להיום הכלי זמין רק ליוצרים נבחרים ובודדים בעולם (אמני ויז’ואל, קולנוענים ויוצרים בולטים), לצד צוותי פיתוח (red teams) שמטרתם לבחון את המוצר, לקחת אותו לקצה, לאתר באגים וכשלים, למצוא סיכונים ואיומים וכן הלאה.
רזולוציה וחדות מדהימה!
מה סורה יודע לעשות?
- סורה Sora הוא מודל דיפוזיה לוידאו של OpenAI המסוגל ליצור סרטונים מתוך הוראות טקסט בלבד (Text to Video).
- הוא יכול ליצור סצנות ריאליסטיות ודמיוניות, תוך שמירה על איכות ויזואלית גבוהה והתאמה לבקשת המשתמש עד לאורך של דקה שלמה (60 שניות). קחו בחשבון שהמתחרים הגדולים (שעכשיו נראה ש-OpenAI משאירה להם אבק) כמו Pika ai וראנוויי (Runway) יודעים לייצר סרטונים קצרצרים בני מספר שניות בודדות.
- ניתן לקבוע את ה-Aspect Ratio של הסרטון (מימדי הסרטון, למשל 1:1 או 16:9).
- יש לו אפשרות להאריך סרטונים ולהמשיך לג’נרט אותם, בין אם “לנחש” את ההמשך שלהם או לג’נרט את “ההתחלה” שלהם.
- יש לו יכולת לאחד בין קטעים/סרטונים וליצור חיבורים טבעיים. כך למשל אפשר ליצור מעברים בין פריימים עם התרחשויות שונות (דמויות, רקעים וכן הלאה).
- יש לו גם פיצ’ר הנפשה לתמונה (בדומה ללאונרדו, פיקה, ראנוויי ai ודומו), המאפשר להעלות תמונה סטטית ולהפוך אותה לסרטון עם תנועה וזרימה.
- יש לסורה גם יכולות Video to Video (בדומה ל-Gen1 ולדומו).
חוזקות
- סורה (Sora) מסוגל לייצר סצנות מורכבות עם דמויות מרובות, סוגי תנועה ספציפיים ופרטים מדויקים של הנושא והרקע. המודל מבין לא רק מה המשתמש ביקש בפרומפט שהוזן לו, אלא גם איך הדברים האלה קיימים בעולם הפיזי. כלומר, יש לו הבנה של תהליכים, חוקים והשפעה של דבר אחד על משנהו.
- כמו כן, למודל יש הבנה עמוקה של שפה, מה שמאפשר לו לפרש במדויק הנחיות ולייצר למשל גם דמויות מושכות שמביעות רגשות עזים.
- סורה יכול לג’נרט זוויות צילום מרובות ושונות בתוך סרטון בודד, תוך שמירה מדויקת על הדמויות והסגנון החזותי. העקביות הזו היא לא פחות ממדהימה, וזה אחד מהדברים שהכי היו חסרים לנו במחוללי הוידאו האחרים הזמינים לציבור.
שימו לב לשמירה על העקביות לאורך הטיסה של ה”רחפן” (שלא קיים). שימו לב לזוויות והשמירה על המבנה של העיירה, גם כאשר המצלמה “מסתובבת”. מדהים
חולשות
- מצד שני, למודל הנוכחי יש חולשות. חשוב לזכור שמדובר במודל נסיוני וראשוני שנמצא ממש בחיתולים שלו (למרות שכבר עכשיו הוא מפגין יכולות מטריפות). הוא עלול להתקשות בסימולציה מדויקת של הפיזיקה בסצנה מורכבת (למשל, נרות שעפים ברוח לכיוונים שונים), וייתכן שהוא לא מבין מקרים ספציפיים של סיבה ותוצאה (למשל, אדם עשוי לקחת ביס מעוגייה, אבל אחר כך העוגייה עלולה להישאר שלמה, ללא סימנים לנגיסה).
- המודל גם עלול לבלבל פרטים מרחביים בפרומפט (למשל, להתבלבל בין שמאל לימין).
- הוא מתקשה גם בתיאורים מדויקים של אירועים המתרחשים לאורך זמן (כמו למשל לעקוב אחרי מסלול מצלמה ספציפי).
בטיחות
- ב-OpenAI מדגישים – החברה תנקוט במספר צעדי בטיחות חשובים לפני ש-Sora תהיה זמינה לציבור. הם מודעים לבעייתיות ולסיכונים שנובעים משימוש בכלי שהם יצרו (ג’ינרוט אנשים אמיתיים, זיופים, השפעה על תפיסת המציאות של הציבור, פגיעה בתהליכי בחירות במדינות דמוקרטיות, שימוש למטרות זדון על ידי אנשים פרטיים או ממשלות, יצירת “מציאות” מוטה ועוד ועוד ועוד). לטענתם הם עובדים עם בודקי אבטחה – מומחים בנושאים כמו דיסאינפורמציה, גזענות ופשעי שנאה, הטיות ואפליה ועוד. מומחים אלו אמורים לבדוק את המודל בצורה יסודית. עם זאת, ניסיון עבר מלמד אותנו שמודלי AI מבוססים בסופו של יום על דאטה אנושית, וזו כמעט תמיד מוטה. אנחנו רואים את זה במחוללי תמונות ובמודלי שפה – הטיות מגדריות, אתניות וכן הלאה. סביר שנראה הטיות שכאלה גם בסורה.
- לטענת OpenAI הם בונים אמצעים שעזרו לזהות תוכן מטעה ו/או שיסמנו לצופים מתי סרטון נוצר על ידי Sora.
- בנוסף לפיתוח שיטות בטיחות חדשות, הם עושים שימוש חוזר בשיטות בטיחות קיימות שבנו בעבר עבור מוצרים קיימים, כמו למשל DALL·E 3, ושיכולות להיות רלוונטיות גם ל-Sora.
- לדוגמה, שימו שבפילטרים כבר בשלב הזנת הפרומפט. פילטרים אלו יאומנו לזהות תוכן שמפר את מדיניות השימוש, כמו בקשה לאלימות קיצונית, תוכן מיני, שנאה וגזענות, דמיון לאנשים אמיתיים או מפורסמים, או קניין רוחני של אחרים.
- הפיתוחים שלהם יורדים גם לרזולוציה של פריימים בודדים. לפי המסמכים שהפיצה OpenAI הם יעשו שימוש גם בכלים שיסקרו כל פריים בווידאו שייווצר, כדי לוודא שהוא עומד במדיניות השימוש (וזאת לפני שמוצג למשתמש).
- החברה הצהירה שתשתף פעולה עם מקבלי החלטות, מורים ואמנים ברחבי העולם כדי להבין את החששות שלהם וגם כדי לזהות שימושים חיוביים לטכנולוגיה החדשה הזו. עם זאת, למרות המון מחקר ובדיקות, מובן להם (ולנו) שהם לא יכולים לחזות את כל הדרכים שאנשים ישתמשו בטכנולוגיה שלהם לטובה וגם לא את כל הדרכים שינצלו אותה לרעה. לאור כך הם הם מאמינים שרק השימוש בעולם האמיתי ולמידה מבוססת חיזוקים של משתמשים (לצד פידבקים מגורמים רלוונטיים) יכולים לעזור ליצור מערכות בינה מלאכותית בטוחות יותר עם הזמן. זה חלק מהמחיר שאנחנו משלמים על הקדמה ולצערנו לא נראה שזה הולך להשתנות.
איך עובדים המודלים של סורה?
סורה הוא מודל דיפוזיה – מודל שמתחיל מרעש סטטי (Noise) – מעין עירבובייה של פיקסלים, שבעזרת מודלי חישוב סטטיסטיים והסתברותיים, ולאורך מספר צעדים, “מנקה” את הרעש ו”מסדר” את הפיקסלים לתמונה (פריים בודד) שהעין והמוח האנושי מסוגלים להבין.
בדומה למודלים מסוג GPT, Sora משתמשת בארכיטקטורת טרנספורמרים שמאפשרת ביצועים משופרים. הם מייצגים סרטונים ותמונות כאוספים של יחידות נתונים קטנות יותר הנקראות Patches. כל אחת מהן מקבילה ל-token ב-GPT. על ידי איחוד הייצוג הם יכולים לאמן טרנספורמרי דיפוזיה על מגוון רחב יותר של נתונים ויזואליים, עם משכי זמן, רזולוציות ויחסי גובה-רוחב שונים.
המודל של Sora מבוסס על מחקרים קודמים ב-DALL·E ובמודלי GPT. הוא משתמשת בטכניקת ה-Recaptioning מ-DALL·E 3 שמערבת יצירת תיאורים מפורטים מאוד עבור הנתונים החזותיים באימון. כתוצאה מכך, המודל יכול לעקוב אחר הוראות הטקסט של המשתמש בווידאו שמיוצר באופן מדויק יותר.
בנוסף ליכולת לייצר וידאו רק מטקסט, המודל יכול לקחת תמונה קיימת ולייצר ממנה וידאו (הנפשת תמונה סטטית), וכך להפיח בה חיים, עם דיוק ותשומת לב לפרטים קטנים. המודל גם יכול להרחיב וידאו קיים או למלא פריימים חסרים.
ב-OpenIA מאמינים שסורה תשמש כבסיס למודלים שיכולים להבין ולחקות את העולם האמיתי. לדבריהם זו אבן דרך חשובה בדרך להשגת AGI (בינה מלאכותית כללית / בינת-על).
הבנה של המציאות
לא מזמן כתבנו על מודלי עולם כלליים (general world models) – החזון של ראנוויי לבניית מודלי חישוב ש”מבינים” את הסביבה, את חוקי הפיזיקה, את ההיגיון שמאחורי סיבה ותוצאה, ובשל כך יצליחו (כך מקווים בחברה) לייצר סרטונים נכונים ותקינים יותר מבחינת היכולת שלהם לחקות את העולם האמיתי, על חוקיו הפיזיקליים והאופטים. אצל ראנוויי הכל בפיתוח, והנה מגיע סורה, ונראה שב-OpenAI פיצחו את הסוד ועקפו את Runway בסיבוב. הסרטונים שלהם מפגינים הבנה מרשימה של המרחב, של חוקי הפיזיקה, של אופטיקה (השתקפויות, או וצל) וכן הלאה. נכון – זה עדיין לא מושלם ועדיין יש באגים והזיות, אבל זה מאוד קרוב. וכבר עכשיו זה נראה ממש טוב!
אלטמן משתף ונותן פייט לטענת ה”צ’רי פיקינג”
כצעד מקדים ב-OpenAI צפו שסביר להניח שרבים יניחו שבוצע פה “צ’רי פיקינג” (למי שלא מכיר – מונח המתאר בחירה בפינצטה של הסרטונים הטובים ביותר, שלאו דווקא משקף את איכות כלל התוצרים). גם אני חשבתי כך בהתחלה, אבל אז ראיתי את הציוץ של סם אלטמן, מנכ”ל OpenAI ב-X שלו (טוויטר לשעבר). הוא סיפר על השקת סורה וביקש מהעוקבים שלו לרשום לו פרומפטים הזויים, ואף איתגר אותם לרשום פרומפטים קשים ומורכבים.
הציוץ של אלטמן:
don't hold back on the detail or difficulty!
— Sam Altman (@sama) February 15, 2024
את התוצאות הוא שיתף בזמן אמת (עוד באותו יום) והנה כמה מהן. כלומר, גם פה ניתן לראות שמדובר בכלי שיודע לייצר תכנים בזמן אמת ובאיכות ורמת גימור גבוהה, ולא איזה כלי ניסיוני שמישהו דייק כל פריים ופריים שיוצא ממנו מבעוד מועד.
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
here is a better one: https://t.co/WJQCMEH9QG pic.twitter.com/oymtmHVmZN
— Sam Altman (@sama) February 15, 2024
האם מדובר בגיים צ’יינג’ר?
אנחנו שומעים את המילה גיים צ’יינג’ר כל 5 דקות בתעשייה הזו, אבל הפעם ללא ספק מדובר בקפיצת מדרגה טכנולוגית מפחידה ומרגשת בו זמנית. אני מודה – בפעם הראשונה שראיתי את הסרטונים שיצאו מ-Sora הייתי בטוח שזה לא אמיתי. שאין מצב שזה סרטון שנוצר בתהליך דיפוזיה מתוך טקסט, ולא איזה פילטר חכם של Video2Video. אבל ככל שראיתי יותר ויותר סרטונים (חלק גדול מהם מופיע כאן במאמר), וככל שהצלחתי להבחין גם בבאגים ובפאקים הקטנים (ידיים / אצבעות), ההבנתי שזה ה”ריל דיל”. מדובר פה בדבר האמיתי. נראה שסורה הולכת לייצר פה רף וסטנדרט חדשים שיצעידו את שאר התעשייה קדימה.
הכלי מפגין יכולות מרשימות, סרטונים ארוכים (60 שניות) ששומרים על עקביות ותנועה במרחב. חדות מרהיבה, טקסטורות, אור וצל, השתקפויות… קיצר, אם כל מה שאנחנו רואים שם באמת אמיתי… יודעים מה, אפילו אם נקבל חצי ממה שאנחנו רואים שם – זו מהפכה של ממש וזה לא פחות ממדהים!
עכשיו זכרו שזו רק ההתחלה! זו נקודת הפתיחה ומפה המודלים הללו רק ילכו וישתפרו. היכולת להבחין בבאגים והזיות, בכפות ידיים מוזרות או בחוקי פיזיקה שנשברים ילכו ויטשטשו ככל שהטכנולוגיה הזו תלך ותשתפר. אתם זוכרים איפה היינו רק לפני מספר חודשים?! כש-Gen1 ו-Gen2 שמטו לנו את הלסת.
להרחבה – לינקים, מאמרים ומחקרים
- בלינק הבא תמצאו מחקר מעמיק יותר (Video generation models as world simulators) שמסביר קצת על הצד הטכני שמאחורי המודלים החדשים. כמו כן, תמצאו שם המון סרטונים נוספים שנוצרו עם סורה (וכל אחד מהם שומט לי את הלסת).
- בלינק הבא תמצאו את מאמר ההשקה של סורה, בו מופיעים הסרטונים שראיתם פה (ורבים אחרים), לצד מידע על הכלי החדש.