אין ספק שמפרוץ מהפכת ה־Gen AI, סף הריגוש שלנו עלה, והיום קשה יותר להפתיע אותנו. אנחנו כבר מורגלים בהשקות ובהכרזות על כלים ומודלים המדהימים ביכולותיהם ובפוטנציאל שלהם, ולרוב גם על כאלה שמעלים חששות רבים בנוגע להשלכות השימוש בטכנולוגיות ג’נרטיביות. דיפ־פייק ו־AI בווידאו הם שניים מהתחומים הכי נפיצים בעולם הבינה המלאכותית כיום (וגם הכי מסוכנים). אומנם מדובר בפלא של ממש – טכנולוגיות AI מרשימות שקל להתלהב מהן, אבל מצד שני הן טומנות בחובן סיכונים רבים בקנה מידה נרחב ביותר. על אף העובדה שאנחנו מוצפים בחידושים, מדי פעם מגיע כלי חדש שמרים את הרף וגורם לנו שוב להתרגש ולהתפעל. VASA-1 של מיקרוסופט הוא אחד כזה – מודל ליפ סינק (Lip Sync) ליצירת סרטונים מדובבים בזמן אמת שמפיק תוצאות מטריפות אפילו על בסיס תמונת פנים סטטית אחת. הינה כל מה שחשוב לדעת על המודל החדש.
אבל לפני הכול – הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכונים, חידושים או מידעים על כלים חדש שיוצאים.
ממליצים לכם להצטרף גם לקהילות ה־AI של LetsAI בוואטסאפ ובטלגרם. רוצים לשמוע על הקורסים וסדנאות ה־AI שלנו? לחצו פה.
לפני הכול פשוט צפו בסרטון הבא – זה באמת משהו שאסור לפספס!
המסע של מיקרוסופט לטופ של תעשיית ה־AI
מיקרוסופט לא מפסיקה להפתיע! כחברה שהצליחה להמציא את עצמה מחדש בתהליך שעברה מתאגיד עולמי אדיר אך מנומנם לחברה חדשנית ומהפכנית (הרבה הודות להשקעה הנכבדת ב־OpenAI), היא הצליחה למצב את עצמה בטופ של תעשיית ה־AI העולמית. עם מוצרים כמו Copilot וכמובן המוצרים של ‘האחות הקטנה־גדולה’ OpenAI (ChatGPT ,Dall-E3 ו־Sora) היא יצרה לעצמה ארסנל מרשים מאוד. אסופת כלים ג’נרטיביים שממציאים מחדש את התעשייה ואת העולם שבו אנחנו חיים. יחד שתי החברות הללו מכתיבות את הקצב ומציבות את הרף לתעשייה.
מה כל כך מיוחד ב־VASA-1
הנפשת ודיבוב דמות בהתבסס על תמונה בודדת
אתמול (18.4.24) הטילה מיקרוסופט פצצה נוספת שמציגה ביצועים גבוהים במיוחד (מה שמפליא הוא שתוצאות אלה מושגות גם לנוכח הזנת אינפוטים מועטים ודלים). הפצצה הזאת היא מודל בינה מלאכותית חדש ועוצמתי המכונה VASA-1 ומפיק סרטוני דיפ־פייק (DeepFake) מציאותיים להפליא של פנים מדברות (מה שמכונה בתעשייה: ‘ראשים מדברים’, ‘Talking Heads’). הסרטונים הללו מופקים מתמונת פנים יחידה בשילוב קטע קול או טקסט. וכל זה קורה בזמן אמת!
אבל זה לא נגמר פה – למודל יכולות מרשימות לייצר הבעות פנים אנושיות וטבעיות בעזרת ממשק שמאפשר לשנות את זווית הפנים ואפילו את מנעד הרגשות שהן יביעו.
שליטה מדויקת ומגוונת באאוטפוט
המודל שמיקרוסופט מציגים בעמוד ההכרזה של הכלי מפגין יכולות מדויקות להפליא לסנכרון שפתיים לשמע, וזה מבטיח יצירת סרטון עקבי, רציף ובעל מראה טבעי (ראו דוגמאות בסרטון מעלה). הוא מצליח לקלוט ולשחזר הבעות פנים מגוונות, רגשות שונים, מחוות טבעיות ותנועות ראש אמיתיות. המשתמש יכול לשלוט בפרמטרים כמו כיוון המבט העיקרי, מרחק הראש בפריים ואפקטים רגשיים ספציפיים.
רזולוציה וקצב פריימים גבוה לצד השהייה נמוכה – פוטנציאל גבוה!
VASA-1 תומך ביצירה בזמן אמת של סרטונים באיכות גבוהה (512×512 פיקסלים) בקצב של עד 45 פריימים לשנייה (במצב האופליין) ו־40 פריימים לשנייה במצב של און ליין סטרימינג עם השהיה התחלתית מזערית בלבד – רק 170 מילי־שניות (בניסוי שנעשה במחשב שולחני עם כרטיס גרפי NVIDIA RTX 4090 יחיד). פרט זה חשוב במיוחד כיוון שהוא מאפשר ליצור סוכני AI ג’נרטיביים שמגיבים בזמן אמת, ומראה אנושי טבעי לאינפוטים של משתמשים אנושיים. דמיינו סוכני מכירות ג’נרטיביים, מוקדני AI בשירות לקוחות מקוון, פסיכולוגים ג’נרטיביים חכמים ועוד אינספור שימושים פונקציונליים שכלי כזה יכול להציע. יש לציין כי המודל נועד למחקר בלבד והחברה אינה מתכוונת לשחרר מוצר או API בשלב זה בשל גישת האחריות החברתית שלה.
שליטה בהיבטי הייצור
מודל הדיפוזיה של VASA-1 מקבל אותות אופציונליים כתנאי כמו כיוון המבט העיקרי של העין, מרחק הראש ומחוות רגשיות. ועכשיו בעברית – משמעות הדבר שהמשתמש יכול לשלוט בפרמטרים אלה ולקבל תוצאות שונות – לדוגמה לשנות את כיוון המבט של הדמות לצדדים או כלפי מעלה, להגדיל או להקטין את המרחק של הראש בפריים או ליצור הבעות רגש ספציפיות כמו אדישות, שמחה, זעם או הפתעה. המודל מצליח לייצר תנועה טבעית שמשמרת מראה עקבי, גם אל מול שינוי בזווית הראש או שינוי בדינמיקת הפנים. המשתמש יכול לשלוט ידנית בנתונים אלה בעזרת סליידרים שמאפשרים שליטה וכוונון נפרדים של התכונות השונות בתוכן המיוצר.
אאוטפוטים מגוונים ויצירתיים
המודל מציג ביצועים מרשימים גם אם הוא מקבל תמונות או קבצי אודיו שחורגים מטווח הנתונים שעליו אומן, כמו למשל תמונות אומנותיות (ראו את הדוגמה עם המונה ליזה בסרטון מעלה), קלטי שירה ואפילו דיבור בשפות שונות שאינן אנגלית (אין לנו מידע בעת הזאת לגבי יכולות בשפה העברית). ואני מחדד – סוגי נתונים כאלה לא הופיעו בסט האימון המקורי, אך VASA עדיין מצליח להתמודד איתם כאשר משתמשים מזינים לו אותם כאינפוט.
שיקולי אתיקה ואחריות של VASA-1
מיקרוסופט מדגישים שהמודל שפיתחו במסגרת המחקר שלהם ממוקד ביצירת מיומנויות ויזואליות־רגשיות לאווטרים ולסוכני AI וירטואליים כדי לעודד יישומים חיוביים. אין להם כוונה לאפשר יצירת תוכן מטעה, והם יפעלו למזעור נזקים (הפחתת הסיכוי של יצירת פייק ניוז, שימוש למטרות הונאה ומרמה וכן הלאה). הם מודעים לעובדה שכמו בכל טכנולוגיית ייצור תוכן (ובמיוחד בכל הנוגע לבינה מלאכותית יוצרת), גם פה עלול הכלי לשמש למטרות זדוניות ולחיקוי בני אדם אמיתיים (מה שמנוגד למדיניות החברה). הם מצהירים שהם מתנגדים לכל יצירה של תכנים מטעים או פוגעניים של אנשים אמיתיים, ולכן יפעלו ליישם טכניקות לגילוי זיופים. למרות הסיכונים הרבים חשוב להכיר בפוטנציאל החיובי הניכר של מודל זה – יתרונות בעולמות החינוך וההוראה, שיפור הנגישות למתמודדים עם קשיי תקשורת, הצעת חברה ותמיכה טיפולית לנזקקים ועוד. כל אלו ממחישים, לטענת מיקרוסופט, את חשיבות המחקר ואת יצירת המודל החדש.
הזמינות של VASA-1 לציבור ב־API
במיקרוסופט מספרים שבשלב זה אין להם תוכניות לשחרר כלי או ממשק שזמין לציבור וגם לא גישה ל־API. לדבריהם הם לא הולכים לשחרר שום מוצר או יישום בצורה כזאת או אחרת עד שיהיו בטוחים שהטכנולוגיה תשמש באופן אחראי ובהתאם לתקנות מתאימות.
מבט לעתיד
VASA-1 טומן בחובו פוטנציאל עצום ליישומים חיוביים רבים אך גם סכנות ניכרות לשימוש לרעה, לזיופים ולהונאות. המודל ממחיש את המשך ההתקדמות המדהימה בתחום הבינה המלאכותית הגנרטיבית ואת חשיבות הטיפול המושכל והאחראי בכוחן הרב של טכנולוגיות אלה. האם באמת יצליחו במיקרוסופט לגדר את הכלי ולצמצם את הפוטנציאל לנזק? ימים יגידו. מה שבטוח, ככל שאנחנו צועדים אל עבר עתיד שבו בינה מלאכותית נעשית חלק בלתי נפרד מהיום־יום שלנו, חלה על כולנו – הן המשתמשים והן החברות שמאחורי פיתוח הכלים הללו – החובה לגלות אחריות. זה הרבה מעבר לשימוש מושכל! זאת גישה כללית שמנסה לשים את הקדמה והביטחון בראש סדר העדיפויות בשל ההבנה שפעמים רבות מדובר בערכים סותרים. האיזון בין ערכים אלה יהיה מה שיקבע אם ה־AI ישמש ככלי לתועלת הציבור או כטכנולוגיה הרסנית עם השלכות הרות גורל הן ליחידים והן לקולקטיב.
האם יש כלי שמאפשר כיום יצירת דיפ-פייק בצורה פשוטה ומשוחרר לציבור?
יעזור לי גם כזה שניתן לראות שהוא פייק בתנאי שאינו נראה מגוחך