מהי דיפוזיה (הסרת רעש) במחוללי תמונות? בתהליך יצירת תמונות באמצעות מחוללי תמונות מבוססי AI, כמו סטייבל דיפיוז’ן ולאונרדו, המושג ‘דיפוזיה’ או ‘הסרת רעש’ הוא מושג מרכזי וחשוב. כדי להבין איך מחוללי תמונות מג’נרטים, מה הם יכולים לעשות, וחשוב מכך – מה הם לא מסוגלים לעשות, חשוב להבין איך עובד תהליך הסרת הרעש. בסרטון הבא, שלקוח מוובינר שהעברנו בחודש שעבר על הממשק החדש של לאונרדו, הסברתי בשפה פשוטה את התהליך הטכני המורכב הזה. מוזמנים לצפות.
@letsai10 מה זה לעזאזל דיפוזיה (הסרת רעש) ואיך זה קשור לסטייבל דיפיוז’ן, לאונרדו ומידג’רני?! הסבר פשוט, קליל וברור על תהליך סופר מורכב, אך סופר חשוב!
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
מהו רעש?
כדי להבין דיפוזיה עלינו קודם להבין מהו רעש (Noise). רעש הוא בעצם התפזרות כאוטית של פיקסלים בתמונה, מצב שבו אין סדר או מבנה הנראה לעין האנושית. מי שזוכר את הטלוויזיות הישנות מהאייטיז, שבהן הופיע על המסך רעש סטטי אם הייתה בעיית קליטה, יכול לקבל מושג ברור על הרעש המדובר. ממש ככה נראית תמונה לפני שמחולל התמונות מתחיל את עבודתו. כאוס מוחלט. ופה בדיוק נכנסת לתמונה הדיפוזיה – תהליך הסרת הרעש, או אם תרשו לי להיות פילוסופי: תהליך הכנסת סדר למצב של אי־סדר.
מה זה דיפוזיה?
דיפוזיה בתהליך יצירת תמונות היא הסרת רעש או סידור מחדש של אותו רעש לכדי תמונה ברורה וקוהרנטית. את התהליך לרוב תחל פקודה (פרומפט). זה יכול להיות אינפוט מילולי כמו הנחיית טקסט לג’ינרוט תמונה מסוימת. לאחר קבלת הפקודה מחולל התמונות יתחיל ‘לסדר’ את הפיקסלים כך שייצרו את התמונה המבוקשת. תהליך זה נעשה בשלבים רבים (Steps), ובכל שלב המחולל ‘מסיר’ עוד ועוד רעש עד שהוא מגיע לתוצאה הסופית.
איך זה עובד?
כשאנו מזינים פרומפט למחולל תמונות, נאמר ‘חתול’, המחולל מתחיל מרעש (כאוס מוחלט) ולאט לאט מתחיל לארגן את הפיקסלים באופן שמזכיר את התוצר הסופי המבוקש, ובמקרה שלנו – חתול. המחולל נשען על מודלי חישוב שאומנו על מיליארדי תמונות מראש, ומתוך הידע הנצבר הוא ‘יודע’ איך נראה חתול (לפחות ברמה הסטטיסטית־מתמטית), ולכן הוא גם יודע כיצד לסדר את הפיקסלים כך שייראו כמו חתול. הוא מבין שלחתול לרוב יש ארבע רגליים, שתי אוזניים מחודדות ופרווה. הוא יודע פחות או יותר איפה כל איבר אמור להיות וכך מנסה כמיטב יכולתו לג’נרט תמונה שתזכיר חתול.
דוגמה מהעולם האמיתי
כדי להבין טוב יותר איך זה נראה בפועל, צפו בסרטון בחלק שבו אני מציג את האומנות של ג’סטין בייטמן, אומן המסדר צדפים וחלוקי נחל בחוף הים ויוצר מהם יצירות אומנות מרהיבות. בדיוק כפי שסטייבל דיפיוז’ן מסדר את הפיקסלים כדי ליצור תמונה, ג’סטין מסדר את האבנים והצדפים לכדי תמונה ברורה וקוהרנטית. זהו אותו עיקרון – סדר מתוך כאוס.
לסיכום, הבנת תהליך הדיפוזיה מאפשרת לנו להבין טוב יותר את המגבלות ואת היכולות של מחוללי תמונות מבוססי AI. אם אנו יודעים מה הם עושים, ואיך הם עושים זאת, קל יותר להבין מה הם מסוגלים וגם מה הם לא מסוגלים לעשות. אגב, אם אתם רוצים לצפות בוובינר המלא על לאונרדו, אתם מוזמנים ללחוץ פה.
אנו מאמינים שמי שצמא לחקור ולהבין את הטכנולוגיות המדהימות הללו, יוכל להשיג גם את היכולות להשתמש בכלים שלהן היטב ולהיעזר בהם כדי ליצור אומנות ויזואלית מקורית ומיוחדת.