המודלים החדשים להמרת טקסט לתמונה מבית Black Forest Labs מעוררים גלים מאז יציאתם בשבוע שעבר, ופוסטים ותמונות שמספידים את Midjourney הפופולרי התחילו לצוץ מיד. בואו נבחן כמה דוגמאות ונראה איזה מודל מניב תוצאות טובות יותר! כדי לעשות זאת, יצאתי לבדוק והשוויתי בין התוצאות של אותם פרומפטים בשתי הפלטפורמות:Midjourney v6.1 מול מחולל התמונות החדש והמסקרן Flux-Dev, שמעורר הרבה תשומת לב בימים האחרונים.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
ה-KPIs שלי:
- עמידה בפרומפט (עד כמה התמונה עוקבת אחרי הפרומפט).
- איכות התמונה.
- יצירתיות.
- גורם ה-X (שהופך את התמונה ליפה).
שיטת הבחירה:
בחירת התמונה הטובה מבין 4 וריאציות בכל מחולל.
השוואה – מידג’רני גרסה 6.2 נגד Flux-Dev
הפרומפט:
wide shot, long shot, full body of A girl dancing, with hair made of colorful melting ice cream, featuring sprinkles and a cherry on top. She is wearing pink sports shoes and She has a playful expression, with ice cream dripping slightly down her face. Bright, a car garage on fire in background grainy, shot on film
Flux Dev
Midjourney
שתי התמונות מהממות ופוגעות בול בכל ה-KPIs.
הפרומפט:
wideshot, longshot, fullbody, a lady wearing a wide pink hat, spilling orange juice on a surprised zombie creature, in panic, running away, dark alley
Flux Dev
Midjourney
שני המודלים לא עמדו במלואם בפרומפט (המוזר), אבל לפחות ב-Midj הוצג הזומבי שביקשתי. בנוסף, מבחינת קולנועיות וגורם ה-X, Midj מקבל ציון גבוה יותר.
הפרומפט:
a photo of 2 birds playing pool in a night club, one of the birds is smoking, the other holds a drink
Flux Dev
Midjourney
אם נתעלם מהעובדה שהציפור של Flux מחזיקה את המשקה עם הרגל השלישית שלה, התמונה מהממת. שתי התמונות לא עוקבות אחרי הפרומפט אחד לאחד, אך מספקות תוצאות חזקות בכל זאת.
הפרומפט:
Wide shot, a lady wearing a wide pink hat holding an orange juice, riding a zebra in savanna Africa
Flux Dev
Midjourney
Flux Dev מציג יתרון כאן למרות ש-Midj הוא יותר סגנוני. בשני המודלים הייתה לי בעיה להציג את הנוף המלא כצילום רחב.
הפרומפט:
a bowl of yogurt with the text “Boker Tov Shir” written in honey, top down view, a breakfast table | a graffiti on the streets of Manchester “I’m so sorry Why do you come here When you know it makes things hard for me? When you know, oh, why do you come?”
Flux Dev
Midjourney
טקסט הוא אחד מהנקודות החוזק של Flux, אבל כפי שניתן לראות, Midjourney מטפל במשימה די טוב ואפילו קצת יותר קולנועי.
הפרומפט:
Pixel art of two girls enjoying ice cream on a vibrant street in Tel Aviv. The girls, with bright outfits, savor colorful ice cream cones. The background features charming buildings, trees, and a clear blue sky
Flux Dev
Midjourney
שני המודלים לא הצליחו לספק תמונת פיקסל ארט טובה ישירות, אבל Midjourney בהחלט ניסה יותר.
הפרומפט:
A young witch with bright purple hair and a mischievous grin, riding a broomstick over a bustling, whimsical town. Below, candy-colored houses and quirky shops line winding streets, while enchanted creatures and magical beings go about their day. The sky is filled with sparkling stars and swirling clouds, creating an enchanting twilight scene, vibrant and full of life
Flux Dev
Midjourney
שני המודלים קיבלו ציון גבוה בכל ה-KPIs, למרות התעלמות מהחלק של “while enchanted creatures and magical beings go about their day”. למרות זאת, התוצאות של Midjourney נראות יותר חיות ואנרגטיות ופחות טריוויאליות, למרות המטאטא המוזר שניתן לתקן בקלות.
סיכום
יכולתי להמשיך ולג’נרט עוד שעות רבות, אך הייתי צריך לסיים את המאמר המשווה הזה בנקודה כלשהי…
שני המודלים מדהימים ומקבלים ציונים גבוהים בכל ה-KPIs. אין עוד ידיים עם שישה אצבעות (רוב הזמן) והבחירה קלה (יצרתי לא יותר מארבע תמונות לפרומפט). אבל איזה מודל טוב יותר?
ובכן, לא הייתי מבטל את המנוי למידג’רני מיד. בהשוואה לשני המודלים הללו, אני חושב ש-Midjourney הוא עדיין המודל הטוב ביותר. הוא יצירתי, מהיר, מייצר תוצאות אומנותיות באיכות גבוהה, ומגיע עם סט כלים כגון התייחסות לסגנון ולהתייחסות לדמות שמקלים על חלק מתהליך יצירת הפרומפטים.
עם זאת, Flux (schnell & dev) מראה פוטנציאל עצום. איכות התמונות כבר מדהימה, והעמידה בפרומפט מעולה. הוא יכול להיות יותר יצירתי ורב-גוני, וצריך לעבור עוד דרך ארוכה בתחום האילוסטרציה. אבל זו רק ההתחלה עבור Flux. העובדה שהמשקלים מופצים לציבור היא יתרון עצום. בקרוב, יצאו תוספים והרחבות כמו Controlnet ו-IPadapter (סטייל רפרנס), שיעשו את Flux יותר ניתן לשליטה ורב-גוני. בקרוב, גם נבין איך לאמן קונספטים חדשים על התשתית של Flux, ואז, אולי, אני אלבש את חולצת ה-“Cancel Mindjourny Subscription” שלי.
חברת Finetuners מפתחת פייפליינים לתעשיית הגיימינג.