איך אתם מוסיפים סאונד לסרטון? אם אתם אנשי מקצוע, אולי תשתמשו בספריית אפקטים, תשלבו שכבות, תכוונו עוצמות ותשבו שעות באולפן. אם אתם יוצרים לבד, אולי תנסו AI שיזהה אובייקטים ויוסיף להם צלילים. אבל מה עם כל מה שקורה בין לבין? כאן בדיוק נכנסת ThinkSound – מערכת חדשה שפותחה על ידי ענקית הטכנולוגיה הסינית עליבאבא, ומציעה פתרון חכם לבעיה שמטרידה יוצרי תוכן ואנשי סאונד כאחד – איך לייצר אפקטים קוליים עשירים, מדויקים ונאמנים למה שבאמת קורה על המסך ולא רק למה שרואים בפריים אחד. במאמר הזה נסביר כיצד ThinkSound עושה זאת באמצעות ניתוח הדרגתי של הסצנה כולה, תוך הבחנה בין המודל המלא לבין הגרסה הקלה והאוטומטית, Smart ThinkSound, שמתבססת על פריים בודד בלבד.
This is wild.
ThinkSound adds 100% AI sound to any video 🤯
The quality is insane.
10 wild examples + how to try:
1. Veo 3 + ThinkSound pic.twitter.com/VELjHzdtsD
— Min Choi (@minchoi) July 12, 2025
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
איזו בעיה פותרים?
מודלים קיימים מסוג Video-to-Audio יודעים לזהות אובייקטים ולהצמיד להם צלילים בסיסיים. אם הם רואים ינשוף, הם מוסיפים קריאת ינשוף. אבל הם לא מבינים מה באמת קורה: האם הינשוף עומד להמריא? נוחת? האם תנועת הכנפיים יוצרת רחש בין העלים?
שלוש מגבלות טכניות עומדות מאחורי זה:
-
אין הבנה של רצף: המודלים מתייחסים לכל פריים בנפרד, בלי להבין את הסיפור שמתרחש לאורך הזמן.
-
התעלמות מהסביבה: אין הבנה של עומק, מרחק, הדהוד, או איך הסביבה משפיעה על הצליל.
-
אפס גמישות בעריכה: אם משהו לא נשמע טוב, אין דרך לשנות רכיב ספציפי. הכול או כלום.
Chain-of-Thought ביצירת סאונד
במקום לייצר צליל מיידי על בסיס זיהוי אובייקטים, ThinkSound מציגה גישה חדשה שמחקה את אופן החשיבה של מעצבי קול מקצועיים: Chain-of-Thought Reasoning. המודל בונה “שרשרת חשיבה”, ניתוח הדרגתי של הסצנה הוויזואלית, שלב אחר שלב, לפני שהוא מייצר את האודיו.
דוגמה מעשית:
-
שלב 1: “ינשוף יושב על ענף, מוקף עלווה”
-
שלב 2: “הינשוף ממצמץ באיטיות ומרים כנפיים”
-
שלב 3: “הינשוף דוחף בכנפיים ויוצר רחש עלים”
-
שלב 4: “הינשוף עף הרחק, הקול מתרחק”
במקום אפקט קולי אחד וגנרי, מתקבל צליל שמתפתח עם הפעולה, משקף תנועה, עומק ומיקום.
המבנה הטכנולוגי של ThinkSound
בלב המערכת של ThinkSound פועלת שרשרת של שלושה רכיבים, ראייה, שפה וקול, שעובדים יחד כדי לחקות את הדרך שבה בני אדם מבינים ומעצבים סאונד. הכל מתחיל במקודד ויזואלי, שסורק את הסרטון, מזהה אובייקטים ותנועות, ובונה ייצוג חזותי של הסצנה.
לאחר עיבוד התמונה, המידע עובר למודל שפה שמסביר במילים מה קורה בסצנה שלב אחרי שלב, כמו תסריט שמתאר את הפעולה בפרטי פרטים.
לבסוף, מודל האודיו מאחד את כל המידע הזה ומייצר סאונד עשיר, דינמי וריאליסטי. כל זה נשען על מערכת בהיקף מרשים: 1.3 מיליארד פרמטרים, שאומנו על מאגר הנתונים AudioCoT הכולל 2,531 שעות אודיו עם תיאורי Chain-of-Thought.
5. Eating Crisps pic.twitter.com/IKppJxwax5
— Min Choi (@minchoi) July 12, 2025
במבחנים על מאגרי נתונים סטנדרטיים, ThinkSound הפיק תוצאות טובות יותר מכל מתחרה. הוא נשמע טבעי יותר, מדויק יותר, ומהיר בערך פי שלושה. פחות מ-1.1 שניות לקטע אודיו, לעומת 3 שניות אצל MMAudio. בשורה התחתונה יש כאן גם איכות וגם מהירות.
שלושה שלבים ליצירת סאונד מדויק
ThinkSound פועל בשלושה שלבים שמאפשרים שליטה הדרגתית ואינטואיטיבית על עיצוב האודיו:
1. יצירת שכבת סאונד בסיסית (Foundational Foley Generation): המערכת סורקת את הסרטון כולו ויוצרת נוף קולי ראשוני שמשקף את הסצנה השלמה. במקום להצמיד צליל לכל אובייקט בנפרד, היא מבינה את ההקשר הכולל, למשל, איך נשמעת מכונית בכביש עירוני סואן לעומת דרך כפרית שקטה.
2. מיקוד באובייקטים ספציפיים (Interactive Object-Centric Refinement): המשתמש יכול לבחור אובייקט בסרטון, כמו דלת, אדם, או קרון רכבת, ולבקש עידון ממוקד. ThinkSound משתמשת בטכנולוגיית Grounded-SAM-2 כדי לזהות ולעקוב אחרי האובייקט לאורך זמן. לדוגמה: המשתמש מסמן את קרון הרכבת, ומבקש למקד את הצליל בגלגלים על המסילה בלי לשנות את רעשי הרקע.
3. עריכה מדויקת בשפה טבעית (Targeted Audio Editing): בשלב האחרון, ניתן פשוט לכתוב מה שרוצים: “תגביר את ההדהוד של המכונית” או “תנמיך את רעש הרוח ברקע” – והמערכת מבצעת את ההתאמות, מבלי לדרוש ידע טכני.
Smart ThinkSound
Smart ThinkSound הוא יישום מהיר ואוטומטי של ThinkSound, שמפשט את התהליך בעזרת Claude 4 Sonnet, מודל שפה מתקדם מבית אנטרופיק. במקום שליטה אינטראקטיבית בשלושת השלבים, המערכת מנתחת פריים אחד מתוך הסרטון ויוצרת תיאור מדויק שמוביל לאודיו איכותי.
זו לא מערכת מושלמת, אבל היא מספקת תוצאה מרשימה גם ללא שום ידע מוקדם בעיצוב סאונד.
ככה זה עובד:
-
בחירת פריים: המערכת בוחרת פריים מייצג מתוך הסרטון.
-
ניתוח חזותי: Claude 4 Sonnet מנתח את הפריים לעומק.
-
כתיבת תיאור: המודל יוצר כותרת פשוטה ותיאור טכני מפורט.
-
יצירת אודיו: ThinkSound מסנתז את הצליל בהתאם.
למי שרוצה לראות (ולשמוע) איך זה נראה בפועל, ניתן לצפות במגוון דוגמאות והסברים בדמו. בנוסף, חבילת Smart ThinkSound זמינה ברפוזיטורי Replicate וגם דרך Hugging Face.
Context Hints והדרך לשפר ניתוח מפריים אחד
אחד האתגרים של Smart ThinkSound הוא הסתמכות על פריים בודד מהסרטון. כדי להתמודד עם זה, המערכת מאפשרת למשתמשים להוסיף רמזי הקשר (Context Hints), ביטויים קצרים שעוזרים למודל להבין מה באמת קורה בסצנה.
דוגמאות לרמזים אפקטיביים:
-
“fireworks video” – גורם למערכת להוסיף קולות התפוצצות, גם אם הפריים חשוך.
-
“cooking scene” – מכוון את הצליל לרחשים, חיתוך ובעבוע של מטבח פעיל.
-
“wildlife sounds” – מדגיש קולות רקע טבעיים כמו ציוץ, רשרוש ורוח.
-
“industrial sounds” – מוסיף שכבות של רעש מכני מדויק, כמו פס ייצור או מנועים.
כך אפשר לשפר משמעותית את האודיו גם בסצנות עמומות או מורכבות בלי לכתוב קוד או להבין בטכנולוגיה.
9. Baby sound pic.twitter.com/jSehLDiJvb
— Min Choi (@minchoi) July 12, 2025
שליטה באופי הצליל
למרות שהמערכת אוטומטית, משתמשים מתקדמים יכולים לכוונן את האודיו לפי הצרכים שלהם בעזרת שלושה פרמטרים פשוטים:
-
מידת התאמה לתיאור (cfg_scale): ככל שהערך גבוה יותר, המערכת תיצמד יותר לפרטים שכתבת. ערך נמוך יאפשר לה להיות חופשית ויצירתית יותר.
-
רמת עיבוד (num_inference_steps): כאן בוחרים בין מהירות לאיכות, כאשר שלבים מעטים יביאו לתוצאה מהירה יותר ושלבים רבים יביאו סאונד מדויק ואיכותי יותר.
-
Seed (מספר ייחוס): רוצים לשחזר בדיוק את אותה תוצאה? השתמש באותו מספר seed – כמו שעושים בכלי יצירת תמונות.
אפשר להתעלם מהפרמטרים האלה לגמרי, אבל אם תרצו שליטה, הם שם בדיוק בשביל זה.
מגבלות שצריך להכיר
למרות היכולות המרשימות שלה, ל-Smart ThinkSound יש גם מגבלות שחשוב להבין, רובן נובעות דווקא מהפשטות שמאפשרת לכל אחד להשתמש בה. ראשית, היא עדיין מסתמכת על פריים אחד מתוך הסרטון. כשיש שינוי דרמטי לאורך הסצנה, האודיו עלול לפספס את ההתאמה. רמזי ההקשר יכולים לעזור, אבל הם לא תמיד מספיקים. בנוסף, המערכת רגישה מאוד לאיכות הווידאו – תמונה מטושטשת, חשוכה או עמוסת פרטים עלולה להקשות עליה לזהות ולבנות סאונד מדויק.
גם ברמת השימוש יש מגבלות, כרגע ThinkSound זמינה לצורכי מחקר או התנסות אישית בלבד, ושימוש מסחרי דורש רישוי מיוחד מאליבאבא.
ולבסוף, חשוב לזכור שגם אם זמן ההפקה קצר יחסית, מדובר במערכת שדורשת משאבי עיבוד משמעותיים. גרסת Smart משתמשת במופעים מוכנים מראש כדי להאיץ את הביצועים, אבל זה עדיין לא פתרון מלא לכל תרחיש. במילים אחרות: מדובר בטכנולוגיה פורצת דרך, אבל כזו שנמצאת עדיין באמצע הדרך.
מה מחכה לנו בפיתוח עתידי?
ThinkSound עדיין לא אמרה את המילה האחרונה. כמה מהאתגרים הטכנולוגיים שנמצאים על שולחן הפיתוח:
-
ניתוח רציף של וידאו: היום המערכת מסתפקת בפריים בודד. בעתיד, היעד הוא לנתח רצף שלם של תמונות, מה שידרוש פתרונות חכמים להתמודדות עם זיכרון מוגבל ועומס חישובי כבד.
-
רמזים חכמים יותר: רמזי ההקשר (Context Hints) עובדים היטב, אבל עדיין מוגבלים. היעד הוא להפוך אותם לרגישים יותר למגוון רחב של סצנות, ז’אנרים ומצבים.
-
הבנת הרגש בסצנה: המודל יודע לזהות תנועה, אבל לא תמיד את התחושה. למשל, סצנה עצובה עלולה לקבל סאונד אופטימי מדי. ההבנה הרגשית היא השלב הבא.
-
עבודה עם אודיו קיים: כיום ThinkSound מייצרת הכל מאפס. היכולת לערוך אודיו קיים בצורה חכמה וסלקטיבית תהיה פריצת דרך משמעותית בשלב הבא.
כל אחד מהאתגרים האלה הוא דלת לעולם חדש שבו עיצוב סאונד יהיה גם מדויק, גם רגשי, וגם דינמי באמת.

איך תשפיע מהפכת הסאונד על כולנו?
ThinkSound מסמנת שינוי עמוק באופן שבו אנחנו יוצרים, עורכים וחושבים על סאונד. היא לא רק חוסכת זמן או מחליפה עבודות טכניות, היא משנה את נקודת המוצא. במקום להתחיל מאפקטים ולבנות מהם סצנה, היא מתחילה מהבנה של סצנה ויוצרת מתוכה את הסאונד. זו לא מערכת מושלמת: היא עדיין מבוססת על פריים בודד, דורשת כוח חישוב ומוגבלת לשימוש מחקרי. אבל עצם זה שהיא פתוחה לקהילת המפתחים, הופך אותה לזרז של התפתחות. בטווח הקצר, יוצרים קטנים יכולים לייצר תוצאה מקצועית בלחיצת כפתור. בטווח הארוך, הגבול בין עורך סאונד למערכת מבינה הולך ומיטשטש. ויותר מזה, אולי בפעם הראשונה, מחשבים לא רק שומעים את מה שעל המסך. הם מתחילים להבין אותו.