דף הבית » האם NVIDIA גונבת סרטונים לצורך אימון מודלי בינה מלאכותית? התחקיר והפרטים…

האם NVIDIA גונבת סרטונים לצורך אימון מודלי בינה מלאכותית? התחקיר והפרטים…

אביתר אדרי

09/08/2024

זמן קריאה: 5 דקות

ענקית השבבים NVIDIA נתפסה, לכאורה, בגניבת כמויות אדירות של תוכן וידאו מאתרים כמו יוטיוב ונטפליקס לצורך אימון מודלים של בינה מלאכותית. מסמכים פנימיים שהודלפו חושפים, על פי פרסומים, את היקף הפעילות המדהים של החברה, והעלו שאלות אתיות ומשפטיות כבדות משקל.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

אפשר גם להרשם לניוזלטר שלנו

הדרך לפסגה

חברת NVIDIA, שנוסדה ב-1993 על ידי ג’נסן הואנג, כריס מלצ’ובסקי וקרטיס פרים, עברה מסע מרתק מחברת סטארט-אפ קטנה לאחת החברות המובילות והרווחיות ביותר בעולם הטכנולוגיה. בתחילת דרכה, NVIDIA התמקדה בפיתוח כרטיסי מסך לשוק המשחקים והמולטימדיה, אך עם השנים הרחיבה את פעילותה לתחומים נוספים, ובראשם בינה מלאכותית ומחשוב מואץ. הצלחתה האדירה של אנווידיה בשנים האחרונות באה לידי ביטוי בצמיחה מטאורית בשווי השוק שלה.

בשנת 2023 בלבד, מניית החברה זינקה ב-239%, והובילה את NVIDIA לחצות את רף השווי של טריליון דולר. נכון ליוני 2024, שווי השוק של החברה עבר את רף ה-3 טריליון דולר, מה שהפך אותה לחברה השנייה בגודלה בארה”ב מבחינת שווי שוק, עוקפת את אפל.

הצלחה זו נובעת בעיקר מהדומיננטיות של NVIDIA בשוק השבבים לבינה מלאכותית, כאשר הערכות מצביעות על נתח שוק של בין 70% ל-95% בתחום זה. הביקוש העצום למעבדי הבינה המלאכותית של החברה הוביל לתוצאות פיננסיות מרשימות, עם הכנסות של 26 מיליארד דולר ברבעון הראשון של שנת 2025 הפיסקלית – עלייה של 262% לעומת השנה הקודמת.

במקביל להצלחה האדירה נמצאת NVIDIA בימים אלו במוקד של מחלוקת, כאשר טענות חמורות הועלו נגדה בנוגע לשיטות איסוף המידע שלה לצורך אימון מודלים של בינה מלאכותית.

פרויקט “קוסמוס”

על פי תחקיר של אתר 404 Media, חברת NVIDIA הפעילה פרויקט פנימי בשם “קוסמוס” שמטרתו לאסוף “ניסיון חזותי של חיי אדם שלמים מדי יום” לצורך אימון מודלים של בינה מלאכותית. הפרויקט נועד לשמש מגוון יישומים של החברה, כולל מחולל העולמות התלת-ממדיים Omniverse, מערכות לרכב אוטונומי, ומוצרי “אדם דיגיטלי”.

על פי החשדות, עובדי NVIDIA לשעבר התבקשו להוריד סרטונים מיוטיוב, נטפליקס ומקורות נוספים ללא רשות. כאשר עובדים העלו חששות לגבי החוקיות של הפעולה, נאמר להם על ידי ההנהלה כי ניתן אישור מהדרגים הבכירים ביותר בחברה.

בתחקיר נטען כי על מנת להתחמק מזיהוי על ידי יוטיוב, NVIDIA השתמשה במכונות וירטואליות עם כתובות IP מתחלפות. החברה הצליחה לאסוף למעלה מ-38 מיליון כתובות URL תוך חודש אחד בלבד.

ביוטיוב זועמים!

NVIDIA טוענת כי פעולותיה “עומדות בקנה אחד עם הרוח של חוק זכויות היוצרים” (in full compliance with the letter and the spirit of copyright law). עם זאת, יוטיוב הגיבה כי שימוש בתוכן שלה לאימון מודלים של בינה מלאכותית מהווה “הפרה ברורה” של תנאי השימוש.

הפרשה מעלה שאלות אתיות ומשפטיות מורכבות לגבי השימוש בתוכן מוגן זכויות יוצרים לאימון בינה מלאכותית. היא מצטרפת למקרים דומים בתעשייה, כאשר חברות כמו OpenAI ו-Runway הואשמו גם הן בשימוש בחומרים מוגנים ללא אישור.

ב-27 בדצמבר 2023, ה-New York Times הגיש תביעה נגד OpenAI ומיקרוסופט, בטענה ל”העתקה נרחבת” של תוכן מוגן בזכויות יוצרים לצורך אימון מערכות הבינה המלאכותית שלהן, תוך שימוש במיליוני מאמרים של העיתון ללא אישור או תשלום. בנוסף, ב-30 באפריל 2024, שמונה מו”לים של עיתונים אמריקאיים, כולל New York Daily News ו-Chicago Tribune, הגישו תביעה דומה נגד אותן חברות, בטענה לשימוש לא מורשה במאמרים שלהם לצורך אימון מודלים כמו ChatGPT ו-Copilot. גם אמנים חזותיים לא נותרו מאחור: ב-13 בינואר 2023, שלושה אמנים הגישו תביעה ייצוגית נגד Midjourney, Stability AI ו-DeviantArt, בטענה לשימוש ביצירות האמנות שלהם ללא אישור לאימון מחוללי תמונות.

היעדר חוקים ספציפיים המתייחסים לאימון AI יוצר אזור אפור משפטי, והשלכות פוטנציאליות של תביעות אלו עלולות להוות “אירוע הכחדה” עבור תעשיית ה-AI המודרנית, בדומה למה שקרה לאתרי שיתוף קבצים בתחילת שנות ה-2000. עם זאת, ברמה האישית אני לא חושב שמצב כזה יקרה – כיום הטכנולוגיה (בדגש על בינה מלאכותית) מתקדמת בקצב כל כך מהיר, שלא מותיר לרגולציה את הזמן להדביק את הקצב. כמו כן, אני מאמין שבתעשייה הזו יש מנטליות של “לקבוע עובדות בשטח”. מבלי להיכנס לסוגיית האתיקה ומבלי להיות שיפוטי – במרוץ ה-AI, לא כל כך משחקים לפי החוקים.

מקרים אלו מדגישים את הצורך הדחוף בהבהרה משפטית ורגולטורית בנוגע לשימוש בתוכן מוגן בזכויות יוצרים לאימון מודלים של בינה מלאכותית, במיוחד כאשר מדובר בשימוש בתוכן מוגן זכויות יוצרים ומידע אישי למטרות מסחריות.

אימון מודלי AI מונע מצמא לדאטה!

המקרה של NVIDIA משקף את המורכבות והאתגרים בתחום אימון הבינה המלאכותית. כיום, מערכות AI דורשות כמויות עצומות של דאטה כדי לאמן את הדורות הבאים של המודלים שלהן, ודאטה זה מאפשר למערכות ללמוד ולשפר את היכולות שלהן בתחומים שונים, מניתוח תמונות ווידאו ועד לפענוח שפה טבעית והתנהגות משתמשים. השגת הדאטה הדרוש לעיתים מצריכה פתרונות יצירתיים ולעיתים שנויים במחלוקת. חברות רבות מוצאות דרכים יצירתיות לאיסוף דאטה (לעיתים על הגבול שבין חוקי ללא אתי).

ככל שהשימוש בטכנולוגיות AI הופך לנפוץ יותר, הצורך ברגולציה ושקיפות גדל, ותהליכים שכאלה אכן קורים – רק השבוע נכנסה לתוקף רגולציה מקיפה באיחוד האירופי.

מקרים כמו זה המתואר בכתבה זו משמשים כתזכורת לחשיבות השמירה על חוקי זכויות היוצרים וסטנדרטים אתיים. השקיפות בתהליכי איסוף הדאטה והאימון חיונית כדי לשמור על אמון הציבור ולהבטיח שהטכנולוגיות משמשות לטובת הכלל. המקרה של NVIDIA מדגיש את הצורך בהתנהלות אחראית ושקופה בתחום אימון מערכות AI, תוך שמירה על חוקי זכויות היוצרים והסטנדרטים האתיים. עם רגולציה מתאימה ושקיפות בתהליכים, ניתן להבטיח שהטכנולוגיות המתפתחות ישרתו את החברה בצורה הוגנת ובטוחה.

רוצים להתמקצע?

בואו ללמוד איתנו בינה מלאכותית בקורס המקיף, העשיר והמבוקש בשוק. הצטרפו לאלפים הרבים שכבר עברו את הקורסים והסדנאות שלנו. פרטים והרשמה באתר.

לקבלת הנחה במחיר הקורסים – הזינו את קוד הקופון LETSAI

הישארו מעודכנים

אפשר גם להרשם לניוזלטר שלנו

אביתר אדרי

שותף-מייסד ב-LetsAI, מרצה ויועץ לבינה מלאכותית. בנוסף מנחה את תוכנית הטלוויזיה “בינה אחרת”, ויוצר סרטי AI מנוסה שיצר קליפים ופרסומות לחברות, ארגונים, מוזיקאים ועוד. בשנים האחרונות מעביר קורסים, סדנאות והרצאות במשרדי פרסום, בתי עסק, חברות, ארגונים, מוסדות אקדמיים וגופי תקשורת בארץ ובעולם.