ענקית השבבים NVIDIA נתפסה, לכאורה, בגניבת כמויות אדירות של תוכן וידאו מאתרים כמו יוטיוב ונטפליקס לצורך אימון מודלים של בינה מלאכותית. מסמכים פנימיים שהודלפו חושפים, על פי פרסומים, את היקף הפעילות המדהים של החברה, והעלו שאלות אתיות ומשפטיות כבדות משקל.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
הדרך לפסגה
פרויקט “קוסמוס”
על פי תחקיר של אתר 404 Media, חברת NVIDIA הפעילה פרויקט פנימי בשם “קוסמוס” שמטרתו לאסוף “ניסיון חזותי של חיי אדם שלמים מדי יום” לצורך אימון מודלים של בינה מלאכותית. הפרויקט נועד לשמש מגוון יישומים של החברה, כולל מחולל העולמות התלת-ממדיים Omniverse, מערכות לרכב אוטונומי, ומוצרי “אדם דיגיטלי”.
על פי החשדות, עובדי NVIDIA לשעבר התבקשו להוריד סרטונים מיוטיוב, נטפליקס ומקורות נוספים ללא רשות. כאשר עובדים העלו חששות לגבי החוקיות של הפעולה, נאמר להם על ידי ההנהלה כי ניתן אישור מהדרגים הבכירים ביותר בחברה.
בתחקיר נטען כי על מנת להתחמק מזיהוי על ידי יוטיוב, NVIDIA השתמשה במכונות וירטואליות עם כתובות IP מתחלפות. החברה הצליחה לאסוף למעלה מ-38 מיליון כתובות URL תוך חודש אחד בלבד.
ביוטיוב זועמים!
NVIDIA טוענת כי פעולותיה “עומדות בקנה אחד עם הרוח של חוק זכויות היוצרים” (in full compliance with the letter and the spirit of copyright law). עם זאת, יוטיוב הגיבה כי שימוש בתוכן שלה לאימון מודלים של בינה מלאכותית מהווה “הפרה ברורה” של תנאי השימוש.
הפרשה מעלה שאלות אתיות ומשפטיות מורכבות לגבי השימוש בתוכן מוגן זכויות יוצרים לאימון בינה מלאכותית. היא מצטרפת למקרים דומים בתעשייה, כאשר חברות כמו OpenAI ו-Runway הואשמו גם הן בשימוש בחומרים מוגנים ללא אישור.
ב-27 בדצמבר 2023, ה-New York Times הגיש תביעה נגד OpenAI ומיקרוסופט, בטענה ל”העתקה נרחבת” של תוכן מוגן בזכויות יוצרים לצורך אימון מערכות הבינה המלאכותית שלהן, תוך שימוש במיליוני מאמרים של העיתון ללא אישור או תשלום. בנוסף, ב-30 באפריל 2024, שמונה מו”לים של עיתונים אמריקאיים, כולל New York Daily News ו-Chicago Tribune, הגישו תביעה דומה נגד אותן חברות, בטענה לשימוש לא מורשה במאמרים שלהם לצורך אימון מודלים כמו ChatGPT ו-Copilot. גם אמנים חזותיים לא נותרו מאחור: ב-13 בינואר 2023, שלושה אמנים הגישו תביעה ייצוגית נגד Midjourney, Stability AI ו-DeviantArt, בטענה לשימוש ביצירות האמנות שלהם ללא אישור לאימון מחוללי תמונות.
היעדר חוקים ספציפיים המתייחסים לאימון AI יוצר אזור אפור משפטי, והשלכות פוטנציאליות של תביעות אלו עלולות להוות “אירוע הכחדה” עבור תעשיית ה-AI המודרנית, בדומה למה שקרה לאתרי שיתוף קבצים בתחילת שנות ה-2000. עם זאת, ברמה האישית אני לא חושב שמצב כזה יקרה – כיום הטכנולוגיה (בדגש על בינה מלאכותית) מתקדמת בקצב כל כך מהיר, שלא מותיר לרגולציה את הזמן להדביק את הקצב. כמו כן, אני מאמין שבתעשייה הזו יש מנטליות של “לקבוע עובדות בשטח”. מבלי להיכנס לסוגיית האתיקה ומבלי להיות שיפוטי – במרוץ ה-AI, לא כל כך משחקים לפי החוקים.
מקרים אלו מדגישים את הצורך הדחוף בהבהרה משפטית ורגולטורית בנוגע לשימוש בתוכן מוגן בזכויות יוצרים לאימון מודלים של בינה מלאכותית, במיוחד כאשר מדובר בשימוש בתוכן מוגן זכויות יוצרים ומידע אישי למטרות מסחריות.
אימון מודלי AI מונע מצמא לדאטה!
המקרה של NVIDIA משקף את המורכבות והאתגרים בתחום אימון הבינה המלאכותית. כיום, מערכות AI דורשות כמויות עצומות של דאטה כדי לאמן את הדורות הבאים של המודלים שלהן, ודאטה זה מאפשר למערכות ללמוד ולשפר את היכולות שלהן בתחומים שונים, מניתוח תמונות ווידאו ועד לפענוח שפה טבעית והתנהגות משתמשים. השגת הדאטה הדרוש לעיתים מצריכה פתרונות יצירתיים ולעיתים שנויים במחלוקת. חברות רבות מוצאות דרכים יצירתיות לאיסוף דאטה (לעיתים על הגבול שבין חוקי ללא אתי).
ככל שהשימוש בטכנולוגיות AI הופך לנפוץ יותר, הצורך ברגולציה ושקיפות גדל, ותהליכים שכאלה אכן קורים – רק השבוע נכנסה לתוקף רגולציה מקיפה באיחוד האירופי.
מקרים כמו זה המתואר בכתבה זו משמשים כתזכורת לחשיבות השמירה על חוקי זכויות היוצרים וסטנדרטים אתיים. השקיפות בתהליכי איסוף הדאטה והאימון חיונית כדי לשמור על אמון הציבור ולהבטיח שהטכנולוגיות משמשות לטובת הכלל. המקרה של NVIDIA מדגיש את הצורך בהתנהלות אחראית ושקופה בתחום אימון מערכות AI, תוך שמירה על חוקי זכויות היוצרים והסטנדרטים האתיים. עם רגולציה מתאימה ושקיפות בתהליכים, ניתן להבטיח שהטכנולוגיות המתפתחות ישרתו את החברה בצורה הוגנת ובטוחה.