הכלי Whisper של OpenAI לתמלול קולי נמצא לאחרונה תחת ביקורת משמעותית בשל תופעה המכונה “הזיות” (hallucinations) – המצאת תמלולים שמעולם לא נאמרו. תופעה מדאיגה במיוחד כשמדובר בהקשרים רפואיים. למרות האזהרות הברורות של OpenAI להימנע מהשימוש בכלי במצבים רגישים במיוחד, Whisper נמצא בשימוש נרחב בבתי חולים ובמרפאות ברחבי העולם. מה היקף התופעה? מהם הסיכונים הכרוכים בשימוש בכלי זה במערכות בריאות? ומהם התגובות וההמלצות מצד מומחים?
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
היקף הבעיה והתופעה
במספר מחקרים שנערכו, חוקרים ומומחי טכנולוגיה גילו כי Whisper נוטה לייצר “הזיות” בתמלול – המצאת מילים ומשפטים שאינם נאמרים כלל בהקלטות. כך, במקום לתמלל בצורה מדויקת, הכלי יצר אמירות לא מציאותיות, כולל הערות עם השלכות חברתיות ותרבותיות בעייתיות, ואף המציא מידע רפואי שלא נאמר. לדוגמה, באוניברסיטת מישיגן גילו החוקרים כי ב-8 מתוך 10 הקלטות של ישיבות ציבוריות, תמלולי Whisper הכילו חלקים מומצאים שלא נאמרו כלל.
בהתבסס על מחקרים נוספים, נמצא כי הכלי “מדמיין” גם אמירות הכוללות התייחסויות גזעניות, רטוריקה אלימה, והצעות לטיפולים רפואיים שאינם קיימים. לדוגמה, אחד מהממצאים הבולטים כלל תמלול של “אנטיביוטיקה היפראקטיבית“, טיפול דמיוני לחלוטין. כל אלו מראים את מגבלות הדיוק של Whisper, שמעלים חשש באשר לאמינות התמלול כאשר מדובר בהקשרים חשובים וחיוניים כמו מערכת הבריאות.
הסיכונים בשימוש בכלי Whisper בהקשר רפואי
חרף בעיית הדיוק, נראה כי כלי Whisper נמצא בשימוש נרחב במוסדות רפואיים. חברת Nabla, למשל, המפתחת כלי תמלול רפואיים מבוססי Whisper, דיווחה כי מעל ל-30,000 רופאים ו-40 מערכות בריאות שונות ברחבי העולם, כולל בתי חולים מובילים, עושים שימוש בכלי זה לצורך תמלול ביקורים רפואיים. כ-7 מיליון ביקורים תומללו עד כה באמצעות הכלי.
הבעיה החמורה ביותר בשימוש במערכת כזו נובעת מאי-האפשרות לבדוק את דיוק התמלול, שכן כל ההקלטות נמחקות לאחר התמלול מטעמי פרטיות. אם נוצרת שגיאה או “הזיה” במהלך התמלול, הצוות הרפואי יכול להתקשות לאמת את הדברים מול ההקלטה המקורית, במיוחד כשחלים לחצים ודרישות להשלמת תמלולים במהירות. במצבים רפואיים, בהם כל פרט הוא קריטי, שגיאות תמלול עלולות להוביל לאבחנות שגויות ולסיכונים בריאותיים למטופלים!
למה זה קורה ומה יש לעשות?
חוקרים מסבירים כי אחת הסיבות המרכזיות להיווצרות “הזיות” בתמלול נובעת ממורכבות הסביבה בה מוקלטים הקבצים. Whisper נוטה להמציא תכנים במקרים בהם יש הפסקות ארוכות בהקלטה, רעשי רקע או קטעי מוסיקה. למעשה, מהנדסי למידת מכונה שסקרו מאות שעות של תמלולים זיהו טעויות בכמחצית מהם, כאשר לעיתים רבות השגיאות כוללות הוספה של פרטים שגויים, בין אם בטעות ובין אם בניסיון לפרש את ההקלטה.
מומחים, כמו פרופ’ אלונדרה נלסון מאוניברסיטת פרינסטון, מתריעים על הסיכון שבשימוש בכלי במערכות בריאות, וממליצים על הגברת הפיקוח על טכנולוגיות כאלו. לדבריהם, יש צורך בפיתוח מנגנוני בדיקה ורגולציה מקיפים יותר, אשר יסייעו למנוע שימוש לא מבוקר ויובילו לכך שמערכות בינה מלאכותית בשימוש רפואי יעמדו ברף דיוק גבוה במיוחד.
תגובת OpenAI והצעדים הבאים
חברת OpenAI הגיבה לביקורת באומרה כי היא מודעת לבעיות בתמלול ושוקדת על תיקונן באמצעות עדכוני מודל המבוססים על משוב מהמשתמשים. בחברה מדגישים את הצורך להשתמש ב-Whisper אך ורק בסביבות בעלות רמות סיכון נמוכות יותר, אולם במקביל מתמודדים עם הפופולריות הרבה של הכלי, שבחודש האחרון הורד למעלה מ-4.2 מיליון פעמים מאתר HuggingFace.
חברות כמו Oracle ומיקרוסופט שילבו את Whisper בפלטפורמות הענן שלהן, מה שמדגיש את הביקוש העצום לכלי ומעלה את החשש שמא משתמשים אחרים יאמצו אותו גם בהקשרים בהם הוא פחות מתאים. במילים אחרות, למרות מאמציה של OpenAI, ישנם גורמים המעודדים את השימוש בכלי גם בהקשרים רגישים כמו רפואה ופרטיות, תוך סיכון לשגיאות חמורות בתמלול.
עתיד תמלולי הבינה המלאכותית
הכישלונות של Whisper הם תזכורת מוחשית לאתגרים שהבינה המלאכותית מביאה איתה, במיוחד בכלים של תמלול שמבוססים על מודלים כמו GPT. עולם הבריאות, שבו דיוק ומידע אמין הם הכרחיים, דורש זהירות רבה יותר כאשר בוחנים שילוב של כלים כאלו. הגורמים הרגולטוריים והחוקיים יצטרכו לפתח מנגנוני פיקוח שימנעו שימוש בטכנולוגיות שאינן עומדות בסטנדרטים הנדרשים.
בהסתכלות על העתיד, ברור כי על חברות כמו OpenAI לנסות ולשפר את הכלים שלהן תוך הטמעת תהליכי בדיקות קפדניים יותר. ייתכן והפתרון יגיע על ידי חיבור לכלי בינה מלאכותית נוספים המספקים רמה גבוהה יותר של דיוק, או פיתוח כלים מבוססי בינה מלאכותית שממוקדים בהקשרים רפואיים בלבד, ומותאמים במיוחד לשימושים קריטיים.