בעידן הבינה המלאכותית, טכנולוגיות חדשות מתחרות על פתרון בעיות מורכבות ולהביא חדשנות בלתי מתפשרת. מאמר חדש מבית Google Research בשם, “Titans: Learning to Memorize at Test Time“, והוא מציע גישה פורצת דרך לזיכרון מודלים או במילים אחרות, מודלי בינה מלאכותית. אם זה באמת נכון, הגישה החדשה תשנה את הדרך שבה בינה מלאכותית זוכרת, לומדת ומתאימה את עצמה בזמן אמת ומכאן גם את היכולות שלה והעתיד של בינה מלאכותית ככלי שימושי בחיי היום יום. המודל Titans מתמודד עם אתגרים מבניים שהיו בלתי פתירים עבור מודלים קיימים, ומשלב תהליכי זיכרון דינמיים שמדמים את אופן הפעולה של המוח האנושי. במאמר הזה, אשתדל להסביר את ההבדל בגישות כי קיים סיכוי קטן, שאנחנו מדברים על עוד נקודת ציון היסטורית.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
צעד אחד אחורה – למה אנחנו צופים פה מהפכה נוספת?
בפרק האחרון של הפודקאסט שלנו “AI וחברים”, רותם בר ואני סקרנו את המהפכה הבאה, כפי שאנחנו צופים אותה. ממליץ לכם בחום לצפות בקטע הבא, רגע לפני שאתם צוללים למאמר (תזמנתי לכם בדיוק את השנייה בה אנחנו מתחילים לדבר על ה-Titans).
נתחיל באתגר עם המודלים הקיימים
מגבלת חלון ההקשר
יש כמובן עוד המון אתגרים אבל כאן אנחנו מתייחסים לבעיה מוגדרת עם השלחות רחבות.
מודלי Transformers כמו GPT-4 לצורך העניין, המבוססים על מנגנון תשומת הלב (Attention) שעלה לכותרות בשנת 2017 ושינה את כל מה שידענו על בינה מלאכותית יוצרת, הובילה לפריצות דרך משמעותיות בתחום עיבוד השפה הטבעית (NLP).
בכל מקרה, יש שתי מגבלות ברורות:
-
אורך חלון ההקשר (Context Window): מודלים אלה מוגבלים לניתוח מספר מסוים של טוקנים (Tokens) בו-זמנית. מגבלה זו יוצרת בעיות אמיתיות במקרים של טקסטים ארוכים במיוחד או במצבים בהם נדרשת הבנת הקשרים רחבים.
-
עומס חישובי: מנגנון ה-Attention דורש חישובים רבים ככל שאורך הטקסט גדל, מה שמוביל למורכבויות חישוביות בקנה מידה ריבועי. גם במודלים מתקדמים כמו GPT-4, התמודדות עם מסמכים באורך מיליוני טוקנים נותרה אתגר עצום.
מודלי Transformers בנויים כזיכרון קצר-טווח: הם שומרים נתונים רק בתוך חלון ההקשר שלהם ומתעלמים ממידע ישן (בלי להתייחס לתהליך האימון).
בניגוד למוח האנושי, שבו זיכרון לטווח קצר וארוך פועלים יחד, המודלים מתקשים לשלב מידע חדש עם זיכרון היסטורי ולמחוק נתונים שאינם רלוונטיים.
Titans: גישה חדשה לזיכרון מודלים
טוב אז ככה, Titans הוא רעיון פורץ דרך שמציע פתרון לשתי הבעיות הללו שציינו על ידי יצירת מערכת זיכרון המחקה את המוח האנושי.
המודל משלב שלושה סוגי זיכרון מובנים:
- זיכרון קצר-טווח: משמש להקשר מיידי וממוקד.
- זיכרון ארוך-טווח: מאפשר שימור מידע היסטורי רחב טווח.
- זיכרון מתמיד: מכיל ידע קבוע ואינו תלוי בקלט.
הדבר הבא
מנגנון “ההפתעה” (Surprise Mechanism) זה לדעתי החידוש המהותי! הרעיון בגישה זו, הוא שהמנגנון מזהה “אירועים מפתיעים” – כלומר, כאלה שאינם עומדים בציפיות המודל.
לדוגמה: מידע יוצא דופן או אירוע נדיר יקבל עדיפות גבוהה ויישמר בזיכרון הארוך-טווח. לעומת זאת, מידע פחות רלוונטי יושמט בהדרגה.
בעוד שמודלים מסורתיים לומדים רק בשלב האימון, Titans מבצע “למידה בזמן הרצה” (Test-Time Learning).
תכונה זו מאפשרת לו לשפר את הביצועים תוך כדי עבודה עם המשתמש ולשמר מידע חשוב שנחשף במהלך האינטראקציה.
כמה מילים על הארכיטקטורה של הזיכרון המדובר
אז בצורה מאוד מתומצתת, יש שלוש גישות עיקריות לשילוב זיכרון במודלים:
Memory as Context (MaC)
בגישה זו, הזיכרון ארוך-הטווח משולב כהקשר נוסף למידע הנוכחי. המודל משתמש בזיכרון כדי להעשיר את הניתוח, תוך שילוב בין נתונים חדשים לישנים. גישה זו מתאימה במיוחד למשימות הדורשות שילוב רחב של הקשרים היסטוריים עם נתוני זמן אמת.
Memory as Gate (MaG)
גישה זו משלבת בין הזיכרון לטווח קצר וארוך באמצעות ״שערים״ דינמיים. השערים האלה כביכול מנתחים את המידע המתקבל ומחליטים מה לשלב ומה להותיר בצד, מה שמבטיח ניצול יעיל של משאבי הזיכרון.
Memory as Layer (MaL)
חלק מהרעיון של הארכיטקטורה הזו היא שהזיכרון משולב כשכבה במודל. המידע עובר דרך שכבות הזיכרון כחלק מתהליך העיבוד הכולל וזה אמור להתאים יותר לניתוח נתונים מורכבים.
תוצאות ניסויים ותובנות
Titans הצליח להביא תוצאות טובות יותר מארכיטקטורות מוקרות כמו Transformers ו-LSTMs במשימות שונות. הוא הצטיין במיוחד במטלות של “מחט בערימת שחת” (Needle in a Haystack), שבהן נדרשת שליפה של מידע מדויק מתוך הקשר עצום.
לדוגמה, במבחנים שבהם נדרשה גישה לנתונים מעבר ל-2 מיליון טוקנים, Titans שמר על ביצועים מעולים, בעוד שהמודלים המסורתיים לא ממש עומדים במשימה.
מודל ה-Titans נבחן כמובן במגוון משימות, ומה אני אגיד לכם… התוצאות מרשימות!
- ניתוח שפה טבעית: Titans הראה גם כאן שיפור ניכר במשימות כמו הבנת טקסט ארוך, שאלות ידע מורכב וזיהוי קשרים סמנטיים.
- סדרות זמן (Time-Series): המודל הצליח במשימות תחזית, כמו ניתוח נתוני מזג אוויר ותעבורה, תוך שמירה על דיוק גבוה גם כאשר היקף הנתונים עצום.
- זיהוי אנומליות: מכיוון ש-Titans מותאם במיוחד לזיהוי אירועים חריגים, מנגנון ההפתעה שהעניקו לו מבצע עדיפות למידע חשוב בזמן אמת ובכך מעלה משמעותית את רמת הפלטים שיוצאים ממנו.
אבל, למרות ההישגים המרשימים, Titans עדיין בשלב מחקרי ומתמודד עם אתגרים טכניים:
- ניהול פרטיות: היכולת לשמר זיכרון לטווח ארוך עשויה להוביל לחשיפת מידע רגיש ואת זה אנחנו כמובן לא רוצים.
- עומסי חישוב: עדכון דינמי של זיכרון בזמן אמת דורש תשתיות מתקדמות ומשאבי חישוב משמעותיים.
- מורכבות יישום: שילוב מנגנוני זיכרון מתקדמים בארכיטקטורות קיימות עלול להיות מסובך ליישום.
- בטוח יש עוד שלא חשבתי עליהם, אבל אנחנו עדיין בשלבים מאוד מוקדמים אז כנראה שנגלה עוד בעתיד יחד.
האם Titans יהיה השלב הבא במהפכת הבינה המלאכותית?
המודל Titans מביא עמו חזון לעתיד שבו בינה מלאכותית לא רק מנתחת מידע, אלא גם לומדת ומתאימה את עצמה לסביבה דינמית ומתקשרת איתנו בני האנוש בדרך המוכרת לנו. היכולת לזכור, לשכוח ולעדכן מידע בזמן אמת פותחת אפשרויות חדשות למגוון תעשיות, מתעשיית הטלקום ועד למערכות בריאות, פיננסים ועוד.
שילוב Titans עם טכנולוגיות כמו RAG (שליפה משופרת) עשוי להוביל ליצירת מערכות חכמות המסוגלות להתמודד עם כמויות נתונים עצומות בצורה מדויקת ומהירה. משהו שמאוד חסר לנו היום ובארגונים הגדולים זה מורגש. אבל אולי לא לזמן רב.