איך זה קורה? איך מכונה חסרת מודעות מצליחה לכתוב חיבורים, לנסח בדיחות, או לשכנע כמו בן-אדם? איך ייתכן שמכונה שלא “מבינה” כלום, נשמעת לעיתים קרובות כאילו היא מבינה הכל? מנבואה סטטיסטית עד תשובה שנשמעת אנושית – במאמר הזה נצלול אל תוך הליבה של מודלי שפה גדולים כמו ChatGPT, קלוד ודומיהם – נגלה את הקסם, ונחשוף את המנגנון שפועל מאחורי המילים.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
מכונת הניבוי הקסומה
דמיינו שאתם צופים בסרט שבו מישהו מדבר עם עוזר בינה מלאכותית. לפתע, הסרט נקטע בדיוק כשהבינה המלאכותית עומדת להגיב. מה יקרה בהמשך? אתם אולי יכולים לנחש מה הבינה המלאכותית תגיד על בסיס השיחה עד כה. זה בעצם מה שמודלים גדולים של שפה (LLMs) עושים – הם מנבאים אילו מילים אמורות לבוא בהמשך הרצף. חשבו על מודל שפה גדול כעל מכונה מתוחכמת להשלמת טקסט. כשאתם מקלידים שאלה, הבינה המלאכותית לא באמת “מבינה” מה אתם שואלים כפי שבני אדם מבינים. היא מסתכלת על הדפוס של המילים שלכם ומנבאת אילו מילים הכי סביר שיבואו בהמשך כתגובה טבעית.
המסע מהקלדה לתשובה – טוקנים וחלון הקשר
איך המודל בכלל קורא את מה שאנחנו כותבים? כשאתם מקלידים שאלה או בקשה, הטקסט שלכם עובר תהליך חשוב: הוא מפורק ל”טוקנים” – יחידות בסיסיות של מידע שהמודל יכול לעבד. טוקן יכול להיות מילה שלמה, חלק ממילה, או אפילו סימן פיסוק בודד. למשל, המילה “בינה” עשויה להיות טוקן אחד, אבל מילה מורכבת כמו “מלאכותית” עשויה להתחלק למספר טוקנים. כל השיחה ביניכם לבין המודל נשמרת במה שנקרא “חלון הקשר” – מעין זיכרון זמני שמכיל את כל הטוקנים של השיחה עד כה. אבל החלון הזה מוגבל בגודלו. כשהוא מתמלא, המודל “שוכח” את החלקים הישנים יותר של השיחה – בדיוק כפי שקשה לנו לזכור כל פרט משיחה ארוכה. הבנת המגבלה הזו חיונית – היא מסבירה למה לפעמים המודל מאבד את ההקשר של שיחות ארוכות, או למה עליכם לחזור על מידע חשוב אם השיחה מתארכת מאוד.
Inference – הפעולה שקורית כשאתם לוחצים ‘שלח’
הטכנולוגיה הזו מבוססת על השלמה אוטומטית מתוחכמת – המודל מנבא שוב ושוב את המילה הבאה שעוזר בינה מלאכותית היפותטי היה אומר בתגובה לקלט שלכם. התהליך הזה נקרא Inference – או הסקה בזמן אמת – והוא קורה בכל פעם שאתם מקבלים תשובה מהבוט.
זו לא רק השאלה מה המודל למד – אלא איך הוא מיישם את מה שלמד – ברגע הנכון, מול השאלה הספציפית שלכם.
התולעת הדיגיטלית שאף פעם לא ישנה
איך בינה מלאכותית לומדת לבצע את הניבויים האלה? על ידי קריאה. הרבה מאוד קריאה. אם אדם היה מנסה לקרוא את כל הטקסט ששימש לאימון GPT-3 (אחד ממודלי השפה הגדולים המוקדמים של OpenAI), תוך קריאה ללא הפסקה 24 שעות ביממה, זה היה לוקח לו יותר מ-2,600 שנה! ומודלים חדשים יותר כמו GPT-4 וקלוד 3 קראו הרבה, הרבה יותר. המודלים האלה צורכים שטחים נרחבים של האינטרנט – ספרים, מאמרים, אתרי אינטרנט, פורומים ועוד. אבל הם לא רק סופגים את המידע הזה באופן פסיבי, הם כל הזמן מנסים לנבא מה יבוא בהמשך בכל פיסת טקסט שהם נתקלים בה ובכך הם ‘לומדים’ אילו דפוסים מופיעים שוב ושוב בטקסטים אנושיים.
סיבוב כפתורים במכונה ענקית
דמיינו לוח בקרה מורכב עם מיליארדי כפתורים קטנים. כל כפתור ניתן לסיבוב קל לכל כיוון. כשאתם מאמנים מודל שפה, אתם בעצם מכווננים את כל הכפתורים האלה (שנקראים “פרמטרים” או “משקלות”) עד שהמכונה משתפרת בניבוי טקסט. בהתחלה, הכפתורים האלה מוגדרים באופן אקראי, והמודל מייצר שטויות מוחלטות, אבל עם כל פיסת טקסט בתהליך, המודל מבצע ניבוי, משווה אותו למה שאמור לבוא בהמשך, ואז מתאים את כל הכפתורים האלה במעט כדי לעשות טוב יותר בפעם הבאה. המודלים הגדולים ביותר כיום כוללים מאות מיליארדי פרמטרים כאלה – הרבה יותר מדי מכדי שאדם יוכל לכוונן ידנית. לכן משתמשים באלגוריתמים שמכווננים אוטומטית את ההגדרות האלה דרך תהליך שנקרא “אימון” (Train).
משימת מחשוב בקנה מידה אסטרונומי
האם אי פעם הרגשתם שלמחשב שלכם לוקח נצח להשלים משימה? ובכן, זה כלום בהשוואה לאימון מודל שפה גדול. אם הייתם יכולים לבצע מיליארד חישובים בשנייה, עדיין היה לוקח לכם יותר מ-100 מיליון שנה לעשות את כל החישובים הדרושים לאימון המודלים הגדולים של היום – וזה מספר שקשה אפילו לדמיין. זו הסיבה שחברות צריכות מרכזי נתונים ענקיים עם שבבים מיוחדים שנקראים GPUs שיכולים לבצע חישובים רבים בו-זמנית. אפילו עם החומרה המתקדמת הזו, אימון מודל שפה גדול יכול עדיין לקחת חודשים ולעלות מיליוני דולרים.
הסוד הוא תשומת לב
מה הופך את מודלי הבינה המלאכותית המודרניים כמו GPT-4 וקלוד להרבה יותר טובים מקודמיהם? התשובה טמונה במשהו שנקרא ארכיטקטורת “טרנספורמר” (Transformer), שהוצגה על ידי חוקרי גוגל ב-2017 תחת הכותרת “Attention is All You Need” וזה היה Game Changer רציני בתחום של עיבוד שפה טבעית (NLP). מודלי שפה מוקדמים יותר היו קוראים טקסט מילה אחר מילה והתקשו להבין קשרים בין מילים שנמצאות רחוק אחת מהשנייה במשפט או בפסקה. טרנספורמרים, לעומת זאת, מסתכלים על כל הטקסט בבת אחת, מה שמאפשר להם להבין הקשר הרבה יותר טוב. החידוש המרכזי הוא מה שנקרא “תשומת לב” (Attention).
כשאתם קוראים את המשפט “The River bank collapsed after the flood” (גדת הנהר התמוטטה אחרי השיטפון), אתם יודעים שמדובר על גדת נהר – לא על מוסד פיננסי. זה בגלל שאתם שמים לב להקשר סביב המילה. באופן דומה, טרנספורמרים משתמשים במנגנון תשומת לב שמאפשר לכל מילה “להסתכל” על כל המילים האחרות בטקסט, מה שעוזר למודל להבין הקשר בדרך הרבה יותר יעילה.
ממנוע ניבוי לעוזר מועיל
מודל שפה גולמי שאומן על טקסט מהאינטרנט אינו הופך באופן אוטומטי לעוזר מועיל. הוא אולי מצטיין בניבוי איזה טקסט לרוב מופיע אחרי טקסט אחר, אבל זה לא אומר שהוא יהיה מועיל, מדויק או בטוח. כאן נכנס שלב קריטי נוסף בתהליך: “למידת חיזוק מפידבק אנושי” (RLHF). בשלב הזה, בני אדם מדרגים תגובות של המודל, מסמנים ניבויים בעייתיים או לא מועילים – והמערכת משתמשת במשוב הזה כדי ללטש את הפרמטרים שלה.
אבל חשוב לזכור: גם אחרי כל האימונים והכוונונים, המודל יכול אמנם לחקות שיחה אנושית – אבל אין לו כוונה, הבנה רגשית או מודעות. לכן, גם כשהתגובה נשמעת אמפתית או רהוטה, היא אינה נובעת מרגש אמיתי – אלא מהתאמה סטטיסטית לדפוסים לשוניים.
אז זה GPT?
אם נחבר את כל התהליך הזה למילה אחת קצרה שכולנו מכירים – ולא תמיד מבינים – נקבל את GPT. שלוש אותיות שמופיעות כמעט בכל שיחה על בינה מלאכותית. אבל מה הן באמת אומרות? GPT = Generative Pre-trained Transformer או בעברית: מחולל (טקסט) שאומן מראש על בסיס טרנספורמר. מה שזה אומר בפועל, הוא שאתם משוחחים עם מערכת שקראה כמויות עצומות של טקסט (גם תמונות, קול, וידאו ועוד), למדה לזהות דפוסים, ובזמן אמת – מנבאת מה תהיה התגובה הסבירה, הטבעית והיעילה ביותר לשאלה שלכם. כל הכפתורים, הכיוונונים, והאימון המוקדם – כולם מתכנסים לרגע אחד של יצירתיות מחושבת: תשובה שנשמעת אנושית, גם אם אין מאחוריה תודעה.
אם הבנתם את זה – יש לכם כבר את הבסיס הכי חשוב. וזה מה שהופך את GPT לכל כך מרשים: הוא לא מבין – אבל הוא מאוד טוב בלדמות הבנה.
לסיכום – התעלומה היפה
למרות שיצרו את המערכות האלה, חוקרים לא מבינים בדיוק למה הן עובדות כל כך טוב. מיליארדי הפרמטרים מתקשרים בדרכים מורכבות מדי מכדי שבני אדם יוכלו להבין לגמרי. מה שאנחנו רואים הוא שכאשר אנחנו משתמשים במודל שפה גדול, המילים שהוא מייצר הן באופן מדהים שוטפות, מתאימות להקשר, ואפילו מועילות, אבל להבין במדויק למה הוא מייצר תגובות ספציפיות נשאר תעלומה יפה.
כשאתם מדברים עם עוזר בינה מלאכותית כמו צ׳אט ג׳יפיטי או קלוד, אתם בעצם מתקשרים עם מערכת שקראה יותר טקסט מכפי שכל אדם יכול היה לקרוא בכמה גלגולי חיים, עיבדה את המידע הזה דרך מיליארדי פרמטרים מתכווננים, ולמדה לנבא איך תגובה מועילה עשויה להיראות. היא לא מודעת או בעלת תחושה – היא לא “מבינה” במובן האנושי – אבל דרך התהליך המדהים הזה של זיהוי דפוסים וניבוי, היא יכולה להיראות מפתיעה בדמיונה לאדם בתגובותיה. זהו הקסם שמאפשר לעוזרי הבינה המלאכותית להשתלב בצורה כמעט בלתי מורגשת – אבל מהפכנית – בחיי היומיום שלנו.

רוצים להעמיק עוד? ממש באחרונה, חברת Anthropic – האמא והאבא של מודל השפה קלוד, חשפה תהליכי מחקר חדשים שמנסים לפצח את מה שמתרחש מתחת למכסה המנוע של המודלים הגדולים. אם מסקרן אתכם להבין איך הם באמת “חושבים”, ואילו דפוסים פנימיים מניעים את התגובות שלהם – שווה לקרוא מאמר שמציע הצצה מרתקת אל מנגנוני החשיבה ותוככי הקופסה השחורה של Claude. בנוסף, מומלץ לקרוא את המאמר שמסביר איך נכון להשתמש במודלי שפה, שם תכירו יותר לעומק את ארגז הכלים המתפתח עם מגוון רחב של מודלים ויכולות, יתרונות וחסרונות של מודלים, איך ״מדברים״ עם מודלים כדי להוציא מהם את המיטב, ואיך מפחיתים הזיות ומקבלים את התוצאה אליה כיוונתם.