המודל שהוכרז אתמול בלילה (20.12.24) על ידי OpenAI, העונה לשם o3 עשוי להיות ההוכחה הסופית שבינה מלאכותית לא באמת הגיעה לתקרת זכוכית. למען האמת, לפי דעתי, ההפך הוא הנכון – המודל הזה הוא ההוכחה שנכנסנו לעידן ה-AGI. אבל רגע לפני, בואו נבין מה זה בכלל ה-AGI הזה שכולם מדברים עליו?
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
כשאתה אומר AGI – למה אתה מתכוון?!
לפני הכל, חשוב לדעת שכל אחד מגדיר את המונח AGI בצורה שונה.
אם תחפשו בוויקיפדיה, תקבלו תשובה ש-AGI היא סוג של AI שמשווה או עולה על יכולות קוגניטיביות אנושיות במגוון רחב של משימות. בניגוד ל-AI צר, AGI אינה מוגבלת למשימה אחת אלא יכולה לפעול במגוון תחומים.
אם תבדקו ב-AWS, התשובה תהיה קצת אחרת: AGI הוא בכלל תחום מחקר תאורטי שמטרתו ליצור תוכנה עם אינטליגנציה דמוית-אנוש, כולל יכולת ללמידה עצמאית. המערכת אמורה לפתור בעיות מורכבות בתחומים שלא הוכשרה עבורם מראש.
ואם תשאלו את OpenAI אז הם מגדירים AGI כמערכות אוטונומיות מאוד שמבצעות ביצועים טובים יותר מבני אדם ברוב העבודות הכלכליות החשובות.
ולא פחות חשוב (טוב נו… קצת פחות חשוב), אם תשאלו את הוליווד מה זה AGI, התשובה היא סקיינט מסרטי “שליחות קטלנית”, או ה-AI שמניע את הרובוטים מסרטי המטריקס.
מה כל זה מלמד אותנו? שבשורה התחתונה אין באמת הסכמה מלאה ושפה אחידה על הגדרת המונח AGI, איך מודדים אותו ומתי נדע שהגענו לרגע. ובדיוק משום כך, כל אחד יכול לטעון שהוא הצליח ליצור את ה-AGI הראשון, או מתקרב ליעד זה.
אגב, אם תשאלו אותי, אני רואה את ה-AGI כעידן טכנולוגי בו ידע אינו תקוע בצוואר בקבוק. ולדעתי, אתמול נכנסנו רשמית לעידן זה – עידן ה-AGI.
עידן ה-AGI
נכון להכרזה ה-12 במספר בסבב הגדוש של קריסמס, נראה ש-OpenAI לא רק ניפצו את תקרת הזכוכית (למי שלא בלופ, היה שיח ער סביב הנושא שהגענו למכסה מסוימת של יכולות, כוח מחשוב ונתונים שניתן לאמן עליהם מודלים), הם סיפקו הוכחה לכך שאולי הזכוכית הזו בכלל לא הייתה קיימת. זה לא רק ש-o3 ריסק מדדים שתוכננו להחזיק מעמד עשורים קדימה. OpenAI הראו שכל אתגר שניתן למדוד, סדרת המודלים החדשה תוכל בסופו של דבר לנצח.
אני לא רוצה להתייחס כאן לעלויות האדירות של הפעלת המודל הזה, בטח כאשר הוא רץ ללא הגבלת כוח חישוב, כי העלויות לבדן לא רלוונטיות לזמן רב. כן אתן הסתייגויות, אבל אני חייב לומר שיש כאן אירוע היסטורי ביחסים שבין בני אנוש לבינה מלאכותית, ושכל מי שקורא את זה צריך לעדכן את לוחות הזמנים שלו ולחשוב מחדש על הקונספט הזה שנקרא “בינה מלאכותית”.
מי אתה ומה אתה o3?
לפני שניגש לתוצאות המדהימות של המדדים, מה הוא בעצם o3? כדי להבין את מודל o3, צריך להקדיש כמה מילים לקודמו – מודל o1 המצוין. מודל זה “חושב לפני שהוא עונה”. לא רק מלאכת ניבוי או חיזוי של מילים ומשפטים, אלא שרשרת מחשבה סבוכה (שגם לוקחת זמן), ושבסופה מתקבלת תוצאה מדויקת יותר. כזו שנשענת על תהליך חשיבה ובחינה של פלטים אפשריים. במאמר הבא תוכלו לקרוא על גרסת הפריוויו של o1 שהוצגה בספטמבר, ופה תוכלו לקרוא על השקת o1 בגרסתו המלאה, למנויים משלמים.
ועכשיו ל-o3 (אגב, אם תהיתם לאן נעלם o2 – ענייני זכויות יוצרים וסימנים מסחריים – השם כבר שייך למותג אחר).
ככל הנראה o3 עובד בצורה הבאה: הבינה המלאכותית מייצרת מאות או אלפי פתרונות לכל שאלה או בעיה שהיא מקבלת, ועוקבת אחר שרשראות החשיבה הארוכות כדי להגיע לתשובה. מודל מאמת נוסף, שככל הנראה מבוסס על אותו מודל בסיס, סוקר את התשובות האלה ומדרג אותן, ומחפש טעויות חישוב קלאסיות או טעויות היגיון.
המודל המאמת מאומן על אלפי צעדי היגיון נכונים בעצמו, ובעצם בוחר את התשובה הנכונה (שהיא כנראה זאת שחוזרת על עצמה הכי הרבה פעמים מאחורי הקלעים).
מה זה בעצם אומר? שבפעם הבאה שאתם שומעים שהמודל חושב ״חזק״ יותר, זה בעצם אומר שהוא מריץ יותר תשובות בשביל להיות בטוח יותר – יותר חישובים ויותר דרכי פתרון אפשריות. אגב, כוח החישוב הזה מגולם בחומרה – מחשבי על, שרתים, טרנספורמרים, אנרגיה, קירור, חשמל וכן הלאה. וזה יקר – יקר מאוד!
אבל הנה העניין – בתחומים מדעיים כמו מתמטיקה ותכנות, אתה בדרך כלל יכול לדעת מה התשובה הנכונה (וכן – אני יודע שזו הכללה גסה). אז כאשר המערכת מייצרת סט נכון של צעדי היגיון, צעדים שהובילו לתשובה נכונה ומאומתת, המודל בכללותו יכול לעבור כוונון עדין (Fine-Tuning) על הצעדים הנכונים האלה. זה משנה באופן יסודי את המצב מניבוי הטוקן הבא (המילה הבאה), לניבוי סדרת הטוקנים (המשפט הבא) שיוביל לתשובה נכונה באופן אובייקטיבי.
הכוונון העדין הזה על התשובות הנכונות בלבד יכול להיחשב כלמידת חיזוקים (RL). הכרי בכל זאת מדובר במכונה לומדת. הקפיצה קדימה עם o3 הייתה לדעתי לגמרי צפויה. מתחילת השנה רבים מדברים על כך שבינה מלאכותית נמצאת בצמיחה אקספוננציאלית, שזה המונח המפואר לתאר מצב שבו למודלים יש יכולת לבצע חשיבה ארוכה יותר ולייצר יותר פתרונות אפשריים לשאלות או בעיות. עם זאת, אני לא חושב שמישהו זיהה שתגיע קפיצה כזו גדולה כל כך מהר, עוד ב-2024.
קפיצה שמסמלת את הכניסה לעידן ה-AGI.
המדדים והביצועים פשוט מפחידים!
ועכשיו, לתוצאות של המדדים – נתחיל עם מתמטיקה:
יש מבחן כזה שנקרא FrontierMath, שהוא סוג של אמת מידה להערכת נימוק מתמטי מתקדם ב-AI. הוא נחשב, נכון להיום, למדד המתמטי הקשה ביותר שקיים.
מדובר במערך נתונים שמורכב מבעיות חדשות – כאלו שלא מפורסמות, וקשות במיוחד… למען האמת, אולי הכי קשות שיש. אנחנו מדברים על סוג הבעיות שלוקחות למתמטיקאים מקצועיים שעות או אפילו ימים לפתור. עד היום כל המודלים הקיימים הגיעו לפחות מ-2% דיוק במדד הזה. אבל o3 הגיע למעל 25% – עליה של יותר 1,150%! מרשים ביותר!
הם אמנם לא ציינו זאת במפורש בהכרזה, אך החלק הכהה יותר של העמודה (הקטן יותר, המסומן בכחול) מייצג את המקרים שבהם המודל הצליח לתת תשובה נכונה בניסיון הראשון בלבד. לעומת זאת, החלק הבהיר יותר של העמודה מתאר מצבים שבהם המודל הפיק מספר פתרונות שונים, אך התשובה שהופיעה בתדירות הגבוהה ביותר – תשובת הקונצנזוס – הייתה לרוב גם התשובה הנכונה. ניגע בהמשך בזמני הביצוע ובעלויות, אך לצד הפרטים הללו, ההישג של 25% מהווה ציון דרך היסטורי.
מה לגבי שאלות מדעים ברמת PHD?
ובכן, o3 משיג 87.7% במדד GP-QA (שנולד רק לפני שנה). זהו ציון גבוה יותר מהממוצע של בני אנוש ברמת דוקטורנט! כלומר מדדים מתרסקים כמעט מהר כמו שהם יכולים להיווצר. ואז יש את אולימפיאדת הקוד, או אם תרצו תכנות תחרותי – תחרות בה משתתפים 500 המפתחים הטובים ביותר בעולם. בתחרות זו o3 מבסס את מעמדו כמתחרה הגלובלי ה-175 בדירוג הגבוה ביותר, כלומר טוב יותר בתחרות התכנות הזו מ-99.95% מבני האנוש.
יש שיגידו שתכנות תחרותי הוא לא מדד. אבל המדד הזה בודק בעיות אמיתיות שעומדות בפני מהנדסי תוכנה אמיתיים. החלק המאומת מתייחס לעובדה שהמדד נסרק רק עבור שאלות אמיתיות עם תשובות ברורות ואמיתיות. לצורך ההשוואה, Claude 3.5 Sonnet (שנחשב למודל מעולה במשימות קוד) משיג 49%, בעוד ש-o3 משיג 71.7%.
קצת על מדד ARC AGI
פרנסואה שולה (François Chollet) הוא מהנדס תוכנה וחוקר בינה מלאכותית צרפתי, שנודע בעיקר בזכות תרומתו המשמעותית לתחום הבינה המלאכותית. הוא יצר את מדד ה-ARC-AGI בשנת 2019 – מדד שמטרתו למדוד את יכולתן של מערכות בינה מלאכותית לפתור בעיות חדשות ולהכליל ידע בצורה דומה לבני אדם. שולה פיתח את המדד כחלק ממאמציו לקדם את המחקר בתחום הבינה המלאכותית הכללית (AGI) ולהתמקד ביכולות חשיבה מופשטת ורב-תחומית של מערכות AI.
מדד זה הוא תנאי הכרחי אבל לא בלעדי ל-AGI. כלומר, כדי להיחשב AGI, על מערכת “לעבור את המבחן”, אבל לא כל מערכת שעוברת את המבחן נחשבת ל-AGI. וזה שוב מחזיר אותנו לבעיית ההגדרה הראשונית וההסכמה על מהי AGI אמיתית.
בכל אופן, מה שמיוחד במדד זה, היא העובדה שכל שאלה אמורה להיות מבחן חדש העומד בפני עצמו – אתגר במילים שמראש לא נמצא באף נתוני אימון, עבר או הווה. מדובר במבחן כל כך קשה למודלי בינה מלאכותית, שרובם בכלל לא מציגים את תוצאות הבחינה, בשביל שלא יראו לא טוב כלפי הציבור.
כלומר, כדי להתגבר על האתגר הזה, המודל יהיה חייב להוכיח יכולת לפתור בעיות שלא נכללו בתהליך האימון שלו מראש. אם כך, ובהתאם להגדרה של AWS, ניתן לראות בכך אינדיקציה לבינה מלאכותית כללית (AGI) לכל דבר ועניין.
הנה דוגמא לשאלות מהמבחן:
לא מבינים מה רואים פה?! עכשיו תחשבו מה המודל מרגיש כשהוא נתקל בזה בפעם הראשונה, בדיוק כמוכם.
כדי לצלוח את המבחן צריך רמה מסוימת של היגיון. אישית אני באסכולה שמגדירה היגיון כספקטרום. כלומר, אני רואה בו כגזירת פונקציות יעילות ופונקציות מורכבות. מודלי שפה תמיד עבדו בצורה מסוימת של היגיון, זה פשוט שהפונקציות שהם גוזרים אינן יעילות במיוחד – הן יותר כמו אינטרפולציות מסובכות שלרוב לא מתאימות לדרישה של המשימה.
בני אדם נוטים לזהות דברים מהר יותר, כאשר מדובר בנתונים חדשים או במערכות חדשות שבהם לא נתקלו. בדיוק בשביל זה לנו, בני האנוש, יש חשיבה כללית (כמו ה-G ב-AGI) ולא חשיבה צרה. ל-ChatGPT יש בינה צרה – תבקשו ממנו לכתוב מאמר על אילוף כלבים – הוא יבצע את זה בלי בעיה. זה בתוך גבולות הגזרה של הבינה הצרה שלו. אבל שימו את “המוח” שלו בתוך רובוט עם ידיים ורגליים ותנו לו לחתוך עגבנייה – הוא לא ימצא את הרגליים והידיים שלו (תרתי משמע).
מצד שני – קחו בן אנוש שנולד באסיה ותנו לו לצלוח את הגשר היבשתי בין רוסיה לאלסקה (שקפא מעת לעת בתקופות מסוימות בהיסטוריה האנושית), והוא יצליח לשרוד ביבשת החדשה. הוא יצוד, ישתמש בפרוות כדי להתחמם ובבשר של חיות שמעולם לא ראה, כדי להזין את גופו בחלבונים. זו בינה כללית.
כלומר, לבני אנוש יש יכולת להכליל, לפתור אתגרים שבהם לא נתקלנו לפני כן. לזהות דפוסים או הקבלות בין אירועים או מצבים חדשים, לדברים דומים שמזכירים חוויות עבר. אנחנו לא חייבים להתאמן על משהו, כדי להצליח לעשות אותו בפעם הראשונה. סביר להניח שאם נזרוק אתכם באמצע עיר אירופית ונבקש ממכם למצוא את דרככם לתחנת המשטרה הקרובה, גם אם אתם לא דוברים את השפה וגם אם אין לכם טכנולוגיה מתקדמת (כמו סמאטפון), אתם תסתדרו. אתם תשרדו. אתם תסיקו מסקנות, תגבשו דרך פעולה ותמצאו את הדרך להשלים את המשימה. גם אם זו לא תהיה הדרך הכי יעילה וגם אם היה אפשר להשלים את המשימה מהר יותר בדרך אחרת, עדיין (בעזרת הבינה הכללית שלכם), אתם תשלימו אותה (סביר להניח).
ועכשיו חזרה לתמונה עם הריבועים הצבעוניים מעלה. רוב בני האדם, אם יקדישו מעט זמן מחשבה, ואם יסתכלו על הדפוס שחוזר על עצמו בכל הדוגמאות, יבינו שכדי להגיע מקלט 1 לפלט 1, יש לייצר מעטפת של ריבועים בעובי של כמות הריבועיים הצבעוניים שבתוך הריבוע הצהוב. במקרה שלנו – בדוגמה מספר 1 זו תהיה מעטפת בעובי של 2 ריבועים אדומים ומעטפת בעובי של 3 ריבועים כחולים.
אבל GPT-4 לא יכול, וגם לא GPT-4o. ואפילו o1 המרשים לא באמת יכול. ועבור הדוגמאות הספציפיות האלה אפילו o3 לא יכול.
בכל מקרה, בדקו את o3 מול שני מערכי נתונים של ARC-AGI:
הראשון, הערכה חצי פרטית: 100 משימות פרטיות המשמשות להערכת התאמת יתר.
השני, הערכה ציבורית: 400 משימות ציבוריות.
בהנחיית OpenAI, נבדקו שתי רמות מחשוב עם גדלי מדגם משתנים: 6 (יעילות גבוהה) ו-1024 (יעילות נמוכה, חישוב פי 172).
הנה התוצאות:
כן, זה אולי מפתיע אתכם שאני מוכן להגדיר את עידן ה-AGI כבר עכשיו למרות שעדיין יש שאלות שאינן קשות במיוחד ולמרות זאת o3 לא יכול לפתור אותן נכונה.
עם זאת, o3 כאשר ניתן לו כוח חישוב מקסימלי (שמגולם בעלות של 350 אלף דולר להרצה – לא פורסם אבל אפשר להסיק מהנתונים), משיג 87.5% / 91.5%.
והנה מה שהמחבר של המדד הזה אמר: “זה לא רק כוח גס. כן, זה מאוד יקר, אבל היכולות האלה הן טריטוריה חדשה והן דורשות תשומת לב מדעית רצינית.”
“אנחנו מאמינים שזה מייצג פריצת דרך משמעותית בגרימה לבינה מלאכותית להסתגל למשימות חדשות”.
מחוזק שוב ושוב עם אותן שרשראות מחשבה או צעדי היגיון שהובילו אותו לתשובות נכונות, o3 נהיה די טוב בגזירת פונקציות יעילות. במילים אחרות, הוא מנמק די טוב. וזה משהו שאף סידרת מודלים אחרת לא הצליחה לעשות לפני, או בכלל להתקרב לטריטוריה הזו.
מתי כל הטוב הזה מגיע אלינו?
סם אלטמן רמז שהם ישחררו את o3 בגרסת Mini אולי בפברואר 2025, או לפחות ברבעון הראשון של השנה הבאה. כרגע אם אתם חוקרים בתחום הבטיחות אתם מוזמנים להגיש בקשה לגישה מוקדמת דרך הלינק הזה.
אבל בכל מקרה, על אף המחיר הגבוה לכוח המחשוב הנדרש, מה שאנחנו רואים כאן מרמז שהם לא פשוט ניצלו כל GPU בעולם כדי להשיג את התוצאה הזו. כלומר, ניתן להסיק שגם פה אין באמת תקרת זכוכית, כי עדיין לא הגענו לגבולות העליונים של כוח החישוב. הבעיות כרגע הם משאבים, עלויות ויעילות. ואלה דברים שמשתנים (ומשתפרים) מהר.
הקפיצה הטכנולוגית מ-o1 ל-o3 לקחה רק 3 חודשים, מה שמראה כמה מהירה תהיה ההתקדמות בפרדיגמה החדשה של למידת חיזוקים על שרשרת מחשבה. יחס עלות-ביצועים כנראה ישתפר דרמטית במהלך החודשים והשנים הקרובות והאתגר תמיד יהיה לגרום למודלים לנמק. העלויות וזמן החשיבה הם משניים, ויצטמצמו לאורך הזמן.
אז זהו? הגענו ל-AGI?
ARC-AGI משמש מדד קריטי לאיתור פריצות דרך כאלה, ומדגיש את כוח ההכללה באופן שמדדים רוויים או תובעניים פחות אינם יכולים. עם זאת, חשוב לציין שמדובר בסוף בכלי מחקר שנועד למקד את תשומת הלב בבעיות הבלתי פתורות המאתגרות ביותר ב-AI, תפקיד שהוא מילא היטב בחמש השנים האחרונות.
o3 הוא בוודאות לא המודל האחרון שיגיע, אבל הוא מייצג קפיצת מדרגה משמעותית. הביצועים שלו ב-ARC-AGI ובמדדים הנוספים מדגישים פריצת דרך אמיתית בהסתגלות ובהכללה, באופן ששום מודל אחר לא הצליח לעשות בצורה מפורשת בעבר, אבל מההיכרות שלנו על עולם הבינה המלאכותית תוך מספר חודשים כולם הולכים להדביק את הפער (כן גם מודלי הקוד הפתוח).
o3 מתקן את המגבלה הבסיסית של פרדיגמת ה-LLM – חוסר היכולת לשלב ידע מחדש בזמן החשיבה. זו לא רק התקדמות מצטברת – זוהי טריטוריה חדשה! והיא דורשת את תשומת הלב של כלל בני האנוש באשר הם. כי אם נהיה לרגע ראליים, מעטים האנשים שצריכים מודל שיחשב את עוצמת היניקה של מערכת אוורור במאדים. בינה מלאכותית כללית היא כזו שתוכל לתת מענה כללי לכל אדם, גם ובעיקר במשימות שהוא והיא נתקלים בהן בפעם הראשונה. בינה מלאכותית כללית זוהי תקופה שבה ידע הוא אינו צוואר בקבוק יותר, אלא עידן שדורש מבני האנוש לעלות ברמת האינטליגנציה, על מנת להשיג דברים שבעבר היו נדמים כבלתי אפשריים.
ולכן חברים, אני מרשים לעצמי לומר – ברוכים הבאים לעידן ה-AGI!