תוצאות נוספות...

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
× Send

למה כל כך חשוב לייצר מדדים רלוונטיים למודלי AI?

המילה ARC-AGI בתוך עין של דמות עתידנית
תוכן עניינים

דמיינו לרגע שאתם רוצים להעריך את היכולת של ילד להבין נושא מסוים. איך תעשו את זה? סביר להניח שתתנו לו מבחן. אבל מה אם הילד פשוט שינן את כל התשובות בעל פה? האם הציון במבחן באמת משקף הבנה? בדיוק באותה דילמה אנחנו נמצאים היום בעולם הבינה המלאכותית. באופן תדיר מתפתחות מערכות מתוחכמות יותר ויותר, אבל איך נדע אם הן באמת “מבינות” או רק “משננות”? זו שאלה שהפכה קריטית במיוחד עם ההתפתחויות האחרונות בתחום, ובמיוחד עם פריצת הדרך של OpenAI במדד ה-ARC-AGI.

 

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

 

הסיפור של ARC-AGI

ARC-AGI הוא לא סתם עוד מבחן. זהו מדד שתוכנן במיוחד כדי לבחון יכולות חשיבה מופשטת וחשיבה אנלוגית – כישורים שנחשבים למאפיינים מובהקים של אינטליגנציה אנושית. המדד כולל סדרה של אתגרים שדורשים זיהוי דפוסים, הסקת מסקנות והבנה של יחסים מופשטים. לאחרונה, המודלים החדשים של OpenAI (o3) חוללו סערה בקהילת הבינה המלאכותית כשהשיגו ציונים של 75-85 אחוז במדד. כדי להבין את גודל ההישג, צריך להשוות אותו למודלים קודמים כמו GPT-4 שהשיג פחות מ-10 אחוז. זה כמו תלמיד שקפץ מציון 10 לציון 85 במבחן – על פניו, זה נראה כמו התקדמות מטאורית. אבל כמו שכל מורה טוב יודע, ציון במבחן הוא רק חלק מהסיפור. השאלה האמיתית היא: מה המשמעות של הציון הזה?

 

 

גרף שמראה את ההתקדמות במדד שנקרא ARC-AGI

גרף ההתקדמות במדד ARC-AGI במודלי Open AI החל מ 2019.    Credit: Open AI

 

התקדמות במודלי O של OpenAI: עלות מול ביצועים

עליית הביצועים בסדרת O: מה מספרים הנתונים?

הגרף הבא מספק תמונה מרתקת של התפתחות מודלי הבינה המלאכותית בסדרת O של OpenAI, תוך הצגת היחס בין עלויות הביצוע לבין רמת הדיוק במבחן ARC-AGI. הנקודות הכחולות מציגות התקדמות דרמטית בביצועים, החל ממודל O1-mini הבסיסי ועד למודל O3 המתקדם, כאשר העלויות לביצוע המשימות עולות בהתאמה. הגרף מציג את היחס בין עלות הביצוע לכל משימה (בדולרים) לבין אחוזי ההצלחה במבחן. בציר האופקי נע הטווח מדולר בודד ועד 1,000$, בעוד שבציר האנכי מוצגים אחוזי ההצלחה מ-0% עד 100%. התוצאות מראות התקדמות מרשימה מ-7.8% של מודל o1-mini ועד ל-88% בטווח הגבוה של מודל o3, כאשר נקודת ההשוואה של בוגר STEM (בוגר תואר בתחומי המדע, טכנולוגיה, הנדסה ומתמטיקה) שמיוצג בנקודה אדומה, מספקת פרספקטיבה חשובה על הפער שעדיין קיים בין בינה מלאכותית לאינטליגנציה אנושית.

 

גרף התפתחות מודלי O של Open AI מול עלויות ובהתייחס לציון של בן אנוש

התקדמות ביצועי מודלי O-Series במבחן ARC-AGI: השוואת עלות מול דיוק

 

המחיר האמיתי של הביצועים

ההישגים המרשימים של מודלים כמו o3 אינם מתרחשים בוואקום, אלא דורשים כמויות חישוב עצומות הכרוכות בעלויות כספיות ואנרגטיות גבוהות במיוחד. עלויות אלו עשויות להגביל את התחרות בתחום כך שרק חברות ענק, בעלות משאבים כלכליים גדולים וגישה לתשתיות טכנולוגיות מתקדמות, יכולות להרשות לעצמן להמשיך לפתח ולשפר מודלים מתקדמים. מעבר לפן התחרותי, יש כאן גם שאלות סביבתיות – ההשקעה ההולכת וגדלה במרכזי נתונים רבי-עוצמה מעלה את טביעת הרגל הפחמנית של התחום ומציבה אתגר סביבתי מיידי. המשמעות היא שכל שיפור דרמטי בביצועים עלול לבוא במחיר כבד של צריכת חשמל, פליטות פחמן ותלות בתשתיות נדירות. התוצאה היא מעין “מרדף משאבים”, שאמנם מייצר תוצאות טכנולוגיות מרשימות בטווח הקצר, אך מעורר ספק האם זוהי התקדמות אמיתית לכיוון בינה מלאכותית כללית, או שמדובר במודל עסקי-תחרותי של השקעה מתמדת במשאבים גוברים.

 

האם AGI מעבר לפינה?

מודל o3 השיג ציון של 87.5% במבחן ARC-AGI במצב חישוב גבוה, תוצאה שעולה בהרבה על השיאים הקודמים ומשלשת את ביצועי המודל הקודם. מבחן ARC-AGI תוכנן להעריך את יכולת הבינה המלאכותית להסתגל למשימות מבלי להסתמך על ידע מוקדם. מבחן Frontier Math של EpochAI הדגיש את יכולות החשיבה הייחודיות של o3, כשפתר 25.2% מהבעיות בעוד שמודלים אחרים נשארו מתחת ל-2%. חשוב לציין שמבחן ARC-AGI-1 מתקרב לנקודת רוויה, כאשר אפילו פתרונות פשוטים יחסית מגיעים ל-81%. בנוסף, בגרסה החדשה של המבחן (ARC-AGI-2), צפויה ירידה משמעותית בביצועים לפחות מ-30%. החוקרים רואים בתוצאות הנוכחיות ציון דרך משמעותי, אך מדגישים ש- AGI עדיין רחוק מטווח השגה. ההישג של o3 מרשים במיוחד בשני היבטים מרכזיים: שיפור דרמטי בביצועים לעומת מודלים קודמים, ויכולת חשיבה מופשטת משופרת. אולם, העובדה שהמבחן הנוכחי מתקרב לרוויה והציפייה לביצועים נמוכים משמעותית במבחן החדש, יחד עם הקושי במשימות בסיסיות, מדגישים את הפער המשמעותי שעדיין קיים בין יכולות אלו לבין אינטליגנציה אנושית אמיתית.

 

הדפוס החוזר: שיעור מההיסטוריה

כדי לנסות ולהבין עוד יותר לעומק את המשמעות, כדאי להסתכל על ההיסטוריה של בינה מלאכותית. הנה כמה דוגמאות מעניינות:

  1. המקרה של משחק השחמט: ב-1997, כשדיפ בלו ניצח את גארי קספרוב, רבים חשבו שזה סימן לאינטליגנציה מלאכותית אמיתית. היום אנחנו מבינים שהמחשב פשוט היה מסוגל לחשב מיליוני מהלכים אפשריים במהירות – זו לא הייתה “הבנה” במובן האנושי.
  2. המהפך במשחק גו: כשאלפא-גו ניצחה את לי סדול ב-2016, שוב היו שחשבו שהגענו לפריצת דרך באינטליגנציה. אבל גם כאן, למרות שהאלגוריתמים היו מתוחכמים יותר, הם עדיין לא הראו הבנה אמיתית של המשחק כמו שאנחנו מבינים אותו.
  3. מבחני שפה טבעית: לאורך השנים ראינו מודלים שהצליחו במבחני הבנת טקסט, אבל כשחקרו לעומק, גילו שהם משתמשים בטריקים סטטיסטיים ולא באמת מבינים את משמעות המילים.

 

למה זה קורה?

השורש של התופעה הזו נעוץ בכמה גורמים מרכזיים:

  1. האשליה של המדד המושלם – אנחנו נוטים לחשוב שאם נצליח ליצור מדד מספיק מורכב, הוא יצליח “לתפוס” אינטליגנציה אמיתית. אבל זה כמו לנסות למדוד את עומק האוקיינוס עם סרגל – המדידה תמיד תהיה חלקית ולא מושלמת.
  2. הפער בין ביצוע להבנה – יש הבדל מהותי בין היכולת לבצע משימה לבין ההבנה האמיתית שלה. זה כמו ההבדל בין תלמיד שיודע לפתור משוואה כי שינן את הצעדים, לבין תלמיד שבאמת מבין את העקרונות המתמטיים.
  3. מורכבות האינטליגנציה – אינטליגנציה אנושית היא תופעה מורכבת שכוללת אינטואיציה, יצירתיות, הבנה של הקשר חברתי, ועוד המון דברים שקשה מאוד למדוד במבחן אחד.

 

מגבלות המודלים

חוסר הקשר חושי ושרשור סיבתיות

מודלים מתקדמים של בינה מלאכותית אמנם מפגינים יכולות מרשימות, אך הם עדיין מוגבלים בכמה מישורים מרכזיים שמבליטים את הפער בינם לבין אינטליגנציה אנושית. ראשית, היעדר תפיסה חושית ישירה מוביל לקושי בהבנת ההקשר שבו פועלים – בניגוד לאדם שלומד תוך כדי חוויה פיזית, המודלים מסתמכים על טקסטים או תמונות בלבד ואינם חווים אינטראקציה עם העולם. שנית, אף על פי שהם מצטיינים בזיהוי דפוסים, הם מתקשים בשרשור סיבתיות, כלומר בביסוס הבנה אמיתית של יחסי סיבה ותוצאה, ונוטים להסתפק בקישור סטטיסטי גרידא בין א’ ל-ב’. בנוסף, היכולת שלהם לעבור מתחום לתחום מוגבלת מאוד, מה שמצביע על בעיית העברה של ידע (Transfer Learning) ומעורר ספק לגבי מידת הגמישות הקוגניטיבית שלהם.

 

שקיפות, היסקים מורכבים ורגישות חברתית

אתגר מרכזי נוסף טמון בחוסר שקיפות והסבריות – ברשתות עצביות מורכבות אין מנגנון נהיר המאפשר לעקוב אחרי “חוט המחשבה” של המודל, וקשה לאמוד האם הוא באמת “מבין” או רק מכוון לתשובות הסבירות ביותר לפי התפלגות הנתונים. מעבר לכך, למודלים חסרה יכולת עמוקה לזהות ולהגיב לרמזים חברתיים ורגשיים, כך שלא ניתן לטעון כי הם מפגינים אינטליגנציה רגשית או חברתית בדומה לבני אדם. לבסוף, מגבלת היציבות בהיסקים ארוכי טווח מתבטאת בכך שככל שהמודל נדרש לבצע תהליכי נימוק מורכבים על פני שלבים רבים, כך עולה הסיכוי שיסיק מסקנות סותרות או שגויות – עובדה המדגישה את הפער בין לימוד סטטיסטי רב-עוצמה לבין חשיבה אנושית בעלת עקיבות ועומק.

 

היכן מסתיים הביצוע ומתחילה ההבנה?

התרשים שלפניכם מציג השוואה גרפית (לצורך המחשה בלבד) בין יכולות מודל בינה מלאכותית לבין הבנה אנושית על פני מספר ממדים, כאשר הציון בכל ממד נע בין 0 ל-5. ציון אפס משקף כמעט היעדר יכולת, בעוד חמש מצביע על רמה גבוהה המזכירה את המורכבות האנושית. הקווים בתרשים מתקרבים אל שפת המעגל ככל שהיכולת גבוהה יותר. כך אפשר לראות במבט אחד באילו תחומים עדיין קיים פער משמעותי בין המודל לבין החשיבה האנושית, המשלבת הבנה מעמיקה, יצירתיות והקשר רחב. התרשים למעשה מציג באופן חזותי את ההבדלים המרכזיים בין מודל בינה מלאכותית לבני אדם במגוון ממדי “הבנה” ויכולות למידה ומציע התבוננות רחבה, אך לא כמותית-מדעית, שמאפשרת להבין במבט אחד מדוע ביצוע סטטיסטי עדיין לא מקביל להבנה אנושית מורכבת:

השוואה לצורך המחשה בין ביצוע מודל להבנה אנושית

תרשים השוואתי רב-ממדי להמחשת ביצועי מודל מול הבנה אנושית

 

כשה’בינה’ פוגשת את המציאות

לא פעם אפשר לראות את מגבלות ה”אי-הבנה” של מערכות חכמות דווקא בסיטואציות יום-יומיות: דמיינו צ’אט-בוט שמציע תשובות ממוקדות ללקוח ששאל שאלה, אך כשבודקים לעומק מתברר שהתשובה מבוססת על צירוף מקרים מילולי במקום על הבנת ההקשר האמיתי של השאלה. אירועים כאלה ממחישים עד כמה חשוב שנבין ש”יכולת ביצוע” שונה מאוד מ”יכולת הבנה”. נוסף על כך, שאלת ההבנה נוגעת גם להיבטים חברתיים ואתיים: ככל שהציבור נשען יותר על מערכות ממוחשבות לקבלת החלטות – מרכישת ביטוח ועד ייעוץ משפטי – נושא השקיפות והאחריות (Accountability) הופך לרלוונטי מאוד. בלי שקיפות בנוגע לדרך הפעולה של המודל, ובלי בקרה אנושית על הטיות ופערים פוטנציאליים, עשויות להיווצר השלכות שליליות בקנה מידה רחב, גם אם המודל נראה “אינטליגנטי” במבט ראשון.

 

מה אפשר לעשות אחרת?

גישה חדשה להערכת בינה מלאכותית דורשת חשיבה מחודשת ומקיפה. במקום להסתמך על מדד יחיד, נדרשת מערכת הערכה הוליסטית הבוחנת מגוון רחב של יכולות – החל מחשיבה מופשטת ופתרון בעיות, דרך הבנה חברתית-רגשית, ועד יצירתיות וחדשנות. חשיבות רבה יש לשקיפות בתהליך ההערכה, תוך הבהרה מדויקת של מה נבדק ומה לא, כדי למנוע אי הבנות. בנוסף, המדדים עצמם חייבים להיות דינמיים ולהתעדכן בהתאם להתפתחות הטכנולוגית המתמדת, שכן מדדים שהיו רלוונטיים בעבר עשויים להיות מיושנים בהווה. נדבך נוסף שחשוב מאוד לשים לב אליו מעבר לדיון המדדים, הוא איכות הנתונים שבאמצעותם מאמנים את המודלים וההבנה של אופן ההסקה של המודל שיכולים להיות גורמים מכריעים בשאלה עד כמה התוצאה משקפת “בינה” ולא רק התאמה לדרישות מבחן ספציפי.

 

האתגר האמיתי

כפי שמעידים הקשיים הצפויים ב-ARC-AGI-2, שנמצא בפיתוח כבר מ-2022, הדרך לבינה מלאכותית כללית כנראה עוד ארוכה. ההצלחה של מודל o3 במדד ה-ARC-AGI היא אמנם הישג טכנולוגי מרשים, אך המודל עדיין רחוק מהיכולות הכלליות של אינטליגנציה אנושית, למרות יכולותיו החדשות בהסתגלות למשימות. קיימת בעיה מהותית בהסתמכות על מדדים בודדים להערכת בינה מלאכותית. התופעה מוכרת כ”חוק גודהארט” – כאשר מדד הופך למטרה, הוא מפסיק להיות מדד יעיל. אז אולי במקום לשאול “האם הגענו לאינטליגנציה אמיתית?”, השאלה הנכונה היא “איך אנחנו יכולים להעריך טוב יותר את ההתקדמות שלנו?”. המדד האמיתי להצלחה אינו בציונים, אלא ביכולת להבין ולחשוב באופן משמעותי. האתגר האמיתי יתבטא ביכולת שלנו לפתח מערכת הערכה מקיפה שתשקף נאמנה את המורכבות של אינטליגנציה אמיתית. כדי להעמיק ולקבל עוד תובנות על מבחן ARC-AGI ומדדים נוספים שנבחנו עם חשיפת יכולות מודל o3 – לחצו כאן.

רוצים להתמקצע?

בואו ללמוד איתנו בינה מלאכותית בקורס המקיף, העשיר והמבוקש בשוק. הצטרפו לאלפים הרבים שכבר עברו את הקורסים והסדנאות שלנו. פרטים והרשמה באתר.

לקבלת הנחה במחיר הקורסים – הזינו את קוד הקופון LETSAI
הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

רוצים הרצאה או ייעוץ של רון גולד?
השאירו פרטים ונשמח לחזור אליכם עם המידע הרלוונטי
אולי יעניין אותך גם...
guest
0 תגובות
Inline Feedbacks
צפה בכל התגובות
Let's update

רוצים לקבל עדכונים על כל מה שחדש ומעניין בעולם ה-AI? הרשמו לניוזלטר שלנו!

אירועי AI קרובים
15.01.25
וובינר פרסומות קליפים וקולנוע עם AI
וובינר
22.01.25
איך להיות אשף AI (ולהרוויח מזה)?
וובינר
26.01.25
וובינר השקעות ובינה מלאכותית
וובינר
29.01.25
וובינר יצירת מוזיקה עם דורון מדלי
וובינר
05.02.25
אדריכלות ועיצוב פנים ועיצוב פנים עם AI
וובינר
12.02.25
יצירת מצגות עם כלי AI
וובינר

תפריט נגישות

תוצאות נוספות...

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors

למה כל כך חשוב לייצר מדדים רלוונטיים למודלי AI?