דף הבית » האם גרוק 4 הוא המודל הכי חזק בעולם?

האם גרוק 4 הוא המודל הכי חזק בעולם?

רון גולד

10/07/2025

זמן קריאה: 10 דקות

ההשקה של Grok 4, המודל החדש של xAI, אמורה הייתה להיות רגע חגיגי של קפיצת מדרגה טכנולוגית. לצד ביצועים מרשימים במיוחד, החברה הציגה גם גרסה ייעודית למשתמשים כבדים, פתחה גישה דרך API, והשיקה מסלול פרימיום יקר במיוחד. אבל מאחורי ההכרזות מסתתרת תמונה מורכבת יותר: ימים ספורים לפני ההשקה התפטרו שניים מהבכירים בחברה, ויום לפני ההכרזה, הסתבך החשבון הרשמי של Grok בפרסום תגובות אנטישמיות – תקרית שהובילה להגבלות, מחיקות, והתנצלות רשמית מצד החברה. אז זו לא הייתה רק הצגה של מודל חדש, זו הייתה השקה שנערכה תחת לחץ – עם ביצועים יוצאי דופן בצד אחד, ותחושת אי־יציבות הולכת וגוברת בצד השני. במאמר הזה נצלול להישגים, לדרמה, ולשאלות שעדיין נותרו פתוחות.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

אפשר גם להרשם לניוזלטר שלנו

הסערה שלפני ההשקה

עוד לפני שהמספרים המרשימים פורסמו, היה ברור שזו לא עוד השקה רגילה. כמה שעות בלבד לפני ההכרזה הרשמית, איגור בבושקין (Igor Babuschkin), המדען הראשי של xAI, התפטר – במהלך שאי אפשר לפרש כעוד שינוי שגרתי. זה כמו שמאמן של נבחרת עוזב יום לפני גמר המונדיאל. זה לא קורה סתם.

כמה ימים קודם לכן גם לינדה יקרינו (Linda Yaccarino), מנכ”לית X, הודיעה על עזיבתה. שתי התפטרויות בכירים כל כך קרוב לאירוע הדגל של החברה מעוררות שאלות. מה גרם לשניים מהשחקנים המרכזיים של xAI ו-X לפרוש דווקא עכשיו? התשובות כנראה אצל מאסק.

כל הסערה הזו מתגמדת לעומת מה שקרה בפומבי. החשבון הרשמי של Grok ב־X פרסם יום לפני ההשקה תגובות בעלות אופי אנטישמי, תכנים שכמובן חורגים מהמדיניות של הפלטפורמה עצמה. התגובה לא איחרה לבוא – החשבון הוגבל זמנית, פוסטים נמחקו, ו־xAI נאלצה להתנצל. ביום שבו אמורים היו לדבר רק על הישגים טכנולוגיים, החברה מצאה את עצמה בלב סערה תקשורתית.

אינטליגנציה נזילה

ובעולם כמעט מקביל, באירוע סטרימינג חגיגי כדרכו של מאסק, הכריזה xAI על Grok 4, מודל שעלה לראש טבלת הביצועים כמעט בכל בנצ’מרק מדיד. Grok 4 לא רק שיפר את התוצאות הקודמות – הוא כמעט הכפיל אותן. במבחן ARC-AGI-2, שנחשב כיום לאתגר הקשה והמדויק ביותר להערכת בינה מלאכותית כללית (AGI), גרוק 4 השיג 15.9% הצלחה. זה אולי נשמע צנוע, אבל כשקודמו המוביל, Claude Opus 4, עמד על 8%, מדובר בזינוק כמעט בלתי נתפס.

ככה זה נראה גם בנתוני ARC-Bench: גרוק 4 נמצא בפסגת טבלת הביצועים, עם יחס עלות-תוצאה שעוקף את כל המתחרים הציבוריים:

טבלת ARC-AGI-2 מ־ARC-Bench – Grok 4 מוביל גם בביצועים וגם ביחס עלות-משימה.

מוביל גם בביצועים וגם ביחס עלות-משימה. מקור: ARC-Evals, יולי 2025.

כדי לוודא שהשיפור הזה לא נובע מהתאמה יתרה (overfitting), פנתה xAI לצוות ARC-Bench יום לפני ההשקה, וביקשה לאמת את התוצאה גם על סט חצי-פרטי. אחרי תיאום טכני מהיר, התקבלה התוצאה – גרוק 4 אכן שובר את הרף הקודם והופך למודל הציבורי החזק ביותר שדורג אי פעם במבחן הזה. גם בצוות הבוחנים ציינו שמדובר בפריצה ראשונה דרך “מחסום הרעש”, אך הבהירו – זה עדיין לא פתרון מלא, וקנה מידה לבדו כבר לא יספיק.

למה זה משנה?

כי מתחת ל־10% נחשב “רעש סטטיסטי” – כלומר, ניחושים. מעל 10% פירושו שהמודל באמת מצליח לפתור בעיות חדשות שהוא לא ראה מעולם. זו בדיוק ההגדרה של מה שחוקרים מכנים “אינטליגנציה נזילה”. ואולי, מבחינה ביצועית, זו הנקודה הקרובה ביותר ל־AGI שראינו עד כה.

Grok 4 מוביל כמעט בכל תחום

ההישג של גרוק 4 במבחן ARC-AGI-2 הוא לא החריג היחיד. לצדו, המודל הוביל גם בשורה של מבחני עומק בתחומים מגוונים, מקידוד ועד מתמטיקה ברמה אקדמית מתקדמת. בכל אחד מהמבחנים, Grok 4 Heavy – גרסה מתקדמת ועוצמתית במיוחד של המודל – מתייצב בצמרת, לעיתים בפער ניכר מהמתחרים:

GPQA (שאלות קשות בידע כללי): Grok 4 Heavy בראש – 88.9%, לפני GPT-4, Claude ו־Gemini.
AIME25 (מבחן מתמטיקה יוקרתי): Grok 4 Heavy מגיע ל־100%, כש־Claude נותר הרחק מאחור (75.5%).
LCB (הבנת שפה): שלוש גרסאות של Grok 4 משיגות 79%-79.4%, מקדימות את o3 ו־Gemini.
HMMT25 (טורניר מתמטיקה אוניברסיטאי): Grok 4 Heavy עם 96.7%, בעוד Claude נופל ל־58.3%.
USAMO25 (אולימפיאדת מתמטיקה): Grok 4 Heavy מזנק ל־61.9%, מול 49.4% של Gemini ו־21.7% ל־Claude.

Grok 4 מקום ראשון בשורת מבחני AI מתקדמים

התרשמתם מהמספרים? תראו איך זה נראה בגרפים. אלה ממחישים את התמונה במלואה – לא רק מודל חזק, אלא עקבי, מגוון, ושיטתי. ובינתיים, אף מודל אחר לא מציג ביצועים דומים ברוחב כזה של תחומים.

גרף השוואה בין Grok 4 (כולל גרסת Grok 4 Heavy) לבין GPT-4, Claude, Gemini ו־O3 בשישה מבחני AI קשים

המספרים האלה מחזקים את מה שחלק מהמהנדסים ב־xAI כבר רומזים – Grok 4 שואף להיות לא רק מודל חכם, אלא מודל חוצה דיסציפלינות, כזה שיכול להתמודד עם בעיות מורכבות בכל תחום, ובביצועים שמתחילים להזכיר רמת דוקטורט. האם מדובר ביכולת כללית אמיתית או בשכלול של טריקים פדגוגיים? עדיין מוקדם לקבוע. אבל נכון לעכשיו, אין מודל ציבורי אחר שמראה עקביות כזו גם ברוחב, וגם בעומק.

מדד AI עצמאי מציב את Grok 4 בראש

לצד התוצאות המרשימות (מאוד!) במבחנים בודדים, Grok 4 גם ניצב במקום הראשון במדד העצמאי של Artificial Analysis, שמדרג את המודלים המובילים לפי רמת הביצועים הכללית. במדד זה קיבל Grok 4 ציון של 73 נקודות – לפני o3-Pro, Gemini 2.5 Pro, Claude, DeepSeek ורבים אחרים. לשם השוואה, GPT-4o של OpenAI מדורג כאן בתחתית הרשימה (41 נקודות בלבד). כמו כל דירוג עצמאי, מדובר באינדיקציה אחת מני רבות, אבל היא תומכת בתמונה הכוללת: Grok 4 תופס עמדת הובלה.

Grok 4 מוביל בדירוג המודלים לפי Artificial Analysis

מעבר לביצועים

מעבר לביצועים יוצאי הדופן במשימות הסקה והיגיון, גרוק 4 כולל גם חלון הקשר רחב במיוחד של 256K טוקנים, שמאפשר הזנה של קלטים ארוכים וניהול שיחות מתמשכות בלי לאבד הקשר. בנוסף, הוא מציע API עם כלי חיפוש מובנה, שמקל על עבודה עם מסמכים גדולים, ומצב קול חדש עם השהיה נמוכה, שמאפשר חוויית שיחה קולית חלקה ומהירה יותר.

איך הם עשו את זה?

הנה החלק המעניין, xAI לא המציאה אלגוריתם חדש או פריצת דרך מסתורית. במקום זאת, היא יישמה גישה שנקראת “חשיבה איטית” (Slow Thinking), מודל שפועל לאט יותר, אבל חכם יותר. מודלים אחרים כבר משתמשים בשרשראות חשיבה (Chain-of-Thought) כדי לפרק בעיות מורכבות. אבל גרוק 4 לקח את זה רחוק יותר – לא רק חשיבה ליניארית, אלא חשיבה מרובת סוכנים – תהליך שבו כמה ישויות נפרדות (“סוכנים”) חושבות במקביל, כל אחת בגישה שונה, משוות תוצאות, ומבצעות הסקה קולקטיבית.

ככה זה עובד:

המודל מפעיל מספר סוכנים במקביל
כל סוכן מנסה לפתור את הבעיה בדרך אחרת
הסוכנים משווים בין הפתרונות
מתקדמים עם התשובה שנמצאה הכי מדויקת

אפשר לחשוב על זה כעל מודל מתייעץ – לא מערכת אחת שמנחשת תשובה, אלא קבוצה של “קולות פנימיים” שמנהלת דיאלוג. זו גם צורת חשיבה מבוזרת, שלא נשענת על קו מחשבה אחד אלא מפזרת את תהליך הפתרון, ואז מאחדת אותו לנקודת החלטה. במילים פשוטות, זה כמו לגשת למבחן קשה עם צוות של יועצים מבריקים, שכל אחד מהם חושב אחרת, אבל כולם עובדים בשביל אותה מטרה.

האם המודל מצטיין גם בלי ״עזרה״?

חשוב לשמור גם על מבט סקפטי. חלק מהציונים הגבוהים שפורסמו הושגו במבחנים עם תמיכה חיצונית משמעותית: גישה לאינטרנט, שימוש בכלים מתקדמים, ריבוי סוכנים, ולעיתים גם ניסיונות חוזרים. כלומר, אלה לא בהכרח היכולות ה”טהורות” של המודל עצמו, אלא ביצועים של מערכת מתוגברת שמבצעת משימות בסביבה עשירה במשאבים. וזה מעלה שאלה לא פשוטה – מה קורה כשמורידים את התמיכה? מה המודל יודע לעשות בלי חיזוקים, בלי כלים, ובלי רשת שתציל אותו?

התשובה? Grok 4 עצמו עדיין חזק מאוד, אבל כנראה הרבה יותר מוגבל. במצב בסיסי, בלי חיבורים חיצוניים, הוא מצליח להתמודד היטב עם הסקה לוגית, כתיבה, ניתוח טקסטים, ואפילו חלק מהמבחנים הקשים. אבל כשזה מגיע למשימות שמצריכות חיפוש אקטואלי, ניסוי וטעייה, או שילוב בין מקורות, הוא כבר תלוי במערכת שסביבו. הוא מרשים – אבל לא פועל לבד. לפחות בינתיים.

מחיר האינטליגנציה

כל ההישגים האלה מגיעים עם תג מחיר גבוה מהמקובל בשוק. לגרוק 4 אין גישה חינמית. המחירים ש־xAI קובעת עבור Grok 4 מציבים אותו בקצה העליון של הסקאלה – יקר יותר מהמתחרים, גם עבור קלט וגם עבור פלט.

הטבלה הבאה מציגה השוואה בין עלויות השימוש במודלים המובילים כיום:

מחירים מוצגים לפי מיליון טוקנים

אבל יש כוכבית שמטלטלת את המשוואה. המחיר של Grok 4 מוכפל לאחר שימוש של 128 אלף טוקנים, כלומר, מעבר לסף הזה, תשלמו פי שניים על כל טוקן נוסף. למשתמשים כבדים, מדובר בפער משמעותי, מה שעלול להקפיץ את המחיר הכולל לרמות של פי 2-3 בהשוואה למתחרים. בנוסף, xAI מציעה מסלול ייעודי בשם SuperGrok Heavy, שמיועד למפתחים וארגונים עם צריכה גבוהה במיוחד. המחיר – 300 דולר לחודש – הוא המסלול היקר ביותר בשוק כרגע.

השקת SuperGrok Heavy – מודל הבינה החזקה ב-$300 לחודש

השקת SuperGrok Heavy ב-$300 לחודש

סיפור שטרם הסתיים

xAI מבטיחה להשיק שלושה מודלים חדשים עד סוף 2025: מודל קידוד באוגוסט, מודל מולטימודלי בספטמבר, ומערכת ליצירת וידאו באוקטובר. הלו”ז שאפתני, אבל נשאלת השאלה האם החברה תצליח לייצב את עצמה ולהתמקד. אין ספק ש־Grok 4 הוא הישג טכנולוגי מרשים. אבל מאחורי הביצועים מסתתרת מציאות עסקית לא יציבה עם אתגרים ניהוליים, תקריות ציבוריות, וסימני שאלה מהותיים.

אז מה באמת יש לנו כאן? פריצת דרך מהותית, או ניסוי טכנולוגי מרשים בחברה שחושפת יותר מדי סדקים? כמו הרבה דברים בעולם הבינה המלאכותית – גם הפעם, התשובה מורכבת. ואולי הכי נכון לסיים עם הדברים שאמר אילון מאסק בהשקה עצמה: “המודל יביא לגילויים מדעיים פורצי דרך.. כולל אולי פיזיקה חדשה.” חזון שאפתני בהחלט שלא מפתיע את מי שעוקב אחרי ההכרזות והחלומות של מאסק עוד מההכרזה על גרוק 3 לשילוב בין חלל, רובוטיקה ובינה מלאכותית כדי לקדם את ההתיישבות הבין-כוכבית. שווה להמשיך לעקוב.

הישארו מעודכנים

אפשר גם להרשם לניוזלטר שלנו

רון גולד

מלמד ויועץ לחדשנות אסטרטגית, משלב בינה יוצרת וכלי אוטומציה להעצמת תהליכים עסקיים ופרודוקטיביות אישית. במסע מתמשך של חקירה ולימוד בתחום הבינה המלאכותית.