תוצאות נוספות...

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
× Send

האם גרוק 4.1 הוא לא הכי חכם אבל הכי אנושי?

האם גרוק 4.1 הוא לא הכי חכם – אבל הכי אנושי?
תוכן עניינים

נדמה שהמודל החדש של אלון מאסק לא רק מתחכם, אלא גם מתחיל לפתח אישיות. ההשקה של Grok 4.1 אינה עוד עדכון טכני שעובר מתחת לרדאר. היא מציגה שינוי כיוון ברור בגישת xAI, שמוותרת על מירוץ הכוח ומכוונת למשהו אחר לגמרי: מודל שמנסה להרגיש קרוב יותר לאדם. לכן השאלה המרכזית כבר איננה מה הוא יודע לעשות, אלא למה דווקא עכשיו מנסה התעשייה כולה לשנות את אופי השיחה בין אדם למכונה.

 

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

הניסוי הסודי, ומה באמת אומרים 64.78 אחוזי ההעדפה

בין הראשון לארבעה עשר בנובמבר xAI הריצה את גרסת Grok 4.1 בלי לומר מילה. המשתמשים שוחחו עם המודל החדש בלי לדעת שהוא שם, והתוצאות דיברו בעד עצמן. כמעט שישים וחמישה אחוזים מהמשתמשים העדיפו את גרסת 4.1 על פני הדור הקודם.

 

Grok 4.1 מול הדור הקודם.

Grok 4.1 מול הדור הקודם | מקור: x.Ai

 

המספר מרשים, אבל הוא מספר סיפור מהותי יותר. העדפה אינה בהכרח הוכחה ליכולת טכנית גבוהה. היא לרוב עדות לחוויה טובה יותר. זרימה נוחה יותר, ניסוח אנושי יותר, תגובות שמרגישות קרובות יותר לשיחה אמיתית. כלומר, פחות כוח חישובי ויותר תחושה של אישיות. המגמה הזו משמעותית, כי היא מציבה את הדגש על חוויית השימוש במקום על מבחני ביצועים אבסטרקטיים.

מאחורי הקלעים, וכיצד המודל מלמד את עצמו להיות אנושי

הבחירה של xAI בדור הזה של מודל הבינה המלאכותית גרוק היא לשים את האינטליגנציה הרגשית במרכז. שיטת האימון משלבת למידת חיזוק מסורתית עם מודלים של הסקה שממלאים תפקיד של שופטים. הם מנתחים את התשובות, מעניקים משוב ומאפשרים למודל ללמוד טון, הומור, עקביות ותגובה אנושית יותר.

 

זינוק משמעותי במבחני EQ-Bench

זינוק משמעותי במבחני EQ-Bench | מקור: x.Ai

 

יחד עם זאת, יש כאן גם נקודת חולשה. כאשר שופטים מלאכותיים מגדירים את המשוב, הם גם מטמיעים את ההטיות שלהם בתהליך. לכן חשוב להבין שהשיפור מהיר, אבל אינו מנותק מהעדפות של מערכת אחת שמדריכה מערכת אחרת. במקום אמת אובייקטיבית, מתקבלת העדפה סובייקטיבית שעוברת מאחד לשני. זהו פרט קריטי לכל מי שמתייחס למודל כמקור מידע.

מעבר לטבלאות, ומה ההישגים באמת מספרים

Grok 4.1 מציג רצף הישגים שנראים מרשימים על הנייר. הוא מגיע למקום הראשון בקטגוריית החשיבה של LMArena, חוצה ציון של 1700 במבחני הכתיבה היצירתית ומראה זינוק בולט במבחני האינטליגנציה הרגשית. כל אלה מציבים אותו לצד המודלים המובילים כיום.

 

Grok 4.1 מדורג במקום הראשון בקטגוריית החשיבה של LMArena

Grok 4.1 במקום ה-1 בקטגוריית החשיבה של LMArena | מקור: x.Ai

 

אבל חייבים לעצור לרגע ולבחון את המשמעות. מבחנים סינתטיים מספרים רק חלק מהסיפור. LMArena מודד שיחות קצרות. Creative Writing בוחן ניסוח, ולא עקביות לאורך זמן. EQ Bench מתבסס על דפוסי תגובה צפויים. עבור מי שמחפש כלי עבודה יום יומי, הנתונים הם אינדיקציה חשובה, אבל רחוקה מלהיות תעודת ביטוח.

 

במבחני כתיבה יצירתית Grok 4.1 מציג תוצאות גבוהות במיוחד

תוצאות גבוהות במיוחד במבחני כתיבה יצירתית | מקור: x.Ai

ההפתעה האמיתית, והירידה הדרמטית בהזיות

כאן נמצא ככל הנראה השיפור האמיתי של הדור הזה. מדידות FActScore מצביעות על ירידה חדה בשגיאות עובדתיות, במיוחד במצב הפעולה המהיר. עבור משתמשים זה לא רק נתון טכני. זה שינוי תפעולי. פחות צורך לבדוק כל משפט פעמיים, יותר יכולת להסתמך על המודל בעת מחקר וסיכום מידע.

 

ירידה חדה בשיעורי ההזיות ושיפור משמעותי ב־FActScore

ירידה חדה בשיעורי ההזיות ושיפור משמעותי ב-FActScore | מקור: x.Ai

 

יחד עם זאת, צריך (עדיין) להישאר מציאותיים. גם בגרסה הזו המודל עדיין מסוגל להמציא עובדות. השיפור מרשים ומשמעותי, אך אינו מוחלט.

מה המהלך אומר על xAI ועל השוק כולו

Grok 4.1 ממקם את xAI לצד השחקנים הגדולים, אך מסיבה אחרת מהמקובל. בזמן ש-OpenAI ו-Google מרחיבות את הארכיטקטורה, מוסיפות שכבות ומגדילות את חלונות ההקשר, xAI בוחרת מסלול שונה. היא מציגה מודל שלא מוכרח להיות החכם ביותר, אלא זה שמספק את החוויה האנושית ביותר. אם הדור הקודם התחרה על ביצועים, הדור הבא ייבחן לפי האינטראקציה שהוא יוצר.

למי המודל מתאים, ולמי פחות

Grok 4.1 מתאים במיוחד למשתמשים שמחפשים אינטראקציה זורמת ואינטואיטיבית, כזו שמרגישה בעלת אופי ולא רק כלי טכני. הוא משרת היטב כותבי תוכן, אנשי שיווק ויוצרי טקסטים רגשיים, וגם משתמשים שזקוקים לרמת אמינות עובדתית גבוהה יותר מזו שהציע הדור הקודם.

 

לעומת זאת, מי שנדרש ליכולות קוד מורכבות או פתרונות ארכיטקטוניים עמוקים ימצא כאן מענה חלקי בלבד. גם משתמשים שמחפשים אינטגרציה מלאה לתשתיות וכלים ארגוניים, או מודל מחקרי יבש שמעדיף עובדות על פני סגנון שיחה, פחות יפיקו ממנו את המקסימום.

 

 

 

למה Grok 4.1 מסמל שינוי עמוק יותר משנדמה

מי שמסתכל על Grok 4.1 רק כמוצר טכנולוגי מפספס את מה שבאמת מתרחש כאן. המודל הזה מאיר תובנה רחבה יותר שמתגבשת בחודשים האחרונים. הקרב הבא בעולם הבינה המלאכותית כבר לא ייקבע רק על פי נקודות Elo נוספות או חלונות הקשר רחבים יותר. הוא ייקבע על פי תחושת הדיאלוג. על פי היכולת של מודל לשמור על אישיות עקבית, להבין רגש ולדבר כמו שותף.

 

xAI מזהה שהשלב הבא של הטכנולוגיה לא עובר דרך עוד שכבת טרנספורמר, אלא דרך החוויה האנושית שמתרחשת בזמן השימוש. במובן הזה Grok 4.1 איננו מהפכה טכנית, אלא שינוי תפיסתי שמנסה להגדיר מחדש איך נראית מערכת שמתקשרת עם בני אדם.

 

Grok 4.1 הוא מודל בשל, אמין ומרשים. הכוח שלו לא טמון רק בביצועים, אלא בגישה. מכונה שחושבת מהר זה בהחלט מעניין. מכונה שמרגישה מעט יותר אנושית, גם אם לא במובן עמוק, משנה את החוויה כולה.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

אולי יעניין אותך גם...

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

Let's update

רוצים לקבל עדכונים על כל מה שחדש ומעניין בעולם ה-AI? הרשמו לניוזלטר שלנו!

אירועי AI קרובים

תפריט נגישות

תוצאות נוספות...

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
וובינר סוכני העל של Genspark
3/11/2025 - בשעה 20:00