תוצאות נוספות...

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
× Send

Anthropic משיקה את Claude Opus 4.8

מה באמת חדש ב-Opus 4.8
תוכן עניינים

אנטרופיק (Anthropic) השיקה את Claude Opus 4.8, הגרסה החדשה של מודל הדגל שלה. על הנייר, זו עוד השקת מודל במרוץ צפוף עם ביצועים טובים יותר, אפשרות לעבודה מהירה יותר, שליטה חדשה ברמת המאמץ, ועוד טבלת בנצ’מרקים שמראה שיפורים מול הדור הקודם. אבל הסיפור המעניין באמת הוא לא רק Opus 4.8 עצמו. הוא נמצא במה שאנטרופיק השיקה לצדו: Dynamic Workflows, יכולת חדשה בקלוד קוד (Claude Code) שמנסה להפוך את קלוד מסוכן יחיד שעובד צעד אחר צעד למערכת שמסוגלת לחלק משימה גדולה לעשרות או מאות סוכני משנה שעובדים במקביל. לא הייתי קורא לזה “כוח עבודה אוטונומי” בלי סייגים, אבל זה כן צעד חשוב מאוד בכיוון ברור שבו מודלי AI מתקדמים כבר לא נמדדים רק באיכות התשובה שהם מייצרים, אלא ביכולת שלהם לתכנן, לפרק, לבדוק, להריץ תהליכים ולחזור למשתמש עם תוצאה שאפשר לעבוד איתה.

 

 

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

מה חדש ב-Opus 4.8

Opus 4.8 הוא שדרוג ישיר ל-Opus 4.7. אנטרופיק עצמה מתארת אותו כשיפור מוחשי אבל מדוד: מודל יעיל יותר, חד יותר בשיתוף פעולה עם המשתמש, ובעיקר מותאם טוב יותר למשימות ארוכות ומורכבות. שלושת החידושים הבולטים הם מצב מהיר חדש, שליטה ברמת המאמץ של המודל, ו-Dynamic Workflows בקלוד קוד.

 

החידוש הראשון הוא Fast Mode. בשימוש רגיל, המחיר של Opus 4.8 נשאר זהה ל-Opus 4.7 עם 5 דולרים למיליון טוקני קלט ו-25 דולר למיליון טוקני פלט. Fast Mode מיועד למקרים שבהם מהירות חשובה יותר מעלות מינימלית: הוא יכול לעבוד עד פי 2.5 מהר יותר, במחיר של 10 דולרים למיליון טוקני קלט ו-50 דולר למיליון טוקני פלט. חשוב לדייק, המודל כולו לא “זול פי שלושה” - מה שהוזל הוא מצב המהירות, שמחירו נמוך פי שלושה ממצבי מהירות בדורות קודמים.

 

החידוש השני הוא effort control, שליטה ברמת המאמץ שקלוד (Claude) משקיע בתשובה. במילים פשוטות, המשתמש יכול לבחור אם הוא רוצה תשובה מהירה יותר, שחוסכת שימוש במגבלות הקצב, או תשובה עמוקה יותר שבה המודל חושב יותר לאורך הדרך. Opus 4.8 מוגדר כברירת מחדל על high, ואפשר לבחור רמות גבוהות יותר כמו extra או max למשימות קשות, ארוכות או רגישות יותר. זה רלוונטי במיוחד בעבודה עם קוד, מסמכים ארוכים, מחקר, תכנון מערכות או משימות שמערבות כלים חיצוניים.

 

החידוש השלישי, ואולי החשוב ביותר למפתחים, הוא Dynamic Workflows. זו יכולת שמאפשרת ל-קלוד קוד לפרק משימה גדולה לתת משימות, להריץ סוכני משנה במקביל, לבדוק את התוצרים שלהם, ואז לחזור למשתמש עם תוצאה אחת מסודרת. זה כבר לא רק מודל שמנסה לענות טוב יותר, אלא ניסיון לבנות שכבת עבודה שמסוגלת להתמודד עם פרויקטים גדולים בצורה שיטתית יותר.

 

 

 

לא עובד אחד, אלא צוות שמנוהל אוטומטית

עד עכשיו, כשמשתמשים ב-קלוד קוד כדי לבנות משהו או לתקן בעיה, קלוד עבד בעיקר כמו סוכן יחיד, כזה שקורא קבצים, חושב, כותב קוד, מריץ בדיקות, חוזר אחורה ומתקן. זה יכול לעבוד היטב במשימות קטנות ובינוניות, אבל בפרויקטים גדולים יש לזה מגבלה ברורה. סוכן אחד מתקדם בטור, שלב אחרי שלב.




 

Dynamic Workflows משנה את המבנה הזה. קלוד יכול לייצר סקריפטים לתזמור העבודה (אורקסטרציה), לחלק משימה גדולה לתת משימות, להריץ עשרות עד מאות סוכני משנה במקביל, לבדוק את התוצרים שלהם, ורק אז לאחד את הכול לתוצאה אחת.

 

אנטרופיק מציגה את היכולת הזו ככלי למשימות שקשה לפתור במעבר אחד של סוכן יחיד: חיפוש באגים בקוד-בייס גדול, מיגרציות שנוגעות בהרבה קבצים, בדיקות אבטחה, אופטימיזציה, או בחינת תוכנית מכמה זוויות לפני שמתחייבים אליה.

 

הדרך הפשוטה להבין את זה היא ההבדל בין עובד יחיד לבין צוות. עובד יחיד יכול להיות חכם מאוד, אבל הוא עדיין עובר על הדברים אחד אחרי השני. צוות יכול לחלק עבודה, לבדוק כמה כיוונים במקביל, להציב אנשים שינסו לשבור הנחות של אחרים, ולחזור עם תמונה רחבה יותר. ב-Dynamic Workflows, קלוד מנסה לשחק גם את תפקיד המתכנן וגם את תפקיד הצוות המבצע.

 

זה לא הופך אותו למנהל פרויקטים אנושי, ולא מבטל את הצורך בבדיקה, אבל זה כן משנה את סוג המשימות שאפשר לתת לו. במקום “תקן לי את הקובץ הזה”, אפשר להתחיל לחשוב על בקשות רחבות יותר כמו “סרוק את כל הקוד-בייס לחולשות הרשאה”, “מצא קוד מת שאפשר להסיר”, “תכנן מיגרציה בין ספריות”, או “בדוק את הארכיטקטורה מכמה כיוונים והצג סיכונים לפני ביצוע”.

 

למה זה חשוב באמת

ההבטחה הגדולה של סוכני AI היא לא שהם יכתבו עוד פונקציה, אלא שהם יוכלו לקחת תהליך עבודה שלם ולהתקדם בו בלי שהמשתמש יצטרך לעצור אותם בכל כמה דקות. 

 

אנטרופיק פרסמה דוגמה שנשמעת טכנית, אבל הרעיון פשוט. החברה מתארת שימוש ב-Dynamic Workflows כדי לסייע בהמרה של Bun, כלי פיתוח פופולרי, משפת תכנות אחת בשם Zig לשפה אחרת בשם Rust. זו לא החלפה קטנה של קובץ, אלא עבודה רוחבית על פרויקט גדול מאוד שבו התהליך הסתיים עם כ-750 אלף שורות Rust, ו-99.8% ממערך הבדיקות הקיים עבר בהצלחה. במילים פשוטות, קלוד לא רק כתב קוד, אלא עזר לפרק פרויקט גדול לחלקים, להריץ עבודה במקביל, לבדוק שהמערכת עדיין מתנהגת כמו שצריך, ולתקן עד שהבדיקות עברו.

 

ועדיין, זו דוגמה שצריך לקרוא בזהירות. אנטרופיק מציינת שהעבודה הזו עדיין לא בפרודקשן, כלומר לא בהכרח משמשת בפועל כמערכת חיה. לכן נכון לראות בה הדגמת יכולת בקנה מידה גדול, לא הוכחה שכל ארגון יכול למסור מיגרציה מורכבת לקלוד ולחזור אחרי יומיים למערכת מוכנה. הערך כאן הוא הכיוון - סוכן AI שמסוגל לא רק לבצע פעולה אחת, אלא לנהל עבודה רחבה, לבדוק את עצמו, ולהחזיר תוצאה מסודרת יותר.

 

מה שחשוב להבין בסופו של דבר זה ש-Dynamic Workflows הוא ניסיון לפתור בעיה מוכרת בעבודה עם סוכנים שיכולים להתפזר במשימות ארוכות, להיתקע או להחמיץ חלקים חשובים. החלוקה לסוכני משנה מאפשרת לבדוק כמה כיוונים במקביל, להשוות בין תוצאות, לאמת ממצאים, ולצמצם את התלות במהלך חשיבה יחיד.

המחיר והזמינות

החלק שפחות נוח להבליט בשיווק, אבל חשוב מאוד למשתמשים, הוא ש-Dynamic Workflows יכול לצרוך הרבה יותר שימוש מסשן רגיל של קלוד קוד. היכולת הזו מיועדת למשימות גדולות ומקבילות, ולכן היא עלולה להשתמש בהרבה יותר טוקנים, זמן ריצה ומכסת שימוש.

 

ההמלצה המעשית היא לא להתחיל מפרויקט ענק, אלא להריץ תחילה משימה מצומצמת, לבדוק כמה שימוש היא צורכת, ורק אז להרחיב. מי שנמצא במנוי עם מגבלת שימוש עלול לגלות ש-workflow גדול מדי גומר את המכסה מהר מאוד.

 

גם הזמינות עדיין מוגבלת. Dynamic Workflows מוגדר כרגע כ-research preview, כלומר יכולת ניסיונית שעדיין לא צריך להתייחס אליה כפיצ’ר בוגר. הוא פעיל כברירת מחדל למשתמשי Max ו-Team, וגם למי שמשתמש בקלוד קוד דרך ה-API. בתוכנית Enterprise הוא כבוי כברירת מחדל בזמן ההשקה, ומנהל הארגון צריך להפעיל אותו בהגדרות.

 

Opus 4.8 עצמו זמין דרך Claude API, Amazon Bedrock, Google Vertex AI ו-Microsoft Foundry, אבל יש הבדלים בין הפלטפורמות וחוויית השימוש והמגבלות עשויות להשתנות לפי הפלטפורמה.

 

Fast Mode ב-API זמין כרגע כ-research preview בלבד. במקביל, בתיעוד הרשמי מצוין שמשתמשי Max מוגדרים כברירת מחדל ל-Fast Mode עם Opus 4.8, בגרסאות קלוד קוד v2.1.154 ואילך. כלומר, חוויית המהירות אינה אחידה בכל מקום ותלויה במוצר שבו משתמשים, בסוג המנוי, בפלטפורמה ובגרסת קלוד קוד. לכן, לפני שבונים על Fast Mode כחלק מתהליך עבודה קבוע, כדאי לבדוק שהוא אכן זמין ומופעל בסביבה הספציפית שלכם.

 

זו לא רק מגבלה, אלא גם מנגנון זהירות בריא. סוכן שמפעיל עשרות תהליכים, נוגע בקבצים רבים ומריץ בדיקות לא צריך לקבל גישה חופשית לכל סביבת העבודה. נכון להתחיל בתיקייה ייעודית, עם גיבוי, הרשאות מוגבלות, ואישור מפורש לפני מחיקה, שינוי רחב או מיזוג קוד. ככל שקלוד מקבל יותר יכולת לפעול לבד, כך הבקרה האנושית הופכת חשובה יותר.

שיפורים קטנים אבל משמעותיים

לפי טבלת הביצועים, Opus 4.8 משתפר מול Opus 4.7 בכמה מדדים חשובים: קוד סוכני, שימוש במחשב, עבודת ידע, ניתוח פיננסי וחשיבה רב תחומית. במדד SWE-Bench Pro, למשל, הוא עולה מ-64.3% ל-69.2%. ב-OSWorld-Verified הוא מגיע ל-83.4%. אלה שיפורים טובים, אבל הם לא מספרים סיפור של ניצחון מוחלט. בחלק מהמדדים הפער קטן, וב-Terminal-Bench 2.1 דווקא GPT-5.5 מוביל לפי אותה טבלה. גם אנטרופיק עצמה מתארת את Opus 4.8 כ”שיפור צנוע אך מוחשי” לעומת קודמו, וזה כנראה הניסוח המדויק ביותר כאן.

 

טבלת הביצועים של Opus 4.8

טבלת הביצועים של Opus 4.8

 

הנקודה החשובה לקורא היא שבנצ׳מרקים הם התחלה של בדיקה, לא סוף הדיון. הם עוזרים להבין איפה המודל השתפר, אבל לא מחליפים בדיקה על משימות אמיתיות: קוד של הארגון, מסמכים אמיתיים, עלויות בפועל, זמן תגובה, וכמות התיקונים שנדרשת אחרי שהמודל מסיים. במיוחד במודלים סוכניים, שבהם המודל לא רק עונה אלא גם מפעיל כלים ופועל לאורך זמן, ההבדל בין תוצאה טובה במבחן לבין עבודה יציבה בעולם האמיתי יכול להיות גדול.

 

החלק המעניין יותר הוא לא רק הביצועים, אלא ההתנהגות. אנטרופיק טוענת ש-Opus 4.8 טוב יותר ב”כנות” מקצועית: הוא נוטה יותר לסמן אי ודאות, פחות קופץ למסקנות, ופחות מציג התקדמות כאילו היא ודאית כשהראיות חלשות. לפי הערכות, Opus 4.8 הוא בערך פי ארבעה פחות נוטה מ-Opus 4.7 לתת לפגמים בקוד שכתב לעבור בלי הערה. 

 

שיפור משמעותי במדד ה"Alignment".

Anthropic | שיפור משמעותי במדד ה"Alignment"

 

גם בגרף הבטיחות שאנטרופיק מציגה, Opus 4.8 נראה טוב יותר מ-Opus 4.7 במדד של “התנהגות לא מיושרת”, כלומר מצבים כמו הטעיה או שיתוף פעולה עם שימוש לרעה. לפי הנתונים, שיעור ההתנהגויות האלה נמוך משמעותית לעומת Opus 4.7, ודומה יותר ל-Claude Mythos Preview, שאנטרופיק מתארת כמודל המיושר ביותר שלה. במדד ההתנהגות הלא מיושרת, ציון נמוך יותר נחשב טוב יותר - Opus 4.8 מציג שיפור לעומת Opus 4.7 וכאן ברור שאנטרופיק לא מנסה למכור רק מודל חזק יותר, אלא מודל שאמור להיות פחות בטוח בעצמו כשהוא לא צריך להיות בטוח.

למי זה משנה עכשיו

Opus 4.8 משנה בעיקר למי שכבר משתמש בקלוד למשימות עמוקות ולא רק לשיחה. מפתחים, צוותי מוצר, חוקרים, אנליסטים, צוותי נתונים וארגונים שמנסים להפעיל סוכני AI על תהליכים מורכבים. מי שמשתמש בקלוד לכתיבת מיילים, סיכומים או ניסוח רעיונות כנראה ירגיש שיפור מסוים באיכות וביציבות, אבל לא שינוי דרמטי ביום העבודה.




 

מי שעובד עם קלוד קוד על פרויקטים אמיתיים צריך לשים לב במיוחד ל-Dynamic Workflows. כאן מסתמן כיוון ברור למעבר מצ’אט עם מודל יחיד לעבודה עם מערכת שמסוגלת לחלק משימה, להריץ כמה כיווני פעולה במקביל, לבדוק תוצרים ולהחזיר תוצאה מסודרת יותר. זו דרך עבודה חזקה יותר, אבל גם רגישה יותר. היא דורשת הרגלים חדשים כמו הגדרת גבולות, בקשת תוכנית לפני ביצוע, התחלה ממשימות מצומצמות, מדידת עלות מול תועלת, והמלצה לאישור שינויים רחבים עם עין אנושית.

 

השורה התחתונה היא ש-Claude Opus 4.8 אינו אירוע של “הכול השתנה”. הוא אירוע של הבשלה. המודל עצמו טוב יותר, אבל החידוש החשוב הוא האופן שבו אנטרופיק מנסה לגרום לו לעבוד. לא רק לענות, אלא לתכנן, לחלק, לבדוק ולחזור עם תוצאה שאפשר להמשיך ממנה. זה פחות נוצץ מהבטחות על בינה כללית (AGI), אבל הרבה יותר רלוונטי למי שרוצה להשתמש ב-AI בעבודה אמיתית.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

רוצים הרצאה או ייעוץ של רון גולד?
השאירו פרטים ונשמח לחזור אליכם עם המידע הרלוונטי
אולי יעניין אותך גם...
guest
0 תגובות
Inline Feedbacks
צפה בכל התגובות
Let's update

רוצים לקבל עדכונים על כל מה שחדש ומעניין בעולם ה-AI? הרשמו לניוזלטר שלנו!

אירועי AI קרובים

תפריט נגישות

תוצאות נוספות...

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
וובינר וייב קודינג
ובניית אפליקציות
רביעי 06.05.26 | 20:00 | בלייב זום