OpenAI השיקה אתמול (16 באפריל 2025) את המודלים החדשים o3 ו-o4-mini, הדור החדש בסדרת מודלי ה-o שלה. אלו המודלים המתקדמים והחכמים ביותר שהחברה פיתחה עד כה, המציגים יכולות חדשניות ומסמנים התקדמות משמעותית לעומת הדור הקודם (o1). המודלים החדשים לא רק חכמים יותר, אלא גם יותר אייג׳נטיים – מסוגלים להשתמש בכלים באופן עצמאי, לחשוב עם תמונות, ולפתור בעיות מורכבות ביעילות. הם מתוכננים להשקיע זמן בחשיבה ועיבוד לפני מתן תשובה, מה שמאפשר להם לפתור בעיות מורכבות רב-שלביות בתחומי המדע, המתמטיקה והתכנות. ההשקה מגיעה בתקופה של תחרות מחודשת בשוק הבינה המלאכותית העולמי, כאשר OpenAI מנסה לשמר את מעמדה המוביל מול מתחרים כמו Google, Meta, xAI, Anthropic ו-DeepSeek. המודלים זמינים כבר עכשיו למנויי ChatGPT Plus, Pro ו-Team, כאשר o3-pro צפוי להגיע בעוד מספר שבועות. במקביל, החברה השיקה גם את Codex CLI, סוכן קידוד קל משקל בקוד פתוח שרץ מקומית בטרמינל ועובד עם המודלים החדשים.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
מודלים חדשים ופריצות דרך
OpenAI חשפה את שני המודלים החדשים שלה, o3 ו-o4-mini, המהווים התקדמות משמעותית בתחום הבינה המלאכותית. מודל o3 הוא המודל החזק ביותר של החברה עד כה בתחום החשיבה והניתוח, ומציג ביצועים פורצי דרך במגוון תחומים כמו תכנות, מתמטיקה, מדעים וניתוח חזותי. מודל o4-mini, לעומת זאת, הוא מודל קטן יותר שאופטם למהירות ויעילות כלכלית, אך עדיין מציג ביצועים מרשימים ביחס לגודלו ועלותו. בהערכות מומחים, הוא עולה על קודמו, o3-mini, גם במשימות שאינן בתחומי STEM וכן בתחומים כמו מדעי הנתונים. בזכות יעילותו, o4-mini תומך במגבלות שימוש גבוהות משמעותית מ-o3, מה שהופך אותו לאפשרות מצוינת לעבודה בנפח גבוה עם שאלות שדורשות חשיבה.
מעריכים חיצוניים דירגו את שני המודלים כמציגים שיפור במעקב אחר הוראות ותשובות שימושיות ואמינות יותר בהשוואה לקודמיהם, הודות לאינטליגנציה משופרת ושילוב מקורות מהאינטרנט. בהשוואה לגרסאות קודמות של מודלי החשיבה של OpenAI, שני המודלים החדשים מרגישים טבעיים ושיחתיים יותר, במיוחד כשהם מתייחסים לזיכרון ולשיחות קודמות כדי להפוך את התשובות למותאמות אישית ורלוונטיות יותר. המודלים החדשים זמינים החל מהיום למנויי ChatGPT Plus, Pro ו-Team, כאשר o3-pro צפוי להגיע בעוד מספר שבועות. המודלים יופיעו בבורר המודלים כ-o3, o4-mini ו-o4-mini-high, ויחליפו את o1, o3-mini ו-o3-mini-high.
יכולות חדשניות
שימוש אייג׳נטי בכלים
המודלים החדשים מביאים יכולת מהפכנית שמשנה את כללי המשחק בעולם הבינה המלאכותית – שימוש אייג׳נטי בכלים. לראשונה, המודלים יכולים לא רק להשתמש בכלים שונים, אלא גם להחליט באופן עצמאי ואינטליגנטי מתי ואיך לשלב ביניהם כדי לפתור בעיות מורכבות. בניגוד למודלים קודמים שהיו מוגבלים ביכולתם, o3 ו-o4-mini מסוגלים לנווט בין חיפוש ברשת לקבלת מידע עדכני, הרצת קוד Python לביצוע חישובים ואנליזות, ניתוח תמונות מורכב לזיהוי מידע חזותי, ואף יצירת תמונות חדשות כחלק מתהליך הפתרון.
יכולת זו מאפשרת למודלים לבצע משימות רב-שלביות באופן עצמאי, כמו לחפש מידע, לנתח אותו באמצעות קוד, להציג את התוצאות בצורה חזותית, ולהסיק מסקנות – הכל בשרשרת פעולות אחת וללא התערבות המשתמש. זהו צעד משמעותי לקראת בינה מלאכותית אייג׳נטית אמיתית, שיכולה לפעול כעוזר וירטואלי אוטונומי המסוגל לבצע משימות מורכבות, ומסמן את תחילתו של עידן חדש בו מערכות AI לא רק עונות על שאלות, אלא פועלות באופן יזום ואסטרטגי להשגת מטרות.
הבנה חזותית מתקדמת
המודלים החדשים הם מולטימודליים עם יכולות חזותיות שחורגות הרבה מעבר לזיהוי פשוט של אובייקטים. בניגוד למערכות קודמות שרק “ראו” תמונות, המודלים החדשים משלבים ראייה ממוחשבת עם חשיבה אנליטית, מה שמאפשר להם לא רק לתאר את הנראה, אלא להשתמש בתוכן החזותי כחלק אינטגרלי מתהליך ההיסק שלהם. הם מסוגלים לנתח דיאגרמות מורכבות, לפענח צילומי מסך עמוסי פרטים, ולהפיק תובנות מעמיקות מתמונות מוצר. המודלים החדשים מצטיינים בעיבוד תמונות באיכות ירודה, ביצוע מניפולציות כמו הגדלה וחיתוך לצורך התמקדות בפרטים חשובים, ושילוב המידע החזותי בשרשרת חשיבה קוהרנטית. יכולת זו מאפשרת להם להתמודד עם משימות מורכבות כמו ניתוח גרפים כלכליים, פענוח תרשימים מדעיים, או הבנת שרטוטים הנדסיים – תוך שילוב המידע החזותי עם ידע טקסטואלי לכדי תשובה מקיפה ומדויקת.
Introducing OpenAI o3 and o4-mini—our smartest and most capable models to date.
For the first time, our reasoning models can agentically use and combine every tool within ChatGPT, including web search, Python, image analysis, file interpretation, and image generation. pic.twitter.com/rDaqV0x0wE
— OpenAI (@OpenAI) April 16, 2025
מודל o3
מודל o3 של OpenAI מסמן פריצת דרך משמעותית בעולם הבינה המלאכותית, בהיותו המודל המתקדם והחכם ביותר בסדרת ה-o עד כה. עם יכולות מרשימות במיוחד בתחומי התכנות והקידוד, המודל מציג ביצועים חסרי תקדים במבחני Codeforces עם 2727 נקודות – שיפור של מעל 20% בהשוואה ל-o1. המודל קובע סטנדרטים חדשים גם במדדי ביצוע מובילים אחרים כמו SWE-bench (ללא צורך בבניית תשתית ייעודית למודל) ו-MMMU. בתחום המתמטיקה והמדעים, o3 השיג ציון מרשים של 96.7% במבחן AIME 2024, כאשר הוא מפספס רק שאלה אחת, וציון של 87.7% במבחן GPQA Diamond המיועד לשאלות מדעיות ברמת דוקטורט. יכולות התפיסה החזותית שלו מאפשרות לא רק לזהות תמונות אלא גם “לחשוב” איתן כחלק אינטגרלי מתהליך ההיסק.
בהערכות שנערכו על ידי מומחים חיצוניים, o3 הוכיח עצמו כמדויק יותר ב-20% בהשוואה ל-o1 במשימות מורכבות מהעולם האמיתי, במיוחד בתחומי התכנות, הייעוץ העסקי והיצירתיות. המודל אידיאלי לשאלות מורכבות הדורשות ניתוח רב-ממדי ושהתשובות להן אינן מובנות מאליהן. המשתמשים המוקדמים הדגישו את יכולתו יוצאת הדופן כשותף חשיבה אנליטי, ואת כישרונו לייצר ולהעריך באופן ביקורתי השערות חדשות בתחומי הביולוגיה, המתמטיקה וההנדסה – מה שהופך אותו לכלי רב-עוצמה למחקר מתקדם ופתרון בעיות מורכבות. אם יש לכם מנוי ChatGPT Plus, Team או Enterprise, תוכלו לשלוח עד 50 הודעות בשבוע. מנויי ChatGPT Pro נהנים מגישה כמעט בלתי מוגבלת למודל זה, כפוף כמובן לתנאי השימוש של OpenAI.
o4-mini ו-o4-mini-high
מודלי o4-mini ו-o4-mini-high של OpenAI מציעים שילוב של יעילות כלכלית וביצועים חזקים, אך קיימים ביניהם מספר הבדלים משמעותיים שחשוב להכיר. o4-mini הוא מודל קומפקטי שאופטם למהירות ויעילות כלכלית, המציג ביצועים מרשימים ביחס לגודלו. הוא המודל בעל הביצועים הטובים ביותר במבחני AIME 2024 ו-2025, עם ציון מרשים של 99.5% במבחן AIME 2025 כשניתנה לו גישה למפרש Python. בהערכות מומחים, o4-mini עולה על קודמו, o3-mini, גם במשימות שאינן בתחומי STEM וכן בתחומים כמו מדעי הנתונים, קידוד ומשימות חזותיות. המודל מציע חלון הקשר של 128K טוקנים, המאפשר עיבוד של טקסטים ארוכים יחסית.
לעומתו, o4-mini-high הוא גרסה משופרת של o4-mini עם חלון הקשר גדול משמעותית – מיליון טוקנים. יכולת זו מאפשרת למודל לעבד מסמכים ארוכים במיוחד כמו ספרים שלמים, קבצי PDF מורכבים (כפי שהודגם בניתוח מסמך של 800 עמודים), או בסיסי קוד גדולים. המודל שומר על היעילות הכלכלית של o4-mini אך מציע יכולות מתקדמות יותר בעיבוד טקסטים ארוכים.
מתי להשתמש ב-o4-mini?
מודל o4-mini של OpenAI מציע פתרון אידיאלי למגוון תרחישים שדורשים איזון מושלם בין ביצועים, מהירות ועלות. המודל מצטיין במיוחד כשנדרשת מהירות תגובה גבוהה, עם זמני עיבוד מהירים משמעותית בהשוואה למודלים עוצמתיים יותר כמו o3 או GPT-4o, מה שהופך אותו למושלם ליישומים אינטראקטיביים ותגובות בזמן אמת.
מבחינה כלכלית, o4-mini מציע את האיזון האופטימלי בין עלות לביצועים, בעלות של 15 סנט למיליון טוקנים בקלט ו-60 סנט למיליון טוקנים בפלט – יותר מ-60% זול מ-GPT-3.5 Turbo וזול בסדר גודל מ-GPT-4o. יתרון משמעותי נוסף הוא התאמתו למשימות בנפח גבוה הדורשות חשיבה מעמיקה אך לא הקשר ארוך במיוחד.
בזכות יעילותו, o4-mini תומך במגבלות שימוש גבוהות משמעותית מ-o3. עבור משתמשי ChatGPT Plus, היכולת לשלוח עד 150 הודעות ביום ל-o4-mini הופכת אותו לאפשרות נגישה ומעשית לשימוש יומיומי, בניגוד למגבלות המחמירות יותר של מודלים עוצמתיים יותר.
מתי להשתמש ב-o4-mini-high?
מודל o4-mini-high של OpenAI מציע יתרונות ייחודיים שהופכים אותו לבחירה מושלמת למשימות מורכבות הדורשות עיבוד מידע בהיקף נרחב. עם חלון הקשר מרשים של מיליון טוקנים (שווה ערך לכ-1,500 עמודי A4 בגופן Arial בגודל 12), המודל מצטיין בניתוח מסמכים ארוכים במיוחד כמו ספרים שלמים, מאמרים אקדמיים מורכבים או דוחות מקיפים.
יכולתו לעבד בסיסי קוד גדולים הופכת אותו לכלי יעיל במיוחד למפתחים העובדים עם פרויקטים מורכבים, בעוד שמיומנותו בשמירת הקשר ארוך לאורך שיחות מאפשרת דיונים מעמיקים ומתמשכים. המודל מביא ערך משמעותי גם בניתוח מסמכים משפטיים או טכניים מורכבים, שם יכולתו לזכור ולקשר בין פרטים רבים לאורך טקסט ארוך מספקת תובנות מדויקות יותר.
עבור חוקרים אקדמיים, o4-mini-high מציע יכולת לעבד כמויות גדולות של טקסט ולזהות קשרים ותובנות שעשויים להיעלם במודלים עם חלון הקשר קטן יותר. משתמשי ChatGPT Plus יכולים לשלוח עד 50 הודעות ביום ל-o4-mini-high (לעומת 150 הודעות ביום ל-o4-mini הרגיל).
נכנסים לעובי הקורה
השוואת ביצועים
התמונה המצורפת מציגה השוואת ביצועים מקיפה בין מודלי הבינה המלאכותית החדשים של OpenAI (o3 ו-o4-mini) לעומת המודלים הקודמים (o1 ו-o3-mini) במגוון מבחני תחרות מאתגרים. הגרף מחולק לחמישה חלקים המציגים תוצאות במבחני מתמטיקה תחרותיים (AIME 2024 ו-2025), תחרות קידוד (Codeforces), שאלות מדעיות ברמת דוקטורט (GPQA Diamond), ומבחן רב-תחומי ברמת מומחים (Humanity’s Last Exam). בכל המבחנים, המודלים החדשים (המסומנים בצהוב בהיר) משיגים תוצאות טובות משמעותית מהמודלים הקודמים (המסומנים בחום-זית). במבחן AIME 2024, o4-mini ללא כלים משיג דיוק מרשים של 93.4%, לעומת 74.3% של o1. בתחרות Codeforces, o4-mini עם טרמינל מגיע לדירוג ELO של 2719, שיפור ניכר לעומת 1891 של o1. במבחן GPQA Diamond לשאלות מדעיות, o4-mini ללא כלים משיג 81.4% דיוק. במבחן Humanity’s Last Exam, ישנה השוואה רחבה יותר הכוללת גם שילובים של מודלים עם כלים שונים, כאשר “Deep research” משיג את התוצאה הגבוהה ביותר של 26.6%. הנתונים מדגימים בבירור את הקפיצה המשמעותית ביכולות החשיבה והניתוח של המודלים החדשים בהשוואה לדור הקודם:
עלות מול ביצועים
התמונה המצורפת מציגה השוואה בין עלות לביצועים של מודלי הבינה המלאכותית השונים של OpenAI. הגרף מחולק לשני חלקים: החלק העליון משווה בין מודלי o3-mini ו-o4-mini, והחלק התחתון משווה בין o1 ו-o3. בכל חלק יש שני גרפים המציגים ביצועים במבחן AIME 2025 (משמאל) ובמבחן GPQA Pass (מימין) ביחס לעלות ההסקה המוערכת בדולרים. הקווים הצהובים מייצגים את המודלים החדשים (o4-mini ו-o3) והקווים האפורים מייצגים את המודלים הישנים יותר (o3-mini ו-o1). הגרפים מראים בבירור שהמודלים החדשים משיגים ביצועים טובים יותר בעלות נמוכה יותר, כאשר o4-mini (high) משיג כ-92% דיוק במבחן AIME 2025 בעלות של כ-0.5$ ו-o3 (high) משיג כ-87% במבחן AIME 2025 בעלות של כ-0.4$:
מולטימודאליות
התמונה המצורפת מציגה השוואת ביצועים בין מודלי הבינה המלאכותית השונים של OpenAI (o1, o3 ו-o4-mini) במשימות מולטימודליות הדורשות הבנה חזותית. הגרף מחולק לשלושה חלקים המציגים אחוזי דיוק בשלושה מבחנים שונים: MMMU (פתרון בעיות חזותיות ברמת קולג’), MathVista (חשיבה מתמטית חזותית), ו-CharXiv-Reasoning (ניתוח איורים מדעיים). בכל המבחנים, המודלים החדשים o3 ו-o4-mini (המסומנים בצהוב בהיר) משיגים תוצאות טובות משמעותית מהמודל הקודם o1 (המסומן בחום). במבחן MMMU, o3 משיג 82.9% דיוק ו-o4-mini משיג 81.6% לעומת 77.6% של o1. במבחן MathVista, o3 משיג 87.5% ו-o4-mini משיג 84.3% לעומת 71.8% של o1. השיפור הדרמטי ביותר נראה במבחן CharXiv-Reasoning, שם o3 משיג 75.4% ו-o4-mini משיג 72% לעומת 55.1% בלבד של o1 – שיפור של יותר מ-20%. הנתונים מדגימים את הקפיצה המשמעותית ביכולות ההבנה החזותית והחשיבה המולטימודלית של המודלים החדשים:
קידוד
התמונה המצורפת מציגה השוואת ביצועים של מודלי בינה מלאכותית שונים בתחום הקידוד, מחולקת לשני מדדים מרכזיים. בצד שמאל, תחת הכותרת “SWE-Lancer: IC SWE Diamond Freelance Coding Tasks”, מוצג גרף המשווה את הסכום הכספי שהמודלים השונים הצליחו “להרוויח” במשימות קידוד פרילנס. ניתן לראות שמודל o3-high השיג את התוצאה הגבוהה ביותר עם $65,250, אחריו o4-mini-high עם $56,375, בעוד שהמודלים הישנים יותר o1-high ו-o3-mini-high השיגו $28,500 ו-$17,375 בהתאמה. בצד ימין, תחת הכותרת “SWE-Bench Verified Software Engineering”, מוצג גרף המשווה את אחוז הדיוק של המודלים במשימות הנדסת תוכנה מורכבות. כאן o3 משיג את התוצאה הגבוהה ביותר עם 69.1% דיוק, ואחריו o4-mini עם 68.1%, שניהם משיגים תוצאות טובות משמעותית מהמודלים הקודמים o1 (48.9%) ו-o3-mini (49.3%). התמונה מדגימה בבירור את השיפור המשמעותי ביכולות הקידוד של המודלים החדשים של OpenAI בהשוואה לדור הקודם:
מעקב אחר הוראות ושימוש בכלים
מודלי o3 ו-o4-mini של OpenAI מציגים קפיצת מדרגה משמעותית ביכולת המעקב אחר הוראות מורכבות ושימוש אגנטי בכלים, כפי שמודגם בתמונה המצורפת. במבחן Scale MultiChallenge למעקב אחר הוראות רב-שלביות, מודל o3 משיג תוצאה מרשימה של 56.51% דיוק, שיפור משמעותי לעומת 44.93% של o1 ו-39.89% של o3-mini. ביכולת הגלישה האגנטית (BrowseComp), o3 עם יכולות גלישה פייתון משיג 49.7% דיוק, פי 26 יותר מהמודל הבסיסי שמשיג רק 1.9%, אם כי עדיין נופל במעט מ”Deep research” שמשיג 51.5%. במבחן Tau-bench לקריאת פונקציות, o3-high מוביל עם 70.4% דיוק במשימות קמעונאות (Retail) ו-52% במשימות תעופה (Airline), כאשר o4-mini-high מגיע ל-65.6% ו-49.2% בהתאמה.
שיפורים אלה הם תוצאה ישירה של אימון מתקדם בלמידת חיזוק (RL), שלימד את המודלים לא רק כיצד להשתמש בכלים, אלא גם מתי ואיך לשלב ביניהם באופן אסטרטגי. לראשונה, המודלים יכולים להשתמש באופן עצמאי בכל הכלים הזמינים ב-ChatGPT – כולל חיפוש ברשת, הרצת קוד Python, ניתוח קבצים ויצירת תמונות – ולשלב ביניהם כדי לפתור בעיות מורכבות רב-שלביות. לדוגמה, בתגובה לשאלה על צריכת האנרגיה הקיצית בקליפורניה, המודל יכול לחפש נתוני תועלת, לכתוב קוד Python לניתוח, ליצור תרשים תחזית ולהסביר את התחזית – הכל כחלק מתהליך חשיבה אחד. יכולות אלה מהוות צעד משמעותי לקראת ChatGPT אגנטי יותר, המסוגל לבצע משימות באופן עצמאי בשם המשתמש, ומשקפות את החזון של OpenAI ליצירת מודלים שלא רק עונים על שאלות אלא גם פועלים באופן אקטיבי לפתרון בעיות מורכבות:
אבטחה במודלי o3 ו-o4-mini של OpenAI
OpenAI השקיעה מאמצים משמעותיים בשיפור מערכות האבטחה במודלים החדשים. החברה בנתה מחדש את מסד נתוני האימון לבטיחות, והוסיפה תרחישי סירוב חדשים בתחומים רגישים כמו איומים ביולוגיים, יצירת תוכנות זדוניות וניסיונות פריצה (jailbreaks). נתונים מעודכנים אלה הובילו את המודלים להשיג ביצועים חזקים במדדי הסירוב הפנימיים של החברה, כולל היררכיית הוראות והתמודדות עם ניסיונות פריצה.
מעבר לשיפור ביכולת הסירוב של המודלים עצמם, OpenAI פיתחה גם אמצעי הגנה ברמת המערכת לזיהוי בקשות מסוכנות בתחומי סיכון מתקדמים. בדומה לעבודתה הקודמת בתחום יצירת תמונות, החברה אימנה מודל LLM מיוחד לניטור תהליכי חשיבה, הפועל על בסיס מפרטי בטיחות הניתנים לפירוש על ידי בני אדם. כאשר יושם בתחום הסיכון הביולוגי, מודל הניטור הצליח לזהות כ-99% מהשיחות במסגרת מבחני “Red-Teaming” שבוצעו על ידי צוותי אבטחה.
החברה בחנה את שני המודלים במסגרת תוכנית האבטחה הקפדנית ביותר שלה עד כה. בהתאם למסגרת המוכנות המעודכנת של OpenAI, המודלים הוערכו בשלושה תחומי יכולת מרכזיים: ביולוגי וכימי, אבטחת סייבר, ושיפור עצמי של בינה מלאכותית. על בסיס תוצאות הערכות אלה, החברה קבעה כי הן o3 והן o4-mini נשארים מתחת לסף ה”גבוה” של המסגרת בכל שלוש הקטגוריות, מה שמאפשר את שחרורם לשימוש הציבור תוך שמירה על סטנדרטים גבוהים של בטיחות ואחריות.
Codex CLI
OpenAI השיקה אתמול גם את Codex CLI, כלי קידוד חדשני בקוד פתוח המיועד לרוץ ישירות בטרמינל של המשתמש. מדובר בסוכן קידוד קל משקל המנצל את יכולות החשיבה המתקדמות של מודלי o3 ו-o4-mini החדשים של החברה, עם תמיכה עתידית במודלים נוספים כמו GPT-4.1. בניגוד לכלים אחרים, Codex CLI פועל באופן מקומי על המחשב של המשתמש, כך שקוד המקור לעולם אינו עוזב את הסביבה המקומית אלא אם המשתמש בוחר לשתף אותו.
הכלי מאפשר למשתמשים ליהנות מיכולות ניתוח רב-ממדיות ישירות משורת הפקודה, כולל העברת צילומי מסך או סקיצות בסיסיות למודל, בשילוב עם גישה לקוד המקומי. המשתמשים יכולים לבקש מהכלי להסביר בסיסי קוד, לתקן באגים, לכתוב קוד חדש או לבצע שינויים בקוד קיים – הכל באמצעות פקודות בשפה טבעית. Codex CLI מציע שלושה מצבי אישור שונים, החל ממצב קריאה בלבד ועד למצב אוטומטי מלא שבו הכלי יכול לקרוא, לכתוב ולהריץ פקודות באופן עצמאי בסביבה מאובטחת. לצד ההשקה, OpenAI הכריזה על יוזמה בשווי מיליון דולר לתמיכה בפרויקטים המשתמשים ב-Codex CLI ובמודלים של החברה. החברה תעניק מענקים בסכום של 25,000 דולר בצורת נקודות זכות ל-API למיזמים נבחרים. הקוד המלא של Codex CLI זמין כעת בגיטהאב, והחברה מזמינה את קהילת המפתחים לתרום לפיתוח הכלי ולשפר אותו.
Meet Codex CLI—an open-source local coding agent that turns natural language into working code. Tell Codex CLI what to build, fix, or explain, then watch it bring your ideas to life. pic.twitter.com/jjPZdRIgrm
— OpenAI Developers (@OpenAIDevs) April 16, 2025
טבלת השוואה בין מודלי החשיבה
בטבלה מטה תוכלו לראות השוואה בין שלושה מודלים: o4-mini, o3 ו-o1. היא מציגה את ההבדלים ביניהם מבחינת יכולות חשיבה, מהירות, תמיכה בקלט/פלט ומחירים. o4-mini מוצג כמודל מהיר וחסכוני, o3 כמודל החזק ביותר לחשיבה, ו-o1 כמודל הקודם בסדרה. הטבלה מאפשרת להשוות ביניהם בקלות לפי הקטגוריות השונות:

השקת o3 ו-o4-mini מסמנת קפיצת מדרגה ביכולות הבינה המלאכותית של OpenAI. המודלים החדשים לא רק חכמים יותר, אלא גם אגנטיים יותר – מסוגלים להשתמש בכלים באופן עצמאי, לחשוב עם תמונות, ולפתור בעיות מורכבות ביעילות. במקביל, OpenAI שיפרה משמעותית את בטיחות המודלים, בנתה מחדש את מסד נתוני האימון לבטיחות, ואימנה מחדש את מנגנוני הסירוב להתמודדות עם איומים ביולוגיים, תוכנות זדוניות וניסיונות פריצה. למרות שGPT-4o עדיין מספק ביצועים מצוינים למשימות יומיומיות, המודלים החדשים מציעים יתרונות משמעותיים במשימות מורכבות הדורשות חשיבה אנליטית, תכנות, מתמטיקה או ניתוח חזותי. בנוסף, OpenAI השיקה גם את Codex CLI, כלי קידוד בקוד פתוח המיועד לרוץ ישירות בטרמינל של המשתמש, המנצל את יכולות החשיבה המתקדמות של המודלים החדשים. עם התקדמות זו, אנו צועדים לעבר עתיד שבו מערכות בינה מלאכותית יפעלו כסוכנים אוטונומיים למחצה, המסוגלים לא רק להבין ולנתח מידע, אלא גם לתכנן ולבצע פעולות מורכבות בעולם האמיתי, מה שיפתח אפשרויות חדשות בתחומי המחקר המדעי, פיתוח תוכנה, רפואה מותאמת אישית ואוטומציה של תהליכים עסקיים.
כתיבת תגובה