דף הבית » כנס Dev Day של OpenAI בסן פרנסיסקו – כל מה שחשוב לדעת

כנס Dev Day של OpenAI בסן פרנסיסקו – כל מה שחשוב לדעת

עומר הררי

08/10/2024

זמן קריאה: 12 דקות

כנס המפתחים השנתי של OpenAI שנערך ב-1 באוקטובר 2024 בסן פרנסיסקו, היה אחד האירועים הבולטים בתחום הבינה המלאכותית החודשים האחרונים. איכשהו פה בארץ הוא קצת “הלך לאיבוד” בגלל החגים, אז הנה – אנחנו פה כדי לעשות קצת סדר. הכנס בסן פרנסיסקו הציג מספר חידושים טכנולוגיים פורצי דרך, שתכליתם להעצים את קהילת המפתחים הגלובלית. OpenAI הציגה במהלך הכנס ארבעה חידושים מרכזיים, שכל אחד מהם נועד להרחיב את יכולות הפיתוח של אפליקציות מבוססות AI וליצור חוויות משתמש מתקדמות יותר. בעוד שבשנים קודמות המיקוד היה במוצרים לצרכן הסופי, השנה OpenAI הפנתה את המבט שלה לעבר קהילת המפתחים, עם דגש על ייעול הכלים הקיימים והפחתת עלויות השימוש בהם. חשוב לציין שהשנה כנס ה-Dev Day יתקיים גם בערים נוספות ברחבי העולם – לונדון ב-30 באוקטובר וסינגפור ב-21 בנובמבר, כחלק מגישה של מתן פוקוס על קהלים גלובליים.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

אפשר גם להרשם לניוזלטר שלנו

ארבעת העדכונים המרכזיים של OpenAI

הכנס בסן פרנסיסקו הדגיש את חשיבות קהילת המפתחים עבור OpenAI והציג שיפורים הדרגתיים שנועדו להעצים את קהילת הפיתוח ולספק לה כלים מתקדמים יותר. החידושים המוצגים נועדו לסייע למפתחים ליצור פתרונות חכמים יותר, יעילים יותר וזולים יותר – שלושה עקרונות שהובילו את החידושים של OpenAI השנה. להלן ארבעת העדכונים המרכזיים שהוצגו בכנס:

Realtime API: מפתחים יכולים כעת לשלב פיתוחי speech-to-speech שמבוססים על הטכנולוגיות המתקדמות והמהירות של OpenAI באפליקציות שלהם.
Vision Fine-Tuning: מפתחים יכולים כעת לבצע Fine Tune ל-GPT-4o עם תמונות וטקסט כדי לשפר את יכולות הראייה של הפיתוחים שלהם.
Prompt Caching: טכניקת אופטימיזציה שמאפשרת לאחסן באופן זמני הקשר שנעשה בו שימוש תכוף בין קריאות API למודל, וזאת על מנת לשפר את זמני העיבוד של הקריאות.
Distillation: שימוש במודלים גדולים כדי לעשות Fine Tune למודלים קטנים.

כל אחד מהעדכונים האלה נועד לסייע למפתחים להתמודד עם אתגרי הפיתוח של יישומים מבוססי AI, להקטין עלויות ולהגביר את היעילות של המודלים בשימושם.

Realtime API: יצירת שיחות קוליות בזמן אמת

מהו Realtime API?

ממשק ה-Realtime API היה אחד מהחידושים הבולטים בכנס. זהו ממשק המאפשר למפתחים ליצור חוויות משתמש קוליות מתקדמות בזמן אמת, עם השהיה נמוכה במיוחד. היכולת הזו היא צעד משמעותי עבור פיתוח אפליקציות דיבור-לדיבור (speech-to-speech) המחקות שיחות טבעיות בין בני אדם. ממשק ה-Realtime API מציע שישה קולות שונים לשימוש, ומאפשר למפתחים לשלב את היכולת הקולית הזו באפליקציות שלהם, עם תמיכה בתהליכי קריאה לפונקציות נוספות. כך, ניתן למשל ליצור עוזרים וירטואליים מתקדמים, כלי חיפוש קוליים ושירותי לקוחות חכמים.

איך זה עובד?

בעבר, כדי ליצור חוויית עוזר קולי דומה, מפתחים היו צריכים להשתמש במודלים שונים להמרת קול לטקסט (כמו whisper למשל), לעבד את הטקסט במודל נפרד, ולאחר מכן להמיר אותו חזרה לקול. התהליך הזה היה כרוך באובדן אינדיקציות לרגשות, דגשים ומבטאים, וגם הוביל ל-Latency. עם ה-Realtime API, ניתן לבצע את כל התהליך הזה בעזרת קריאה אחת ל-API, המאפשרת יצירת חוויות שיחה טבעיות יותר ומהירה יותר. הממשק גם מאפשר לנהל הפרעות במהלך השיחה באופן אוטומטי, דבר שמדמה דיאלוג אנושי בצורה טובה יותר.

ממשק ה-Realtime API מאפשר יצירת חיבור קבוע באמצעות WebSocket להחלפת הודעות עם GPT-4o, כולל תמיכה בקריאה לפונקציות שמאפשרת לעוזרים קוליים לבצע פעולות או לשלוף מידע חדש בהתאם לבקשות המשתמש. לדוגמה, עוזר קולי יכול לבצע הזמנות או לספק מידע מותאם אישית. במסגרת השקת הממשק באופן הדרגתי, OpenAI בדקה אותו עם מספר שותפים, כמו אפליקציית הבריאות והכושר Healthify, שמאפשרת שיחות טבעיות עם המאמן הווירטואלי שלה, ואפליקציית הלימוד Speak, שבה משתמשים יכולים לתרגל שיחות בשפה חדשה באופן טבעי ואינטראקטיבי.

תמחור וזמינות

ממשק ה-Realtime API זמין בגרסת בטא ציבורית לכל המפתחים בתשלום. היכולות הקוליות בממשק מופעלות על ידי מודל ה-GPT-4o החדש (gpt-4o-realtime-preview). בנוסף, OpenAI מתכננת להשיק בשבועות הקרובים יכולות קוליות נוספות בממשק ה-Chat Completions API, בעזרת מודל חדש – gpt-4o-audio-preview – שיתמוך גם בקלטים טקסטואליים וקוליים, וגם בפלטים טקסטואליים וקוליים כאחד.

מחירי הממשק כוללים גם טוקנים של קלט ופלט קוליים וטקסטואליים, כאשר הקלט הקולי מתומחר ב-0.06 דולר לדקה והפלט הקולי ב-0.24 דולר לדקה. תמחור זה מיועד לתמוך בפיתוח חוויות קוליות מתקדמות מבלי להכביד על המפתחים בעלויות גבוהות.

אבטחה ופרטיות

ממשק ה-Realtime API כולל שכבות רבות של הגנה על מנת להפחית את הסיכון לשימוש לרעה, כולל ניטור אוטומטי וביקורת אנושית של הקלטים והפלטים המסומנים. הממשק בנוי על אותה גרסה של GPT-4o שמפעילה את מצב הדיבור המתקדם ב-ChatGPT, ולדברי החברה היא נבחנה בקפידה תוך שימוש במבחנים אוטומטיים ואנושיים, כולל הערכות לפי מסגרת ההכנה של OpenAI.

למידע נוסף לחצו פה.

Fine-Tuning ליכולות ה-Vision: שיפור בהבנת דימויים חזותיים

מהו vision to the fine-tuning API?

החידוש השני שהוצג בכנס הוא Vision to the fine-tuning API – טכנולוגיה המאפשרת לעשות Fine Tune ל-GPT-4o בעזרת תמונות, מה שמאפשר לשפר את יכולת המודל להבין ולעבד תמונות ודימויים חזותיים, ולספק תשובות מדויקות יותר בהתבסס על מידע חזותי בפיתוחים ואפליקציות. תכונה זו חשובה במיוחד עבור תחומים מבוססי ניתוח תמונה כמו רכבים אוטונומיים, עיבוד וניתוח חזותי של דגימות רפואיות וחיפוש ויזואלי. עד היום מפתחים עשו Fine Tune למודלים של OpenAI בעזרת נתונים טקסטואליים בלבד, אבל כעת ניתן לאמן ולכוונן את GPT-4o גם על תמונות.

איך זה עובד?

תהליך Fine-Tuning לתמונות מתבצע בצורה דומה לתהליך Fine-Tuning עם טקסט – מפתחים יכולים להכין את מערך הנתונים של התמונות בפורמט מתאים ולהעלות אותו לפלטפורמה של OpenAI. ניתן לשפר את ביצועי GPT-4o למשימות חזותיות גם עם כמות קטנה של כ-100 תמונות, ולהגיע לביצועים גבוהים יותר בעזרת נתונים רבים יותר של טקסט ותמונה.

יוזקייסים וסיפורי הצלחה

שיפור הבנת תמונות עבור Grab: חברת Grab, שעוסקת בתחום משלוחי מזון, השתמשה ב-Fine-Tuning לתמונות כדי לשפר את הדיוק במיפוי שלה. באמצעות אימון על 100 דוגמאות בלבד, הצליחה Grab לשפר את הדיוק בבחירת נתיבים אופטימליים ב-20% ואת זיהוי תמרורי המהירות ב-13%, מה שאפשר אוטומציה מתקדמת יותר של תהליך המיפוי שהיה בעבר ידני.

שיפור ביצועי בוטים עסקיים עבור Automat: חברת Automat, המתמחה באוטומציה של תהליכים עסקיים, השתמשה ב-Fine-Tuning לתמונות כדי לאמן את GPT-4o לזהות אלמנטים בממשקי משתמש על בסיס תיאור בשפה טבעית. כתוצאה מכך, הצליחו לשפר את שיעור ההצלחה של הסוכנים האוטומטיים שלהם ב-272% לעומת המודל הבסיסי.

שיפור יצירת תוכן דיגיטלי עבור Coframe: חברת “קופריים” פיתחה עוזר בינה מלאכותית שמסייע לעסקים ליצור ולבחון גרסאות שונות של אתרים ו-UI לשיפור מדדים עסקיים. באמצעות כיוונון של GPT-4o עם תמונות וקוד, הצליחו ב-Coframe לשפר ב-26% את יכולתו של המודל לייצר אתרים עם סגנון חזותי עקבי ופריסה נכונה.

בתמונה הימנית ניתן לראות איך הסייען של Coframe מג’נרט סטריפים לאתרים בצורה מדויקת יותר, לאחר שבוצע Fine tune על בסיס תמונות | Credit: Open AI

אבטחה, פרטיות ובעלות על נתונים

OpenAI מפעילה מערכות בטיחות אוטומטיות לבדיקת מודלים שעברו Fine-Tuning ומבצעת מעקב מתמשך על השימוש בהם כדי לוודא עמידה במדיניות השימוש. המודלים נשארים בשליטת המפתחים עם בעלות מלאה על הנתונים העסקיים. חשוב לציין ש-OpenAI לא מאמנים את המודלים שלהם על קלטים או פלטים משירות זה ללא הרשאה מפורשת.

תמחור וזמינות

יכולות Fine-Tuning לתמונות זמינות לכל המפתחים שמשתמשים בשירותי ה-API של OpenAI בתשלום, בעלות יחסית נמוכה ומשתלמת ביותר. התמיכה ניתנת במודל GPT-4o החדש ביותר ו-OpenAI מציעים 1 מיליון טוקנים חינם ביום לאימון עד ה-31 באוקטובר 2024, ולאחר מכן האימון יעלה 25 דולר למיליון טוקנים.

למידע נוסף, לחצו פה.

Prompt Caching: חיסכון בעלויות ושיפור יעילות

מהו Prompt Caching?

Prompt Caching הוא מנגנון חדש שמאפשר למפתחים לחסוך בעלויות ולהגביר את יעילות המודלים על ידי שימוש חוזר בקלטים שהמודל כבר עיבד. מדובר במנגנון שמציע חיסכון של עד 50% בעלויות השימוש בטוקנים בקלט שכבר נצפה על ידי המודל, מה שמוביל להפחתה משמעותית בזמני העיבוד. למי זה טוב? לכל מי שמתפעל יישומים שמתמודדים עם הקשרים חוזרים ונשנים, כמו אפליקציות שירות לקוחות, חיפוש מתקדם, או צ’אטבוטים שמנהלים שיחות מרובות שלבים. השימוש במטמון מאפשר להפחית את זמני ההשהיה (עד 80%) ולשפר את היעילות התפעולית של אפליקציות ופיתוחים. יתרון נוסף הוא שלא נדרשת שום התאמה מיוחדת של הקוד כדי לנצל את המנגנון, והוא מוחל אוטומאטית על פרומפטים מעל 1,024 טוקנים.

כיצד פועל מנגנון Prompt Caching?

כאשר מפתחים מבצעים קריאה ל-API עם קלט שחוזר על עצמו, המערכת מזהה את הקלט ומשתמשת בתוצאות שנשמרו במטמון, במקום לעבד אותו מחדש. התהליך כולל בדיקה אם החלק הראשון של הקלט (הפריפיקס) כבר נשמר במטמון, ואם כן – נעשה שימוש בתוצאה שנשמרה כדי להאיץ את התהליך ולהפחית את העלויות. אם לא, המערכת מעבדת את הקלט במלואו ואז שומרת את הפריפיקס שלו למטמון לשימוש עתידי. בכל שימוש חוזר בקלט זהה, מתקבלת הפחתה בעלויות וזמני ההשהיה מתקצרים. הקלטים נשמרים במטמון למשך 5 עד 10 דקות של חוסר פעילות, ולעיתים גם למשך שעה, במיוחד בשעות השפל של הפעילות.

זוהי תכונה חשובה במיוחד עבור אפליקציות שמשתמשות בהקשרים דומים באופן תדיר, כמו מנועי חיפוש או כלים המספקים שירותים אוטומטיים מבוססי שיחה.

זמינות ותמחור של Prompt Caching

מנגנון ה-Prompt Caching זמין ופעיל וכבר עובד אוטומטית בגרסאות האחרונות של GPT-4o, GPT-4o mini, o1-preview ו-o1-mini, כולל גרסאות שעברו Fine-Tuning. המחירים המוזלים של קלטים במטמון משקפים את ההפחתה בעלויות לעומת קלטים שלא נשמרו במטמון. לדוגמה, עבור GPT-4o, עלות הטוקנים בקלט לא במטמון היא 2.50 דולר למיליון טוקנים, בעוד שקלט במטמון מתומחר ב-1.25 דולר בלבד.

להלן התמחור המלא:

מחירון Prompt Caching

טיפים לאופטימיזציה של קלטים

כדי למקסם את ההטבות של Prompt Caching, מומלץ למפתחים למקם תוכן סטטי או חוזר, כמו הוראות או דוגמאות, בתחילת הקלט. התוכן המשתנה, כמו מידע ספציפי למשתמש, יש למקם בסוף. זאת כדי להבטיח שהמערכת תוכל לזהות את ההקשר ולנצל את המטמון. כדי להפיק את מירב היתרונות מ-Prompt Caching, חשוב לבנות את הקלט בצורה שמאפשרת שמירה במטמון. מומלץ למקם תוכן סטטי, כמו הוראות או דוגמאות, בתחילת הקלט, ולהשאיר את התוכן הדינמי בסופו. כך ניתן להגדיל את הסיכוי לשימוש חוזר במטמון ולהקטין את העלויות הכוללות.

למידע נוסף, לחצו פה.

התמונה מעלה מדגימה כיצד לארגן פקודות כדי לנצל את זיכרון המטמון (cache). אם הפקודה זהה או דומה מאוד לקודמת (הצורות הירוקות), המערכת מזהה אותה ומבצעת אותה מהר יותר (Cache hit). אם יש שינוי (בעיקר בחלק הראשון של הפקודה – באדום), המערכת לא תזהה (Cache miss). כדי לשפר את יעילות השימוש בזיכרון המטמון מומלץ לשים תוכן קבוע בתחילת הפקודה ותוכן משתנה בסוף.

Model Distillation: טכניקה לשיפור ביצועי מודלים קטנים

מהו Model Distillation?

העדכון הרביעי שהוצג בכנס הוא טכניקת Model Distillation (דיסטילציה של מודלים), המאפשרת למפתחים להשתמש במודלים גדולים כדי לשפר את הביצועים של מודלים קטנים יותר. טכניקה זו מקנה למפתחים אפשרות לשפר את ביצועי המודלים הקטנים מבלי לשאת בעלויות הגבוהות הכרוכות בהרצת המודלים הגדולים. כתבנו על טכניקה זו כשסיפרנו על הארכיטקטורה של מודלי Llama 3.2 של מטא.

Model Distillation כולל שימוש בפלטים של מודלים מתקדמים וגדולים, כמו o1-preview ו-GPT-4o, כדי לאמן ולשפר את הביצועים של מודלים קטנים ויעילים יותר, כמו GPT-4o mini. באמצעות תהליך זה, ניתן להשיג ביצועים דומים למודלים הגדולים, אך בעלויות נמוכות משמעותית. בעבר, תהליך הדיסטילציה היה מורכב וכלל מספר שלבים שדרשו תיאום ידני וכלים שונים, אך כיום OpenAI מציעה פתרון אינטגרטיבי לניהול כל התהליך באופן ישיר על הפלטפורמה שלה. בעזרת תהליך זה ניתן להרחיב את השימוש ביכולות AI בתחומים נוספים מבלי להזדקק לתשתיות חישוביות מורכבות ויקרות. הפלטפורמה של OpenAI מאפשרת לנהל את כל שלבי התהליך, מהפקת הנתונים ועד לאימון והערכה, בצורה יעילה ואינטגרטיבית, מה שמפחית משמעותית את המורכבות והמאמץ הכרוכים בכך.

ככה זה נראה בפועל:

כלים לדיסטילציה

כחלק מהתהליך, ניתן להשתמש ב-Stored Completions כדי ליצור מערכי נתונים לצורך הדיסטילציה, על ידי אחסון והפקת זוגות קלט-פלט שהופקו על ידי אחד המודלים הגדולים. נתונים אלו יכולים לשמש לאימון ולהערכה של המודל הקטן. בנוסף, OpenAI מציעה את הכלי Evals (בגרסת בטא) לצורך ביצוע הערכות מותאמות אישית למדידת ביצועי המודל. Evals מאפשר למפתחים למדוד את ביצועי המודלים על משימות ספציפיות ולבצע הערכות על בסיס נתונים שנאספו במהלך הדיסטילציה. כל התהליכים הללו קוראים בתוך סביבת ה-Fine Tune הקיימת של OpenAI.

המדריכים תמיד חינמיים, אבל אם בא לכם להתמקצע - יש גם קורס מקיף לבינה מלאכותית - GenAI Master

מפתחים במרכז

בניגוד לכנס של השנה שעברה, שהתמקד בהשקות גדולות של מוצרים כמו חנות ה-GPT, השנה OpenAI העבירה מסר ברור על שינוי אסטרטגי: הדגש היה על שיפור הכלים הקיימים והעצמת קהילת המפתחים. במהלך השנתיים האחרונות, החברה הצליחה להוריד את עלויות השימוש ב-API שלה ב-99%, מה שמאפשר למפתחים לעבוד בצורה זולה יותר ולהשתמש בטכנולוגיות המתקדמות ביותר של OpenAI.

עם יותר מ-3 מיליון מפתחים המשתמשים במודלים שלה, OpenAI ממשיכה להבטיח שהמודלים שלה יהיו זמינים לשימוש נרחב ובמחירים יחסית זולים, לרבות חלוקה של טוקנים חינם לאימון ו-Fine Tuning. אסטרטגיה זו ממקמת את OpenAI כחברה שמבקשת להציב במרכז את קהילת המפתחים, ובכך לשפר את היכולת שלה להתמודד בתחרות מול חברות כמו גוגל, מטא ואנטרופיק.

החידושים שהוצגו בכנס השנה מדגישים את המעבר של OpenAI מחברה חדשנית לחלוצה שמובילה תעשיות שלמות ושהטכנולוגיה שלה עומדת בבסיסם של מוצרים, סטארטאפים, אפליקציות ופיתוחים. למרות שלא הוצגו מוצרים חדשים כמו בשנה שעברה, השיפורים שהוצגו השנה נועדו לחזק את המערכת האקולוגית של החברה ולאפשר למפתחים לעבוד בצורה יעילה, חכמה וזולה יותר. OpenAI רוצה להיות “הלב” של מוצרי המחר. השיפורים בהבנת מידע חזותי, שיחות קוליות בזמן אמת והיכולת לשפר מודלים קטנים יותר באמצעות דיסטילציה, פותחים דלתות חדשות לתחומים חדשים שבהם בינה מלאכותית יכולה לשפר את איכות החיים ולעזור לעסקים קטנים וגדולים כאחד.

רוצים להתמקצע?

בואו ללמוד איתנו בינה מלאכותית בקורס המקיף, העשיר והמבוקש בשוק. הצטרפו לאלפים הרבים שכבר עברו את הקורסים והסדנאות שלנו. פרטים והרשמה באתר.

לקבלת הנחה במחיר הקורסים – הזינו את קוד הקופון LETSAI

הישארו מעודכנים

אפשר גם להרשם לניוזלטר שלנו

עומר הררי

עומר הררי - שותף מייסד בחברת LetsAI, יועץ GenAI לחברות ציבוריות וארגונים ממשלתיים. מרצה בתחומי הבינה המלאכותית היוצרת ושיטות עבודה של העולם החדש במוסדות אקדמיים, תוכניות הכשרת מנהלים בכירים בתעשייה, קורסי דיירקטורים ופיקוד בכיר בצה״ל ומשרדי הביטחון.