כשאתם כותבים ל-ChatGPT, Claude, Gemini או כלי קוד מבוסס AI, נדמה לכם שאתם שולחים מילים. מבחינתכם זו שאלה, מסמך, טיקט, מפרט, פוסט או קטע קוד. מבחינת המודל, זה משהו אחר לגמרי: רצף של טוקנים. טוקן הוא יחידת הטקסט שהמודל באמת “רואה” ומעבד. לפעמים זו מילה שלמה, לפעמים חלק ממילה, לפעמים סימן פיסוק, רווח או תו בודד. המנגנון שמפרק את הטקסט לחתיכות האלה נקרא טוקנייזר. אפשר לחשוב על זה כמו “המספריים של המודל ”: הוא גוזר את הטקסט לחתיכות קטנות שנקראות טוקנים. כלל האצבע המוכר אומר שטוקן אחד שווה בערך ארבעה תווים, או כשלושת רבעי מילה. אבל זה כלל שנולד בעיקר סביב אנגלית. בעברית, היחס יכול להשתנות משמעותית. לכן אותו מסמך שנראה לנו קצר וברור עלול לתפוס אצל המודל יותר מקום ממה שחשבנו, ולהפוך לשיקול אמיתי של עלות, מהירות וקונטקסט.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
אתם לא משלמים על מילים, אלא על פירוק
כלכלת טוקנים היא הדרך שבה מודלי AI מודדים שימוש. רוב שירותי ה-API גובים לפי טוקני קלט, כלומר מה ששלחתם למודל, ולפי טוקני פלט, כלומר מה שהמודל החזיר. בחלק מהמערכות גם טוקנים מהיסטוריית השיחה, מ-cache (הקשר שנקרא או זיכרון זמני) או מתהליכי reasoning (שלבי חשיבה) יכולים להיכנס למדדי השימוש והחיוב.
המשמעות פשוטה, שני טקסטים שנראים דומים באורך יכולים לעלות אחרת לגמרי. פסקה באנגלית ופסקה בעברית לא בהכרח תתפרק לאותו מספר טוקנים, גם אם הן אומרות אותו דבר. לכן בעברית אי אפשר להסתמך על ספירת מילים או על כללי אצבע שנולדו באנגלית. צריך למדוד בפועל.
הגרף מראה את אותו טקסט באנגלית ובעברית בשלושה מודלים שונים. הפער אינו אחיד: במודל אחד הוא קטן יחסית, באחר הוא גדול יותר, ובשלישי הוא נמצא באמצע. זו בדיוק הנקודה. עברית לא “תמיד יקרה פי 2”, אבל היא גם לא מתנהגת כמו אנגלית. אותו רעיון יכול לתפוס נפח שונה בחלון ההקשר של המודל, ולהשפיע על עלות, מהירות וכמות המידע שאפשר להכניס לשיחה אחת.
הטבלה הזו מסבירה למה ספירת מילים היא מדד מטעה בעבודה עם מודלי AI. באנגלית, כלל האצבע של טוקן אחד לכ-3/4 מילה עובד לא רע. בעברית, היחס יכול להשתנות יותר. לכן אותה כמות מילים בעברית לא בהכרח תתפוס אותו מספר טוקנים כמו באנגלית. זו הנקודה שהטבלה ממחישה: מילים הן מה שאנחנו רואים, אבל טוקנים הם מה שהמודל סופר.
למה עברית מבלבלת טוקנייזרים
עברית היא שפה קצרה, דחוסה ועשירה מבחינה צורנית. אותיות שימוש כמו ו, ל, ב, כ, מ, ה נצמדות למילים. מילים קצרות יכולות להכיל הרבה מידע, ויש בהן לא פעם שילוב של כתיב מלא וחסר, שמות באנגלית, מספרים, סימני פיסוק, ראשי תיבות וקיצורים. לבני אדם זה טבעי. לטוקנייזר זה יכול להיות פחות נוח.
כאן נוצר “המס השקט” של העברית. אם הטוקנייזר מותאם פחות לעברית, הוא עשוי לפרק מילים בעברית לחלקים קטנים יותר. מחקר שפורסם ב-NeurIPS 2023 הראה שפערים בטוקניזציה בין שפות יכולים להשפיע על עלות, זמן עיבוד, השהיה וכמות התוכן שנכנסת לחלון ההקשר של המודל.
זה לא אומר שהמודל “לא מבין עברית”. זה אומר שגם כשהוא מבין, ייתכן שהוא עובד עליה בצורה פחות חסכונית.
הבעיה האמיתית היא קונטקסט, לא רק כסף
לטוקניזציה לא יעילה יש שלוש השפעות מעשיות. הראשונה היא עלות: אם אותו רעיון בעברית מתפרק ליותר טוקנים מאשר באנגלית, השימוש עשוי להתייקר.
השנייה היא חלון ההקשר. מודלים לא מודדים “כמה עמודים” הכנסתם להם, אלא כמה טוקנים נכנסו. אם מסמך בעברית תופס יותר טוקנים, פחות חומר נכנס לאותו חלון. זה חשוב במיוחד בעבודה עם מסמכים ארוכים, תמלולים, טיקטים, מפרטים, חוזים, נהלים, קבצי Markdown והנחיות מערכת.
השלישית היא הפלט. במודלים רבים טוקני פלט, כלומר הטקסט שהמודל מייצר, מתומחרים גבוה יותר מטוקני קלט. לכן תשובה (פלט) ארוכה עלולה להיות יקרה יותר מפרומפט (קלט) ארוך, גם אם מספר הטוקנים הכולל נראה דומה.
הגרף ממחיש נקודה שרבים מפספסים: לא כל טוקן שווה אותו דבר. במודלים שבהם הפלט יקר יותר מהקלט, תשובה מפורטת יכולה להפוך למרכיב העלות המרכזי. לכן הוראות כמו “ענה בקצרה” או “החזר רק טבלה” הן לא רק העדפת סגנון, הן דרך לשלוט בתקציב.
למה זה חשוב במיוחד ב-Claude Code ובכלי פיתוח
בכלי קוד, טקסט הוא לא רק שיחה עם מודל. הוא חלק מתקציב העבודה של הסוכן: קובצי README, הוראות כמו CLAUDE.md או AGENTS.md, טיקטים, specs, הודעות שגיאה, תוכניות עבודה ותיעוד ארכיטקטורה.
אם החומרים האלה כתובים בעברית, הם עשויים לתפוס יותר מקום בקונטקסט ולהשאיר פחות מקום לקוד, ללוגים ולקבצים נוספים. לכן כלל עבודה סביר בישראל הוא: עברית לבני אדם, אנגלית להוראות מכונה כשאין צורך אנושי בעברית. מסמך מוצר, מדריך למשתמש או שירות לקוחות צריכים להישאר בעברית. אבל הנחיות פנימיות לסוכן קוד, שמות משתנים, מפרטים טכניים וקבצי עבודה שהמודל קורא שוב ושוב עשויים להיות יעילים יותר באנגלית.
הגרף ממחיש את ההבדל בתרחיש עבודה אמיתי: אותם סוגי מסמכים, פעם בעברית ופעם באנגלית. כשקובץ הוראות, טיקט או מפרט כתובים בעברית, הם עשויים לתפוס פי שניים ויותר טוקנים, בהתאם למודל ולסוג הטקסט. המשמעות היא לא לוותר על עברית, אלא לבחור איפה היא נדרשת.
ממילים למסמכים
כשעוברים ממילים בודדות למסמכים, כלכלת הטוקנים הופכת למוחשית הרבה יותר. דף רגיל יכול להיות סביב 1,000 טוקנים, אבל זה רק כלל אצבע. חוזים, OCR מקובץ סרוק, קבצי PDF, טבלאות או מסמכים מובנים יכולים להתנפח במהירות.
לכן השאלה היא לא רק “כמה עמודים יש לי?”, אלא איך המידע נכנס למודל: כטקסט נקי, כ-PDF, כתוצאה של OCR, כטבלה או כייצוג ויזואלי. במערכות שעובדות עם מסמכים רבים, ההבדל הזה יכול להשפיע ישירות על המחיר, על מהירות העיבוד ועל כמות המידע שנכנסת לחלון ההקשר.
איך לעבוד נכון עם עברית בלי לוותר עליה
הצעד הראשון הוא למדוד. ב-OpenAI אפשר להשתמש בכלי Tokenizer או בספריית tiktoken כדי לחשב ספירת טוקנים לפי המודל וה-Encoding הרלוונטיים. ב-Anthropic כדאי להשתמש בכלי ספירת הטוקנים והתיעוד הרשמי למדידת שימוש בפועל, במיוחד כשמשלבים כלים או תוכן חיצוני. גם ב-Gemini עדיף להשתמש ב-Token Count API הרשמי של Google. אין טעם להעריך עלויות של מודל אחד באמצעות טוקנייזר של מודל אחר.
הצעד השני הוא לקצר פלטים. בקשות כמו “עד 150 מילים” או “אל תחזור על ההקשר” הן לא רק עניין סגנוני. הן החלטת עלות.
הצעד השלישי הוא לא לשלוח הכול כל הזמן. במקום להכניס מסמך מלא בכל בקשה, עדיף לשלוף רק את הקטעים הרלוונטיים, להשתמש בתקצירים מאומתים, לשמור הקשר יציב ב-cache או לבנות תהליך RAG, כלומר שליפה ממוקדת ממאגר ידע במקום דחיפה של כל המידע לפרומפט.
הצעד הרביעי הוא לבדוק עברית אמיתית, לא דוגמאות סטריליות. טקסט ישראלי אמיתי כולל עברית, אנגלית, מספרים, שמות מוצרים, קיצורים וסימני פיסוק. זה החומר שצריך למדוד.
אל תנחשו, תמדדו
טוקנים הם לא פרט טכני למפתחים בלבד. הם משפיעים על מחיר, מהירות, אורך הקונטקסט ועל הדרך שבה מערכות AI עובדות עם עברית. המסקנה היא לא להפסיק לכתוב בעברית, אלא להפסיק להניח שהיא מתנהגת כמו אנגלית בתוך המודל.
משתמשים בישראל צריכים לקבל שירות, תוכן ומוצרים בעברית טובה. מי שבונה מערכות, מפעיל כלי קוד או מתכנן תקציב AI צריך למדוד את הטקסטים האמיתיים שלו. הכלל המעשי פשוט: אל תנחשו לפי מילים. תמדדו לפי טוקנים.











