קצת סדר במודלים של שפה, או בהגה המקצועית: מודלי שפה גדולים: LLMs – Large Language Model.
אבל לפני הכל – הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכון, חידוש או מידע על כלי חדש שיוצא…
מודלים סגורים
מודלים סגורים שניתן לדבר איתם הם GPT, קלוד ai, ג׳ימיני (בארד לשעבר). נכנסים לאתר – יש ממשק. מתכתבים.
מודלים פתוחים
מודלים פתוחים שניתן לדבר איתם הם: Llama-2, Mixtral, Falcon, Wizard ועוד רבים רבים שמופיעים בחינם ב-HuggingFace, האתר שמרכז את כל כלי הAI החינמיים, שעבדו עליהם קשה מאוד. מתוך HuggingFace מורידים את המודלים, מתקינים תוכנה מגשרת כמו GPT4ALL או OogaBooga או LMStudio, בוחרים את המודל שהורדנו, ומתחילים להתכתב בממשק של התוכנה הזו.
איפה הדאטה יושב?
- מודלים סגורים – כל המידע שלנו יישלח על גבי האינטרנט ויעבור דרך אותן חברות.
- מודלים פתוחים – כל המידע יישלח רק לאיפה שנבחר להטמיע את הממשק שמריץ את המודל הפתוח.
מתי נשתמש בכל מודל?
- למה להשתמש במודלים סגורים? רמה גבוהה, מובילים, ממשק קל ידידותי ונוח.
- למה להשתמש במודלים פתוחים? כדי לשמור על פרטיות, כדי להשתמש במודל שפה שאינו מצונזר.
עוד דברים שכדאי לדעת…
- חשוב לציין שגם GPT למשל, וגם מודלים פתוחים כמו לאמה-2 מאפשרים לנו לבצע Fine Tuning. שזה אומר לקחת את הידע הבסיסי של המודל, ולהוסיף עליו שכבות של ידע שאין לו, ושנרצה שהוא ידע.
- חשוב גם להבין שמודל שפה ״סך הכל״ חוזה את המילה הבאה ברצף (וכן – זה פישוט יתר… אני יודע). מה שחשוב להבין זה שאין לו הבנה אנושית. אין לו עומק. אין לו מחשבה. אין לו תודעה (גם על זה אפשר להתווכח, אבל לא ניכנס למחוזות הפילוסופיה). הוא מקבל רצף של טקסט, ועל בסיס מאגר הידע שהוא אומן עליו, הוא מנבא את המילה הבאה. מכאן גם הפתח להזיות של המודלים, או לכך שלא עוזר להיות מנומסים ולומר בבקשה, או לבקש לפתור בעיות מורכבות מדי. זה יהיה שלב 2, בעתיד. אבל כרגע זה ממש לא שם. גם Fine Tuning זה תהליך מייגע ולא תמיד הכי כדאי. תהליך מקביל של הוספת ידע יכול להיות באמצעות שילוב של מאגר ידע צד ג׳ ותשאול שלו כאשר למודל הבסיס חסר ידע. כאן נכנס כל עולם ה Embeddings, ה RAG, ועוד ועוד.
- אבל לפני הכל שנבין: מודל שפה הוא ״סך הכל מודל שפה״ שחוזה את המילה הבאה ברצף של טקסט, אפשר להעשיר אותו, אפשר לשכלל אותו, אפשר לאמן אותו – אבל בסופו של יום צריך לזכור שהוא רק מודל שפה, שמוגבל בגודל הזיכרון שיש לו (ובחלון הקונטקסט שלו). ברגע שמבינים את זה, מבינים איך נכון יותר לעבוד איתו.
קצת על הנדסת פרומפטים עם מודלי שפה גדולים
חוקרים מאוניברסיטת MBZUAI ערכו מחקר שיכול לשנות את האופן שבו אנו מנהלים שיחות עם צ’אט גיפיטי (chat gpt). הם גילו עשרות טכניקות מפתיעות שמשפרות באופן דרמטי את איכות התשובות של מודלי שפה גדולים (LLMs), כמו למשל: דיבור חיובי ולא שלילי (מה כן לעשות ולא מה לא לעשות), או אף להזהיר את הבוט שהוא ייענש אם התשובות שלו לא יהיו טובות. כן כן – זה אמיתי. לקריאת המאמר לחצו פה.