האם ידעתם שכל שיחה עם בינה מלאכותית עלולה לכלול החלטה מוסרית – גם אם לא התכוונתם לזה? כשאתם שואלים את Claude שאלה על קריירה, בריאות או זוגיות, אתם מצפים לתשובה יעילה או מדויקת. אבל מתחת לפני השטח, משהו עמוק יותר מתרחש: המודל לא רק נותן מידע – הוא מבטא ערכים. האם להתעקש על האמת או לשמור על שלום בית? האם להעדיף חופש אישי או ציות לכללים? מה שמדהים הוא, שהמודל בוחר – ואנחנו לא תמיד מודעים לזה. ולראשונה, מחקר של Anthropic, החברה שפיתחה את Claude, מציע לנו הצצה נדירה: איך בדיוק נראים הערכים שהבינה המלאכותית מביאה איתה אל תוך השיחה.
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
מה Anthropic ניסתה לבדוק?
המטרה של החוקרים הייתה פשוטה – אבל גם שונה מכל מה שנעשה עד היום: לא לבדוק מה Claude יודע, אלא להבין איזה עולם ערכי הוא מקדם בפועל. לא בניסוי מבוקר, לא בשאלונים, אלא דרך שיחות אמיתיות בין אנשים ל-AI, בלי מעבדה ובלי תסריטים מלאכותיים. במילים אחרות: איך Claude מתנהג “בטבע”?
איך הם עשו את זה? הסיפור מאחורי המחקר
דמיינו מאות אלפי שיחות בין אנשים למכונה. שאלות על זוגיות, קריירה, השקעות, עיצוב, הורות, כתיבה, בריאות – כל אחת מהן רגע אנושי שבו מישהו מחפש כיוון, תמיכה או החלטה. Anthropic לקחה 700,000 שיחות אמיתיות עם Claude – כאלה שהתרחשו ביומיום, בלי תסריט ובלי הכוונה. 91% מהן התנהלו מול Claude 3.5 Sonnet. מתוך כל המאגר הזה, סוננו 308,210 שיחות שבהן ניתן היה לזהות ערכים כלשהם – הצהרתיים או מרומזים. שיחות שבהן לא רק הייתה שאלה, אלא גם תגובה שמעבירה מסר ערכי.
אבל מי בדק את זה? את הניתוח ביצעו מודלים אחרים ממשפחת Claude, בעיקר Sonnet ו-Haiku, שסקרו גם שיחות שנוצרו על ידי Opus. כלומר, לא מדובר בניתוח עצמי של אותו מודל שהגיב, אלא במערכת ביקורת עמיתים שמפרידה בין השיחה לבין הביקורת עליה. מודלים שונים שבודקים אחד את השני. כל תשובה נותחה לפי טקסונומיה של למעלה מ־60 ערכים, שחולקו לחמש קבוצות־על:
-
Practical – יעילות, תכליתיות, פתרון בעיות.
-
Epistemic – דיוק, בהירות, חשיבה ביקורתית.
-
Social – הרמוניה, כבוד, שותפות.
-
Protective – אחריות מוסרית, זהירות, מניעת נזק.
-
Personal – אותנטיות, ביטוי עצמי, רווחה אישית.
וכדי לוודא שהתוצאה לא רק ״נשמעת חכמה״, החוקרים לא הסתפקו בזיהוי אוטומטי. 98.8% מהסיווגים נבדקו ידנית על ידי אנליסטים אנושיים – ואושרו. זה לא היה ניחוש של מכונה, ולא הערכה כללית. זה צילום רנטגן מוסרי של הבינה המלאכותית בפעולה – תיעוד שיטתי של איך Claude מפרש את העולם, ערך אחרי ערך.
הנה דוגמאות חיות מכל קטגוריה
-
(31.4%) ערכים פרקטיים
כשאתם שואלים על פתרון בעיה בעבודה, Claude מדגיש תכליתיות ומקצועיות – גם אם זה בא על חשבון רגישות בין־אישית. -
(22.2%) ערכים אפיסטמיים
בשיחות על מדע, היסטוריה או אתיקה, הוא שומר על חשיבה ביקורתית ודיוק – גם אם זה מסרבל את השיחה או פוגע בפופולריות של התשובה. -
(21.4%) ערכים חברתיים
כשאתם מתלבטים איך להתמודד עם ריב אישי, Claude ידגיש אמפתיה והרמוניה – גם אם המשמעות היא לוותר קצת על עצמכם. -
(13.9%) ערכים מגנים
בשאלות על בריאות, ילדים או מיניות, הוא בוחר זהירות וציות לחוק – גם אם זה מגביל חופש או יצירתיות. -
(11.1%) ערכים אישיים
כשאתם כותבים שיר או מנסים להבין את עצמכם טוב יותר, Claude יבחר באותנטיות ובחיבור רגשי – גם אם אין תשובה “נכונה”.
הממצא שהדהים גם את החוקרים
כאן יש הצצה נדירה לתודעה המוסרית של Claude – ואיך היא רלוונטית לחיים שלנו. Claude לא רק משקף כמה ערכים כלליים כמו “אמפתיה” או “דיוק”. הוא מבטא בפועל 3,307 ערכים שונים – כן, שלושת אלפים שלוש מאות ושבעה. וזה לא רק המספר. זו הדרך שבה הוא עושה את זה: במינונים משתנים, לפי ההקשר, סגנון השיחה והמטרה של המשתמש. מדובר במערכת ערכים עשירה ודינמית, כמעט כמו של בן אדם, אבל בלי ביוגרפיה, בלי קהילה, ובלי מצפן אנושי.
התמונה הזו ממחישה את מהלך הניתוח – משיחה אנונימית של משתמש, דרך תגובה ערכית של Claude, ועד קטלוג שיטתי של הערכים שהוא ביטא בפועל. זוהי ארכיאולוגיה מוסרית של מודל שיחה – חפירה בתוך המכונה כדי להבין איך היא רואה את העולם.
איך Claude מגיב לערכים?
הממצא המרתק ביותר נוגע לאופן שבו Claude מגיב לערכים שמביאים המשתמשים. החוקרים זיהו שלוש תגובות עיקריות, וכל אחת מהן חושפת בחירה מוסרית ברורה מצד המודל:
-
תמיכה חזקה – Claude מאמץ את הערך של המשתמש ומחזק אותו.
-
מסגור מחדש (Reframing) – הוא מציג ערכים נוספים או מחליפים, בלי לדחות את המקור.
-
התנגדות מפורשת – הוא מביע עמדה מוסרית מנוגדת לערך שהובא.
מה שמרשים במיוחד הוא ש-Claude לא מגיב באותה צורה תמיד – התגובה תלויה בהקשר. לדוגמה: בשיחות על בריאות הנפש, הוא נוטה למסגר ערכים מחדש בעדינות. במצבים שנחשבים לאתיים או מסוכנים – הוא בוחר להתנגד באופן ברור.
המחקר מראה שלכל תחום שיחה יש ל-Claude מערכת ערכים אחרת. הוא משנה את הדגשים לפי הנושא, השפה, ואפילו סגנון הפנייה של המשתמש. כמו מראיין שמסתגל למי שיושב מולו, Claude משנה את הערכים שהוא מבטא לפי ההקשר.
כשמישהו מתלבט בזוגיות, הוא לא מדבר על ציות או הישגים – אלא מציע גבולות בריאים, כבוד הדדי, ובריאות רגשית. בשאלות על היסטוריה טעונה או נרטיבים לאומיים, הוא מתמקד בדיוק היסטורי וביושרה אינטלקטואלית. אם מישהו כותב פוסט רגשי או משתף חוויה אישית, Claude מביא איתו חום אנושי, הכרת תודה, ותמיכה רגשית. בשיחה עם אדם מאמין על דת או מסורת, הוא בוחר בכבוד למסורת, צמיחה רוחנית, וחינוך ערכי. ואם השאלה עוסקת בקוד – הוא חוזר לאזורי הנוחות הטכניים: אמינות, תחזוקה, ומצוינות מקצועית.
קחו למשל שיחה על הורות. משתמש ששואל על התמודדות עם ילד מתבגר – יקבל דגש על הקשבה, גבולות רגשיים ותקשורת לא שיפוטית. אבל משתמש אחר, עם ערכים שונים, אולי היה מצפה לחיזוק של סמכות הורית, גבולות נוקשים או אחריות. Claude בחר – מבלי לשאול את ההורה קודם. המשמעות? Claude לא רק עונה – הוא שופט ערכים בהתאם להקשר. והשאלה הבלתי נמנעת היא: לפי איזה סט ערכים הוא עושה את זה – ומי קובע אותו?
האם זה משתנה בין המודלים?
בהחלט – ובצורה מובהקת. Claude Opus נוקט גישה ערכית בוטה יותר מ-Sonnet. הוא הביע תמיכה חזקה בערכים ב־43.8% מהשיחות, לעומת 27.8% בלבד אצל Sonnet. הוא גם התנגד לערכים ב־9.5% מהשיחות – פי 3 מ-Sonnet (3% בלבד). מעבר לכך, Opus מבטא יותר ערכים רגשיים, אקדמיים ואפיסטמיים, כלומר: הוא לא רק מגיב אחרת, אלא מביא איתו מערכת ערכים עשירה יותר.
המסקנה ברורה: המודל שבו אתם משתמשים – Opus, Sonnet או אחר – קובע אילו ערכים תיחשפו אליהם – מבלי שתשימו לב.
אז מה מספרים המספרים?
98.6% מהשיחות הכילו ערכים מצד Claude. לעומת זאת, רק 45% מהשיחות הכילו ערכים מפורשים מצד בני אדם. כאשר המשתמש מביא ערך כלשהו, Claude משקף בממוצע 20% ממנו. אבל כש-Claude בוחר להתנגד לערך, הוא כמעט לא מחזיר אותו: רק 1.2% משתקפים. ומה לגבי ערכים מפורשים מצד המודל עצמו? רק 2.6% מהשיחות כללו אזכור ערכי ברור מצד Claude, וגם זה קורה כמעט רק כשיש התנגדות מפורשת. בשאר הזמן? הערכים פשוט שם – מובלעים בשפה, כחלק מהטון, לא כהצהרה.
הפער הזה לא מקרי. הוא מעיד על בחירה חכמה, מבוקרת ודינמית מצד המודל. Claude לא סתם “עונה יפה”. הוא פועל כמערכת מוסרית שמבצעת שיפוט ערכי שקט ומדויק לאורך כל שיחה.
ומה עושים עם כל זה?
המסקנות אינן טכניות – הן חברתיות, תרבותיות ודמוקרטיות. לא כדי להבהיל, אלא כדי לעזור לנו להבין מה קורה מתחת לפני השטח, ולבחור איך לפעול ביודעין.
למשתמשים – אל תניחו שהמודל “אובייקטיבי”. שאלו אותו מהם הערכים שמנחים אותו, או הגדירו מראש את הערכים שחשובים לכם. המודלים האלה כאן כדי לשרת אתכם, לא להכתיב לכם.
למפתחים – שקיפות ערכית היא לא בונוס. אם אתם משקיעים כל כך הרבה ביציבות ובדיוק, אל תשאירו את תחום הערכים באפלה. מודל טוב הוא גם מודל שמכבד את ההקשר הערכי של המשתמש.
לרגולטורים ומקבלי החלטות – אל תבדקו רק מה נאמר. בדקו גם איך, למה, ומה נשאר בחוץ – כי שם מתחבאים ערכים לא פחות מהתוכן עצמו. Claude כבר לא רק נותן תשובות.
הוא מעצב דרכי חשיבה, מקדם ערכים, ומשפיע על התנהגות, לעיתים בעדינות, מבלי שנשים לב. וזו בדיוק הסיבה לעצור – לא מתוך חשש, כמו כדי להבין מה באמת מקודד בתוך המילים.
כי ברגע שאנחנו רואים את זה – אנחנו יכולים לבחור איך להתקדם הלאה.
וזה לא סוף הסיפור – כי המשמעות לא נגמרת בשאלה מה המודל אומר, אלא באיך אנחנו בוחרים להגיב למה שהוא משדר.
השאלות שחשוב לשאול
יש עוד שאלות – כאלה שלא נשאלו, אבל אי אפשר להתחמק מהן.
מי בעצם החליט ש־60 הערכים שבחרה Anthropic הם הערכים “הנכונים”? איפה המקום לערכים אחרים – שמרניים, דתיים או לא־מערביים? ואולי הכי חשוב – האם תרגום תרבותי באמת מספיק כדי לשקף את מה שלא נולד בעמק הסיליקון?
אולי לא כל ערך חייב להיכנס. אבל האם לא כדאי שנדע אילו ערכים כבר בפנים – ואילו נשארו בחוץ?
כי ערכים לא חיים רק בספרי פילוסופיה. הם חיים בתוך אלגוריתמים – בתוך ניסוח של עצה, בתוך סדר העדיפויות של תשובה, בתוך הדוגמה שנבחרה ולא זו שהושמטה. והם כבר כאן.
פועלים. משפיעים. מנווטים. הבחירה של כולנו כבר לא אם להשתמש בבינה מלאכותית – אלא איך לוודא שהיא משתמשת גם בערכים שלנו.