דף הבית » ההחלטה החריגה של Anthropic להפעיל את תקן ASL-3

ההחלטה החריגה של Anthropic להפעיל את תקן ASL-3

רון גולד

24/05/2025

זמן קריאה: 5 דקות

חברת אנטרופיק (Anthropic) ביצעה מהלך לא שגרתי בתעשיית הבינה המלאכותית: היא הפעילה תקן בטיחות מתקדם בשם ASL-3 (AI Safety Level) - לא בעקבות אירוע חמור, אלא בגלל סימנים מוקדמים שמעוררים דאגה. מדובר בצעד יוצא דופן, כי הוא נעשה לא מתוך לחץ ציבורי או רגולטורי, אלא כבחירה מודעת לפעול לפני שהבעיה מוכחת. ובזמן שחברות אחרות בוחרות להמתין, אנטרופיק שולחת כאן מסר ברור: בטיחות אמורה לבוא לפני תחרות.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

אפשר גם להרשם לניוזלטר שלנו

ASL-3: כשחברות AI עוצרות רגע לחשוב לפני שמתקדמים

שלשום השיקה אנטרופיק את שני המודלים החדשים שלה - Claude Opus 4 ו־Claude Sonnet 4. אבל יחד עם ההשקה, היא ביצעה גם מהלך חריג לא פחות: הפעלת תקן בטיחות מתקדם בשם ASL-3, שמטרתו להגן מפני שימוש לרעה בטכנולוגיה - עוד לפני שהוכח שהיא אכן מסוכנת.

ולמרות שזה נשמע כמו צעד טכני, מדובר בבחירה ערכית עמוקה: אנטרופיק בחרה לעצור רגע, להסתכל קדימה - ולשאול לא רק מה המודל יכול לעשות, אלא גם מה לא נכון שייעשה באמצעותו.

למה זה קרה?

במהלך תרגילים פנימיים, החוקרים של אנטרופיק בדקו תרחישים בהם המודל עשוי, תיאורטית, לספק מידע שעלול לעזור לשחקנים מתקדמים לבנות נשק ביולוגי.

לא מדובר ביצירת נוסחאות נשק, אלא בהשלמה של תהליכים שיכולים לייעל למי שכבר עוסק בתחום את דרכי הפעולה שלו. כלומר: לא סכנה מידית - אבל כן עליית מדרגה ברמת המורכבות שהמודל מסוגל להתמודד איתה.

בלמי חירום במודלי שפה

המהלך הזה לא הגיע משום מקום. בגרסה הקודמת של המודל, Claude Sonnet 3.7, כבר זיהו באנטרופיק סימנים לכך שהגרסה הבאה עלולה לחצות רף בטיחות מסוים. הם תכננו מראש את האפשרות להפעיל את ASL-3, אם יתברר שהיכולות החדשות דורשות זאת. במובן הזה, מדובר במימוש של תרחיש שנלקח בחשבון מראש - לא הפתעה, אלא הפעלת בלמים שתוכננו מבעוד מועד.

המדריכים תמיד חינמיים, אבל אם בא לכם להתמקצע - יש גם קורס מקיף לבינה מלאכותית - GenAI Master

מה זה בעצם ASL-3?

ASL-3 הוא תקן בטיחות חדש שפיתחה אנטרופיק מתוך השראה מתהליכי בקרה מעולם הביולוגיה הסינתטית - תחום שבו כל טעות עלולה להיות קריטית. הרעיון פשוט: אם מודל שפה עלול, גם בתרחיש נדיר, להאיץ תהליכים מסוכנים - צריך להציב לו גבולות מראש. במסגרת התקן, החברה הגבילה את הגישה לאזורים רגישים במודל, מפעילה ניטור שוטף על בקשות משתמשים, מקפידה על פיקוח הדוק בכל שיתוף פעולה עם חוקרים חיצוניים, ודואגת למנגנוני תיעוד ואבטחת מידע ברמה גבוהה במיוחד.

מה שחשוב לא פחות - את כל זה היא עושה לא כי מישהו הכריח אותה. אין כאן רגולציה שמכתיבה (נכון לעכשיו). מדובר בהחלטה וולונטרית, שמתבססת על אחריות פנימית. כדי לוודא שהמהלך יתבצע בשקיפות מלאה, החברה גם עדכנה מיוזמתה את משרד האנרגיה האמריקאי ובכירים בבית הלבן - כאמירה ברורה: הבטיחות כאן היא לא המלצה.

מודל עם גבולות

כדי להגן בפועל על המודל, אנטרופיק לא הסתפקה בהצהרות או מגבלות כלליות. היא פיתחה שורה של פתרונות טכנולוגיים קונקרטיים: מערכת בשם Constitutional Classifiers בודקת האם השאלות שהמשתמש שואל חורגות מגבולות האתיקה שהוגדרו מראש, ממש כמו שומר סף עם עקרונות.

בנוסף, הם הפעילו מערכת bug bounty שמזמינה חוקרי אבטחה חיצוניים לאתר חולשות במודל, בדומה למה שעושים בעולם הסייבר. יש גם מגבלות טכניות מתקדמות כמו בקרות רוחב פס ביציאה (egress bandwidth controls), כדי לוודא שאי אפשר "לחלוב" את המודל בכמות מידע שמעבר למה שנחשב סביר.

שאלה מתבקשת: למה לא פשוט לעצור את השחרור?

כאן עולה הדילמה האמיתית. אם יש פוטנציאל לסיכון, גם אם עקיף - למה לשחרר את המודל לציבור? התשובה של אנטרופיק עקבית עם הגישה של חברות אחרות בתחום: הם מאמינים שדרך שקיפות, בקרה פנימית ומגבלות שימוש - אפשר למזער את הסיכון בלי לעצור את ההתקדמות הטכנולוגית.

בינה על תנאי

אנטרופיק מדגישה שההגנות של ASL-3 אינן קבועות לנצח. אם יתברר בהמשך שהמודל לא מצדיק את רמת הבקרה הזו - ניתן יהיה להסיר את ההגבלות.

הגישה שלהם היא דינמית: לא להחמיר לשם ההחמרה, אלא להתאים את רמת הבטיחות לרמת הסיכון בפועל.

אז מי אחראי?

וזו כנראה השאלה החשובה ביותר. נכון לעכשיו, האחריות נתונה בידי החברות. הן יוזמות, מפקחות, קובעות גבולות, וגם מפרסמות את הממצאים. אבל עד מתי? האם חברות פרטיות צריכות לקבוע את רמת הסיכון שמותר לנו לקחת? ואיך נוודא שהאיזון בין קידמה, תחרות ובטיחות באמת נשמר?

הבינה שמבינה מתי לעצור

לסיכום, מהלך כמו ASL-3 הוא לא סימן לכך שהכול יוצא משליטה, אלא דווקא לכך שמתחילים להבין איפה בדיוק עובר הגבול. זו לא תגובה לפאניקה, אלא הצהרה של בגרות: ההבנה שכשמודלים הופכים חזקים יותר, האחריות לא נשארת מאחור. הסיכון שמדובר בו אולי לא מידי, אבל הוא בהחלט ממשי - והוא דורש מאיתנו לעצור לרגע ולשאול את השאלות הנכונות: מי מפקח על כל זה? באיזו מסגרת מתקבלות ההחלטות? ואיך נוודא שהטכנולוגיה שמעצבת את המחר תישאר מחוברת לערכים של המין האנושי?

קלוד הופך לפלטפורמה עוצמתית לבניית סוכנים

אם אתם סקרנים לא רק לגבי הבטיחות של מודלי שפה, אלא גם לגבי היכולות החדשות שלהם - כדאי שתדעו שאנטרופיק הכריזה על ארבע תוספות חדשות ל־API שלה, שהופכות את קלוד לפלטפורמה לבניית סוכני AI חזקים לארגונים: כלי הרצת קוד שמאפשר לבצע פעולות בזמן אמת, חיבור ישיר לשרתי MCP (ממשקי שליטה חיצוניים), ממשק קבצים חדש לגישה נוחה למסמכים, וזיכרון ארוך טווח שמאפשר לקלוד לזכור מידע לאורך שיחות – ולהיות הרבה יותר מרק צ'אטבוט.

הישארו מעודכנים

אפשר גם להרשם לניוזלטר שלנו

רון גולד

מלמד ויועץ לחדשנות אסטרטגית, משלב בינה יוצרת וכלי אוטומציה להעצמת תהליכים עסקיים ופרודוקטיביות אישית. במסע מתמשך של חקירה ולימוד בתחום הבינה המלאכותית.