ההכרזה החדשה של Google נשמעת במבט ראשון כמו עוד הדגמה של סוכן AI שמקליק על כפתורים. החלק המעניין יותר נמצא בבחירה להכניס את Computer Use לתוך Gemini 3.5 Flash, מודל שמיועד להיות מהיר, זול יחסית להרצה ומתאים להפעלה בקנה מידה רחב יותר ממודלי דגל כבדים. Google הודיעה כי Computer Use הפך לכלי מובנה ב-Gemini 3.5 Flash. המשמעות היא שמפתחים יכולים לבנות סוכנים שמסתכלים על מסך, מבינים מה מופיע בו ומציעים פעולות כמו קליק, גלילה או הקלדה. הסוכנים האלה יכולים לפעול בסביבות דפדפן, מובייל ודסקטופ, אך בשלב הזה היכולת מיועדת בעיקר למפתחים ולארגונים דרך Gemini API ו-Gemini Enterprise Agent Platform, ולא בהכרח למשתמש שמחפש כפתור חדש באפליקציית Gemini בטלפון.
Gemini 3.5 Flash now supports native computer use.
This built-in tool lets developers build custom agents that can see and take action across browser, mobile, and desktop interfaces.
Find out more → https://t.co/DZyfe7aIHd pic.twitter.com/z4xAKAtcah
— Google DeepMind (@GoogleDeepMind) June 25, 2026
רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.
אפשר גם להרשם לניוזלטר שלנו
מה בעצם קורה כשהמודל “משתמש במחשב”
Computer Use הוא שם שעלול לבלבל. המודל לא מקבל שליטה חופשית במחשב, וגם לא מבצע בעצמו את הלחיצות וההקלדות. הוא מקבל צילום מסך ומשימה, מנתח את מה שהוא רואה ומציע את הפעולה הבאה, למשל ללחוץ על כפתור מסוים, למלא שדה או לעבור למסך אחר.
Google מציגה את היכולת הזו ככזו שיכולה לפעול מול סוגים שונים של ממשקים, כולל דפדפן, סביבת מובייל ודסקטופ. אבל זה לא אומר שכל משתמש מקבל עכשיו שליטה אוטומטית בכל המכשירים שלו. בפועל, המפתח או הארגון צריכים לבנות את סביבת העבודה שבה הסוכן רואה את המסך ומבצע את המשימה.
את הפעולה עצמה מבצעת האפליקציה שבנה המפתח. אחרי כל פעולה היא מצלמת שוב את המסך ושולחת למודל את התוצאה. כך נוצר רצף של צעדים שבו המודל רואה מה השתנה, מחליט מה הצעד הבא, והמערכת מבצעת אותו עד שהמשימה מסתיימת או נעצרת.
ההבחנה הזו חשובה, כי היא מגדירה את גבולות הסיכון. המודל לא “משתלט על המחשב” במובן הרחב של הביטוי. הוא פועל בתוך סביבת עבודה שהמפתח או הארגון מגדירים לו, עם הרשאות וגבולות שאמורים לקבוע מראש מה מותר לו לעשות ומה לא.
למה דווקא Flash משנה את הסיפור
Computer Use הוא ממש לא רעיון חדש. אנטרופיק (Anthropic) הציגה כבר באוקטובר 2024 יכולת דומה ב-Claude, שמאפשרת למודל לראות מסך, להזיז סמן, ללחוץ ולהקליד דרך תוכנה מתאימה. OpenAI הציגה בינואר 2025 את Operator, סוכן שמשתמש בדפדפן משלו כדי לבצע משימות כמו הקלדה, לחיצה וגלילה באתרים.
המהלך של Google חשוב משום שהוא מחבר את היכולת הזו למודל Flash. משפחת Flash נועדה בדרך כלל לאזן בין ביצועים, מהירות ועלות. Google מציגה את Gemini 3.5 Flash כמודל ה-Flash החזק ביותר שלה למשימות אייג׳נטיות וקידוד, ומדגישה שהוא מיועד למשימות ארוכות יותר שדורשות תכנון, ביצוע ותיקון לאורך כמה שלבים.
בעולם של סוכני מחשב, מהירות ועלות קובעות אם יכולת כזו יכולה להפוך לכלי עבודה אמיתי. משימה אחת עשויה לכלול עשרות סבבים של צילום מסך, ניתוח, החלטה ופעולה. אם כל סבב יקר או איטי מדי, המוצר יכול להיראות מרשים בדמו, אבל להתקשות בשימוש יומיומי. מחקר על סוכני Computer Use מצא שגם מערכות מתקדמות נוטות לבצע יותר צעדים מהנדרש ולעיתים פועלות לאט משמעותית מבני אדם.
המספר המרשים בגרף עדיין לא מספר את כל הסיפור
בצילום המצורף מופיע נתון של 78.4% ב-OSWorld-Verified. המדד הזה נועד לבדוק סוכנים בסביבות מחשב אמיתיות ומשימות פתוחות, כולל עבודה עם אפליקציות, קבצים ותהליכים שחוצים כמה יישומים.
אבל בנצ’מרק הוא לא מוצר. תוצאה טובה במדד מצביעה על התקדמות, לא על אמינות מלאה בכל אתר, אפליקציה או סביבת עבודה. ממשקים משתנים, חלונות קופצים מופיעים, כפתורים זזים, הרשאות נחסמות וטקסטים על המסך יכולים להכיל הוראות שמנסות לבלבל את המודל. לכן המספר חשוב, אבל הוא לא מחליף בדיקות פנימיות בארגון או פיילוט מבוקר לפני שימוש אמיתי.
הסיכון המרכזי מגיע מהמסך עצמו
כאשר סוכן AI קורא טקסט ממסך ופועל לפיו, הוא נחשף לבעיה שנקראת prompt injection. זה מצב שבו תוכן חיצוני, למשל טקסט באתר, במסמך או אפילו בתוך תמונה, מנסה לגרום למודל להתעלם מהוראות המשתמש או לבצע פעולה שלא התכוונו אליה.
Google אומרת שהיא אימנה את Gemini 3.5 Flash להתמודד טוב יותר עם ניסיונות כאלה. בנוסף, היא מציעה לארגונים שני מנגנוני הגנה אופציונליים: דרישת אישור מפורש לפני פעולה רגישה או בלתי הפיכה, ועצירה אוטומטית של משימה אם מזוהה ניסיון להטעות את המודל. אלה שכבות הגנה חשובות, אבל הן לא הופכות את Computer Use ליכולת בטוחה לחלוטין. Google עדיין מגדירה אותה כיכולת Preview, כלומר יכולת מוקדמת שעלולה לכלול שגיאות, מגבלות ופגיעויות אבטחה.
לכן ההפעלה הנכונה שלה צריכה להתחיל במקום מוגבל ובטוח, למשל חשבון ניסיון, סביבת בדיקה או עותק של מערכת. משימות שכוללות מחיקה, פרסום, שליחת מידע, שינוי רשומות עסקיות או החלטות שקשה לתקן אחר כך צריכות להישאר מאחורי אישור אנושי ברור.
איפה זה יכול לעבוד קודם
התרחישים הסבירים ביותר לאימוץ מוקדם הם משימות שחוזרות על עצמן, דורשות עבודה מול ממשק קיים, אבל אינן מסוכנות במיוחד. למשל בדיקות תוכנה שמדמות מסלול משתמש באתר, מילוי טפסים פנימיים, איסוף מידע מאתרים, בדיקת נגישות בסיסית, סידור מידע בין מערכות או הכנת טיוטות לפני אישור אנושי.
בארגונים, הערך עשוי להיות גבוה דווקא במערכות ותיקות שאין להן API נוח, כלומר ממשק מסודר שמאפשר למערכות לדבר זו עם זו. אם עובד אנושי נדרש להיכנס למערכת, לעבור בין מסכים, להעתיק נתונים וללחוץ על כפתורים, סוכן Computer Use יכול לנסות לבצע חלק מהעבודה דרך הממשק הקיים.
זו גם נקודת החולשה של הטכנולוגיה. מערכת שלא תוכננה לאוטומציה דרך API מסודר גם לא בהכרח תוכננה לכך שמודל שפה יפעל בתוכה בשם המשתמש. ככל שהממשק מורכב יותר והפעולה רגישה יותר, כך נדרשת יותר בקרה.
מה משתמשים ומנהלים צריכים לקחת מזה
השילוב של Computer Use בתוך Gemini 3.5 Flash הוא ניסיון של Google להפוך סוכני מחשב לפחות הדגמה מרשימה ויותר תשתית מוצרית. המבחן לא יהיה רק האם המודל מצליח ללחוץ על הכפתור הנכון בדמו, אלא האם הוא מסוגל לעבוד לאורך זמן, בסביבה משתנה, במחיר סביר ועם מספיק מנגנוני בקרה.
עבור השוק, זו עוד עדות לכך שהתחרות בין Google, OpenAI ו-Anthropic עוברת מהצ’אט עצמו אל היכולת לבצע משימות בתוך כלים קיימים. עבור משתמשים ומנהלים, המסקנה מעשית יותר: Computer Use יכול להיות שימושי במקומות שבהם העבודה חוזרת, ברורה וניתנת לבדיקה. ברגע שהמשימה כוללת מידע רגיש, שינוי בלתי הפיך או החלטה עסקית חשובה, הסוכן צריך להישאר כלי עזר מבוקר, לא גורם שפועל לבד.









