תוצאות נוספות...

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
× Send

הסוכן של גוגל שרוצה לשחרר רצים עיוורים מהקו הצהוב

סוכן ריצה של גוגל
תוכן עניינים

ריצה נראית כמו פעולה פשוטה: נועלים נעליים, יוצאים למסלול, מגבירים קצב. אבל עבור רצים עיוורים ולקויי ראייה, העצמאות הזו כמעט אף פעם אינה מובנת מאליה. במקרים רבים היא תלויה באדם נוסף, ברצועה פיזית שמחברת בין רץ למלווה, בכלב נחייה מאומן או במסלול מסומן היטב. בלי אלה, פעולה יומיומית כמו ריצה הופכת למשימה שמערבת תיאום, זמינות, סיכון ואמון. לאחרונה הציגה גוגל דיפמיינד (Google DeepMind) את Running Guide agent - סוכן נגישות שנועד לעזור לרצים עיוורים ולקויי ראייה לרוץ באופן עצמאי יותר, בלי תלות בקו פיזי על הקרקע או במלווה אנושי. לפי גוגל, המערכת משתמשת בהבנת סביבה בזמן אמת, במצלמת טלפון Pixel 10 Pro המותקן על החזה, ובהכוונה קולית שמזהירה, מתקנת כיוון ומסייעת לרץ להבין מה קורה לפניו. זו ממש לא עוד אפליקציית כושר. אם ההדגמה תהפוך בעתיד למוצר אמין ובטוח, היא עשויה להיות דוגמה נדירה למקום שבו סוכני AI יוצאים מהמסך ונכנסים למרחב הפיזי, שבו טעות היא לא רק אי נוחות אלא סכנה ממשית.

 

 

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

לא רק לזהות קו, אלא להבין מרחב

Running Guide agent נשען על עבודה קודמת של גוגל בשם Project Guideline, פרויקט מחקר מוקדם שנועד לאפשר לאנשים עיוורים ולקויי ראייה לרוץ או ללכת באופן עצמאי יותר בעזרת למידת מכונה על המכשיר. בגרסאות קודמות, המערכת השתמשה בטלפון, אוזניות וקו מסומן על הקרקע, והמודל זיהה האם הרץ נשאר על המסלול המסומן. גוגל הדגישה אז שהפרויקט עדיין בפיתוח, ושמדובר בניסיון לחקור כיצד טכנולוגיה ניידת יכולה לשפר ניידות והתמצאות.

 

החידוש בהכרזה החדשה הוא המעבר מהיגיון של “עקוב אחרי הקו” להיגיון שאפתני יותר עם הבנת סביבה בזמן אמת. במקום להסתמך רק על סימון פיזי, גוגל מתארת מערכת שמנסה לזהות נתיב, מכשולים, שינויי שטח, רצים אחרים ועיקולים במסלול. זה שינוי חשוב. קו צהוב הוא תשתית. הבנת מרחב היא הבטחה למשהו גמיש בהרבה.

 

אבל זו גם בדיוק הנקודה שבה הסיפור מסתבך. זיהוי קו במסלול מבוקר הוא בעיה קשה אך מוגדרת יחסית. ריצה בעולם האמיתי היא בעיה פתוחה: אור משתנה, אנשים חוצים, שבילים מתעקלים, שלוליות, כלבים, אופניים, צללים, מדרכות לא אחידות והחלטות שצריכות להתקבל בשברירי שנייה.

הארכיטקטורה ההיברידית היא גם ההודאה במגבלה

גוגל מציגה את המערכת כארכיטקטורה כפולה. בצד אחד יש מודל סגמנטציה שרץ כולו על המכשיר, בלי חיבור לרשת, ומספק התראות מיידיות כמו “STOP” או צלילי כיוון. הרציונל ברור: בריצה, ובעיקר בריצה של אדם שאינו רואה את הדרך במלואה, אי אפשר להמתין לענן. ההחלטות הקריטיות צריכות להתרחש בקצה, קרוב לחיישן ולמשתמש.

 

בצד השני פועלת שכבת חשיבה מתקדמת יותר, המבוססת לפי גוגל על Gemma 4 E4B, מודל פתוח ממשפחת Gemma 4. המודל מטפל בקלטים מולטימודליים, כלומר תמונה וטקסט, ומיועד להבנת סצנה ברמה גבוהה יותר. גוגל מתארת גם מנגנון בשם Smarter Frame Selection, שבוחר לנתח רק פריימים “עשירים במידע”, למשל שינוי פתאומי בתוואי השטח או הופעה של מכשול, במקום לעבד כל פריים.

 

הבחירה הזו מעניינת דווקא משום שהיא לא מנסה למכור קסם. היא מכירה בכך שיש פער בין תגובה מיידית לבין הבנה עמוקה. מודל מהיר יכול לצעוק לעצור. מודל גדול וחכם יותר יכול להסביר למה. באפליקציית צ’אט, הפער הזה נסלח. בריצה, הוא חייב להיות מתוכנן מראש.

 




כך גוגל מתארת את ארכיטקטורת Running Guide agent: קלט וידאו, אודיו וטלפון Pixel עוברים לניתוח על המכשיר ולסוכני Gemma 4, ומשם להכוונה קולית ושמע מרחבי בזמן הריצה:

 

ארכיטקטורת Running Guide agent

ארכיטקטורת Running Guide agent | מקור: Google DeepMind.

שלושה סוכנים, רץ אחד והרבה אחריות

המערכת אינה מוצגת ככלי יחיד, אלא כמסגרת מרובת סוכנים. Planner agent אמור לדבר עם הרץ לפני האימון, להבין מטרות, למשוך מידע ממזג האוויר ומ-Google Maps ולסייע בכיול נקודת ההתחלה. Coach agent פועל בזמן הריצה ומעביר התרעות קצרות לפי היררכיה: סכנה מיידית, אזהרה או הודעה. Break agent מנהל עצירות ומאפשר הפסקה וחזרה לריצה.

 

זו חלוקה נכונה מבחינה מוצרית. ריצה היא לא רק “ניווט”. היא כוללת תכנון, קצב, בטיחות, הפסקות, עומס קוגניטיבי ואמון. רץ לא יכול לקבל נאום ארוך באמצע ספרינט. הוא צריך סימן ברור, קצר, עקבי ומובן גם תחת מאמץ.

 

כאן נמצא אחד הלקחים הרחבים יותר לעולם הסוכנים. סוכן AI טוב אינו בהכרח זה שמדבר יותר או “מבין” יותר. לעיתים הוא זה שיודע לשתוק, לצמצם מידע ולהתערב רק כאשר ההתערבות באמת נדרשת.

משקפיים חכמים הם לא גימיק, אלא שדה ראייה

בשלב הנוכחי גוגל מתארת שימוש בטלפון Pixel 10 Pro המותקן על החזה, אבל היא גם בוחנת אבטיפוס על משקפיים חכמים. לפי החברה, משקפיים יכולים לספק שדה ראייה רחב ויציב יותר ולהזרים את המידע לטלפון.

 

זה נשמע כמו פרט חומרה, אבל בפועל זה אחד המקומות החשובים ביותר במוצר כזה. בסוכן פיזי, מיקום החיישן הוא חלק מהאינטליגנציה. מצלמה על החזה רואה אחרת ממצלמה בגובה העיניים. היא עשויה להיות יציבה פחות או יותר, קרובה יותר לקרקע, רגישה לתנועת גוף, ומוגבלת בזווית. משקפיים יכולים לקרב את המערכת לנקודת המבט של הרץ, אבל מוסיפים שאלות אחרות כמו נוחות, סוללה, חום, מחיר, פרטיות וזמינות.

הקהילה אינה שלב בדיקות, היא תנאי לקיום המוצר

גוגל אומרת שהיא עובדת עם SG Enable, הסוכנות המרכזית בסינגפור לנושאי מוגבלות והכלה, כדי לחבר את צוותי ההנדסה לרצים עיוורים ולקויי ראייה בבדיקות בעולם האמיתי. SG Enable מתארת את עצמה כסוכנות שמקדמת הזדמנויות שוויוניות לאנשים עם מוגבלויות בסינגפור.

 

השותפות הזו חשובה, אבל היא גם צריכה להיות רק התחלה. טכנולוגיות נגישות נכשלות לעיתים לא בגלל שהמודל לא מספיק מרשים, אלא בגלל שהן נבנות סביב דימוי מופשט של “משתמש עם מוגבלות” ולא סביב חיים אמיתיים. רצים שונים נעים בקצבים שונים, במסלולים שונים, עם רמות ראייה שונות, העדפות קוליות שונות ורמות שונות של אמון בטכנולוגיה.

 

במוצר כזה, הקהילה היא לא קבוצת מיקוד. היא חלק מתהליך התכנון, הבדיקה וההכרעה האם המערכת בכלל ראויה לשימוש.

הצעד הגדול הבא של AI הוא לא לדבר, אלא להיות אחראי

Running Guide agent הוא דוגמה טובה למעבר שהרבה חברות AI מדברות עליו: מסוכנים שמסכמים, כותבים וממליצים, לסוכנים שפועלים בסביבה אמיתית. אבל דווקא בגלל זה צריך לקרוא את ההכרזה בזהירות. גוגל לא מציגה כאן מוצר צרכני בשל לשימוש המוני, אלא צעד מחקרי ומוצרי בדרך לטכנולוגיית נגישות שאפתנית.

 

הפוטנציאל ברור - יותר עצמאות, פחות תלות בזמינות של מלווה, ואפשרות להפוך פעילות בסיסית כמו ריצה לנגישה יותר. גם ההקשר הרחב ברור - מודלים קטנים יותר שרצים על מכשירים אישיים, כמו Gemma 4 E4B, מאפשרים לדמיין סוכנים שפועלים בלי לשלוח כל דבר לענן ובלי להמתין לתגובה מרוחקת. Google DeepMind מציגה את Gemma 4 כמשפחת מודלים פתוחים עם יכולות סוכניות, הבנה מולטימודלית ותמיכה בהרצה על מכשירי קצה.

 

אבל ההבטחה הגדולה ביותר היא גם המבחן הקשה ביותר. כדי שסוכן כזה יהיה יותר מהדגמה מרשימה, הוא יצטרך להוכיח אמינות בתנאי קצה, שקיפות לגבי מגבלות, בדיקות עצמאיות, אחריות ברורה במקרה של כשל, ועיצוב שמכבד את המשתמש במקום להחליף את שיקול הדעת שלו.

 

טכנולוגיית נגישות טובה לא אמורה להחליף תלות באדם אחר בתלות עיוורת במערכת חדשה, היא אמורה להרחיב את מרחב הבחירה של המשתמש. במקרה של Running Guide agent, השאלה היא לא רק האם גוגל יכולה לבנות סוכן שרואה את המסלול - השאלה היא האם אפשר לבנות סוכן שאפשר לסמוך עליו מספיק כדי לרוץ איתו.

 

כדי לראות את נקודת המבט של הרץ דרך משקפיים חכמים, לחצו כאן.

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

 

 

אפשר גם להרשם לניוזלטר שלנו

 

רוצים הרצאה או ייעוץ של אלי מרסינו?
השאירו פרטים ונשמח לחזור אליכם עם המידע הרלוונטי
אולי יעניין אותך גם...
guest
0 תגובות
Inline Feedbacks
צפה בכל התגובות
Let's update

רוצים לקבל עדכונים על כל מה שחדש ומעניין בעולם ה-AI? הרשמו לניוזלטר שלנו!

אירועי AI קרובים

תפריט נגישות

תוצאות נוספות...

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
וובינר וייב קודינג
ובניית אפליקציות
רביעי 06.05.26 | 20:00 | בלייב זום