דף הבית » רובוט Figure01 חובר למודל Speech-to-Speech של OpenAI והעולם נותר פעור פה!

רובוט Figure01 חובר למודל Speech-to-Speech של OpenAI והעולם נותר פעור פה!

אביתר אדרי

16/03/2024

זמן קריאה: 9 דקות

בניגוד לכותרת הסיפור פה הוא לא רובוט (Figure 01) שהותקן בו מודל Speech-to-Speech (של OpenAI). זה הרבה יותר עמוק מזה! מזמין אתכם להצטרף אליי להרהורים פילוסופיים על מכונות, מודלים, העתיד וההווה שבו אנו חיים. מה שבטוח – זה יהיה מרתק!

אבל לפני הכול – הישארו מעודכנים! הצטרפו לרשימת התפוצה שלנו ולא תפספסו שום עדכונים, חידושים או מידעים על כלים חדש שיוצאים.

Email

בהרשמה אני מאשר/ת קבלת מסרים פרסומיים במייל

ממליצים לכם להצטרף גם לקהילות ה-AI של LetsAI בוואטסאפ ובטלגרם. רוצים לשמוע על הקורסים וסדנאות ה־AI שלנו? לחצו פה.

מה קורה כשפלטפורמה רובוטית חוברת למודל שיכול להבין ולתקשר עם העולם?

כן כן… אני יודע שאתם פה בשביל הרובוט. אז נתחיל ממנו, נשחרר מתחים ואז נעבור לעיקר – המשמעות של מה שאנחנו רואים ושומעים על העתיד לבוא.

Credit: Figure Status Update – OpenAI Speech-to-Speech Reasoning | Figure YouYube chanel

מה רואים פה בעצם?

הכירו את ‘פיגר 01’ (Figure 01). רובוט עם חזות אנושית שיודע לתקשר עם העולם שסביבו. פירוש המונח Figure באנגלית הוא ‘דמות’, ‘צורה’ או ‘תצורה’, ובהקשר הזה הכוונה ל’צורה אנושית’ – רובוט הומיניד שנראה, נשמע ומתנהג כמו בן אנוש; כזה שאמור למצוא את דרכו (בעתיד הלא רחוק) אל הסביבה המוכרת והקרובה שלנו, בני האדם – אל המשרדים שלנו, אל הבתים שלנו, אל המטבחים ואולי אפילו אל בתי הספר, רשויות הביטחון ומפה באמת לא צריך הרבה כדי לדמיין, פשוט צפו בכל אחד מרבבות סרטי המד”ב המתארים עתיד שבו מכונות ובני אדם חיים זה לצד זה (בלייד ראנר, אני רובוט וכמובן סרטי המטריקס – שם הסימביוטיקה הזו לקחה תפנית פחות חיובית עבורנו, שקי הבשר).

מי עומד מאחורי הרובוט הזה? רמז – לא OpenAI

‘פיגר 01’ אינו טכנולוגיה חדשה וגם לא מוצר חדש; הוא נמצא כבר זמן מה בפיתוח, ובניגוד לפרסומים רבים (ושגויים) שראיתי ברשת הוא אינו פיתוח של OpenAI. מדובר בסטארט־אפ מעולם הרובוטיקה שמוערך ב־2.6 מיליארד דולר והוקם לפני כשנתיים. מייסדי החברה היו פליטי בוסטון דינמיקס (חברת רובוטיקה מובילה שמפתחת רובוטים הומינידים דומים כבר שנים), טסלה (של אילון מאסק), גוגל דיפמיינד (יש צורך להציג?) וחברות נוספות. על הרובוטים שהם מפתחים אפשר לדבר שעות, אבל מה שמיוחד פה, הוא שיתוף הפעולה המרגש עם OpenAI!

זה דבר אחד שיש לך רובוט ייחודי עם מוטוריקה עדינה וחזות אנושית. זה דבר אחר לגמרי שיש לו ‘מוח’ חכם שיודע להבין את העולם ולנהל איתו אינטראקציות! תכף נחזור ל’פיגר 01′ ולמודל החדש של OpenAI שהותקן בו; אבל לפני כן כמה מילים על AGI.

צעד נוסף בדרך ל־AGI

אחד הצעדים ההכרחיים אל עבר AGI (בינה כללית מלאכותית) הוא היכולת לנוע במרחב הפיזי. כלומר גוף של ממש, רצוי עם ידיים ורגליים (או כל אמצעי אחר שיאפשר לו לזוז ולנהל אינטראקציות עם העולם הפיזי). עוד על AGI פה. אנחנו מכירים את הרובוטים הללו מסרטי המד”ב (אלו שבהתחלה עוזרים ומסייעים לנו, ואם זה סרט אקשן או מתח, אז לרוב יגיע הטוויסט בעלילה שבו הגולם קם על יוצרו). אני לא פה כדי להפחיד, ואני לא חושב שזה מה שיקרה (וגם לא בטוח שזה לא יקרה), אבל קורה פה משהו מטריף בשנתיים האחרונות. משהו שמואץ אקספוננציאלית בחודשים האחרונים. הטכנולוגיות הג’נרטיביות צומחות בקצב מעריכי, ובכל פעם שאנחנו חושבים שהגענו לשיא חדש, מגיע שיא נוסף שמפתיע גם את אלה שעוקבים אחר התעשייה ונמצאים בליבה שלה.

לא משנה כמה מודל חישוב יהיה חזק, מרובה פרמטרים עם חלון קונטקסט עצום, כל עוד הוא מנותק מהעולם הפיזי, הוא מוגבל (לפחות באופן חלקי). ואז מגיעה חברה כמו OpenAI ומכריזה בגאון שמטרתה ליצור את ה־AGI הראשון למען תועלת האנושות. והיא לא עוצרת. היא מפגיזה במודלים, בכלים, בצ’אטבוטים, במחוללי תמונות שאם אתם עוקבים אחריהם (כמוני), אתם מבינים שהמשותף להם הוא שכל אחד מהם הוא מעין חלק בפאזל אל עבר ‘מערך החושים’ של אותו AGI; עוד צעד בדרך להבנה כללית (Generalization) ולא אסופת כלים, חזקים ככל שיהיו, אך נפרדים (עוד על קונספט זה במאמר הבא). זה מתחיל במודל שפה גדול כמו GPT וממשיך לצ’אטבוט שמאפשר לאותו מודל לנהל אינטראקציות (בתחילה טקסטואליות) עם העולם החיצון – chat gpt. אותו צ’אט מקבל את יכולת ניתוח התמונה (Vision) או אם תרצו – את ה’עיניים’ שלו. פיצ’ר שמאפשר לו ממש לראות, לנתח ולעבד את העולם החיצון (בשלב זה לפחות ברמת תמונה). ואז מגיעה פצצה כמו דאלי3 (Dall-E3), שהיא הרבה יותר ממחולל תמונות ממושמע! מי שקורא בין השורות מבין שיש פה בינה מלאכותית שמבינה את העולם, שמבינה חוקיות, שמבינה שפה; מעין מחולל תמונות עם מוח של מודל שפה גדול. לא סתם דאלי3 ‘מבין’ אותנו; הוא מבין את העולם!

אם אתה מבקש ממנו:

צייר לי תמונה של כלב עם כובע מצחייה ומשקפי שמש, עומד על קצה בניין בפריז ומאחוריו מגדל אייפל בשקיעה

הוא אשכרה מבין את הקומפוזיציה, את התחביר של המשפט, את הקשרים בין האלמנטים השונים (מה למעלה ומה למטה) ואת האופן שבו הם משפיעים זה על זה, ואשכרה יוצר את זה! סגולה זו של דאלי (היכולת לג’נרט סצנות מורכבות) היא משהו שעד לא מזמן רק הוא הצליח לעשות. אומנם לאחרונה יש שיפור אדיר עם גרסה 6 של מידג’רני, אבל זה עדיין לא 100% שם (ודאלי עדיין מצטיין ב’הבנה’ הרבה יותר ממידג’רני).

דאלי3 מבין אותנו ויודע לג’נרט סצנות מורכבות: תמונה של כלב עם כובע מצחייה ומשקפי שמש, עומד על קצה בניין בפריז ומאחוריו מגדל אייפל בשקיעה

זה לא מרוץ לפיתוח כלי AI, זה מרוץ לפיתוח מערך חושים ל־AGI

והינה יש לנו ישות עם מנת משכל גבוהה במיוחד, שוות ערך לגאונים או לעילויים אנושיים כמו איינשטיין ואחרים, רק שבניגוד אליהם היא דוברת כמעט 200 שפות ומצטיינת בבחינות בביולוגיה, בפיזיקה, בפסיכולוגיה ובמשפטים. נוסף על כך היא ציירת, משוררת, סופרת, מתמטיקאית ודאטה אנליסטית. ועכשיו לכל הקלחת הזאת הוסיפו את היכולות הלא פחות ממד”ביות של Sora לייצר סרטונים מרהיבים, פוטוריאליסטיים המחקים את המציאות על חוקיה הפיזיקליים־מרחביים־סיבתיים. ולא, אני לא מדבר על העובדה שהסרטונים יפים או מציאותיים; אני מדבר על האופן שבו המודלים של OpenAI מצליחים להבין את המציאות, לפרש את המציאות ולחקות את המציאות. זו הגדולה האמיתית – שם קבור הכלב!

בסופו של יום זה הרבה יותר ממודל שפה גדול וחכם, מחולל תמונות ממושמע, מחולל וידאו מטריף או צ’אטבוט יעיל. זה ארגז כלים. ארסנל שיכול לשמש גם אותנו, המשתמשים, אבל בפועל מיועד למישהו (או למשהו) אחר. ל־AGI. אותה ישות מלאכותית שיכולות החישוב שלה משתוות לאלה של המוח האנושי לכל הפחות, וסביר שאף מתעלות עליו בכל פרמטר. כן כן חברים, במרוץ הזה לי ולכם יש כוח חישוב מוגבל וקבוע (גבולות הגזרה של האינטלקט האנושי הן תוצר ישיר של מבנה המוח הביולוגי-פיזי שלנו, של גודלו, של כמות הנירונים והסינפסות שבו וכן הלאה). מנגד למכונות יש כוח חישוב שגדל בקצב מעריכי, ושבבים שהולכים ונעשים מתוחכמים וחזקים יותר מיום ליום. זה המצב הקיים ולא נראה שלאף אחד יש אינטרס לשנות אותו או לעצור אותו. אף ממשלה, אף תאגיד, אף חברה ואף צבא לא יעצור את מרוץ החימוש הזה מהסיבה הפשוטה ביותר שכולם יודעים שה’אחר’ לעולם לא יעצור.

לא מדע בדיוני – רובוטים שמבינים את העולם שסביבם ומתקשרים איתו

רק לפני שבועיים הכריז מנכ”ל Figure ברט אדקוק (Brett Adcock) על השת”פ החדש והטרי עם OpenAI. לא חלפו 13 יום והוא הציג בחשבון ה־X שלו את הסרטון הפותח את המאמר, שבו ‘פיגר’ ממלא אחר הוראותיו של בן אנוש – מגיש לו תפוח, משוחח עימו ועוד. בסרטון ‘פיגר’ מתאר לאדם מה הוא רואה לפניו ומונה את הפריטים ואת שמותיהם. בתצוגת הפנים של הרובוט אנו רואים את אותה שפה גרפית מזוהה של האפליקציה לנייד של ChatGPT – עם הענן ובועת הדיבור – מראה מוכר, אך כאשר הוא מוטבע על ראשו של רובוט ‘חושב’, זה מתחיל להיות קצת מפחיד.

כשנשאל “מדוע הגיש לאדם תפוח”, הוא מסביר שעשה זאת משום שזה היה הדבר היחיד האכיל על השולחן. השיחה מתנהלת תוך שהוא אוסף אשפה (בד בבד לדיבור) ומרכז אותה בסל, ולאחר מכן אף מחזיר צלחת וכוס להתקן הייבוש (בהבינו שזה מקומם). המצלמות המובנות של ‘פיגר’ מוזנות למודל שפה־ראייה גדול (VLM – vision-language model) ש־OpenAI יצרו. רשתות הנירונים של ‘פיגר’ מקבלות תמונות ב־10hz באמצעות מצלמות מובנות שבתוכו. והינה – חיבור פיזי־חישובי בין יכולת ההסקה הוויזואלית והבנת השפה (שמספקת OpenaAI) ובין רשתות הנירונים של ‘פיגר’ המאפשרות פעולות רובוטיות מהירות ומיומנות בתגובה לאותם אינפוטים שהוא מקבל מהעולם החיצון. כל זה במעטפת הנדסית־מכנית מרשימה של רובוט בתצורת אדם.

מה הביג דיל?

אוקיי אביתר, מה הביג דיל?! תפוח, ייבוש כלים, איסוף אשפה. גם אני יודע לעשות את זה!

נכון, וזאת בדיוק הנקודה – מיליוני שנות אבולוציה הביאו אותנו למצב שבו אנחנו מזהים את העולם שסביבנו, מבינים אותו ומצליחים להתנהל בו ולתקשר בתוכו. אגב, אותה יכולת לתקשר (שפה) היא אותו נשק על שמפריד בינינו ובין עולם החי (וה’נשק’ הזה כבר לא נמצא רק בידיים שלנו). אפילו מבחינה הנדסית לגרום לרובוט דמוי אדם ששוקל כמה מאות קילוגרמים לאחוז בתפוח בלי למחוץ אותו – רק זה לבדו הישג אדיר. אבל יש פה גם הנדסה חכמה, גם מוטוריקה עדינה, גם התמצאות במרחב וגם מודל חישוב מהפכני וחזק, ולכל אלה תוסיפו מודל קול משכנע שיודע לדבר בסגנון טבעי, אנושי ובגובה העיניים. ושוב – גם זה לבדו הישג טכנולוגי מרשים – לגרום למכונה להישמע אנושית. אלה דקויות שקשה לשים עליהן את האצבע – בחירת המילים, השהיית התגובה כאילו כדי לחשוב על המילה או על המשפט הבא, שימוש בסלנג ולא בשפה רשמית (המאפיינת מודלי שפה רבים) – מרשים מאוד!

האם Figure הוא עתידה של האנושות או התחלת סופה?

בסופו של יום מדובר במוצר שנמצא בפיתוח – רובוט מרשים במיוחד עם ‘מוח’ מרשים עוד יותר. האם אני חושב ש’פיגר 01′ הוא ה־AGI? לא. האם אני חושב שצבא של רובוטים הומינידים שכאלה הולכים להשתלט על כולנו בעוד שנה שנתיים? גם לא. אבל אני חושב שיש פה עוד צעד קדימה אל עבר מערכות אוטונומיות ש’חיות’ ומתנהלות לצד בני אדם במטרה לסייע להם. אך אותן מכונות גם טומנות בחובן סיכונים רבים, ופה נכנס לתמונה התפקיד שלנו, בני האדם, להיות מודעים לסיכונים ולאיומים של אינטגרציה בין טכנולוגיות AI עם מוצרים ושירותים פיזיים בעולם האמיתי.

ומה לגבי AGI? לדעתי ‘פיגר’ נמצא בצומת דרכים היסטורי. יש פה ישות רובוטית שמצליחה לקבל אינפוטים מהעולם בעזרת סדרת חיישנים ומערכות, ואז לעבד אותם בעזרת מודלי חישוב מתקדמים וייעודיים. השילוב הזה יוצר פה דבר חדש שלא ראינו עד כה (ואני לא נכנס לדיונים על חיים או על תודעה). אני יכול לנהל שיחות עומק עם ChatGPT או עם Claude על משמעות היקום. אבל שני הצ’אטבוטים המדהימים הללו נשארים בתחומי המרחב הדיגיטלי. הם לא צפויים להצטרף אליי לטיול עם הכלב או לצאת איתי לקרב בפעם הבאה שיקראו לי למילואים. לעומת זאת, Figure 01 ודומיו בהחלט עשויים לבצע פעולות כאלה בעתיד הממש לא רחוק!

רוצים להתמקצע?

בואו ללמוד איתנו בינה מלאכותית בקורס המקיף, העשיר והמבוקש בשוק. הצטרפו לאלפים הרבים שכבר עברו את הקורסים והסדנאות שלנו. פרטים והרשמה באתר.

לקבלת הנחה במחיר הקורסים – הזינו את קוד הקופון LETSAI

הישארו מעודכנים

רוצים לקבל עדכונים בלייב? רוצים מקום בו אתם יכולים להתייעץ עם מומחי AI, לשאול שאלות ולקבל תשובות? רוצים לשמוע על מבצעים והטבות לכלי ה-AI שמשנים את העולם? הצטרפו לקהילות ה-AI שלנו.

אפשר גם להרשם לניוזלטר שלנו