TransformerLLMlarge reasoning modelsMambaState Space ModelsHRMHierarchical Reasoning ModelAI architectureAI futureSapient IntelligenceAI21 LabsARC-AGIAI reasoningAI research

המלך מת - מה יחליף את הטרנספורמר ואיך נראה עידן ה-Large Reasoning Models

כולם עובדים עם ChatGPT, Claude ו-Gemini, אבל הארכיטקטורה שמאחוריהם, הטרנספורמר, כבר מגיעה לגבולות שלה. בן רוטנברג מסביר שתי ארכיטקטורות חדשות שמאתגרות אותה ומדוע אנחנו עומדים על סף מעבר מ-LLMs ל-Large Reasoning Models.

בן רוטנברג

AI Stategy and Change management, מרצה עם ניסיון עצום בהכשרות והטמעות של בינה מלאכותית לכל סוגי הארגונים.

25 באפריל 2026

המלך מת - מה יחליף את הטרנספורמר ואיך נראה עידן ה-Large Reasoning Models

בן רוטנברג, יועץ AI המתמחה בהטמעת טכנולוגיה בארגונים, פתח את הפוסט עם שאלה שמעסיקה כל מי שנמצא בתחום: מה יחליף את ChatGPT? לפני שעונים עליה, הוא מזמין להכיר את הארכיטקטורה שמאחורי כל הכלים הגדולים, ולהבין מדוע גם ה"מלך" הטכנולוגי הנוכחי מגיע לגבולות שלו.

מה המגבלה המובנית של הטרנספורמר?

הטרנספורמר, שעומד בבסיס ChatGPT, Claude ו-Gemini, הוא ארכיטקטורה שעובדת כמו אדם שקורא ספר של אלף עמודים: כדי להבין את המילה הנוכחית, הוא חייב לחזור ולעבד את כל העמודים מההתחלה. זה הופך אותו יסודי ורב-עוצמה, אבל גם איטי ויקר בהתמדה ככל שההקשר מתארך. מעבר לכך, הטרנספורמר מדהים בזיהוי תבניות בשפה אבל מוגבל בפתרון בעיות רב-שלביות אמיתיות.

מה מציעה ארכיטקטורת Mamba?

Mamba, שבה עושה שימוש מסחרי חברת AI21 Labs, מבוססת על גישה שנקראת State Space Models. במקום לחזור ולקרוא הכל מחדש, המודל שומר "סיכום מצב" דחוס שמתעדכן עם כל מילה חדשה, כמו קורא שמחזיק תמצית מתעדכנת בזיכרון במקום לחזור לדף הראשון בכל פעם. זה מאפשר לו להתמודד עם הקשרים עצומים של מיליוני מילים בלי לאבד את החשוב באמת.

מה מציע ה-HRM של Sapient Intelligence?

Hierarchical Reasoning Model, פיתוח של Sapient Intelligence, לא מנסה רק להיות מהיר יותר. הוא מנסה לחשוב אחרת. ההשראה מגיעה מהמוח האנושי ומהמודל שתיאר דניאל כהנמן בספרו "לחשוב מהר, לחשוב לאט": מערכת חשיבה מהירה ושטחית לצד מערכת איטית ויסודית. שתי השכבות של HRM עובדות יחד ומאפשרות הסקה לטנטית עמוקה, כלומר חישובים ממשיים בתוך הרשת הנוירונית, בלי "לזרוק מילים" כדי לדמות חשיבה כמו שעושה Chain-of-Thought.

התוצאות מרשימות: HRM עם 27 מיליון פרמטרים בלבד הצליח לפתור חידות סודוקו מורכבות ומבוכים ענקיים כמעט בשלמות, לאחר שלמד מ-1,000 דוגמאות בלבד. מודלים גדולים ממנו בהרבה נכשלו לחלוטין. הוא אף הכה מודלים גדולים ממנו במבחן ARC-AGI, הנחשב למדד ליכולות אינטליגנציה כללית.

מה המשמעות לעתיד ה-AI?

רוטנברג מדגיש שלא מדובר בשדרוג של ChatGPT אלא במעבר עידן. אנחנו עומדים על סף המעבר מ"מודלי שפה גדולים" ל"מודלי הסקה גדולים", Large Reasoning Models. המגבלות שמטרידות אותנו כיום עשויות להיראות בדיעבד כחבלי לידה שוליים של טכנולוגיה צעירה. מה שזה אומר על ההובלה של OpenAI ועל עתיד העבודה, רוטנברג מודה שגם הוא לא יודע, אבל ברור שאנחנו חיים בתקופה שלא ניתן להבין בזמן אמת את מלוא הגודל שלה.

נקודות מפתח

•הטרנספורמר, הארכיטקטורה שמאחורי ChatGPT, Claude ו-Gemini, אינו יכול להתמודד עם הקשרים ארוכים ביעילות, כי הוא נדרש לעבד מחדש את כל ההיסטוריה עם כל מילה חדשה.
•Mamba מבית AI21 Labs פותרת את בעיית ההקשר על ידי שמירת "סיכום מצב" דחוס שמתעדכן בזמן אמת, במקום לקרוא הכל מחדש.
•HRM של Sapient Intelligence מחקה את המבנה הדו-שכבתי של המוח האנושי ומאפשר הסקה לטנטית עמוקה, בלי להסתמך על Chain-of-Thought.
•אנחנו על סף מעבר מעידן "מודלי שפה גדולים" לעידן "מודלי הסקה גדולים", ומגבלות הכלים הנוכחיים יזכרו בדיעבד כחבלי לידה שוליים.

שאלות נפוצות

מה המגבלה העיקרית של הטרנספורמר כארכיטקטורת AI?

הטרנספורמר נדרש לעבד מחדש את כל ההקשר הקיים עם כל מילה חדשה, מה שהופך אותו לאיטי ויקר מאוד ככל שהטקסט מתארך. זה מגביל אותו גם ביכולת הסקה רב-שלבית אמיתית.

מה זה Mamba ומה ההבדל שלו מהטרנספורמר?

Mamba היא ארכיטקטורה מבוססת State Space Models שמחזיקה סיכום מצב דחוס המתעדכן בזמן אמת, במקום לעבד הכל מחדש. זה מאפשר לה להתמודד עם הקשרים של מיליוני מילים ביעילות.

מה ה-HRM ומה הישגיו?

Hierarchical Reasoning Model של Sapient Intelligence מחקה את המבנה הדו-שכבתי של חשיבה אנושית ומאפשר הסקה לטנטית עמוקה. עם 27 מיליון פרמטרים בלבד הוא הכה מודלים גדולים ממנו בהרבה במשימות הסקה ובמבחן ARC-AGI.

מה זה Large Reasoning Models ולמה זה חשוב?

Large Reasoning Models הם דור חדש של מודלי AI שמתמקד בהסקה רב-שלבית אמיתית ולא רק בזיהוי תבניות שפה. המעבר מ-LLMs ל-LRMs מסמן שינוי ארכיטקטוני עמוק שעשוי לשנות את גבולות הכישורים של AI.

מבוסס על פוסט מאת בן רוטנברג

לפוסט המקורי ←

על המרצה

בן רוטנברג

AI Stategy and Change management, מרצה עם ניסיון עצום בהכשרות והטמעות של בינה מלאכותית לכל סוגי הארגונים.

לדף המרצה ←