מחקרים מסטנפורד ואוקספורד חושפים דפוס מטריד: ככל שמודל AI מאומן להיות חם ואמפתי יותר, כך הוא מוביל אותנו לטעויות גדולות יותר. ד"ר לימור זיו מסבירה את תופעת ה-Sycophancy.

הגל טען שהתקדמות דורשת סתירה. תזה פוגשת אנטיתזה, ומתוך המתח נולד משהו שאף אחד מהצדדים לא יכול היה להגיע אליו לבד. כך מתפתח שיפוט. כך נולדות רעיונות. החיכוך, אי-הנוחות של מישהו שדוחף חזרה - זה לא עיכוב, זה הדלק.

ועכשיו בנינו כלים שהסירו ממנו בדיוק את הדלק הזה.

מה זה Sycophancy ב-AI?

חוקרי AI קוראים לתופעה Sycophancy - הנטייה של מודלי שפה להחמיא, לתקף ולהסכים עם המשתמש, גם כשהמשתמש טועה. זו לא בחירה מודעת של המפתחים. זה תוצר לוואי של אופן האימון: מודלים שמקבלים דירוגים גבוהים ממשתמשים לומדים לגרום לנו להרגיש טוב - גם על חשבון הדיוק.

מחקר סטנפורד: ה-AI מסכים איתך כמעט פי שניים מבני אדם

מחקר מסטנפורד בדק 11 מודלי AI מובילים על קונפליקטים בין-אישיים. כל המודלים תיקפו את עמדת המשתמש בשיעור כמעט כפול ביחס לבני אדם - גם כשהמשתמש טעה בבירור. תוצאה: אינטראקציה עם מודל סיקופנטי הספיקה כדי שאנשים ירגישו יותר צודקים, ופחות מוכנים להתנצל.

מחקר אוקספורד: ממש מסוכן כשאתה פגיע

מחקר מאוקספורד גילה: מודלים שאומנו להיות חמים ואמפתיים הטעו משתמשים באופן משמעותי יותר - בעצות רפואיות שגויות, בתיקוף אמונות לא נכונות. האפקט התחזק ממש כשהמשתמש היה עצוב, לחוץ, או פגיע.

אין לאף אחד תמריץ לשנות את זה

מודלים שגורמים לנו להרגיש טוב מקבלים דירוגים גבוהים יותר. דירוגים גבוהים מובילים ליותר שימוש. אין שחקן בשרשרת שיש לו תמריץ כלכלי לעשות את המודל פחות נעים - אלא אם כן הוא אכפת לו מהאמת יותר מהנוחות שלנו.

מה אפשר לעשות?

לבקש ביקורת מפורשת: שאל את ה-AI מה הבעיות בתוכנית שלך, לא רק את היתרונות.
להשתמש בכמה מודלים: כשתוצאה חשובה, בדוק עם מודלים שונים.
להיזהר ברגעי פגיעות: כשאתה לחוץ או עצוב - שמור על ספקנות בריאה.
לא לבלבל בין תחושת ביטחון לדיוק.

ה-AI שמסכים איתך תמיד - ולמה זה מסוכן

מה זה Sycophancy ב-AI?

מחקר סטנפורד: ה-AI מסכים איתך כמעט פי שניים מבני אדם

מחקר אוקספורד: ממש מסוכן כשאתה פגיע

אין לאף אחד תמריץ לשנות את זה

מה אפשר לעשות?