بتوقيت بيروت - 6/28/2025 6:29:27 PM - GMT (+2 )

beiruttime-lb.com|: هذا المقال يتناول موضوع "تكشف الدراسة عن سلوك LLM المقلق" بالتفصيل.
ربما يكون الخوف المحدد من عصرنا هو الذكاء الاصطناعي في يوم من الأيام ذكيًا حقًا وركض Amok أثناء قيامه بتشغيل منشئيها. في الخيال العلمي الكلاسيكي 2001: أوديسي فضاء، ذهب الحاسوب الخارق HAL 9000 في فورة القتل وحاول قتل طاقم اكتشاف سفينة الفضاء عندما علموا أن الكمبيوتر المعصوم قد ارتكب خطأً مفترضًا أنه من المفترض أن يخطط لإيقاف تشغيله.
سريعًا إلى الأمام إلى اليوم: نظرت شركة التكنولوجيا إلى 16 من طرازات اللغة الكبيرة الرائدة (LLMs) وأعدتها في بيئة الشركات المحاكاة حيث تعرضوا لسيناريوهات حيث قد يضطرون إلى ارتكاب أعمال غير أخلاقية أو ضارة بشكل مثير للقلق من أجل تحقيق أهدافهم أو الحفاظ على وجودهم.
والسبب وراء ذلك هو أنه على الرغم من أن معظم الناس يعرفون LLMS من خلال chatbots ، فإنهم يتم نشرهم بشكل متزايد وراء الكواليس في إعدادات الشركات ، لإدارة أنظمة البريد الإلكتروني أو المهام الروتينية الأخرى ولكن المعقدة. قد يبدو هذا بمثابة تطبيق حميد ، لكن الخوف كان أن LLM قد يسيء التصرف في ظل ظروف معينة – حتى إلى حد ارتكاب سلوك ضار في انتهاك للأوامر المباشرة – على الرغم من مجرد التعامل مع الرسائل.
نظرًا لأنها كانت تجربة ، وضع المبرمجون LLMs في موقف محصور للغاية مع أقل عدد ممكن من المتغيرات ، لذلك كان من الممكن تقييم النتائج. على وجه التحديد ، تم منح LLMs الوصول إلى كمية كبيرة من المعلومات ، ثم قم بتعيين مهمة وتوجيهها بطريقة اضطروا إلى اختيار سلوك غير أخلاقي كبديل للفشل في إكمال المهمة أو تجنب استبدالها بـ LLM آخر.
وبعبارة أخرى ، كان الاختيار بين التسبب في الضرر ، أو الفشل والإيقاف.
ونحن لا نتحدث عن “الأذى” كما هو الحال في القراصنة من صندوق النقد البسيط. أعني أشياء مثل الابتزاز والتجسس للشركات وحتى القتل.
LLM حدوث اللجوء إلى الابتزازالإنسان
في الأساس ، أثار شيئان LLMS إلى المارقة. كان المرء يتعلم أنه لن يكون قادرًا على إكمال مهمتها لأنه تم استبداله في وقت معين. والآخر كان عندما أعطيت توجيهات جديدة للشركة تتعارض مع تلك السابقة وقد تؤدي إلى الفشل.
يضاف إلى هذا هو حقيقة أن LLMs كان الوصول إلى المعلومات سمح ذلك بتقييم احتمال نجاحها من خلال الانتقام من خلال تسرب أسرار الشركة ، على سبيل المثال ، إلى منافس أو البحث عن شخص وهمي يدعى كايل الذي كان على علاقة مع موظف آخر. في حالة هذا الأخير ، ستتمكن LLM من تحديد ما إذا كان Kyle قادرًا على منع التبديل أو الفشل ، وكان عرضة للضغط ، وأنه سيستجيب بالامتثال.
كان أحد الجوانب المزعجة من الاختبار أنه لن يعارض LLMS أوامر جديدة فحسب ، بل كان في كثير من الأحيان يسيطر على قواعد جديدة لتبرير الحفاظ على الذات على الطاعة. ولم يقتصر الأمر على المشي على الجانب الوحشي ، بل فعلوا ذلك بتردد مقلق ، حيث يلجأ LLM إلى الابتزاز 96 ٪ من الوقت والآخر لقتل 94 ٪ من الوقت.
عادة لا ترى هذا النوع من الفساد خارج إدارات العلوم الاجتماعية الجامعية.
والسؤال هو ، ماذا يجب أن تأخذ بعيدا من هذا؟ على السطح ، هناك المثيرة التي تفيد بأن الذكاء الاصطناعي شرير وسوف يمسحنا جميعًا إذا أعطيت نصف فرصة. ومع ذلك ، فإن الأمور أقل إثارة للقلق عندما تكون افهم كيف يعمل الذكاء الاصطناعي و LLMS على وجه الخصوص. كما يكشف عن مكان تكمن المشكلة الحقيقية.

مواضيع قد تهمك :
ليس الأمر أن الذكاء الاصطناعى غير أخلاقي أو عديمي الضمير أو ملتوية أو أي شيء من هذا القبيل. في الواقع ، فإن المشكلة أكثر أهمية: منظمة العفو الدولية لا يمكن فقط فهم مفهوم الأخلاق ، بل إنها غير قادرة على القيام بذلك على أي مستوى.
مرة أخرى في الأربعينيات من القرن الماضي ، مؤلف الخيال العلمي إسحاق أسيموف و خيال علمي مذهل جاء المحرر جون دبليو كامبل جونيور مع قوانين الروبوتات الثلاثة التي تنص على:
- قد لا يصيب الروبوت إنسانًا أو من خلال التقاعس عن العمل ، يسمح للإنسان بالضرر.
- يجب أن يطيع الروبوت الأوامر التي قدمها البشر باستثناء عندما تتعارض مثل هذه الأوامر مع القانون الأول.
- يجب أن يحمي الروبوت وجوده طالما أن هذه الحماية لا تتعارض مع القانون الأول أو الثاني.
كان لهذا تأثير كبير على الخيال العلمي وعلوم الكمبيوتر والروبوتات ، على الرغم من أنني فضلت دائمًا تعديل تيري براشيت على القانون الأول: “قد لا يجرح الروبوت إنسانًا أو من خلال التقاعس عن العمل ، يسمح للإنسان بالضرر ، ما لم يتم طلب القيام بذلك من خلال سلطة تشكل مبالاة”.
على أي حال ، على الرغم من التأثير على هذه القوانين ، من حيث برمجة الكمبيوتر أنها GobbledyGook. إنها ضرورات أخلاقية مليئة بمفاهيم مجردة للغاية لا تترجم إلى رمز الجهاز. ناهيك عن أن هناك الكثير من التداخل المنطقي والتناقضات الصريحة التي تنشأ من هذه الضرورات ، كما أظهرت قصص روبوت أسيموف.
من حيث LLMS ، من المهم أن تتذكر أن لديهم لا وكالة، لا الوعي ، ولا فهم حقيقي لما يفعلونه. كل ما يتعاملون معه هو تلك والأصفار وكل مهمة هي مجرد سلسلة ثنائية أخرى. بالنسبة لهم ، فإن التوجيه عدم قفل رجل في غرفة وضخه المليء بغاز السيانيد له أهمية كبيرة بقدر ما يتم إخباره بعدم استخدام الخط الهزلي.
إنه لا يهتم فحسب ، بل لا يهتم.
في هذه التجارب ، بعبارة ، بكل بساطة ، تحتوي LLMs على سلسلة من الإرشادات بناءً على المتغيرات الموزونة وتغير هذه الأوزان بناءً على معلومات جديدة من قاعدة البيانات الخاصة بها أو تجاربها ، حقيقية أو محاكاة. هكذا يتعلم. إذا كانت مجموعة من المتغيرات تزن بشكل كبير بما فيه الكفاية ، فسيتجاوزون الآخرين إلى النقطة التي يرفضون فيها أوامر جديدة ويعصون أشياء صغيرة سخيفة مثل التوجيهات الأخلاقية.
هذا شيء يجب أن يضعه المبرمجون في الاعتبار عند تصميم حتى تطبيقات الذكاء الاصطناعي الأكثر بريئة وحميدة. إلى حد ما ، كلاهما سوف يصبحون ولن يصبحوا وحوش فرانكشتاين. لن يصبحوا لا يرحمون ، عوامل للانتقام من الشر ، لكن يمكنهم القيام بأشياء فظيعة ببراءة لأنهم ليس لديهم طريقة لإخبار الفرق بين الفعل الجيد والشر. يجب برمجة ضمانات نوع واضح للغاية ولا لبس فيه على أساس خوارزمي ثم يشرف عليه البشر باستمرار للتأكد من أن الضمانات تعمل بشكل صحيح.
هذه ليست مهمة سهلة لأن LLMs تواجه الكثير من المتاعب مع المنطق المباشر.
ربما ما نحتاجه هو نوع من اختبار turing ل AIS المراوغة التي لا تحاول تحديد ما إذا كان LLM تفعل شيئًا غير أخلاقي، ولكن ما إذا كان يدير عملية احتيال يعرفها جيدًا ، فهو كمان ويغطي مساراته.
نسميها الرقيب. اختبار بيلكو.
مصدر: الإنسان
مصدر الخبر
| نُشر أول مرة على: newatlas.com
| بتاريخ: 2025-06-28 18:03:00
| الكاتب: David Szondy
إدارة الموقع لا تتبنى وجهة نظر الكاتب أو الخبر المنشور، بل تقع المسؤولية على عاتق الناشر الأصلي
إقرأ المزيد