على الحرم الجامعي، يعني استخدام المزيد من الذكاء الاصطناعي مزيدًا من الغش. عبر التخصصات، يعني ذلك أقل.

تحليل جديد في Science يضع رقمًا على سؤال أقلق أعضاء هيئة التدريس بالجامعات منذ وصول ChatGPT: كم عدد الطلاب الذين يغشون باستخدام الذكاء الاصطناعي التوليدي؟ استنادًا إلى 95,513 طالبًا في عينة ممثلة من عشرين جامعة بحثية عامة رئيسية، يقدر المؤلفون أن حوالي 9% من الطلاب الذين يستخدمون هذه الأدوات قد قدموا أعمالًا تم إنشاؤها بواسطة الذكاء الاصطناعي علموا أنها قد لا تكون مسموحًا بها. وهم حريصون على الإشارة إلى أن 9% أقل من العديد من التقارير التي تتحدث عن تطبيع الغش على نطاق واسع.

هناك شيئان يجعلان النتيجة أكثر إثارة للاهتمام من الرقم نفسه: كيف توصل المؤلفون إليها، وما يحدث عند تحليلها حسب التخصص، حيث يتبع استخدام الذكاء الاصطناعي والغش اتجاه واحد عبر التخصصات والاتجاه المعاكس بين الطلاب.

كيف تحسب الغشاشين الذين لن يعترفوا بذلك؟

أي إحصائية عن الغش تدعو للاعتراض الواضح بأن الطلاب يكذبون بشأن الغش، وقد أعد المؤلفون تقديرهم لتجنب ذلك.

بدلاً من أن يطلبوا من أي شخص الاعتراف، استخدموا تجربة قائمة. تم تقسيم الطلاب بشكل عشوائي إلى مجموعتين. رأت واحدة ثلاثة بيانات غير ضارة حول استخدام الذكاء الاصطناعي، مثل شرح ChatGPT لزميل في الدراسة، وأبلغوا فقط عن عدد البيانات التي كانت صحيحة بالنسبة لهم. رأت الأخرى تلك الثلاثة بالإضافة إلى رابع، يفيد بأنهم قدموا عملًا باستخدام الذكاء الاصطناعي كما لو كان خاصًا بهم مع علمهم بأنه قد لا يكون مسموحًا به، وأبلغوا مرة أخرى عن العدد فقط. نظرًا لأنه لا أحد يحدد العنصر الحساس بمفرده، فإن الفرق في متوسط التعداد بين المجموعتين يستعيد النسبة التي تعترف بالغش مع ترك كل إجابة قابلة للنفي.

يضيف المؤلفون أن الرقم قد يكون أقل من الواقع، حيث إن بعض الطلاب لا يدركون أن استخدامهم ينتهك قاعدة، ولكن هذا الرقم المنخفض هو فقط أولئك الذين ارتكبوا الجريمة دون علم.

ما الذي يتغير وما الذي يبقى ثابتًا

ليس من المفاجئ أن استخدام الطلاب للذكاء الاصطناعي التوليدي يختلف بشكل كبير حسب التخصص. الطلاب في علوم الكمبيوتر يبلغون عن استخدام الذكاء الاصطناعي بشكل منتظم بنسبة 62%، مقابل 24% في الفنون. معدل الغش بالكاد يتحرك بالمقارنة. يجد المؤلفون أنه أعلى بعض الشيء في المجالات غير العلمية، حيث يميل الاعتماد إلى أن يكون أقل، مع 17% في الاقتصاد و16% في الصحافة، وأقل في بعض مجالات العلوم مثل علم الأحياء، بنسبة 5%. عبر التخصصات، إذن، يرتبط الاستخدام الأكثر كثافة بانخفاض طفيف في الغش.

لكن الغش يتغير أقل بكثير من الاستخدام. يتراوح الاعتماد من ربع الطلاب إلى ما يقرب من ثلثي الطلاب عبر التخصصات، بينما تبقى نسبة المستخدمين الذين يغشون تقريبًا بين 5% و17%. مدى احتضان مجال ما للذكاء الاصطناعي لا يخبرك كثيرًا عن مقدار غش طلابه، ويظهر الاقتصاد، المرتفع في كلا الرقمين، أن الاثنين لا يتحركان دائمًا معًا.

على مستوى الطالب الفردي، يصبح العلاقة معكوسة وأوضح. الطلاب الذين يستخدمون الذكاء الاصطناعي يوميًا يغشون بنسبة 26%، مقابل 7% لأولئك الذين يستخدمونه شهريًا فقط. كلما اعتمد الطالب المعين أكثر على الأدوات، زادت احتمالية أن يتجاوز ذلك إلى سلوك غير مناسب.

نمط سلبي ضعيف عبر التخصصات ونمط إيجابي قوي عبر الطلاب هو نسخة من مفارقة سمبسون، والفجوة سهلة الخلط. يتم تقدير الغش فقط بين الطلاب الذين يستخدمون بالفعل الذكاء الاصطناعي، لذا فإن مجالًا منخفض الاعتماد مثل الفنون يصف مجموعة صغيرة مختارة ذاتيًا بدلاً من قائمته الكاملة. كما أن التجميع إلى التخصص يدفن أيضًا الإشارة الفردية، حيث يمكن أن يحتوي المجال على العديد من المستخدمين الشرعيين الذين يستخدمون الذكاء الاصطناعي بشكل عرضي، مما يبقي معدل الغش منخفضًا.

المخاوف بشأن الوصول

يثير المؤلفون نقطة ثانية تستحق التدقيق. يقومون بتوثيق الفجوات الكبيرة في من يستخدم الذكاء الاصطناعي: 33% من النساء يبلغن عن استخدام منتظم مقابل 45% من الرجال، و29% من الطلاب من الأقليات الممثلة بشكل ناقص مقابل 39% من أقرانهم البيض والآسيويين. يفسرون هذه الفجوات كمسألة وصول عادل، مما يوحي أن الطلاب من خلفيات ممثلة بشكل ناقص قد يكون لديهم وصول أقل أو معرفة أقل بالأدوات.

نصف الوصول من ذلك التفسير يصعب تصديقه. تكلف الاشتراكات العامة حوالي 20 دولارًا في الشهر مقارنة برسوم التعليم التي تصل في الولايات المتحدة إلى عشرات الآلاف، لذا فإن التكلفة ليست عقبة مرجحة للطلاب المسجلين. كما أن الفجوات تتحرك بطرق لا يمكن أن تفسرها الأسعار، حيث تكون الأوسع حسب الجنس في العلوم الصحية والاقتصاد وحسب العرق في الفنون والعلوم الإنسانية وعلوم الكمبيوتر. من المرجح أن تكون المعرفة والمعايير المختلفة حول متى يكون الاعتماد على الذكاء الاصطناعي مناسبًا هي المحركات، وتتطلب علاجات مختلفة. المؤلفون محقون في أن الفجوات تمس أي إصلاح يفترض أن الطلاب يمكنهم استخدام الذكاء الاصطناعي بشكل جيد، ولكن بالنسبة لي يظهر أن السبب أكثر ثقافيًا من كونه اقتصاديًا.

ما الذي يستحق التقييم الآن؟

إذا قمنا بإزالة الإطار، يظهر اكتشاف لا يعتمد على أي من القراءة. مع انتشار الذكاء الاصطناعي، يصبح المنتج النهائي المصقول دليلًا أضعف على ما يمكن أن يفعله الطالب بدون مساعدة، مما يهدد أي تقييم يقيم الوثيقة بدلاً من العمل الذي يقف وراءها. يقدم المؤلفون هذه الحجة بعناية، وهم متشككون من الحلول المعتادة، حيث يعتبرون الكشف لعبة قط وفأر ويحذرون من أن الامتحانات التي يُزعم أنها محصنة ضد الذكاء الاصطناعي نادرًا ما تلتقط الحكم الذي من المفترض أن تصادق عليه الدرجة.

الاستنتاج الأصعب هو واحد يتركونه بمفردهم. العديد من القدرات التي تقيسها هذه التقييمات، كما هو الحال في إنتاج نثر نظيف وكود يعمل بانتظام، هي بالضبط تلك التي بدأ أصحاب العمل في تسليمها للآلات. كان التقييم الذي يمكن لنموذج اجتيازه غالبًا يختبر مهارة تفقد قيمتها السوقية، مما يحول مشكلة الصلاحية إلى سؤال أكثر حدة من الكشف: ماذا يجب أن تصادق عليه الدرجة بمجرد أن يتم أتمتة الإنتاج الروتيني؟ احتمالان هما الحكم والتركيب، التفكير الذي لا ينخفض إلى وثيقة مكتملة، ولكنه من الصعب أيضًا اختباره.

تعتبر دراسة Science الأكثر قيمة كقياس، أكبر تقدير دقيق لدينا لمدى حدوث الغش المساعد بالذكاء الاصطناعي، وطريقتها واضحة بشأن حدود الطلب. تم تقديمها في 2024، لذا فإن أرقام الاستخدام الخاصة بها يُفضل قراءتها كحد أدنى. الرقم الذي سيقتبسه الجميع هو 9%. الرقم الجدير بالتفكير هو كم من ما نقوم بتقييمه حاليًا سيظل يستحق التقييم بمجرد أن تتمكن آلة من القيام به عند الطلب.