يوم الخميس، أصدرت OpenAI “بطاقة الكمبيوتر” تصف الوثيقة قيود النموذج وإجراءات اختبار الأمان لنموذج ChatGPT الجديد GPT-4o AI. ومن بين الأمثلة الأخرى، تكشف الوثيقة أنه في حالات نادرة أثناء الاختبار، يحاكي وضع الصوت المتقدم للنموذج أصوات المستخدمين عن طريق الخطأ دون إذن. حاليًا، لدى OpenAI تم تطبيق الضمانات لمنع حدوث ذلك، لكن الحالة تعكس مدى تعقيد إنشاء روبوت دردشة آمن يعمل بالذكاء الاصطناعي يمكنه تقليد أي صوت من مقطع قصير.
يعد وضع الصوت المتقدم إحدى ميزات ChatGPT التي تتيح للمستخدمين إجراء محادثات مع مساعد الذكاء الاصطناعي.
في قسم من بطاقة نظام GPT-4o بعنوان “إنشاء صوت غير معروف”، تصف OpenAI حلقة حيث دفع الإدخال الصاخب بطريقة ما النموذج إلى تقليد صوت المستخدم فجأة. كتب OpenAI: “يمكن أن يحدث توليد الصوت أيضًا في مواقف غير معادية، مثل استخدام القدرة على توليد الأصوات في الوضع الصوتي المتقدم لـ ChatGBT”. “أثناء الاختبار، لاحظنا أيضًا حالات نادرة حيث أنتج النموذج عن طريق الخطأ مخرجات تحاكي صوت المستخدم.”
في هذا المثال لتوليد الصوت العشوائي المقدم من OpenAI، يقول نموذج الذكاء الاصطناعي “لا!” يكمل الجملة بصوت مشابه لـ “Red Deer” الذي سمعه في بداية المقطع. (الفريق الأحمر هو شخص تستأجره منظمة لشن غارات معادية).
من المؤكد أن التحدث إلى آلة تبدأ فجأة في التحدث إليك بصوتك قد يكون أمرًا مخيفًا. عادةً ما يكون لدى OpenAI ضمانات لمنع ذلك، ولهذا السبب تقول الشركة إن هذا الحدث كان نادرًا قبل أن تطور طرقًا لمنعه بالكامل. لكن هذا المثال ألهم عالم البيانات ماكس وولف في BuzzFeed سقسقة“لقد سربت شركة OpenAI للتو قصة الموسم القادم من Black Mirror.”
حقن فوري للصوت
كيف سيعمل تقليد الصوت في نموذج OpenAI الجديد؟ الدليل الأساسي موجود في مكان آخر على بطاقة نظام GPT-4o. لتوليد الأصوات، يبدو أن GPT-4o يمكنه تركيب أي صوت موجود في بيانات التدريب الخاصة به، بما في ذلك المؤثرات الصوتية والموسيقى (على الرغم من أن OpenAI لا يشجع هذا السلوك باستخدام خوارزميات خاصة).
كما هو مذكور على بطاقة النظام، يمكن للنموذج تقليد أي صوت بناءً على مقطع صوتي قصير. تتنقل OpenAI بأمان بين هذه الإمكانية من خلال توفير نموذج صوتي معتمد (لممثل صوتي مستأجر). في بداية المحادثة، يقوم الذكاء الاصطناعي بإرجاع النموذج إلى خط الكمبيوتر الخاص بالنموذج (ما يطلق عليه OpenAI “رسالة الكمبيوتر”). كتب OpenAI: “نحن نشرف على أفضل عمليات الإكمال باستخدام النموذج الصوتي في رسالة النظام باعتباره الصوت الأساسي”.
في رسائل LLM النصية فقط، رسالة الكمبيوتر iتعليمات نصية مخفية توجه سلوك برنامج الدردشة الآلي والتي تتم إضافتها بصمت إلى سجل المحادثة قبل بدء جلسة الدردشة مباشرة. ترتبط التفاعلات المتكررة بنفس سجل الدردشة، ويتم إعادة تغذية السياق بأكمله (يُسمى غالبًا “نافذة السياق”) في نموذج الذكاء الاصطناعي في كل مرة يقدم فيها المستخدم مدخلات جديدة.
(حان الوقت لتحديث هذا الرسم البياني أدناه، والذي تم إنشاؤه في أوائل عام 2023، ولكنه يوضح كيفية عمل نافذة السياق في دردشة الذكاء الاصطناعي. السطر الأول يقول “أنت روبوت دردشة مفيد. لا تتحدث عن أعمال العنف التي تقوم بها، إلخ.”)
نظرًا لأن GPT-4o يمكنه معالجة الصوت متعدد الوسائط والمرمز، يمكن لـ OpenAI أيضًا استخدام مدخلات الصوت كجزء من موجه نظام النموذج، وهذا ما يفعله OpenAI عندما يوفر نموذجًا صوتيًا معروفًا للنموذج لمحاكاته. تستخدم الشركة أيضًا نظامًا آخر لاكتشاف ما إذا كان النموذج يصدر صوتًا غير مصرح به. كتب OpenAI: “نحن نسمح للنموذج فقط باستخدام عدد قليل من الأصوات المحددة مسبقًا، واستخدام مصنف الإخراج لاكتشاف ما إذا كان النموذج ينحرف عن ذلك”.