أثارت التقنيات الصوتية المستخدمة في
تطبيقات الذكاء الاصطناعي، والتي
تحاول تقليد
أصوات الممثلات المشهورات في هوليوود وغيرها، انتقادات واسعة، بسبب
درجة التشابه الكبيرة وما يمكن أن تخلقه من مشكلات.
وقالت صحيفة نيويورك تايمز، إن شركة "أوبن
إيه آي" OpenAI كشفت عن ترقيات
لبرنامج الدردشة الآلي الخاص بها الذي يعمل بالذكاء الاصطناعي، وكان
يجري التحدث بصوت طبيعي، يشبه إلى حد كبير
نظام التشغيل "سامنثا" الذي جسدت الممثلة الأمريكية سكارليت جوهانسون،
صوته في فيلم "هي- Her" عام 2013.
وأوضحت أن صوت "شات جي بي تي"، المسمى "سكاي" ، كان يتمتع أيضا بصوت
أجش وتأثير مهدئ ومثير في الوقت نفسه، وكانت لطيفة ومنطوية على نفسها، إذ بدت
وكأنها لعبة لأي شيء.
وأشارت إلى أنه بعد ظهور "سكاي" لأول
مرة، فقد أعربت جوهانسون عن استيائها من الصوت "المشابه بشكل مخيف لصوتها"،
وقالت إنها رفضت سابقا طلب "أوبن إيه آي" بأن تقوم بصوت الروبوت.
وردت الشركة بأن "سكاي" قامت بأداء صوتها
"ممثلة محترفة مختلفة"، لكنها وافقت على إيقاف صوتها مؤقتا احتراما
لجوهانسون. لكن بدأ مستخدمو Bereft OpenAI بتقديم عريضة لإعادتها.
ووفقا للصحيفة، فإن منشئي الذكاء الاصطناعي يحبون
تسليط الضوء على القدرات الطبيعية المتزايدة لأدواتهم، لكن أصواتهم الاصطناعية
مبنية على طبقات من الحيلة والإسقاط.
وتمثل "سكاي" أحدث طموحات
"أوبن إيه آي"، لكنها تعتمد على فكرة قديمة وهي أن روبوت الذكاء
الاصطناعي هو امرأة متعاطفة ومذعنة.
وكانت سامانثا خليطا من الأم، والسكرتيرة،
والصديقة، وكانت بمثابة كائن مريح متعدد الأغراض يتحدث مباشرة في آذان مستخدميها.
وحتى مع تقدم تكنولوجيا الذكاء الاصطناعي، تتم إعادة تشفير هذه الصور النمطية
مرارا وتكرارًا.
وأشارت الصحيفة إلى أن أصوات
النساء غالبا ما
غذت التقنيات المتخيلة قبل أن يتم دمجها في تقنيات حقيقية. وبمجرد أن بدأت شركات
التكنولوجيا في تسويق المساعدين الافتراضيين، مثل سيري من شركة أبل، وأليكسا من
أمازون، وكورتانا من مايكروسوفت، أصبحت أصواتها مؤنثة أيضًا.
وأوضحت أن هؤلاء المساعدين الصوتيين من الموجة
الأولى، الذين كانوا يتوسطون علاقاتنا مع التكنولوجيا لأكثر من عقد من الزمن،
لديهم نبرة صوتية نسائية، ويتم تمييز أصواتهم البشرية من خلال رتوش ميكانيكية، إذ
أنه غالبا ما يتحدثون بإيقاع محسوب ذي نغمة واحدة.
لكن الصحيفة أوضحت أن حقيقة أنها تبدو وكأنها
روبوتية تزيد من جاذبيتها، فهي تبدو قابلة للبرمجة والتلاعب بها وخاضعة لمطالبنا،
كما أنها لا تجعل البشر يشعرون كما لو أنهم أكثر ذكاء منها.
ومنذ أن طرحت "تيك توك" ميزة تحويل
النص إلى كلام في عام 2020، طورت مجموعة من الأصوات المحاكية للاختيار من بينها،
وهي تقدم الآن أكثر من 50 صوتا، بما في ذلك أصوات تسمى "هيرو"
و"ستوري تيلير" و"بيستي"، لكن النظام الأساسي أصبح محددا بخيار
واحد وهو "جيسي"، وهو صوت المرأة المفعم بالحيوية مع مسحة آلية غامضة
قليلا.