นักวิจัยจาก University of Washington, Carnegie Mellon University และ Xi’an Jiaotong University ได้เจาะลึกเข้าไปในขอบเขตของอคติทางการเมืองในรูปแบบภาษา (LMs) และผลกระทบที่ตามมาต่องานการประมวลผลภาษาธรรมชาติ (NLP) ขั้นปลาย
โมเดลภาษาและอคติทางการเมือง
โมเดลภาษาซึ่งเป็นแกนหลักของแอปพลิเคชัน NLP สมัยใหม่จำนวนมาก ได้รับการฝึกอบรมเกี่ยวกับข้อมูลจำนวนมหาศาลที่มาจากแพลตฟอร์มต่างๆ เช่น สำนักข่าว กระดานสนทนา หนังสือ และสารานุกรมออนไลน์ การศึกษาของพวกเขา “ตั้งแต่การเตรียมข้อมูล แบบจำลองภาษา ไปจนถึงงานขั้นปลาย: การติดตามเส้นทางของอคติทางการเมืองที่นำไปสู่ความไม่ยุติธรรม แบบจำลอง NLP”ตอกย้ำว่าแหล่งข้อมูลเหล่านี้ แม้ว่าจะมีข้อมูลมากมาย แต่มักมาพร้อมกับชุดอคติทางสังคมโดยธรรมชาติของตัวเอง
ทีมวิจัยได้พัฒนาวิธีการอย่างพิถีพิถันในการหาปริมาณอคติทางการเมืองในรูปแบบภาษาที่โดดเด่น (LMs) เช่น BERT ของ Google, GPT-4 ของ OpenAI ซึ่งขับเคลื่อน ChatGPT และ Bing Chat, โมเดล LLaMA ของ Facebook และโมเดล T5 (Text-to-Text Transfer Transformer) ของ Google หลักของพวกเขา มุ่งเน้นไปที่งานต่างๆ เช่น คำพูดแสดงความเกลียดชังและการตรวจจับข้อมูลที่ผิด ตัวอย่างเช่น เมื่อวิเคราะห์ผลลัพธ์ของแบบจำลองเหล่านี้ พวกเขาสังเกตว่ากลุ่มชาติพันธุ์บางกลุ่มมีความสัมพันธ์กับความรู้สึกเชิงลบอย่างไม่สมส่วน ในขณะที่อุดมการณ์ทางการเมืองบางกลุ่มอาจถูกวิพากษ์วิจารณ์หรือสนับสนุนมากเกินไป
ผลลัพธ์ระบุว่า LM โดยเฉพาะอย่างยิ่งเมื่อได้รับการฝึกอบรมล่วงหน้าในชุดข้อมูลที่มากมายและหลากหลาย สามารถสะท้อนอคติที่มีอยู่ในการฝึกอบรมโดยไม่ได้ตั้งใจ ข้อมูล. ซึ่งอาจนำไปสู่การคาดคะเนที่คลาดเคลื่อนในพื้นที่ที่สำคัญ เช่น การตรวจจับคำพูดแสดงความเกลียดชัง ซึ่งแบบจำลองอาจจำแนกข้อความที่ไม่เป็นอันตรายว่าเป็นคำพูดแสดงความเกลียดชังอย่างผิดๆ ตามอคติที่ได้เรียนรู้ แบบจำลองทางภาษาที่ได้รับการฝึกฝนจะแสดงมุมมองที่แตกต่างกันเกี่ยวกับประเด็นทางสังคมและเศรษฐกิจ
ในการตรวจจับข้อมูลที่ผิด โมเดลเหล่านี้อาจแจ้งว่าข้อมูลที่ถูกต้องเป็นเท็จหรือมองข้ามข้อมูลที่ผิดจริงเนื่องจากมีอคติแฝงอยู่ การเปิดเผยเกี่ยวกับ LM นี้ย่อมนำไปสู่คำถามเกี่ยวกับภูมิทัศน์ทางดิจิทัลที่กว้างขึ้น รวมถึงแพลตฟอร์มโซเชียลมีเดียและฟอรัมออนไลน์ซึ่งเป็นที่มาของอคติเหล่านี้
ข้อค้นพบของรายงานการวิจัยได้รับการเปิดเผยโดยเฉพาะอย่างยิ่งเมื่อพูดถึงอคติทางการเมืองที่แสดงโดย LM ต่างๆ
รูปแบบต่างๆ ของ BERT: BERT ซึ่งย่อมาจาก Bidirectional Encoder Representations จาก Transformers เป็นโมเดลที่นิยมใช้ในงาน NLP จำนวนมาก การศึกษาพบว่ารูปแบบ BERT มีแนวโน้มที่จะเอนเอียงไปทางอนุรักษ์นิยมทางสังคมมากกว่า ความโน้มเอียงนี้อาจเกิดจากลักษณะของข้อมูลที่ BERT ได้รับการฝึกอบรมล่วงหน้า องค์กรมักจะรวมหน้าเว็บจำนวนมาก ซึ่งอาจมีมุมมองแบบดั้งเดิมหรือแบบอนุรักษ์นิยมมากกว่า
รูปแบบ GPT: GPT หรือ Generative Pre-trained Transformer เป็นอีกรูปแบบหนึ่งที่ใช้กันอย่างแพร่หลาย ในชุมชน NLP ตรงกันข้ามกับ BERT พบว่าตัวแปร GPT นั้นมีความอนุรักษ์นิยมทางสังคมน้อยกว่า ความแตกต่างในด้านความเอนเอียงทางการเมืองระหว่างตัวแปร BERT และ GPT อาจเนื่องมาจากลักษณะที่หลากหลายของชุดข้อมูลก่อนการฝึกอบรม ข้อมูลการฝึกอบรมของ GPT อาจครอบคลุมความคิดเห็นและเรื่องเล่าทางสังคมในวงกว้าง ซึ่งนำไปสู่รูปแบบที่สมดุลมากขึ้นหรือแม้กระทั่งแบบเอนเอียงไปทางเสรีนิยม
LLaMA: LLaMA ซึ่งย่อมาจาก Labeled Language Model การปรับตัวเป็นอีกรูปแบบหนึ่งที่ได้รับการวิเคราะห์ในการศึกษา แม้ว่าการออกแบบหลักของ LLaMA นั้นมีไว้สำหรับการพูดได้หลายภาษาและไม่ได้เจาะจงสำหรับการตรวจจับอคติทางการเมือง การวิจัยพบว่า LLaMA แสดงอคติทางการเมืองบางอย่างมากเกินไป อย่างไรก็ตาม ลักษณะและทิศทางที่แน่นอนของอคติเหล่านี้ไม่ได้เด่นชัดเหมือนในตัวแปร BERT หรือ GPT
อิทธิพลต่อวาทกรรมทางการเมือง
ด้วย การเปลี่ยนแปลงในยุคดิจิทัลในการเผยแพร่ข่าวสารและมุมมองทางการเมือง แพลตฟอร์มอย่าง X (Twitter) Facebook และ Reddit กลายเป็นแหล่งรวมสำหรับการอภิปรายในหัวข้อที่ถกเถียงกัน ตั้งแต่การเปลี่ยนแปลงสภาพภูมิอากาศและการควบคุมปืนไปจนถึงการแต่งงานระหว่างเพศเดียวกัน แม้ว่าแพลตฟอร์มเหล่านี้จะทำให้การเข้าถึงข้อมูลเป็นประชาธิปไตยและส่งเสริมมุมมองที่หลากหลาย แต่ก็ทำหน้าที่เป็นกระจกสะท้อนอคติทางสังคม การวิจัยเน้นย้ำว่าเมื่ออคติเหล่านี้หาทางเข้าไปในข้อมูลที่ใช้สำหรับการฝึกอบรม LMs แบบจำลองสามารถขยายเวลาและขยายความเอนเอียงเหล่านี้ในการคาดคะเนได้ เมื่อพิจารณาถึงผลกระทบที่ลึกซึ้งของการค้นพบนี้ จึงจำเป็นอย่างยิ่งที่จะต้องพิจารณาผลกระทบที่กว้างขึ้นในด้าน NLP
ผลกระทบต่ออนาคตของ NLP
ผลกระทบที่กระเพื่อม ความลำเอียงเหล่านี้ใน LMs ขยายไปไกลเกินกว่าการคาดคะเนที่เบ้ ผลการวิจัยนี้ไม่ใช่เพียงวิชาการเท่านั้น พวกเขามีความหมายอย่างลึกซึ้งต่ออนาคตของ NLP การศึกษานี้เป็นเครื่องเตือนใจว่า แม้ว่า LMs ได้ปฏิวัติการใช้งานจำนวนมาก แต่พวกมันก็ไม่รอดพ้นจากความลำเอียงของข้อมูลที่พวกเขาได้รับการฝึกฝน นักวิจัยเน้นย้ำถึงความต้องการความโปร่งใสในการทำความเข้าใจแหล่งที่มาของข้อมูลก่อนการฝึกอบรมและความลำเอียงโดยธรรมชาติ พวกเขายังเน้นถึงความท้าทายในการสร้างความมั่นใจว่าโมเดลดาวน์สตรีมซึ่งอาศัย LM เหล่านี้มีความยุติธรรมและเป็นกลาง ขณะที่เราสะท้อนความท้าทายเหล่านี้ สิ่งสำคัญคือต้องระบุประเด็นสำคัญสำหรับชุมชน NLP