GPT-4o รุ่นต่อเนื่องหลายรูปแบบล่าสุดของ OpenAI กำลังเผชิญกับการตรวจสอบข้อเท็จจริงเนื่องจากปัญหาเกี่ยวกับข้อมูลโทเค็นของจีน ปัญหาดังกล่าวเกิดจากกระบวนการล้างข้อมูลไม่เพียงพอ ซึ่งนำไปสู่ปัญหาด้านประสิทธิภาพที่อาจเกิดขึ้นและการใช้งานในทางที่ผิด ตามที่นักวิจัยได้ศึกษาไลบรารีโทเค็นสาธารณะของ GPT-4o อย่างใกล้ชิด
โทเค็นเป็นหน่วยพื้นฐานในโมเดลภาษา เป็นตัวแทนคำ สำนวน หรือตัวอักษร ช่วยให้โมเดลประมวลผลข้อความได้อย่างมีประสิทธิภาพมากขึ้นโดยจดจำสตริงอักขระที่สอดคล้องกัน Tokenizer ใหม่ของ GPT-4o ประกอบด้วยโทเค็น 200,000 รายการ โดย 25% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ โดยมีวัตถุประสงค์เพื่อปรับปรุงงานหลายภาษา อย่างไรก็ตาม โทเค็นภาษาจีนส่วนใหญ่เป็นสแปมและวลีลามกอนาจาร ซึ่งไม่ได้ใช้กันทั่วไปในภาษาประจำวัน ความคลาดเคลื่อนนี้เกิดจากการกรองข้อมูลไม่เพียงพอในระหว่างขั้นตอนการฝึก
ผลกระทบต่อประสิทธิภาพของโมเดล
การมีอยู่ของโทเค็นที่ไม่เหมาะสมเหล่านี้อาจทำให้โมเดลสร้าง การตอบสนองที่ไร้สาระหรือไม่เกี่ยวข้อง นักวิจัยได้แสดงให้เห็นว่าโทเค็นเหล่านี้สามารถนำไปใช้ประโยชน์เพื่อหลีกเลี่ยงกลไกความปลอดภัยของ OpenAI ทำให้โมเดลสามารถสร้างเนื้อหาที่ไม่ปลอดภัยได้ Tianle Cai นักศึกษาปริญญาเอกจากมหาวิทยาลัยพรินซ์ตัน ระบุปัญหาโดยการวิเคราะห์โทเค็นจีนที่ยาวที่สุดในไลบรารีโทเค็นสาธารณะของ GPT-4o พบว่าส่วนใหญ่ เกี่ยวข้องกับการพนันและสื่อลามก.
เพิ่งเขียนสคริปต์เพื่อตรวจสอบเพิ่มเติมว่าคลังข้อมูลที่ใช้ในการฝึกโทเค็น gpt4o ถูกปนเปื้อนจากการหลอกลวงทางอินเทอร์เน็ตอย่างไร ผลลัพธ์ค่อนข้างน่าสนใจ… 🤦♂️🤦♂️🤦♂️https://t.co/Fc2T4rSHIx https://t.co/Q1Syh9amJn pic.twitter.com/lQ1u5aQoAs
— เทียนเล่อ กาย (@tianle_cai) 13 พฤษภาคม 2024
การทำความสะอาดข้อมูลและวิธีแก้ปัญหา
ผู้เชี่ยวชาญแนะนำว่าปัญหาเกิดจากการที่ข้อมูลการฝึกอบรมถูกปนเปื้อนโดยเว็บไซต์สแปมที่แย่งชิงเนื้อหาที่ไม่เกี่ยวข้องเพื่อเพิ่มการมองเห็น. ปัญหานี้ไม่มีอยู่ใน tokenizer เวอร์ชันก่อนหน้าที่ใช้ใน GPT-3.5 และ GPT-4 วิธีแก้ปัญหานี้รวมถึงการใช้กระบวนการล้างข้อมูลที่เข้มงวด และสร้างความมั่นใจว่าโทเค็นไนเซอร์และโมเดลภาษาได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่สอดคล้องกัน เทคนิคง่ายๆ เช่น การแปลคำหลักที่ตรวจพบโดยอัตโนมัติ สามารถลดความแพร่หลายของสแปมได้อย่างมาก
ปัญหานี้เน้นย้ำถึงความสำคัญของการล้างข้อมูลอย่างละเอียดในการพัฒนาโมเดลภาษา โดยเฉพาะอย่างยิ่งสำหรับภาษาที่ไม่ใช่ภาษาอังกฤษ เนื่องจาก OpenAI ยังคงปรับปรุงโมเดลอย่างต่อเนื่อง การจัดการกับปัญหาคุณภาพข้อมูลเหล่านี้จึงมีความจำเป็นต่อการปรับปรุงประสิทธิภาพและรักษาความไว้วางใจของผู้ใช้