GPT-4o ของ OpenAI มีปัญหาเรื่องสื่อลามกและสแปมของจีน

GPT-4o รุ่นต่อเนื่องหลายรูปแบบล่าสุดของ OpenAI กำลังเผชิญกับการตรวจสอบข้อเท็จจริงเนื่องจากปัญหาเกี่ยวกับข้อมูลโทเค็นของจีน ปัญหาดังกล่าวเกิดจากกระบวนการล้างข้อมูลไม่เพียงพอ ซึ่งนำไปสู่ปัญหาด้านประสิทธิภาพที่อาจเกิดขึ้นและการใช้งานในทางที่ผิด ตามที่นักวิจัยได้ศึกษาไลบรารีโทเค็นสาธารณะของ GPT-4o อย่างใกล้ชิด

โทเค็นเป็นหน่วยพื้นฐานในโมเดลภาษา เป็นตัวแทนคำ สำนวน หรือตัวอักษร ช่วยให้โมเดลประมวลผลข้อความได้อย่างมีประสิทธิภาพมากขึ้นโดยจดจำสตริงอักขระที่สอดคล้องกัน Tokenizer ใหม่ของ GPT-4o ประกอบด้วยโทเค็น 200,000 รายการ โดย 25% เป็นภาษาที่ไม่ใช่ภาษาอังกฤษ โดยมีวัตถุประสงค์เพื่อปรับปรุงงานหลายภาษา อย่างไรก็ตาม โทเค็นภาษาจีนส่วนใหญ่เป็นสแปมและวลีลามกอนาจาร ซึ่งไม่ได้ใช้กันทั่วไปในภาษาประจำวัน ความคลาดเคลื่อนนี้เกิดจากการกรองข้อมูลไม่เพียงพอในระหว่างขั้นตอนการฝึก

ผลกระทบต่อประสิทธิภาพของโมเดล

การมีอยู่ของโทเค็นที่ไม่เหมาะสมเหล่านี้อาจทำให้โมเดลสร้าง การตอบสนองที่ไร้สาระหรือไม่เกี่ยวข้อง นักวิจัยได้แสดงให้เห็นว่าโทเค็นเหล่านี้สามารถนำไปใช้ประโยชน์เพื่อหลีกเลี่ยงกลไกความปลอดภัยของ OpenAI ทำให้โมเดลสามารถสร้างเนื้อหาที่ไม่ปลอดภัยได้ Tianle Cai นักศึกษาปริญญาเอกจากมหาวิทยาลัยพรินซ์ตัน ระบุปัญหาโดยการวิเคราะห์โทเค็นจีนที่ยาวที่สุดในไลบรารีโทเค็นสาธารณะของ GPT-4o พบว่าส่วนใหญ่ เกี่ยวข้องกับการพนันและสื่อลามก.

เพิ่งเขียนสคริปต์เพื่อตรวจสอบเพิ่มเติมว่าคลังข้อมูลที่ใช้ในการฝึกโทเค็น gpt4o ถูกปนเปื้อนจากการหลอกลวงทางอินเทอร์เน็ตอย่างไร ผลลัพธ์ค่อนข้างน่าสนใจ… 🤦‍♂️🤦‍♂️🤦‍♂️https://t.co/Fc2T4rSHIx https://t.co/Q1Syh9amJn pic.twitter.com/lQ1u5aQoAs

— เทียนเล่อ กาย (@tianle_cai) 13 พฤษภาคม 2024

การทำความสะอาดข้อมูลและวิธีแก้ปัญหา

ผู้เชี่ยวชาญแนะนำว่าปัญหาเกิดจากการที่ข้อมูลการฝึกอบรมถูกปนเปื้อนโดยเว็บไซต์สแปมที่แย่งชิงเนื้อหาที่ไม่เกี่ยวข้องเพื่อเพิ่มการมองเห็น. ปัญหานี้ไม่มีอยู่ใน tokenizer เวอร์ชันก่อนหน้าที่ใช้ใน GPT-3.5 และ GPT-4 วิธีแก้ปัญหานี้รวมถึงการใช้กระบวนการล้างข้อมูลที่เข้มงวด และสร้างความมั่นใจว่าโทเค็นไนเซอร์และโมเดลภาษาได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่สอดคล้องกัน เทคนิคง่ายๆ เช่น การแปลคำหลักที่ตรวจพบโดยอัตโนมัติ สามารถลดความแพร่หลายของสแปมได้อย่างมาก

ปัญหานี้เน้นย้ำถึงความสำคัญของการล้างข้อมูลอย่างละเอียดในการพัฒนาโมเดลภาษา โดยเฉพาะอย่างยิ่งสำหรับภาษาที่ไม่ใช่ภาษาอังกฤษ เนื่องจาก OpenAI ยังคงปรับปรุงโมเดลอย่างต่อเนื่อง การจัดการกับปัญหาคุณภาพข้อมูลเหล่านี้จึงมีความจำเป็นต่อการปรับปรุงประสิทธิภาพและรักษาความไว้วางใจของผู้ใช้

GPT-4o ของ OpenAI มีปัญหาเรื่องสื่อลามกและสแปมของจีน

Published by All Things Windows on May 18, 2024

ผลกระทบต่อประสิทธิภาพของโมเดล

การทำความสะอาดข้อมูลและวิธีแก้ปัญหา

IT Info

วิธีเปิดและจัดเรียงแอปอัตโนมัติด้วย PowerToys บน Windows

IT Info

วิธีเปิดใช้งานเค้าโครงแป้นพิมพ์เกมแพดบน Windows 11

IT Info

วิธีเปิดใช้งาน Voice Focus เพื่อลดเสียงรบกวนรอบข้างไมโครโฟนใน Windows 11

GPT-4o ของ OpenAI มีปัญหาเรื่องสื่อลามกและสแปมของจีน

Published by All Things Windows on May 18, 2024

ผลกระทบต่อประสิทธิภาพของโมเดล

การทำความสะอาดข้อมูลและวิธีแก้ปัญหา

Related Posts

IT Info

วิธีเปิดและจัดเรียงแอปอัตโนมัติด้วย PowerToys บน Windows

IT Info

วิธีเปิดใช้งานเค้าโครงแป้นพิมพ์เกมแพดบน Windows 11

IT Info

วิธีเปิดใช้งาน Voice Focus เพื่อลดเสียงรบกวนรอบข้างไมโครโฟนใน Windows 11