เกณฑ์มาตรฐาน FACTS ใหม่ของ Google วัดความเป็นจริงของโมเดล AI

Google DeepMind ได้เปิดตัว FACTS Grounding ซึ่งเป็นเกณฑ์มาตรฐานใหม่ที่ออกแบบมาเพื่อทดสอบโมเดลภาษาขนาดใหญ่ (LLM) เกี่ยวกับความสามารถในการสร้างการตอบสนองตามข้อเท็จจริงที่แม่นยำตามเอกสาร

เกณฑ์มาตรฐาน โฮสต์บน Kaggle มีเป้าหมายที่จะจัดการกับหนึ่งในความท้าทายเร่งด่วนที่สุดใน ปัญญาประดิษฐ์: ตรวจสอบให้แน่ใจว่าเอาต์พุตของ AI นั้นยึดตามข้อมูลที่มอบให้ แทนที่จะอาศัยความรู้ภายนอกหรือทำให้เกิดอาการประสาทหลอน ซึ่งเป็นข้อมูลที่น่าเชื่อถือแต่ไม่ถูกต้อง

บอร์ดผู้นำ FACTS Grounding ในปัจจุบันจัดอันดับโมเดลภาษาขนาดใหญ่ตามคะแนนข้อเท็จจริง โดย Google gemini-2.0-flash-exp ชั้นนำที่ 83.6% ตามมาอย่างใกล้ชิดด้วย gemini-1.5-flash-002 ที่ 82.9% และ gemini-1.5-pro-002 ที่ 80.0%

claude-3.5-sonnet-20241022 ของมานุษยวิทยา อันดับที่สี่ด้วย 79.4% ในขณะที่ OpenAI gpt-4o ทำได้ 78.8% อยู่ในอันดับที่ 5 อันดับที่ต่ำกว่า ได้แก่ claude-3.5-haiku-20241022 ของ Anthropic ได้คะแนน 74.2% ตามด้วย gpt-4o-mini ที่ 71.0%

โมเดลขนาดเล็กของ OpenAI o1-mini และ o1-preview ปัดเศษบอร์ดผู้นำที่ 62.0% และ 61.7% ตามลำดับ

ที่มา: คากเกิล

FACTS Grounding มีความโดดเด่นโดยกำหนดให้มีการตอบกลับแบบยาวที่สังเคราะห์เอกสารอินพุตโดยละเอียด ทำให้เป็นหนึ่งใน เกณฑ์มาตรฐานที่เข้มงวดที่สุดสำหรับข้อเท็จจริงของ AI จนถึงปัจจุบัน

FACTS Grounding แสดงถึงการพัฒนาที่สำคัญสำหรับอุตสาหกรรม AI โดยเฉพาะอย่างยิ่งในการใช้งานที่จำเป็นต้องมีความน่าเชื่อถือและความแม่นยำ ด้วยการประเมิน LLM ในโดเมนต่างๆ เช่น การแพทย์ กฎหมาย การเงิน การค้าปลีก และเทคโนโลยี มาตรฐานดังกล่าวจะกำหนดขั้นตอนสำหรับการปรับปรุงความน่าเชื่อถือของ AI ในสถานการณ์จริง

ตามรายงานของทีมวิจัยของ DeepMind “เกณฑ์มาตรฐานวัดความสามารถของ LLM ในการสร้างการตอบสนองโดยมีพื้นฐานเฉพาะในบริบทที่ให้มา…แม้ว่าบริบทจะขัดแย้งกับความรู้ก่อนการฝึกอบรมก็ตาม”

ชุดข้อมูลสำหรับความซับซ้อนในโลกแห่งความเป็นจริง

FACTS Grounding ประกอบด้วยตัวอย่าง 1,719 ตัวอย่าง เรียบเรียงโดยผู้อธิบายประกอบที่เป็นมนุษย์เพื่อให้แน่ใจว่าตัวอย่างเหล่านี้มีความเกี่ยวข้องและหลากหลาย ดึงมาจากเอกสารที่มีรายละเอียดซึ่งมีมากถึง 32,000 โทเค็น ซึ่งเทียบเท่ากับคำประมาณ 20,000 คำ

แต่ละงานท้าทาย LLM ให้ดำเนินการสรุป การสร้างคำถามและคำตอบ หรือการเขียนเนื้อหาใหม่ โดยมีคำแนะนำที่เข้มงวดในการอ้างอิงเฉพาะข้อมูลที่ให้ไว้ เกณฑ์มาตรฐานหลีกเลี่ยงงานที่ต้องใช้ความคิดสร้างสรรค์ การใช้เหตุผลทางคณิตศาสตร์ หรือการตีความของผู้เชี่ยวชาญ โดยมุ่งเน้นไปที่การทดสอบความสามารถของแบบจำลองในการสังเคราะห์และสื่อสารข้อมูลที่ซับซ้อนแทน

เพื่อรักษาความโปร่งใสและป้องกันการใส่ข้อมูลมากเกินไป DeepMind ได้แบ่งชุดข้อมูลออกเป็นสองส่วน ได้แก่ ตัวอย่างสาธารณะ 860 ตัวอย่างสำหรับใช้ภายนอก และตัวอย่างส่วนตัว 859 ตัวอย่างที่สงวนไว้สำหรับการประเมินบอร์ดผู้นำ

โครงสร้างแบบคู่นี้ปกป้องความสมบูรณ์ของเกณฑ์มาตรฐาน ในขณะเดียวกันก็สนับสนุนการทำงานร่วมกันจากนักพัฒนา AI ทั่วโลก “เราประเมินผู้ประเมินอัตโนมัติของเราอย่างเข้มงวดโดยใช้ข้อมูลการทดสอบที่เก็บไว้เพื่อตรวจสอบประสิทธิภาพในการทำงานของเรา” ทีมวิจัยตั้งข้อสังเกต โดยเน้นการออกแบบที่ระมัดระวังซึ่งเป็นรากฐานของ FACTS Grounding

ตัดสินความแม่นยำโดยผู้เชี่ยวชาญ โมเดล AI

FACTS Grounding แตกต่างจากการวัดประสิทธิภาพทั่วไปตรงที่ใช้กระบวนการตรวจสอบโดยผู้ทรงคุณวุฒิที่เกี่ยวข้องกับ LLM ขั้นสูง 3 รายการ ได้แก่ Gemini 1.5 Pro GPT-4o และ Claude 3.5 Sonnet โมเดลเหล่านี้ทำหน้าที่เป็นผู้ตัดสิน โดยให้คะแนนคำตอบตามเกณฑ์สำคัญ 2 ประการ: สิทธิ์และความถูกต้องของข้อเท็จจริง จากนั้นผู้ที่มีคุณสมบัติจะได้รับการประเมินตามพื้นฐานในแหล่งข้อมูล โดยมีคะแนนรวมในแบบจำลองทั้งสามเพื่อลดอคติ

นักวิจัยของ DeepMind เน้นย้ำถึงความสำคัญของสิ่งนี้ การประเมินแบบหลายชั้น โดยระบุว่า “ตัวชี้วัดที่มุ่งเน้นไปที่การประเมินความเป็นจริงของข้อความที่สร้างขึ้น…สามารถหลีกเลี่ยงได้โดยการเพิกเฉยต่อเจตนาเบื้องหลังคำขอของผู้ใช้ ด้วยการให้คำตอบที่สั้นลงซึ่งหลีกเลี่ยงการถ่ายทอดข้อมูลที่ครอบคลุม…จึงเป็นไปได้ที่จะได้รับคะแนนตามข้อเท็จจริงที่สูงโดยไม่ได้ให้คำตอบที่เป็นประโยชน์”

การใช้เทมเพลตการให้คะแนนหลายรายการ รวมถึงแนวทางระดับสแปนและ JSON ยังรับประกันความสอดคล้องกับวิจารณญาณของมนุษย์และความสามารถในการปรับตัวเข้ากับงานที่หลากหลาย

การจัดการกับความท้าทายของภาพหลอนของ AI

ภาพหลอนของ AI เป็นหนึ่งในอุปสรรคที่สำคัญที่สุดของ การใช้ LLM อย่างกว้างขวางในสาขาที่สำคัญ ข้อผิดพลาดเหล่านี้ซึ่งแบบจำลองสร้างผลลัพธ์ที่ดูน่าเชื่อถือแต่ไม่ถูกต้องตามข้อเท็จจริง ก่อให้เกิดความเสี่ยงร้ายแรงในโดเมนต่างๆ เช่น การดูแลสุขภาพ การวิเคราะห์ทางกฎหมาย และการรายงานทางการเงิน

การต่อสายดินระบุข้อเท็จจริงโดยตรง ปัญหานี้โดยการบังคับใช้การปฏิบัติตามข้อมูลอินพุตที่ให้มาอย่างเข้มงวด วิธีการนี้ไม่เพียงแต่ประเมินความสามารถของโมเดลในการหลีกเลี่ยงการแนะนำสิ่งที่เป็นเท็จ แต่ยังช่วยให้แน่ใจว่าเอาต์พุตยังคงสอดคล้องกับข้อมูลของผู้ใช้อีกด้วย ความตั้งใจ

ตรงกันข้ามกับเกณฑ์มาตรฐานอย่าง SimpleQA ของ OpenAI ซึ่งวัดความเป็นจริงในการดึงข้อมูลการฝึกอบรม FACTS Grounding จะทดสอบว่าโมเดลสังเคราะห์ข้อมูลใหม่ได้ดีเพียงใด

รายงานการวิจัยเน้นย้ำความแตกต่างนี้: “การรับรองความถูกต้องของข้อเท็จจริงในขณะที่สร้างคำตอบ LLM ถือเป็นเรื่องท้าทาย ความท้าทายหลักในข้อเท็จจริงของ LLM คือการสร้างแบบจำลอง (เช่น สถาปัตยกรรม การฝึกอบรม และการอนุมาน) และการวัดผล (เช่น วิธีการประเมิน ข้อมูล และตัวชี้วัด)”

ความท้าทายทางเทคนิคและการออกแบบเกณฑ์มาตรฐาน

ความซับซ้อนของอินพุตแบบยาวทำให้เกิดความท้าทายทางเทคนิคที่ไม่เหมือนใคร โดยเฉพาะอย่างยิ่งในการออกแบบวิธีการประเมินอัตโนมัติที่สามารถประเมินการตอบสนองดังกล่าวได้อย่างแม่นยำ

ข้อเท็จจริง ในกระบวนการที่ต้องใช้คอมพิวเตอร์อย่างเข้มข้นเพื่อตรวจสอบการตอบสนอง โดยใช้เกณฑ์ที่เข้มงวดเพื่อรับรองความน่าเชื่อถือ การรวมแบบจำลองการตัดสินหลายแบบช่วยลดอคติที่อาจเกิดขึ้นและเสริมความแข็งแกร่งให้กับกรอบการประเมินโดยรวม

ทีมวิจัยเน้นย้ำถึงความสำคัญของการตัดสิทธิ์คำตอบที่คลุมเครือหรือไม่เกี่ยวข้อง โดยสังเกตว่า “การตัดสิทธิ์คำตอบที่ไม่มีคุณสมบัติจะนำไปสู่การลดลง…เนื่องจากคำตอบเหล่านี้ถือว่าไม่ถูกต้อง”

การบังคับใช้ความเกี่ยวข้องที่เข้มงวดนี้ทำให้แน่ใจได้ว่าโมเดลจะไม่ได้รับรางวัลจากการหลีกเลี่ยงเจตนารมณ์ของงาน

สนับสนุนการทำงานร่วมกันด้วยความโปร่งใส

การตัดสินใจของ DeepMind ในการโฮสต์ FACTS Grounding บน Kaggle สะท้อนให้เห็นถึงความมุ่งมั่นของบริษัทในการส่งเสริมความร่วมมือในอุตสาหกรรม AI ด้วยการทำให้ส่วนสาธารณะของชุดข้อมูลสามารถเข้าถึงได้ โครงการนี้จึงขอเชิญชวนนักวิจัยและนักพัฒนา AI ให้ประเมินแบบจำลองของตนกับมาตรฐานที่แข็งแกร่ง และมีส่วนช่วยในการพัฒนาเกณฑ์มาตรฐานข้อเท็จจริงที่ก้าวหน้า

แนวทางนี้สอดคล้องกับเป้าหมายที่กว้างขึ้นในด้านความโปร่งใสและความก้าวหน้าร่วมกันใน AI เพื่อให้มั่นใจว่าการปรับปรุงด้านความแม่นยำและพื้นฐานไม่ได้จำกัดอยู่เพียงองค์กรเดียว

ความแตกต่างจากองค์กรอื่น เกณฑ์มาตรฐาน

ข้อเท็จจริง การต่อสายดินสร้างความแตกต่างจากเกณฑ์มาตรฐานอื่นๆ โดยการมุ่งเน้นไปที่การต่อสายดินในอินพุตที่เพิ่งเปิดตัว แทนที่จะเป็นความรู้ที่ได้รับการฝึกอบรมล่วงหน้า

ในขณะที่เกณฑ์มาตรฐาน เช่น SimpleQA ของ OpenAI ประเมินว่าแบบจำลองดึงข้อมูลและใช้ข้อมูลจากคลังข้อมูลการฝึกอบรมได้ดีเพียงใด FACTS Grounding จะประเมินแบบจำลองเกี่ยวกับความสามารถในการสังเคราะห์และแสดงการตอบสนองโดยอิงจากข้อมูลที่ให้มาโดยเฉพาะ

ความแตกต่างนี้มีความสำคัญอย่างยิ่งในการจัดการกับความท้าทายที่เกิดจากอคติหรืออคติโดยธรรมชาติ ด้วยการแยกงานการประมวลผลอินพุตภายนอก FACTS Grounding ช่วยให้มั่นใจได้ว่าการวัดประสิทธิภาพสะท้อนถึงความสามารถของโมเดลในการทำงานในสถานการณ์จริงที่มีไดนามิก แทนที่จะเพียงดึงข้อมูลที่เรียนรู้ไว้ล่วงหน้ากลับคืนมา

ดังที่ DeepMind อธิบายไว้ในรายงานการวิจัย เกณฑ์มาตรฐานได้รับการออกแบบมาเพื่อประเมิน LLM เกี่ยวกับความสามารถในการจัดการคำถามที่ซับซ้อนและยาวโดยอาศัยข้อเท็จจริง เป็นการจำลองงานที่เกี่ยวข้องกับแอปพลิเคชันในโลกแห่งความเป็นจริง

วิธีการทางเลือกสำหรับการต่อสายดิน LLM

วิธีการหลายวิธีนำเสนอคุณสมบัติการต่อสายดินที่คล้ายกันกับการต่อสายดินของข้อเท็จจริง โดยแต่ละวิธีมีจุดแข็งและจุดอ่อน วิธีการเหล่านี้มีจุดมุ่งหมายเพื่อปรับปรุงผลลัพธ์ของ LLM โดยการปรับปรุงการเข้าถึงข้อมูลที่ถูกต้องหรือปรับปรุงกระบวนการฝึกอบรมและการจัดตำแหน่ง

Retrieval-Augmented Generation (RAG)

Retrieval-Augmented Generation (RAG) ช่วยเพิ่มความแม่นยำของเอาท์พุต LLM โดยการดึงข้อมูลที่เกี่ยวข้องแบบไดนามิกจากความรู้ภายนอก ฐานหรือฐานข้อมูลและรวมเข้ากับการตอบสนองของโมเดล แทนที่จะฝึกอบรม LLM ทั้งหมดใหม่ RAG จะทำงานโดยสกัดกั้นการแจ้งเตือนของผู้ใช้และเพิ่มข้อมูลที่ทันสมัย

การใช้งาน RAG ขั้นสูงมักจะใช้ประโยชน์จากการดึงข้อมูลตามเอนทิตี โดยที่ข้อมูลที่เกี่ยวข้องกับเอนทิตีเฉพาะจะรวมเป็นหนึ่งเดียว ให้บริบทที่มีความเกี่ยวข้องสูงสำหรับการตอบสนองของ LLM

โดยทั่วไปแล้ว RAG จะใช้เทคนิคการค้นหาเชิงความหมายในการดึงข้อมูล เอกสารหรือส่วนต่างๆ ของเอกสารได้รับการจัดทำดัชนีตามการฝังความหมาย ช่วยให้ระบบสามารถจับคู่คำค้นหาของผู้ใช้กับรายการที่เกี่ยวข้องตามบริบทมากที่สุด แนวทางนี้ช่วยให้แน่ใจว่า LLM สร้างคำตอบโดยได้รับแจ้งจากข้อมูลล่าสุดและเกี่ยวข้องมากที่สุด

ประสิทธิภาพของ RAG ขึ้นอยู่กับคุณภาพและการจัดระเบียบของฐานความรู้เป็นอย่างมาก รวมถึงความแม่นยำของอัลกอริธึมการดึงข้อมูล ในขณะที่ FACTS Grounding ประเมินความสามารถของ LLM ที่จะยังคงยึดติดกับเอกสารบริบทที่ให้มา RAG ก็ช่วยเสริมสิ่งนี้ด้วยการทำให้ LLM สามารถขยายความรู้แบบไดนามิก โดยดึงมาจากแหล่งข้อมูลภายนอกเพื่อเพิ่มข้อเท็จจริงและความเกี่ยวข้อง

การกลั่นความรู้

การกลั่นกรองความรู้เกี่ยวข้องกับการถ่ายโอน ความสามารถของแบบจำลองขนาดใหญ่และซับซ้อน (เรียกว่าครู) ไปสู่แบบจำลองเฉพาะงานที่มีขนาดเล็กกว่า (นักเรียน) วิธีการนี้ช่วยเพิ่มประสิทธิภาพในขณะที่ยังคงความแม่นยำของรุ่นดั้งเดิมไว้ได้มาก แนวทางหลักสองประการถูกนำมาใช้ในการกลั่นกรองความรู้:

การกลั่นกรองความรู้ตามการตอบสนอง: มุ่งเน้นไปที่การจำลองผลลัพธ์ของแบบจำลองของครู เพื่อให้แน่ใจว่าแบบจำลองของนักเรียนจะให้ผลลัพธ์ที่คล้ายคลึงกันสำหรับอินพุตที่กำหนด

การกลั่นกรองความรู้ตามคุณลักษณะ: แยกการนำเสนอและคุณลักษณะภายในออกจากโมเดลของครู ทำให้โมเดลของนักเรียนจำลองข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้นได้

โดยการปรับปรุงให้เล็กลง การกลั่นความรู้ช่วยให้สามารถปรับใช้ LLM ในสภาพแวดล้อมที่มีทรัพยากรจำกัดได้โดยไม่สูญเสียประสิทธิภาพอย่างมีนัยสำคัญ แตกต่างจาก FACTS Grounding ซึ่งประเมินความถูกต้องของสายดิน การกลั่นความรู้เกี่ยวข้องกับการปรับขนาดความสามารถของ LLM และการเพิ่มประสิทธิภาพสำหรับงานเฉพาะ

การปรับแต่งอย่างละเอียดด้วยชุดข้อมูลที่มีการต่อสายดิน

การปรับแต่งอย่างละเอียดเกี่ยวข้องกับการปรับตัวที่ได้รับการฝึกอบรมมาล่วงหน้า LLM ไปยังโดเมนหรืองานเฉพาะโดยการฝึกอบรมพวกเขาเกี่ยวกับชุดข้อมูลที่รวบรวมไว้ซึ่งพื้นฐานข้อเท็จจริงเป็นสิ่งสำคัญ ตัวอย่างเช่น ชุดข้อมูลที่ประกอบด้วยวรรณกรรมทางวิทยาศาสตร์หรือบันทึกทางประวัติศาสตร์สามารถนำมาใช้เพื่อปรับปรุงความสามารถของแบบจำลองในการสร้างผลลัพธ์ที่แม่นยำและเฉพาะเจาะจงโดเมน เทคนิคนี้ช่วยเพิ่มประสิทธิภาพ LLM สำหรับการใช้งานเฉพาะทาง เช่น การวิเคราะห์เอกสารทางการแพทย์หรือทางกฎหมาย

อย่างไรก็ตาม การปรับแต่งอย่างละเอียดต้องใช้ทรัพยากรจำนวนมากและเสี่ยงต่อการลืมอย่างหายนะ โดยที่แบบจำลองจะสูญเสียความรู้ที่ได้รับระหว่างการฝึกอบรมครั้งแรก ข้อเท็จจริง Grounding มุ่งเน้นไปที่การทดสอบข้อเท็จจริงในบริบทที่แยกออกมา ในขณะที่การปรับแต่งอย่างละเอียดพยายามปรับปรุงประสิทธิภาพพื้นฐานของ LLM ในพื้นที่เฉพาะ

การเรียนรู้แบบเสริมกำลังด้วยผลตอบรับของมนุษย์ (RLHF)

การเรียนรู้แบบเสริมกำลังด้วยการตอบสนองของมนุษย์ (RLHF) รวมเอามนุษย์ การตั้งค่าในกระบวนการฝึกอบรมของ LLM ด้วยการฝึกแบบจำลองซ้ำๆ เพื่อปรับการตอบสนองให้สอดคล้องกับความคิดเห็นของมนุษย์ RLHF จะปรับปรุงคุณภาพ ข้อเท็จจริง และประโยชน์ของผลลัพธ์ ผู้ประเมินที่เป็นมนุษย์จะให้คะแนนผลลัพธ์ของ LLM และคะแนนเหล่านี้จะใช้เป็นสัญญาณในการปรับโมเดลให้เหมาะสม

RLHF ประสบความสำเร็จเป็นพิเศษในการเพิ่มความพึงพอใจของผู้ใช้ และรับรองว่าการตอบสนองที่สร้างขึ้นนั้นสอดคล้องกับความคาดหวังของมนุษย์ ในขณะที่ FACTS Grounding ประเมินข้อเท็จจริงตามเอกสารเฉพาะ RLHF เน้นการจัดเอาต์พุต LLM ให้สอดคล้องกับคุณค่าและความชอบของมนุษย์

การติดตามคำแนะนำและการเรียนรู้ในบริบท

การเรียนรู้ตามคำสั่งและการเรียนรู้ในบริบทเกี่ยวข้องกับการสาธิตพื้นฐาน LLM ผ่านตัวอย่างที่สร้างขึ้นอย่างพิถีพิถันภายในพร้อมท์ผู้ใช้ วิธีการเหล่านี้ขึ้นอยู่กับความสามารถของโมเดลในการสรุปจากการสาธิตเพียงไม่กี่ช็อต แม้ว่าแนวทางนี้สามารถให้การปรับปรุงอย่างรวดเร็ว แต่ก็อาจไม่บรรลุถึงคุณภาพการต่อสายดินในระดับเดียวกับวิธีการปรับแต่งหรือดึงข้อมูล

เครื่องมือภายนอกและ API

LLM สามารถผสานรวมกับเครื่องมือและ API ภายนอกเพื่อให้สามารถเข้าถึงข้อมูลภายนอกแบบเรียลไทม์ ซึ่งช่วยเพิ่มความสามารถในการต่อสายดินได้อย่างมาก ตัวอย่างได้แก่:

ความสามารถในการเรียกดู: ช่วยให้ LLM สามารถเข้าถึงและดึงข้อมูลแบบเรียลไทม์จากเว็บเพื่อตอบคำถามเฉพาะหรืออัปเดตความรู้

การเรียก API: ช่วยให้ LLM สามารถโต้ตอบกับฐานข้อมูลหรือบริการที่มีโครงสร้าง เพิ่มการตอบสนองด้วยข้อมูลที่แม่นยำและทันสมัย

เครื่องมือเหล่านี้ขยายอรรถประโยชน์ของ LLM โดยการเชื่อมต่อเข้ากับของจริง-ความรู้ทางโลก แหล่งที่มา ปรับปรุงความสามารถในการสร้างผลลัพธ์ที่แม่นยำและมีเหตุผล ในขณะที่ FACTS Grounding ประเมินความเที่ยงตรงของการต่อสายดินภายใน เครื่องมือภายนอกจะมอบทางเลือกอื่นในการขยายและตรวจสอบข้อเท็จจริง

การต่อสายดินแบบจำลองโอเพ่นซอร์ส ตัวเลือก

การใช้งานโอเพ่นซอร์สหลายอย่างพร้อมใช้งานสำหรับวิธีการต่อลงดินทางเลือกที่กล่าวถึงข้างต้น:

MethodOpen-Source OptionsDescriptionRetrieval-Augmented Generation (RAG)LangChainมอบรากฐานที่ครอบคลุมสำหรับการสร้างแอปพลิเคชันด้วย LLM ซึ่งผสมผสานการออกแบบแบบแยกส่วนและยืดหยุ่นเข้ากับอินเทอร์เฟซระดับสูงLlamaIndexมุ่งเน้นไปที่การจัดทำดัชนีและการดึงข้อมูลที่มีประสิทธิภาพจากชุดข้อมูลขนาดใหญ่โดยใช้เทคนิคขั้นสูง เช่น การค้นหาความคล้ายคลึงของเวกเตอร์และการจัดทำดัชนีแบบลำดับชั้นRAGFlowนำเสนอเวิร์กโฟลว์ RAG ที่มีประสิทธิภาพสำหรับธุรกิจทุกขนาด โดยผสมผสาน LLM เพื่อให้มีความสามารถในการตอบคำถามตามความเป็นจริงพร้อมการอ้างอิงจากข้อมูลที่มีรูปแบบซับซ้อนต่างๆtxtaiเครื่องมือค้นหาที่ขับเคลื่อนด้วย AI ที่ช่วยให้สามารถค้นหาความหมาย การตอบคำถาม และการสรุปผ่านแหล่งข้อมูลต่างๆSWIRLซอฟต์แวร์โครงสร้างพื้นฐาน AI แบบโอเพ่นซอร์สที่ปรับปรุงไปป์ไลน์ AI โดยเปิดใช้งานการค้นหาที่รวดเร็วและปลอดภัยในแหล่งข้อมูลโดยไม่ต้องย้ายหรือคัดลอกข้อมูลCognitaเฟรมเวิร์กโอเพ่นซอร์สสำหรับการสร้างระบบ RAG แบบโมดูลาร์ที่พร้อมใช้งานจริงพร้อม UI สำหรับผู้ใช้ที่ไม่ใช่ด้านเทคนิคLLM-Wareเฟรมเวิร์กสำหรับการสร้างแอปพลิเคชันที่ขับเคลื่อนด้วย LLM โดยมุ่งเน้นที่ความเป็นโมดูลและความสามารถในการปรับขนาดการกลั่นความรู้เครื่องกลั่นแพลตฟอร์มการใช้งานที่ครอบคลุมสำหรับวิธีการกลั่นความรู้ที่หลากหลาย รวมถึงการกลั่นสม่ำเสมอที่ไม่แปรเปลี่ยน (ICD) และการเป็นตัวแทนเชิงสัมพันธ์ การกลั่น (RRD)TextBrewerชุดเครื่องมือกลั่นความรู้แบบโอเพ่นซอร์สสำหรับการประมวลผลภาษาธรรมชาติพร้อมรองรับวิธีการกลั่นและการกำหนดค่าต่างๆKD-Libไลบรารีที่ใช้ PyTorch แบบโอเพ่นซอร์สพร้อมการใช้งานอัลกอริธึมการกลั่นความรู้แบบโมดูลาร์ที่ล้ำสมัยknowledge-distillation-pytorchการใช้งาน PyTorch สำหรับการสำรวจการทดลองกลั่นกรองความรู้เชิงลึกและแบบตื้นด้วยความยืดหยุ่น การปรับแต่งอย่างละเอียดด้วยชุดข้อมูลแบบ Grounded<ก href="https://github.com/open-mmlab/mmdetection/blob/main/configs/mm_grounding_dino/README.md">MM-Grounding-DINOโอเพ่นซอร์ส ครอบคลุม และใช้งานง่าย ไปป์ไลน์สำหรับโมเดลการตรวจจับวัตถุที่มีการต่อสายดิน ซึ่งสร้างขึ้นด้วยกล่องเครื่องมือ MMDetectionLLaMA-Factoryไลบรารีที่ครอบคลุมสำหรับ การปรับแต่งโมเดลภาษา LLaMA อย่างละเอียด สนับสนุนแนวทางและเทคนิคการฝึกอบรมต่างๆการปรับแต่งการเล่นด้วยตนเอง (SPIN)เฟรมเวิร์กโอเพ่นซอร์ส สำหรับการปรับแต่ง LLM อย่างละเอียดสำหรับการสร้างข้อความที่มีเหตุผลโดยมุ่งเน้นที่การปรับปรุงการเชื่อมโยงกันและความถูกต้องของข้อเท็จจริง

ผลกระทบสำหรับแอปพลิเคชันที่มีเดิมพันสูง

ความสำคัญของความถูกต้องแม่นยำ และ การตอบสนองของ AI ที่มีพื้นฐานชัดเจนโดยเฉพาะอย่างยิ่งในการใช้งานที่มีความเสี่ยงสูง เช่น การวินิจฉัยทางการแพทย์ การตรวจสอบทางกฎหมาย และการวิเคราะห์ทางการเงิน ในบริบทเหล่านี้ แม้แต่ความไม่ถูกต้องเล็กน้อยก็สามารถนำไปสู่ผลลัพธ์ที่สำคัญได้ ทำให้ความน่าเชื่อถือของเอาต์พุตที่สร้างโดย AI เป็นข้อกำหนดที่ไม่สามารถต่อรองได้

ข้อเท็จจริง การเน้นย้ำของ Grounding เกี่ยวกับข้อเท็จจริงและการยึดมั่นในแหล่งข้อมูลทำให้มั่นใจได้ว่าแบบจำลองจะได้รับการทดสอบภายใต้เงื่อนไขที่สะท้อนความต้องการในโลกแห่งความเป็นจริงอย่างใกล้ชิด

ตัวอย่างเช่น ในบริบททางการแพทย์ LLM ที่ได้รับมอบหมายให้ดูแล การสรุปบันทึกผู้ป่วยต้องหลีกเลี่ยงข้อผิดพลาดที่อาจให้ข้อมูลการตัดสินใจในการรักษาที่ไม่ถูกต้อง ในทำนองเดียวกัน ในการตั้งค่าทางกฎหมาย การสร้างบทสรุปหรือการวิเคราะห์คดีต่างๆ จำเป็นต้องมีพื้นฐานที่ชัดเจนในเอกสารที่ให้มา

ข้อเท็จจริง Grounding ไม่เพียงแต่ประเมินแบบจำลองเกี่ยวกับความสามารถในการปฏิบัติตามข้อกำหนดที่เข้มงวดเหล่านี้ แต่ยังสร้างเกณฑ์มาตรฐานสำหรับนักพัฒนาเพื่อมุ่งเป้าในการสร้างระบบที่เหมาะสมสำหรับแอปพลิเคชันดังกล่าว

การขยาย ชุดข้อมูล FACTS และทิศทางในอนาคต

DeepMind ได้วางตำแหน่ง FACTS Grounding ให้เป็น”เกณฑ์มาตรฐานที่มีชีวิต”ซึ่งจะพัฒนาควบคู่ไปกับความก้าวหน้าใน AI การอัปเดตในอนาคตมีแนวโน้มที่จะขยายชุดข้อมูลให้รวม โดเมนและประเภทงานใหม่ๆ ช่วยให้มั่นใจว่ามีความเกี่ยวข้องอย่างต่อเนื่องในขณะที่ความสามารถของ LLM เติบโตขึ้น

นอกจากนี้ การเปิดตัวเทมเพลตการประเมินที่หลากหลายมากขึ้นยังช่วยเพิ่มความแข็งแกร่งของกระบวนการให้คะแนน จัดการกับกรณี Edge และลดอคติที่หลงเหลืออยู่

ดังที่ทีมวิจัยของ DeepMind รับทราบ ไม่มีเกณฑ์มาตรฐานใดที่สามารถสรุปความซับซ้อนของแอปพลิเคชันในโลกแห่งความเป็นจริงได้อย่างสมบูรณ์ อย่างไรก็ตาม โดยการทำซ้ำบน FACTS Grounding และการมีส่วนร่วมกับชุมชน AI ในวงกว้าง โครงการนี้มีจุดมุ่งหมายเพื่อยกระดับความเป็นจริงและพื้นฐานในระบบ AI

ดังที่ทีมงานของ DeepMind กล่าวว่า “ข้อเท็จจริงและพื้นฐานเป็นหนึ่งในปัจจัยสำคัญที่จะกำหนดความสำเร็จและประโยชน์ของ LLM และระบบ AI ที่กว้างขึ้นในอนาคต และเราตั้งเป้าที่จะเติบโตและทำซ้ำ FACTS Grounding ในขณะที่ภาคสนามดำเนินไป ยกระดับมาตรฐานอย่างต่อเนื่อง”

เกณฑ์มาตรฐาน FACTS ใหม่ของ Google วัดความเป็นจริงของโมเดล AI

Published by All Things Windows on December 18, 2024

ชุดข้อมูลสำหรับความซับซ้อนในโลกแห่งความเป็นจริง

ตัดสินความแม่นยำโดยผู้เชี่ยวชาญ โมเดล AI

การจัดการกับความท้าทายของภาพหลอนของ AI

ความท้าทายทางเทคนิคและการออกแบบเกณฑ์มาตรฐาน

สนับสนุนการทำงานร่วมกันด้วยความโปร่งใส

ความแตกต่างจากองค์กรอื่น เกณฑ์มาตรฐาน

วิธีการทางเลือกสำหรับการต่อสายดิน LLM

Retrieval-Augmented Generation (RAG)

การกลั่นความรู้

การปรับแต่งอย่างละเอียดด้วยชุดข้อมูลที่มีการต่อสายดิน

การเรียนรู้แบบเสริมกำลังด้วยผลตอบรับของมนุษย์ (RLHF)

การติดตามคำแนะนำและการเรียนรู้ในบริบท

เครื่องมือภายนอกและ API

การต่อสายดินแบบจำลองโอเพ่นซอร์ส ตัวเลือก

ผลกระทบสำหรับแอปพลิเคชันที่มีเดิมพันสูง

การขยาย ชุดข้อมูล FACTS และทิศทางในอนาคต

IT Info

คณะกรรมการที่ไม่แสวงหากำไรของ OpenAI จะได้รับเงินหลายพันล้านเมื่อย้ายไปยังองค์กรที่แสวงหาผลกำไร

IT Info

Salesforce เปิดตัว Agentforce 2.0 ขยาย AI Agents นอกเหนือจาก CRM

IT Info

วิธีเปลี่ยนการตั้งค่าการเขียนและตอบกลับในแอป Outlook สำหรับ Windows 11, 10

เกณฑ์มาตรฐาน FACTS ใหม่ของ Google วัดความเป็นจริงของโมเดล AI

Published by All Things Windows on December 18, 2024

ชุดข้อมูลสำหรับความซับซ้อนในโลกแห่งความเป็นจริง

ตัดสินความแม่นยำโดยผู้เชี่ยวชาญ โมเดล AI

การจัดการกับความท้าทายของภาพหลอนของ AI

ความท้าทายทางเทคนิคและการออกแบบเกณฑ์มาตรฐาน

สนับสนุนการทำงานร่วมกันด้วยความโปร่งใส

ความแตกต่างจากองค์กรอื่น เกณฑ์มาตรฐาน

วิธีการทางเลือกสำหรับการต่อสายดิน LLM

Retrieval-Augmented Generation (RAG)

การกลั่นความรู้

การปรับแต่งอย่างละเอียดด้วยชุดข้อมูลที่มีการต่อสายดิน

การเรียนรู้แบบเสริมกำลังด้วยผลตอบรับของมนุษย์ (RLHF)

การติดตามคำแนะนำและการเรียนรู้ในบริบท

เครื่องมือภายนอกและ API

การต่อสายดินแบบจำลองโอเพ่นซอร์ส ตัวเลือก

ผลกระทบสำหรับแอปพลิเคชันที่มีเดิมพันสูง

การขยาย ชุดข้อมูล FACTS และทิศทางในอนาคต

Related Posts

IT Info

คณะกรรมการที่ไม่แสวงหากำไรของ OpenAI จะได้รับเงินหลายพันล้านเมื่อย้ายไปยังองค์กรที่แสวงหาผลกำไร

IT Info

Salesforce เปิดตัว Agentforce 2.0 ขยาย AI Agents นอกเหนือจาก CRM

IT Info

วิธีเปลี่ยนการตั้งค่าการเขียนและตอบกลับในแอป Outlook สำหรับ Windows 11, 10