Black Forest Labs (BFL) ได้เปิดตัวตระกูลโมเดล FLUX.2 ขนาดใหญ่ในวันอังคาร ด้วยการผสานรวม Vision-Language Model (VLM) จาก Mistral บริษัทสตาร์ทอัพนี้มุ่งเป้าไปที่การสร้างภาพในตรรกะในโลกแห่งความเป็นจริงมากกว่าความน่าจะเป็นของพิกเซล

เพื่อป้องกันไม่ให้สถาปัตยกรรมพารามิเตอร์ 32 พันล้านจากการบดขยี้ฮาร์ดแวร์ของผู้บริโภค BFL จึงร่วมมือกับ NVIDIA เพื่อเพิ่มประสิทธิภาพโมเดลสำหรับหน่วยประมวลผลกราฟิก GeForce RTX (GPU) เทคนิคการวัดปริมาณใหม่ช่วยลดการใช้ Video Random Access Memory (VRAM) ลง 40% ทำให้ระบบขนาดใหญ่สามารถทำงานได้ในเครื่อง

จะมาถึงเพียงไม่กี่วันหลังจากการเปิดตัว Gemini 3 Pro Image ของ Google การเปิดตัวครั้งนี้ท้าทายการเปลี่ยนแปลงไปสู่ระบบนิเวศแบบปิด BFL กำลังปล่อยน้ำหนักแบบเปิดสำหรับนักพัฒนา โดยเดิมพันว่านวัตกรรมของชุมชนจะแซงหน้าสวนที่มีกำแพงล้อมรอบขององค์กร

การเปลี่ยนแปลงทางสถาปัตยกรรม: การเพิ่มขึ้นของการใช้เหตุผล

Black Forest Labs (BFL) ทำลายมาตรฐานอุตสาหกรรมที่อาศัยความน่าจะเป็นของพิกเซลเพียงอย่างเดียว โดยได้ปรับโครงสร้างโมเดลเรือธงใหม่โดยพื้นฐาน FLUX.2 ใช้การออกแบบไฮบริดที่หลอมรวมหม้อแปลงกระแสแบบเรียงกระแสเข้ากับโมเดล Vision-Language (VLM) ซึ่งเป็นการเคลื่อนไหวที่มีจุดมุ่งหมายเพื่อกราวด์เอาต์พุตกำเนิดในความสอดคล้องเชิงตรรกะ

โดยการรวม”Mistral-3″เข้าด้วยกัน พารามิเตอร์ 24 พันล้าน VLM ระบบได้รับ”ความรู้ระดับโลก”อีกชั้นหนึ่งซึ่งโมเดลการแพร่กระจายแบบดั้งเดิมยังขาดอยู่

การบูรณาการของ VLM ช่วยให้โมเดลเข้าใจความสัมพันธ์เชิงพื้นที่และคุณสมบัติทางกายภาพก่อนที่จะเรนเดอร์พิกเซล จัดการปัญหา”ภาพหลอน”ได้โดยตรง ซึ่ง AI สร้างวัตถุหรือแสงที่เป็นไปไม่ได้ทางกายภาพ

เมื่ออธิบายถึงจุดประสงค์ในทางปฏิบัติเบื้องหลังการเปลี่ยนแปลงนี้ บริษัทกล่าวว่า:”FLUX.2 ได้รับการออกแบบมาสำหรับเวิร์กโฟลว์สร้างสรรค์ในโลกแห่งความเป็นจริง ไม่ใช่แค่เพียง เทคนิคการสาธิตหรือปาร์ตี้”

“ปัจจุบัน FLUX.2 ให้การสนับสนุนการอ้างอิงหลายรายการ โดยมีความสามารถในการรวมรูปภาพสูงสุด 10 ภาพเป็นเอาต์พุตใหม่ ความละเอียดเอาต์พุตสูงสุด 4MP การยึดเกาะที่รวดเร็วและความรู้ทั่วโลกดีขึ้นอย่างมาก และปรับปรุงการพิมพ์อย่างมีนัยสำคัญ”

FLUX.2 อยู่ที่นี่ – โมเดลการสร้างและแก้ไขรูปภาพที่มีความสามารถมากที่สุดของเราจนถึงปัจจุบัน

การอ้างอิงหลายรายการ 4MP. พร้อมการผลิต เปิดตุ้มน้ำหนัก

เข้าสู่สิ่งใหม่ pic.twitter.com/wynj1vfYTV

— แบล็ค ฟอเรสต์ แล็บส์ (@bfl_ml) 25 พฤศจิกายน 2025

การเปลี่ยนแปลงทางสถาปัตยกรรมดังกล่าวทำให้เกิดความสามารถที่เมื่อก่อนไม่น่าเชื่อถือ ความละเอียดเอาต์พุตสูงสุดเพิ่มขึ้นเป็น 4 ล้านพิกเซล (ประมาณ 2048×2048) ซึ่งเป็นข้อกำหนดที่กำหนดเป้าหมายการพิมพ์ระดับมืออาชีพและเวิร์กโฟลว์การแสดงผลที่มีความละเอียดสูง ไม่ใช่แค่การใช้โซเชียลมีเดียเท่านั้น

ฟีเจอร์”การควบคุมการอ้างอิงหลายรายการ”ใหม่ช่วยให้ผู้ใช้สามารถป้อนรูปภาพอ้างอิงที่แตกต่างกันได้สูงสุด 10 ภาพพร้อมกัน ออกแบบมาสำหรับการเขียนสตอรี่บอร์ดเชิงพาณิชย์ ฟีเจอร์นี้รักษาสไตล์ที่เข้มงวดและความสอดคล้องของตัวละครในหลายรุ่น ซึ่งเป็นข้อกำหนดที่สำคัญสำหรับการสร้างเนื้อหาแคมเปญ

FLUX.2 มีตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE) ใหม่ที่ออกแบบมาเพื่อสมดุลระหว่างความสามารถในการเรียนรู้ คุณภาพ และการบีบอัด โดยเพิ่มประสิทธิภาพโมเดลเพิ่มเติมสำหรับสถานการณ์การใช้งานที่หลากหลาย

ความสามารถด้านการพิมพ์ยังได้รับการปรับปรุงใหม่อีกด้วย ด้วยการยกเครื่องจุดอ่อนก่อนหน้านี้ ระบบจึงเรนเดอร์สตริงข้อความและเค้าโครงที่ซับซ้อนได้อย่างน่าเชื่อถือ โดยกำหนดเป้าหมายไปที่ข้อบกพร่องอันฉาวโฉ่ของรุ่นก่อนหน้าซึ่งมักสร้างตัวอักษรที่อ่านไม่ออกหรือไร้สาระ

คอขวดของฮาร์ดแวร์และการแก้ไขของ NVIDIA

การจัดการกับข้อจำกัดของฮาร์ดแวร์ที่มีอยู่ในระบบที่ซับซ้อนดังกล่าวจำเป็นต้องใช้ความพยายามทางวิศวกรรมโดยเฉพาะ ด้วยน้ำหนักที่พารามิเตอร์มากถึง 32 พันล้านพารามิเตอร์ โมเดลเต็มจึงต้องการ VRAM ขนาด 90GB เพื่อโหลดในสถานะที่ไม่มีการคำนวน

ข้อกำหนดดังกล่าวทำให้โมเดลอยู่นอกเหนือความสามารถของฮาร์ดแวร์ผู้บริโภคที่มีราคาแพงที่สุด อย่างเช่น NVIDIA GeForce RTX 4090 ขนาด 24GB การเรียกใช้โมเดลในเครื่องโดยทั่วไปจะต้องใช้คลัสเตอร์เซิร์ฟเวอร์ระดับองค์กร ซึ่งจำกัดการเข้าถึงให้เหลือเพียงเศษเสี้ยวของฐานผู้ใช้ที่มีศักยภาพ

ในการแก้ปัญหานี้ BFL เป็นพันธมิตรโดยตรงกับ NVIDIA เพื่อใช้การวัดปริมาณ FP8 (จุดลอยตัว 8 บิต) การแบ่งปริมาณช่วยลดความต้องการ VRAM ลง 40% ในขณะที่ยังคง”คุณภาพที่เทียบเคียงได้”ทำให้โมเดลนี้เข้าถึงเวิร์กสเตชันสำหรับผู้ชื่นชอบระดับไฮเอนด์ได้ NVIDIA เขียนว่า:

“รุ่น FLUX.2 ใหม่นั้นน่าประทับใจ แต่ก็มีความต้องการค่อนข้างสูง โดยใช้งานโมเดลที่มีพารามิเตอร์สูงถึง 32 พันล้านพารามิเตอร์ ซึ่งต้องใช้ VRAM ขนาด 90GB เพื่อโหลดอย่างสมบูรณ์”[…] “เพื่อขยายการเข้าถึงโมเดล FLUX.2 ทาง NVIDIA และ Black Forest Labs ได้ร่วมมือกันเพื่อกำหนดจำนวนโมเดลเป็น FP8 — ลดข้อกำหนด VRAM ลง 40% ในคุณภาพที่เทียบเคียงได้”

สำหรับผู้ใช้ที่ยังขาด VRAM ที่เพียงพอ การร่วมมือกับ ComfyUI จะแนะนำฟีเจอร์”การสตรีมน้ำหนัก”ใหม่ การสตรีมน้ำหนักช่วยให้บางส่วนของโมเดลได้รับการออฟโหลดแบบไดนามิกไปยัง RAM ของระบบที่ช้ากว่า ความเร็วในการอนุมานการซื้อขายสำหรับความสามารถในการรันโมเดลทั้งหมดบนฮาร์ดแวร์ที่มีข้อจำกัด

ยังมีการวางแผนการเข้าถึงในอนาคตด้วย โมเดล “Klein” ซึ่งอธิบายว่าเป็นสถาปัตยกรรมเวอร์ชันกลั่นขนาด กำลังอยู่ในระหว่างการพัฒนาเพื่อกำหนดเป้าหมายฮาร์ดแวร์ที่มีสเปคต่ำกว่า แม้ว่าวันที่เผยแพร่ที่เฉพาะเจาะจงจะยังคงไม่ได้รับการยืนยันก็ตาม

การกำหนดราคาสำหรับ API มีการวางตำแหน่งที่เข้มงวด โดยประมาณการระหว่าง 0.01 ถึง 0.04 เหรียญสหรัฐฯ ต่อภาพ โครงสร้างที่ตัดราคาคู่แข่งได้ท้าทายภาวะที่กลืนไม่เข้าคายไม่ออก”ซื้อกับสร้าง”สำหรับบริษัทเทคโนโลยีขนาดใหญ่ที่ต้องตัดสินใจว่าจะพัฒนาโมเดลของตนเองหรือออกใบอนุญาตเทคโนโลยีภายนอกที่เหนือกว่า

Open Weights vs. The Walled Gardens

ในขณะที่คู่แข่งล็อกโมเดลของตนไว้เบื้องหลัง API ที่มีการควบคุมอย่างเข้มงวด BFL ก็ยังคงรักษากลยุทธ์การเปิดตัวแบบแบ่งระดับซึ่งรวมถึงการเข้าถึงแบบเปิด FLUX.2 dev เสนอน้ำหนักแบบเปิดสำหรับการใช้งานและการวิจัยที่ไม่ใช่เชิงพาณิชย์ ช่วยให้ชุมชนสามารถตรวจสอบและสร้างเทคโนโลยีหลักได้

ผู้ใช้เชิงพาณิชย์จะถูกนำทางไปยังระดับ API เท่านั้น [โปร] และ [flex] ซึ่งนำเสนอโครงสร้างพื้นฐานที่มีการจัดการและข้อตกลงระดับบริการ การควบคุมพารามิเตอร์การสร้างแบบละเอียด เช่น การนับก้าวและสเกลคำแนะนำถูกนำมาใช้ในระดับ [flex] เพื่อรองรับผู้ใช้ระดับสูงที่ต้องการการปรับแต่งอย่างละเอียด

BFL อธิบายปรัชญาเบื้องหลังการเปิดตัวแบบเปิดว่า”เราเชื่อว่าความฉลาดทางการมองเห็นควรได้รับการกำหนดโดยนักวิจัย ครีเอทีฟ และนักพัฒนาทุกแห่ง ไม่ใช่แค่เพียงไม่กี่คน”

การปล่อยน้ำหนักแตกต่างอย่างมากกับการเปิดตัวรูปภาพ Gemini 3 Pro และโมเดลการสร้างภาพของ OpenAI ซึ่งดำเนินการอยู่ เป็นระบบปิดอย่างสมบูรณ์ ด้วยการปล่อยน้ำหนัก BFL กำลังวางเดิมพันว่าการเพิ่มประสิทธิภาพที่ขับเคลื่อนโดยชุมชนจะช่วยเร่งการพัฒนาโมเดลได้เร็วกว่าการวิจัยและพัฒนาภายในเพียงอย่างเดียว

นักพัฒนาสามารถเข้าถึงโมเดลผ่านแพลตฟอร์มของพันธมิตร รวมถึง Fal, Replicate และ TogetherAI ได้ทันที 

บริบทของตลาด: สงคราม”การให้เหตุผล”

มาถึงเพียงห้าวันหลังจากที่ Google เปิดตัว Gemini 3 Pro Image การเปิดตัวครั้งนี้เน้นย้ำถึงจุดเปลี่ยนทั่วทั้งอุตสาหกรรม ทั้งสองรุ่นนำเสนอความสามารถ”การให้เหตุผล”โดยแนะนำว่าผู้ขายกำลังเร่งสร้างเครื่องมือของตนให้มีความน่าเชื่อถือเพียงพอสำหรับการใช้งานในองค์กร ไม่ใช่แค่การสำรวจเชิงสร้างสรรค์

ข้อตกลงล่าสุดของ Meta ที่รายงานมูลค่า 140 ล้านดอลลาร์กับ BFL เป็นการตรวจสอบเทคโนโลยีของสตาร์ทอัพว่าเป็นทางเลือกที่เป็นไปได้สำหรับการพัฒนาภายในองค์กร แม้แต่ยักษ์ใหญ่ด้านเทคโนโลยีที่มีทรัพยากรมากมายก็ยังพบว่าเป็นเรื่องยากที่จะก้าวให้ทันห้องแล็บเฉพาะทางในพื้นที่ generative AI

BFL คาดการณ์ว่าการเปลี่ยนแปลงนี้จะมีผลกระทบที่ยั่งยืน โดยระบุว่า:”การเปลี่ยนแปลงทางเศรษฐศาสตร์ของรุ่นอย่างรุนแรง FLUX.2 จะกลายเป็นส่วนที่ขาดไม่ได้ของโครงสร้างพื้นฐานที่สร้างสรรค์ของเรา”

Categories: IT Info