DeepSeek AI đã phát hành DeepSeek-VL2, một nhóm Mô hình Ngôn ngữ Thị giác (VLM) hiện có sẵn theo giấy phép nguồn mở. Dòng sản phẩm này giới thiệu ba biến thể—Tiny, Small và VL2 tiêu chuẩn—có kích thước tham số được kích hoạt lần lượt là 1,0 tỷ, 2,8 tỷ và 4,5 tỷ.

Có thể truy cập các mô hình này qua GitHub Ôm mặt. Họ hứa hẹn sẽ thúc đẩy các ứng dụng AI quan trọng, bao gồm trả lời câu hỏi trực quan (VQA), nhận dạng ký tự quang học (OCR) và phân tích biểu đồ và tài liệu có độ phân giải cao.

Theo tài liệu chính thức của GitHub, “DeepSeek-VL2 thể hiện khả năng vượt trội trong nhiều nhiệm vụ khác nhau, bao gồm nhưng không giới hạn ở việc trả lời câu hỏi trực quan, hiểu tài liệu/bảng/biểu đồ và nền tảng trực quan.”

Thời điểm phát hành này đặt DeepSeek AI cạnh tranh trực tiếp với những đối thủ lớn như OpenAI và Google, cả hai đều thống trị lĩnh vực AI ngôn ngữ thị giác với các mô hình độc quyền như GPT-4V và Gemini-Exp

<. p>Sự nhấn mạnh của DeepSeek vào cộng tác nguồn mở, kết hợp với các tính năng kỹ thuật tiên tiến của dòng VL2, coi đây là một lựa chọn miễn phí cho các nhà nghiên cứu.

Dynamic Tiling: Advancing Xử lý hình ảnh độ phân giải cao

Một trong những tiến bộ đáng chú ý nhất trong DeepSeek-VL2 là chiến lược mã hóa hình ảnh xếp kề linh hoạt, giúp cách mạng hóa cách các mô hình xử lý dữ liệu hình ảnh có độ phân giải cao.

Không giống như các phương pháp có độ phân giải cố định truyền thống, tính năng xếp kề động sẽ chia hình ảnh thành các ô nhỏ hơn, linh hoạt hơn để thích ứng với nhiều tỷ lệ khung hình khác nhau. Phương pháp này đảm bảo trích xuất tính năng chi tiết trong khi vẫn duy trì hiệu quả tính toán.

Trên kho lưu trữ GitHub của mình, DeepSeek mô tả đây là một cách để”xử lý hiệu quả các hình ảnh có độ phân giải cao với các tỷ lệ khung hình khác nhau, tránh việc mở rộng quy mô tính toán thường liên quan đến việc tăng độ phân giải hình ảnh.”

Khả năng này cho phép DeepSeek-VL2 vượt trội trong các ứng dụng như nối đất trực quan, trong đó độ chính xác cao là điều cần thiết để xác định đối tượng trong hình ảnh phức tạp và các tác vụ OCR dày đặc yêu cầu xử lý văn bản trong tài liệu hoặc biểu đồ chi tiết

By. tự động điều chỉnh theo các độ phân giải và khía cạnh hình ảnh khác nhau tỷ lệ, các mô hình khắc phục những hạn chế của phương pháp mã hóa tĩnh, khiến chúng phù hợp với các trường hợp sử dụng đòi hỏi cả tính linh hoạt và độ chính xác.

Sự kết hợp giữa các chuyên gia và sự chú ý tiềm ẩn của nhiều người để đạt được hiệu quả

strong>

Việc tăng hiệu suất của DeepSeek-VL2 được hỗ trợ thêm nhờ sự tích hợp của khung Hỗn hợp các chuyên gia (MoE) và cơ chế Chú ý tiềm ẩn nhiều đầu (MLA). Kiến trúc MoE kích hoạt có chọn lọc các tập hợp con cụ thể hoặc “chuyên gia” trong mô hình để xử lý các tác vụ hiệu quả hơn. Thiết kế này giúp giảm chi phí tính toán bằng cách chỉ tham gia các tham số cần thiết cho mỗi thao tác, một tính năng đặc biệt hữu ích trong môi trường hạn chế về tài nguyên.

Cơ chế MLA bổ sung cho khung MoE bằng cách nén bộ nhớ đệm Khóa-Giá trị vào trạng thái tiềm ẩn vectơ trong quá trình suy luận. Sự tối ưu hóa này giảm thiểu việc sử dụng bộ nhớ và tăng tốc độ xử lý mà không làm giảm độ chính xác của mô hình.

Theo tài liệu kỹ thuật, “Kiến trúc MoE, kết hợp với MLA, cho phép DeepSeek-VL2 đạt được hiệu suất cạnh tranh hoặc tốt hơn so với các mô hình dày đặc với ít tham số kích hoạt hơn.”

Quy trình đào tạo ba giai đoạn

Quá trình phát triển DeepSeek-VL2 bao gồm một quy trình đào tạo ba giai đoạn nghiêm ngặt được thiết kế để tối ưu hóa khả năng đa phương thức của mô hình. Giai đoạn đầu tiên tập trung vào sự liên kết giữa ngôn ngữ và hình ảnh. các mô hình đã được đào tạo để tích hợp các tính năng hình ảnh với thông tin văn bản

Điều này đạt được bằng cách sử dụng các bộ dữ liệu như ShareGPT4V, cung cấp các ví dụ văn bản-hình ảnh được ghép nối để căn chỉnh ban đầu. Giai đoạn thứ hai liên quan đến việc đào tạo trước ngôn ngữ thị giác, kết hợp nhiều loại phương pháp khác nhau. các bộ dữ liệu, bao gồm dữ liệu WIT, WikiHow và OCR đa ngôn ngữ, để nâng cao khả năng khái quát hóa của mô hình trên nhiều miền. Cuối cùng, giai đoạn thứ ba bao gồm tinh chỉnh có giám sát (SFT), trong đó các bộ dữ liệu dành riêng cho nhiệm vụ được sử dụng để tinh chỉnh. hiệu suất của mô hình trong các lĩnh vực như nền tảng trực quan, khả năng hiểu giao diện người dùng đồ họa (GUI) và chú thích dày đặc.

Các giai đoạn đào tạo này cho phép DeepSeek-VL2 xây dựng nền tảng vững chắc cho sự hiểu biết đa phương thức đồng thời cho phép các mô hình thích ứng với các mô hình chuyên môn nhiệm vụ. Việc kết hợp các bộ dữ liệu đa ngôn ngữ đã nâng cao hơn nữa khả năng ứng dụng của mô hình trong nghiên cứu toàn cầu và môi trường công nghiệp.

Có liên quan: Mô hình DeepSeek R1-Lite-Preview của Trung Quốc nhắm đến vị trí dẫn đầu của OpenAI trong lý luận tự động

Kết quả đo điểm chuẩn

Các mô hình DeepSeek-VL2, bao gồm các biến thể Nhỏ, Nhỏ và tiêu chuẩn, vượt trội trong các điểm chuẩn quan trọng cho chung trả lời câu hỏi (QA) và các nhiệm vụ đa phương thức liên quan đến toán học.

DeepSeek-VL2-Small, với 2,8 tỷ thông số được kích hoạt, đã đạt được số điểm MMStar là 57,0 và vượt trội so với các mẫu có kích thước tương tự như InternVL2-2B (49,8) và Qwen2-VL-2B (48,0). Nó cũng cạnh tranh chặt chẽ với các mẫu lớn hơn nhiều, chẳng hạn như 4.1B InternVL2-4B (54,3) và 8.3B Qwen2-VL-7B (60,7), chứng tỏ tính hiệu quả cạnh tranh của nó.

Trong bài kiểm tra AI2D về hình ảnh lý luận, DeepSeek-VL2-Small đạt số điểm 80.0, vượt qua InternVL2-2B (74.1) và MM 1.5-3B (không được báo cáo). Ngay cả khi đối đầu với các đối thủ cạnh tranh quy mô lớn hơn như InternVL2-4B (78.9) và MiniCPM-V2.6 (82.1), DeepSeek-VL2 đã cho thấy kết quả tốt với ít tham số được kích hoạt hơn.

Nguồn: DeepSeek

Chiếc hạm Mô hình DeepSeek-VL2 (4,5 tỷ tham số được kích hoạt) mang lại kết quả vượt trội, đạt 61,3 điểm trên MMStar và 81,4 trên AI2D. Nó vượt trội hơn các đối thủ cạnh tranh như Molmo-7B-O (thông số kích hoạt 7.6B, 39.3) và MiniCPM-V2.6 (8.0B, 57.5), càng khẳng định tính ưu việt về mặt kỹ thuật của nó.

Sự xuất sắc trong OCR-Các điểm chuẩn liên quan

Khả năng của DeepSeek-VL2 mở rộng nổi bật sang các nhiệm vụ liên quan đến OCR (nhận dạng ký tự quang học), một nhiệm vụ quan trọng khu vực để hiểu tài liệu và trích xuất văn bản trong AI. Trong thử nghiệm DocVQA, DeepSeek-VL2-Small đạt độ chính xác ấn tượng 92,3%, vượt trội so với tất cả các mô hình nguồn mở khác có quy mô tương tự, bao gồm InternVL2-4B (89,2%) và MiniCPM-V2.6 (90,8%). Độ chính xác của nó chỉ xếp sau các mẫu kín như GPT-4o (92,8) và Claude 3.5 Sonnet (95,2).

Mẫu DeepSeek-VL2 cũng dẫn đầu trong bài kiểm tra ChartQA với số điểm 86,0, vượt trội so với InternVL2-4B (81,5) và MiniCPM-V2.6 (82,4). Kết quả này phản ánh khả năng nâng cao của DeepSeek-VL2 trong việc xử lý biểu đồ và trích xuất thông tin chi tiết từ dữ liệu hình ảnh phức tạp.

Nguồn: DeepSeek

Trong OCRBench, một công cụ có tính cạnh tranh cao số liệu về nhận dạng văn bản chi tiết, DeepSeek-VL2 đạt được 811, vượt xa 7.6B Qwen2-VL-7B (845) và MiniCPM-V2.6 (852 với CoT), đồng thời nêu bật sức mạnh của nó trong các tác vụ OCR dày đặc.

So sánh với các mô hình ngôn ngữ-hình ảnh hàng đầu

Khi đặt cạnh các mẫu dẫn đầu trong ngành như GPT-4V của OpenAI và Gemini-1.5-Pro ​​của Google, các mẫu DeepSeek-VL2 mang đến sự cân bằng hấp dẫn giữa hiệu suất và hiệu quả. Ví dụ: GPT-4V đạt 87,2 điểm trong DocVQA, chỉ nhỉnh hơn DeepSeek-VL2 (93,3) một chút, mặc dù DeepSeek-VL2 hoạt động trong khung nguồn mở với ít tham số được kích hoạt hơn.

Trên TextVQA, DeepSeek-VL2-Small đạt 83,4, vượt trội đáng kể so với các mô hình nguồn mở tương tự như InternVL2-2B (73,4) và MiniCPM-V2.0 (74.1). Ngay cả MiniCPM-V2.6 (8.0B) lớn hơn nhiều cũng chỉ đạt 80,4, càng nhấn mạnh khả năng mở rộng và hiệu quả của kiến ​​trúc DeepSeek-VL2.

Đối với ChartQA, số điểm 86,0 của DeepSeek-VL2 vượt xa Pixtral-12B (81.8) và InternVL2-8B (83.3), thể hiện khả năng vượt trội trong các nhiệm vụ chuyên ngành đòi hỏi sự chính xác về hình ảnh-văn bản

Có liên quan: Mistral AI ra mắt Pixtral 12B để xử lý văn bản và hình ảnh

Mở rộng ứng dụng: Từ hội thoại có căn cứ đến kể chuyện bằng hình ảnh >

Một tính năng đáng chú ý của mô hình DeepSeek-VL2 là khả năng thực hiện các cuộc hội thoại có căn cứ, trong đó mô hình có thể xác định các đối tượng trong hình ảnh và tích hợp chúng vào các cuộc thảo luận theo ngữ cảnh.

Ví dụ: bằng cách sử dụng mã thông báo chuyên dụng, mô hình có thể cung cấp thông tin chi tiết về đối tượng cụ thể, chẳng hạn như vị trí và mô tả, để trả lời các truy vấn về hình ảnh. Điều này mở ra khả năng ứng dụng trong lĩnh vực robot, thực tế tăng cường và trợ lý kỹ thuật số, những lĩnh vực đòi hỏi khả năng suy luận chính xác bằng hình ảnh.

Một lĩnh vực ứng dụng khác là kể chuyện bằng hình ảnh. DeepSeek-VL2 có thể tạo ra các câu chuyện mạch lạc dựa trên một chuỗi hình ảnh, kết hợp khả năng nhận dạng hình ảnh và ngôn ngữ tiên tiến của nó.

Điều này đặc biệt có giá trị trong các lĩnh vực như giáo dục, truyền thông và giải trí, nơi ưu tiên sáng tạo nội dung động. Các mô hình tận dụng sự hiểu biết đa phương thức mạnh mẽ để tạo ra các câu chuyện chi tiết và phù hợp với ngữ cảnh, tích hợp các yếu tố hình ảnh như cột mốc và văn bản vào câu chuyện một cách liền mạch.

Khả năng làm nền tảng trực quan của các mô hình cũng mạnh mẽ không kém. Trong các thử nghiệm liên quan đến hình ảnh phức tạp, DeepSeek-VL2 đã chứng tỏ khả năng định vị và mô tả chính xác các đối tượng dựa trên gợi ý mô tả.

Ví dụ: khi được yêu cầu xác định một”ô tô đậu ở bên trái đường”, mô hình có thể xác định chính xác đối tượng trong hình ảnh và tạo tọa độ hộp giới hạn để minh họa phản hồi của đối tượng đó. Các tính năng này làm cho nó có tính ứng dụng cao cho các hệ thống tự động và giám sát, trong đó việc phân tích hình ảnh chi tiết là rất quan trọng.

Khả năng truy cập và mở rộng nguồn mở

Quyết định phát hành DeepSeek-của DeepSeek AI VL2 dưới dạng mã nguồn mở trái ngược hoàn toàn với bản chất độc quyền của các đối thủ cạnh tranh như GPT-4V của OpenAI và Gemini-Exp của Google, là những hệ thống khép kín được thiết kế để hạn chế quyền truy cập công cộng.

Theo tài liệu kỹ thuật, “Bằng cách tạo ra các mô hình được đào tạo trước của chúng tôi và mã có sẵn công khai, chúng tôi mong muốn đẩy nhanh tiến độ trong mô hình ngôn ngữ tầm nhìn và thúc đẩy đổi mới hợp tác trong cộng đồng nghiên cứu.”

Khả năng mở rộng của DeepSeek-VL2 càng nâng cao sức hấp dẫn của chúng. Các mô hình này được tối ưu hóa để triển khai trên nhiều cấu hình phần cứng, từ GPU đơn có bộ nhớ 10 GB đến thiết lập nhiều GPU có khả năng xử lý khối lượng công việc quy mô lớn.

Tính linh hoạt này đảm bảo rằng DeepSeek-VL2 có thể được sử dụng bởi các tổ chức thuộc mọi quy mô, từ công ty khởi nghiệp đến doanh nghiệp lớn mà không cần cơ sở hạ tầng chuyên dụng.

Đổi mới về Dữ liệu và Đào tạo

Yếu tố chính đằng sau thành công của DeepSeek-VL2 là dữ liệu đào tạo phong phú và đa dạng. Giai đoạn huấn luyện trước đã kết hợp các bộ dữ liệu như WIT, WikiHow và OBELICS, cung cấp sự kết hợp của các cặp văn bản-hình ảnh xen kẽ để khái quát hóa.

Dữ liệu bổ sung cho các tác vụ cụ thể, chẳng hạn như OCR và trả lời câu hỏi trực quan, đến từ các nguồn như LaTeX OCR và PubTabNet, đảm bảo rằng các mô hình có thể xử lý cả các tác vụ chung và chuyên biệt với độ chính xác cao.

Việc đưa vào các bộ dữ liệu đa ngôn ngữ cũng phản ánh mục tiêu ứng dụng toàn cầu của DeepSeek AI. Các bộ dữ liệu tiếng Trung như Wanjuan được tích hợp cùng với các bộ dữ liệu tiếng Anh để đảm bảo rằng các mô hình có thể hoạt động hiệu quả trong môi trường đa ngôn ngữ.

Phương pháp này nâng cao khả năng sử dụng của DeepSeek-VL2 ở những khu vực nơi dữ liệu không phải tiếng Anh chiếm ưu thế, mở rộng đáng kể cơ sở người dùng tiềm năng của nó.

Giai đoạn tinh chỉnh có giám sát đã hoàn thiện thêm các mô hình’khả năng bằng cách tập trung vào các nhiệm vụ cụ thể như hiểu GUI và phân tích biểu đồ. Bằng cách kết hợp các bộ dữ liệu nội bộ với các tài nguyên nguồn mở chất lượng cao, DeepSeek-VL2 đã đạt được hiệu suất tiên tiến trên một số điểm chuẩn, xác thực tính hiệu quả của phương pháp đào tạo của nó.

Sự tuyển chọn cẩn thận của DeepSeek AI Dữ liệu và quy trình đào tạo đổi mới đã cho phép các mô hình VL2 vượt trội trong nhiều nhiệm vụ trong khi vẫn duy trì hiệu quả và khả năng mở rộng. Những yếu tố này khiến chúng trở thành sự bổ sung có giá trị cho lĩnh vực AI đa phương thức.

Khả năng xử lý các tác vụ xử lý hình ảnh phức tạp của mô hình, chẳng hạn như nền tảng trực quan và OCR dày đặc, khiến chúng trở nên lý tưởng cho các ngành như hậu cần và an ninh. Trong lĩnh vực hậu cần, họ có thể tự động hóa việc theo dõi hàng tồn kho bằng cách phân tích hình ảnh hàng tồn trong kho, xác định các mặt hàng và tích hợp các phát hiện vào hệ thống quản lý hàng tồn kho.

Trong lĩnh vực bảo mật, DeepSeek-VL2 có thể hỗ trợ giám sát bằng cách xác định các đối tượng hoặc cá nhân trong thời gian thực, dựa trên các truy vấn mô tả và cung cấp thông tin ngữ cảnh chi tiết cho người vận hành.

DeepSeek-Khả năng hội thoại căn cứ của VL2 cũng mang đến những khả năng về robot và thực tế tăng cường. Ví dụ: một robot được trang bị mô hình này có thể diễn giải môi trường của nó một cách trực quan, trả lời các truy vấn của con người về các đối tượng cụ thể và thực hiện các hành động dựa trên sự hiểu biết của nó về đầu vào trực quan.

Tương tự như vậy, các thiết bị thực tế tăng cường có thể tận dụng các tính năng kể chuyện và nền tảng trực quan của mô hình để mang lại trải nghiệm tương tác, phong phú, chẳng hạn như các chuyến tham quan có hướng dẫn viên hoặc lớp phủ theo ngữ cảnh trong môi trường thời gian thực.

Những thách thức và triển vọng trong tương lai

Mặc dù có nhiều điểm mạnh nhưng DeepSeek-VL2 vẫn phải đối mặt với một số thách thức. Một hạn chế chính là kích thước của cửa sổ ngữ cảnh, hiện đang hạn chế số lượng hình ảnh có thể được xử lý trong một lần tương tác.

Việc mở rộng cửa sổ ngữ cảnh này trong các lần lặp lại trong tương lai sẽ cho phép các tương tác đa hình ảnh, phong phú hơn và nâng cao tiện ích của mô hình trong các nhiệm vụ đòi hỏi sự hiểu biết theo ngữ cảnh rộng hơn.

Một thách thức khác nằm ở việc xử lý các vấn đề ngoài ngữ cảnh. miền hoặc đầu vào hình ảnh chất lượng thấp, chẳng hạn như hình ảnh mờ hoặc các đối tượng không có trong dữ liệu đào tạo của nó. Mặc dù DeepSeek-VL2 đã thể hiện khả năng khái quát hóa đáng chú ý, nhưng việc cải thiện tính mạnh mẽ đối với những thông tin đầu vào như vậy sẽ nâng cao hơn nữa khả năng ứng dụng của nó trong các tình huống thực tế.

Trong tương lai, DeepSeek AI có kế hoạch tăng cường khả năng suy luận của các mô hình của mình, cho phép chúng xử lý các nhiệm vụ đa phương thức ngày càng phức tạp. Bằng cách tích hợp các quy trình đào tạo cải tiến và mở rộng bộ dữ liệu để đáp ứng các tình huống đa dạng hơn, các phiên bản tương lai của DeepSeek-VL2 có thể đặt ra các tiêu chuẩn mới cho hiệu suất AI ngôn ngữ thị giác.

Categories: IT Info