Roboflow đã ra mắt RF-Detr, một mô hình phát hiện đối tượng thời gian thực phù hợp với các hệ thống nhúng, thiết bị cạnh và các ứng dụng có độ trễ thấp. href=”https://blog.roboflow.com/rf-detr/”target=”_ blank”> mô hình được thiết kế để giải quyết các giới hạn của del trong cài đặt thời gian thực, thay thế các thành phần xương sống phức tạp bằng các kiến ​​trúc hiệu quả hơn như MobileNet và đơn giản hóa bộ giải mã biến đổi để điều chỉnh nhanh hơn. src=”https://winbuzzer.com/wp-content/uploads/2025/03/ai-vision-object-detection-via-nidia.jpg”>

Theo chính thức https://t.co/pirrahfv0g pic.twitter.com/j85Maqnsv9

-roboflow (@roboflow) ngày 20 tháng 3 năm 2025

Trọng tâm triển khai thực tế đặt ra RF-Detr cách xa

Trong khi nhiều mô hình tầm nhìn vẫn bị giới hạn trong môi trường đám mây quy mô lớn, RoboFlow được ưu tiên từ đầu. Trong Tính năng ngày 5 tháng 3 của NVIDIA Quy trình làm việc. Các nhà phát triển có thể xuất các mô hình sang định dạng ONNX, Tensorrt hoặc Coreml, cho phép triển khai trên các nền tảng từ các thiết bị Jetson đến các ứng dụng iOS. Thay vì dựa vào GPU cao cấp, RF-Detr được điều chỉnh cho CPU và chipset di động, lý do cho các ứng dụng trong robot, máy ảnh thông minh và tự động hóa ngoại tuyến. Cohere gần đây đã giới thiệu AYA Vision, một hệ thống AI đa ngôn ngữ, đa ngôn ngữ, xử lý cả hình ảnh và văn bản. Như Cohere giải thích, Tầm nhìn của AYA được xây dựng để thúc đẩy nghiên cứu AI đa ngôn ngữ và đa ngôn ngữ, cung cấp cho các nhà phát triển và nhà nghiên cứu truy cập vào một mô hình mở rộng cách AI hiểu hình ảnh và văn bản trên các ngôn ngữ khác nhau.”Với sự hỗ trợ cho ốp lát động, VL2 có thể phân tách một cách thích ứng các hình ảnh lớn như biểu đồ, bảng hoặc sơ đồ của các ô vào để trích xuất tính năng hiệu quả hơn. Vai trò rất khác nhau. AYA Vision và VL2 xuất sắc trong OCR, hiểu tài liệu và lý luận ngôn ngữ tầm nhìn. Ngược lại, RF-Detr ưu tiên phát hiện đối tượng thời gian thực, trong đó độ trễ và khả năng đáp ứng thấp được ưu tiên hơn lý luận diễn giải. Hugging Face vừa phát hành Huggingsnap, một ứng dụng iOS đầu tiên được cung cấp bởi compact smolvlm2 . Được xây dựng hoàn toàn để sử dụng trên thiết bị, HuggingsNap cung cấp các mô tả hình ảnh thời gian thực, nhận dạng đối tượng và giải thích văn bản mà không gửi dữ liệu đến các máy chủ bên ngoài. Nó ưu tiên quyền riêng tư và tính khả dụng ngoại tuyến, đặc biệt đối với các trường hợp sử dụng khả năng tiếp cận. Tuy nhiên, kiến ​​trúc nhẹ của nó có nghĩa là nó không thể phù hợp với hiệu suất hoặc độ phức tạp phát hiện tốc độ khung của RF-Detr, trong các hệ thống nhúng. Một số mô hình nhắm mục tiêu quyền riêng tư và khả năng tiếp cận; Những người khác nhằm giải thích các tài liệu phức tạp. RF-Detr lấp đầy hiệu suất thích hợp để phát hiện các đối tượng ngay lập tức, ngay cả trên phần cứng bị ràng buộc. Trong các nhà máy, cửa hàng bán lẻ và hệ thống robot, Millisecond Matter. Một mô hình như RF-Detr có thể theo dõi hàng tồn kho, giám sát các vùng an toàn hoặc hướng dẫn các hệ thống tự trị mà không dựa vào độ trễ của đám mây. Nhưng khi các khả năng tăng lên, các cân nhắc về đạo đức cũng vậy. Như Giám đốc điều hành của AI, Rish Gupta đã nói, thì chúng tôi đã xác định lại những gì giám sát video có thể thực hiện.”RF-Detr không được thiết kế để giám sát, nhưng việc triển khai trong môi trường nhạy cảm vẫn nên xem xét các câu hỏi về quyền riêng tư, minh bạch và sự đồng ý của người dùng.

Ngoài ra còn có sự đánh đổi kỹ thuật. Mặc dù RF-Detr có hiệu quả cho lớp học của mình, suy luận thời gian thực trên các thiết bị cạnh vẫn thu hút năng lượng và tạo ra nhiệt. Các nhà phát triển triển khai ở quy mô sẽ cần cân bằng hiệu suất với mức tiêu thụ năng lượng và giới hạn thiết bị, đặc biệt là trên các nền tảng di động. Nó cũng không phù hợp với phạm vi đa ngôn ngữ của tầm nhìn AYA hoặc năng lực tài liệu của Deepseek VL2. Nhưng nó không có nghĩa là. Mô hình Roboflow, nhắm mục tiêu thẳng thắn vào một điều: làm cho việc phát hiện đối tượng nhanh, nhẹ và có thể triển khai ngay lập tức. Với tài liệu mạnh mẽ, tích hợp dễ dàng vào quy trình công việc cạnh và hệ sinh thái hoạt động đằng sau nó, mô hình cung cấp một con đường thực tế từ nguyên mẫu đến sản xuất.

Categories: IT Info