Google đã phát hành đầy đủ Gemma 3N, một thế hệ mới các mô hình trí tuệ nhân tạo nguồn mở được thiết kế để mang lại khả năng đa phương thức mạnh mẽ trực tiếp cho các thiết bị tiêu dùng. Trong một động thái đáng kể để dân chủ hóa AI tiên tiến, các mô hình này có thể xử lý hình ảnh, âm thanh và đầu vào video để tạo văn bản trong khi hoạt động trên phần cứng với ít nhất là 2GB bộ nhớ, không thể loại bỏ AI phức tạp từ đám mây. href=”https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/”Target=”_ Blank”> Hướng dẫn phát triển chính thức , giới thiệu một gia đình di động”Các mô hình mới có sẵn ở hai kích thước chính, E2B và E4B, sử dụng các đổi mới kiến ​​trúc để chạy với dấu chân bộ nhớ tương đương với các mô hình nhỏ hơn nhiều. Bước đột phá hiệu quả này có nghĩa là các nhà phát triển hiện có thể xây dựng và triển khai các ứng dụng AI có khả năng tinh vi, ngoại tuyến trên một loạt các phần cứng hàng ngày, từ điện thoại thông minh đến máy tính xách tay. Bản phát hành đầy đủ củng cố cú hích của Google để trao quyền cho cộng đồng nhà phát triển với các công cụ trước đây là miền của các trung tâm dữ liệu quy mô lớn, về cơ bản là người có thể xây dựng với AI tiên tiến.

Matformer hoặc Matryoshka Transformer, kiến ​​trúc , tổ chức các mô hình nhỏ hơn, đầy đủ chức năng trong một mô hình lớn hơn. Điều này cho phép các nhà phát triển triển khai một phổ các kích thước mô hình phù hợp với các ràng buộc phần cứng cụ thể, với Google cung cấp một Sự đổi mới này cho phép một phần lớn các tham số mô hình được xử lý trên CPU chính của thiết bị, làm giảm đáng kể lượng bộ nhớ gia tốc tốc độ cao (VRAM) cần thiết. Kiến trúc cũng sử dụng chia sẻ bộ đệm KV, công ty tuyên bố tăng gấp đôi tốc độ xử lý ban đầu. Chiến lược hệ sinh thái này dường như là một phần cốt lõi của phương pháp tiếp cận kép của công ty để phát triển AI. Theo chi tiết trên blog của anh ấy , Willison đã nhấn mạnh sự hỗ trợ rộng rãi, một ngày từ các công cụ phổ biến như OLLAMA và MLX. Mặc dù anh ấy đã sử dụng thành công một phiên bản của mô hình để phiên âm âm thanh, anh ấy cũng lưu ý một số kỳ quặc ban đầu, với mô hình không mô tả chính xác một hình ảnh mà nó vừa tạo. Thử thách tác động 3N , một cuộc thi với giải thưởng trị giá 150.000 đô la cho các nhà phát triển sử dụng các mô hình mới để xây dựng sản phẩm vì lợi ích xã hội. Các mô hình có bộ mã hóa âm thanh nâng cao dựa trên