Ngay cả các nền tảng meta cũng không miễn dịch với các chi phí đáng kinh ngạc của chủng tộc AI. Công ty đã dành một phần của năm ngoái để tiếp cận các đối thủ cạnh tranh, bao gồm Microsoft, Amazon và các phần khác, tìm kiếm sự giúp đỡ tài chính để đào tạo các mô hình ngôn ngữ lớn của Llama, theo bốn cá nhân đã thông báo về các cuộc thảo luận

Tìm kiếm đối tác tài trợ của Meta đã đưa ra thông báo Llama 4 gần đây của mình trong một ánh sáng mới. Bản phát hành đó đã giới thiệu LLAMA 4 Scout (tổng số 109B, 17B Active) nhằm mục đích sử dụng GPU đơn với một cửa sổ bối cảnh 10 triệu token đặc biệt lớn-có khả năng xử lý khoảng 7,5 triệu từ cùng một lúc. Cả hai đều sử dụng kiến ​​trúc hỗn hợp (MOE), một kỹ thuật sử dụng mạng con chuyên dụng (‘chuyên gia) trong đó chỉ có các công cụ cần thiết được kích hoạt cho mỗi nhiệm vụ, nhắm đến hiệu quả hoạt động cao hơn so với các mô hình dày đặc trong đó tất cả các tham số luôn được sử dụng.

Nền tảng này là LLAMA 4 khổng lồ chưa được phát hành, một mô hình tham số 2 nghìn tỷ được sử dụng bên trong để chưng cất (dạy các mô hình nhỏ hơn), cần đào tạo trên 32.000 GPU. Các kỹ thuật được sử dụng meta như độ chính xác của fp8-một định dạng số chính xác thấp hơn tăng tốc các tính toán-và các thành phần kiến ​​trúc mới như các vị trí xoay vòng xen kẽ (IROPE) để xử lý các trình tự dài. Sức mạnh tính toán khổng lồ và nỗ lực kỹ thuật, giải thích trực tiếp nhu cầu tiềm năng cho đầu tư chia sẻ. Mặc dù MOE mang lại hiệu quả suy luận tiềm năng, chi phí đào tạo trả trước vẫn là một yếu tố quan trọng. Công ty tuyên bố công khai mục tiêu của mình là chống lại sự thiên vị chính trị trong LLM, lưu ý, nó nổi tiếng rằng tất cả các LLM hàng đầu đều có vấn đề với sự thiên vị, theo lịch sử, họ đã dựa vào các chủ đề chính trị và xã hội đã được đưa ra. Các chủ đề, bên cạnh việc triển khai các công cụ an toàn như Llama Guard và hệ thống nhóm đỏ dê-một phương pháp thử nghiệm bất lợi để tìm các lỗ hổng. Các lớp tinh chỉnh và an toàn này thêm chi phí phát triển hơn nữa. Các vụ kiện hoạt động, bao gồm một vụ kiện liên quan đến diễn viên hài Sarah Silverman, cho rằng công ty đã đào tạo các mô hình Llama trên các bộ dữ liệu khổng lồ của những cuốn sách lậu có nguồn gốc từ các thư viện như Libgen thông qua chia sẻ tệp Bittorrent. Các tài liệu của tòa án đã tiết lộ sự e ngại nội bộ, với một kỹ sư được trích dẫn, nói rằng, Torrenting từ một máy tính xách tay công ty [thuộc sở hữu meta] không cảm thấy đúng.”Những tranh cãi như vậy có thể đại diện cho một động lực đáng kể, nếu ít thấy hơn, các chi phí phát triển AI tổng thể. Các mô hình đã được tích hợp vào các tính năng Meta AI trên WhatsApp, Instagram và Facebook ngay sau khi ra mắt. Chúng cũng được cung cấp để tải xuống và thông qua các đối tác đám mây-bao gồm Amazon Sagemaker JumpStart và Microsoft Lừa Llamacon sự kiện dự kiến ​​cho ngày 29 tháng 4, có khả năng cung cấp các bản cập nhật về mô hình khổng lồ hoặc mô hình Llama 4-V sắp tới.

Categories: IT Info