Meta, phối hợp với các nhà nghiên cứu tại Đại học Waterloo, đã giới thiệu một hệ thống AI tạo ra các ký tự hoạt hình đầy đủ, được đồng bộ hóa mà không yêu cầu camera, hình ảnh tham chiếu hoặc chụp chuyển động. Hoạt hình nhân vật cấp phim,”xây dựng toàn bộ các cảnh biểu thức, cử chỉ và đoạn hội thoại quay vòng từ chỉ từ một bản ghi âm và một kịch bản. Mô hình được giới thiệu trong Bài nghiên cứu được xuất bản vào ngày 30 tháng 3 . Mô hình có một mô-đun được gọi là sự chú ý của cửa sổ giọng nói, đảm bảo đồng bộ hóa giữa âm thanh và hoạt hình bằng cách sắp xếp các khung chính với nhịp điệu. Nó cũng sử dụng chiến lược đào tạo văn bản nói chung để nắm bắt bối cảnh cảm xúc và nhân vật trên nhiều người nói trong một cảnh. Hỗ trợ đa nhân vật của nó cho phép các cuộc hội thoại qua lại, trong đó mỗi thời gian và cử chỉ của nhân vật được thông báo bằng logic quay vòng. Để đánh giá hiệu suất của nó, nhóm đã phát triển MOCHA Bench, độ chính xác của bộ kiểm tra điểm chuẩn, chuyển động biểu cảm và độ trung thực cảm xúc. Mocha ** tạo các ký tự trực tiếp từ văn bản và lời nói ** mà không cần dựa vào bất kỳ tín hiệu phụ trợ nào. Ở đây, một bản demo điện ảnh hơn. pic.twitter.com/mnfvhrsjba
-Cong Wei (@Congwei1230) href=”https://twitter.com/congwei1230/status/1907087531746767336?ref_src=twsrc%5etfw”Target=”_ Blank”
Trường hợp các mô hình như Bytedance từ Omnihuman-1 sử dụng hình ảnh tham chiếu, dữ liệu và âm thanh để tạo hoạt hình, Mocha bỏ qua các đầu vào trực quan hoàn toàn. Omnihuman-1, ra mắt ngày 4 tháng 2, áp dụng một máy biến áp khuếch tán và hệ thống hoạt hình hướng dẫn. Hệ thống đã được đào tạo trên hơn 19.000 giờ video và áp dụng hướng dẫn không có phân loại để cải thiện tính hiện thực và sự đa dạng. Nó xử lý cả chuyển động cơ thể và khuôn mặt chỉ bằng cách sử dụng điều hòa lời nói và văn bản, không có neo thị giác bên ngoài. Thiết kế không tham chiếu này loại bỏ sự cần thiết của các thiết lập camera phức tạp hoặc kịch bản chuyển động chi tiết, cung cấp cho người tạo một đường dẫn hợp lý để kể chuyện tổng hợp. Mô hình này cũng có tính năng giải mã không có khả năng tự chế, cải thiện hiệu quả bằng cách dự đoán các khung chuyển động đầy đủ song song thay vì từng bước một. Điều này để lại các câu hỏi về khả năng tổng quát của nó, mặc dù các điểm chuẩn hiệu suất cho thấy kết quả chất lượng cao ngay cả với dữ liệu chưa thấy. Vào tháng 10 năm 2024, Runway đã phát hành Act-One, một tính năng cho phép người dùng ghi lại các biểu cảm khuôn mặt của riêng họ bằng điện thoại thông minh, sau đó ánh xạ các màn trình diễn đó lên các nhân vật hoạt hình. Điều này bỏ qua việc chụp chuyển động truyền thống và được tích hợp vào các mô hình tạo video Runway. Tuy nhiên, nó giả định người dùng sẵn sàng thực hiện cảnh. Mocha không yêu cầu hiệu suất. Nó tạo ra biểu thức và chuyển động từ lời nhắc văn bản một mình.
Sự khác biệt này có vấn đề. Các công cụ đường băng được tối ưu hóa để kiểm soát sáng tạo và chủ nghĩa hiện thực bắt nguồn từ các đầu vào vật lý. Mocha tự động hóa hiệu suất, tạo các ký tự có thể thực hiện các tập lệnh một cách độc lập. Nó đặc biệt phù hợp với nội dung nặng nề như video giải thích, cảnh đối thoại kỹ thuật số và cách kể chuyện theo giọng nói trong đó các thiết lập máy ảnh không thực tế. Gen-4 hỗ trợ sự nhắc nhở ở cấp độ cảnh, đường dẫn camera động, điều khiển ánh sáng và phản hồi thời gian thực cho các chỉnh sửa trực quan. Các tính năng này cho phép người tạo xây dựng các cảnh có độ chính xác hơn, nhưng chúng cũng tăng nhu cầu phần cứng để kết xuất độ phân giải cao. Ưu tiên tạo ra ma sát. Mô hình video nguồn mở được thiết kế để tăng khả năng tiếp cận cho các nhà phát triển và các studio nhỏ hơn.
mocha phân biệt chính nó bằng cách tập trung vào hiệu suất và đối thoại. Thay vì xây dựng môi trường hoặc đánh bóng kỹ thuật, nó tập trung vào hành vi nhân vật, giao hàng và biểu hiện cảm xúc, tất cả các kịch bản và giọng nói. Vào tháng 9 năm 2024, công ty