Bytedance đã tiết lộ Omnihuman-1, một hệ thống có thể tạo ra nội dung video con người đáng tin cậy từ chỉ một hình ảnh tham chiếu và âm thanh đi kèm. Tổng hợp một loạt các đầu ra video. Các tác giả giải thích cách tiếp cận của họ trong bài nghiên cứu Omnihuman-1: Suy nghĩ lại , Làm rõ hơn 19.000 giờ đào tạo cảnh quay vào lõi biến áp khuếch tán của nó.
Trộn dữ liệu và các ví dụ đáng chú ý
omnihuman-1 được xây dựng trên kiến trúc biến áp khuếch tán (DIT), một mô hình kết hợp khả năng khử trùng của các mô hình khuếch tán với hiệu quả xử lý trình tự của các máy biến áp. Một quy trình đào tạo nhiều giai đoạn dần dần tinh chỉnh việc tạo chuyển động của con người. Nó sử dụng một nguyên nhân Bộ tự động biến thể 3D (3D VAE) để mã hóa các chuỗi video thành một không gian tiềm ẩn được nén, cho phép xử lý hiệu quả trong khi bảo vệ sự kết hợp tạm thời. /P>
Mô hình tích hợp nhiều tín hiệu điều hòa, văn bản, âm thanh và tư thế giả mạo Để cân bằng chủ nghĩa hiện thực và tuân thủ tín hiệu đầu vào. Kiến trúc cũng bao gồm một hướng dẫn viên tư thế mã hóa các bản đồ nhiệt chuyển động cho điều khiển hạt mịn, trong khi bộ mã hóa xuất hiện trích xuất danh tính và chi tiết nền từ hình ảnh tham chiếu bằng cách sử dụng MMDIT đã sửa đổi (Máy biến áp khuếch tán mô hình mặt nạ).
Trong bài báo, các tác giả trạng thái, Omn Omnihuman tạo ra các video thực tế cao với bất kỳ tỷ lệ khung hình và tỷ lệ cơ thể nào, và cải thiện đáng kể sự tạo ra cử chỉ và tương tác đối tượng so với các phương pháp hiện có, do dữ liệu được mở rộng bởi OMNI-Các điều kiện đào tạo.”a> và a clip tiết lộ các cử chỉ kỳ lạ xung quanh một ly rượu vang , cho thấy cả bản chất thuyết phục của đầu ra và đầu ra và Quirk phát sinh với các tư thế nhất định. Các mô hình
chuyên dụng hàng đầu trong cả hai nhiệm vụ hoạt hình chân dung và cơ thể sử dụng một mô hình duy nhất”, theo các nhà nghiên cứu đã chia sẻ bảng so sánh sau đây. sadtalker và Hallo-3 Một số số liệu, bao gồm FID, FVD, IQA và Sync-C. nó/winbuzzer.com/wp-content/uploads/2025/02/bytedance-omnihuman-benchmarks-official-1024×695.jpg”> Có lợi: Quá nhiều âm thanh thu hẹp phạm vi chuyển động, trong khi quá mức trên tư thế dẫn đến những cử chỉ cứng nhắc. Dưới đây là một ví dụ khác. Cuộc tranh luận về cuộc tranh luận không ngừng nghỉ không ngừng nghỉ của Trumporbiden2024 từ năm ngoái đã nhấn mạnh làm thế nào nội dung đó có thể khơi dậy cả sự tò mò và lo ngại về tính xác thực. P> Omnihuman-1 hạ cánh trong khí hậu nơi phương tiện tổng hợp thu hút sự chú ý ngày càng tăng từ các nhà hoạch định chính sách và các tập đoàn. Cam kết an toàn Nhà Trắng phản ánh một ổ đĩa rộng hơn để giải quyết lạm dụng Deepfake, trong khi việc ghi nhãn bắt buộc của Meta về các nền tảng chính của Nền tảng chính của các nền tảng chính với vấn đề.
Năm ngoái, Cơ quan mở rộng của FTC để yêu cầu các tài liệu liên quan đến AI đã nâng các cổ phần để minh bạch. Google đã mở rộng công nghệ Watermarking AI của mình, Synthid, bao gồm văn bản và video do AI tạo ra. Và tháng 12 năm ngoái, Meta đã công bố Meta Video Seal, một công cụ nguồn mở mới được thiết kế để đánh dấu các video do AI tạo ra. Video Seal nhúng các hình mờ vô hình nhưng mạnh mẽ vẫn tồn tại thông qua các chỉnh sửa, nén và chia sẻ, giúp theo dõi và xác thực nội dung. Watermark nhấn mạnh sự tập trung ngày càng tăng vào tính xác thực. Watermarked. v=v_zjvrmhzoi”> một cuộc nói chuyện giả vờ TED và Khả năng chuyển động trên phạm vi rộng và những điều kỳ quặc không thường xuyên khi xử lý tay hoặc đạo cụ.
[Nội dung nhúng]
Các sáng tạo tổng hợp từ gây ra tác hại ngoài ý muốn. Các thí nghiệm về tỷ lệ đào tạo của nó xác nhận rằng việc trộn các tín hiệu mạnh và yếu của nó, âm thanh, âm thanh và văn bản, có hiệu suất tốt hơn, điều này thể hiện rõ ở điểm số FID và FVD thấp hơn so với Sadtalker hoặc Hallo-3.
Sadtalker là Một công cụ điều khiển AI được thiết kế để làm động các hình ảnh tĩnh bằng cách tạo các hệ số chuyển động 3D thực tế từ các đầu vào âm thanh. Bằng cách phân tích âm thanh được cung cấp, nó dự đoán các chuyển động trên khuôn mặt tương ứng, cho phép tạo các hình ảnh động nói giống như thật từ một hình ảnh duy nhất. Cách tiếp cận này cho phép tạo ra các hình ảnh động mặt nói khuôn mặt được cách điệu, điều khiển âm thanh, tăng cường tính hiện thực và biểu cảm của đầu ra.
Hallo-3 Hoạt hình năng động và thực tế. Nó sử dụng một mô hình tổng thể video dựa trên máy biến áp, thể hiện khả năng khái quát hóa mạnh mẽ trong các kịch bản khác nhau. Các công cụ có thể nhanh chóng thay đổi giữa giải trí, giáo dục và nội dung có khả năng nhạy cảm, tất cả trong khi các cơ quan quản lý và người chơi công nghệ vẫn cảnh giác với sự phát triển của Deepfake.