Google vừa công bố một loạt bản cập nhật mang tính đột phá cho các công cụ AI tổng hợp của mình, thể hiện cam kết của mình trong việc nâng cao khả năng sáng tạo thông qua công nghệ. Trọng tâm của những thông báo này là Veo 2, trình tạo video AI thế hệ tiếp theo của công ty có khả năng tạo ra đầu ra có độ phân giải 4K.
Tham gia cùng Veo 2 là trình tạo hình ảnh Imagen 3 được cập nhật và một công cụ mới có tên Whisk, cho phép người dùng phối lại hình ảnh bằng cách sử dụng lời nhắc dựa trên hình ảnh. Cùng với nhau, những công cụ này thể hiện bước nhảy vọt đáng kể cho tham vọng của Google trong lĩnh vực cạnh tranh về sáng tạo AI, nhắm đến cả người sáng tạo nội dung, nghệ sĩ và doanh nghiệp.
Veo 2: Tạo video nâng cao ở 4K
Veo 2: Advanced Video Generation in 4K
strong>
Veo 2 được xây dựng dựa trên nền tảng của phiên bản tiền nhiệm Veo, ra mắt vào đầu năm nay, mang đến những cải tiến đáng kể về tính chân thực của video và khả năng kiểm soát của người dùng. Model mới hỗ trợ độ phân giải 4K, mang lại hình ảnh sắc nét và chuyển động mượt mà hơn, một bản nâng cấp rõ ràng so với giới hạn 1080p của phiên bản trước.
Ngoài độ phân giải, Veo 2 còn giới thiệu các tính năng cho phép người dùng tạo các tác phẩm điện ảnh có tính cụ thể cao.
Những lời nhắc như “sử dụng ống kính 18mm để tạo hiệu ứng góc rộng”hoặc “lấy nét vào đối tượng có độ sâu trường ảnh nông”cho phép tinh chỉnh khả năng kiểm soát thẩm mỹ hình ảnh của video được tạo.
Google mô tả mô hình này đã được đào tạo về “ngôn ngữ điện ảnh”, cho phép mô hình tái tạo các hiệu ứng hình ảnh phức tạp mà trước đây là lĩnh vực của các nhà làm phim chuyên nghiệp.
Trong các cuộc trình diễn, Veo 2 đã thể hiện khả năng xử lý các tình huống hình ảnh phức tạp một cách chính xác. Một ví dụ là người nuôi ong làm việc giữa một đàn ong mật, trong đó chuyển động của những con ong và sự phản chiếu ánh sáng trên cánh của chúng được thể hiện với độ chính xác như thật
[được nhúng. nội dung]
Một đoạn clip khác mô tả một nhà khoa học đang nhìn vào kính hiển vi, trong đó máy ảnh ghi lại sự tập trung cao độ và các chi tiết môi trường tinh tế của cô ấy, chẳng hạn như ánh sáng huỳnh quang của phòng thí nghiệm
Google cho biết Veo 2 giúp hiểu rõ hơn về thực tế. vật lý thế giới cũng như sự tinh tế trong chuyển động và biểu cảm của con người, nhằm cải thiện tính chân thực và giải quyết những thách thức chung trong việc tạo video AI.
[nội dung nhúng]
Những cải tiến về chủ nghĩa hiện thực còn mở rộng đến việc giải quyết những cạm bẫy phổ biến của trình tạo video AI, chẳng hạn như như con người bị bóp méo hình ảnh, chuyển động không thực tế hoặc các tạo tác hình ảnh không liên quan. Khả năng quản lý những thách thức này của Veo 2 giúp Veo 2 trở thành công cụ hàng đầu dành cho các chuyên gia sáng tạo đang tìm kiếm nội dung video chất lượng cao do AI tạo ra.
SynthID: Các biện pháp bảo vệ đạo đức cho nội dung AI
Để giải quyết những lo ngại về đạo đức xung quanh việc lạm dụng nội dung do AI tạo ra, Veo 2 tích hợp công nghệ tạo hình mờ SynthID của Google. Chữ ký số vô hình này được nhúng trực tiếp vào đầu ra, cho phép nhận dạng các video do AI tạo ra mà không ảnh hưởng đến chất lượng hình ảnh của chúng.
SynthID được thiết kế để giảm thiểu rủi ro như thông tin sai lệch hoặc thao tác độc hại, đảm bảo rằng các công cụ AI được sử dụng một cách có trách nhiệm. Trong thông báo của mình, Google nhấn mạnh rằng họ đã tập trung vào việc đảm bảo độ tin cậy và khả năng truy xuất nguồn gốc của đầu ra của Veo 2, được hỗ trợ bởi các tính năng như hình mờ SynthID.
Không giống như các hình mờ hiển thị, SynthID hoạt động kín đáo, điều mà Google cho rằng khiến nó thực tế hơn để sử dụng chuyên nghiệp trong khi vẫn duy trì tính minh bạch. Tuy nhiên, cách tiếp cận này cũng đặt ra câu hỏi về việc thực thi vì nó dựa vào việc người dùng hoặc nền tảng tích cực xác minh nội dung để phát hiện hành vi lạm dụng tiềm ẩn.
Việc triển khai SynthID của Google phù hợp với những nỗ lực rộng lớn hơn trong ngành công nghệ, bao gồm Sáng kiến xác thực nội dung và giao thức tạo hình chìm mờ C2PA nguồn mở mà Google là thành viên tích cực trong đó.
Veo Người dùng hiện có thể truy cập phiên bản 2 này thông qua nền tảng VideoFX trong Google Labs, với kế hoạch triển khai rộng rãi hơn vào năm 2025. công ty cũng đã công bố kế hoạch tích hợp công nghệ này vào YouTube Shorts, cho phép người sáng tạo trên nền tảng này trực tiếp tạo ra các video chất lượng cao do AI điều khiển.
Tính đến thời điểm hiện tại, quyền truy cập vẫn bị hạn chế thông qua hệ thống danh sách chờ, phản ánh cách tiếp cận thận trọng của Google trong việc mở rộng phạm vi cung cấp.
Bối cảnh cạnh tranh trong video AI
Những tiến bộ của Google trong lĩnh vực tạo video xuất hiện khi sự cạnh tranh trong lĩnh vực AI ngày càng nóng lên. OpenAI gần đây đã ra mắt trình tạo video Sora, nhưng khả năng của nó vẫn bị giới hạn ở độ phân giải 1080p và thời lượng clip ngắn hơn lên tới 20 giây.
[nội dung nhúng]
Ngược lại, Veo 2 hỗ trợ độ phân giải lên tới 4K và có thể tạo các clip dài hơn, với thời lượng kéo dài đến vài phút. Trong quá trình đánh giá nội bộ, Google báo cáo rằng 59% người dùng thích kết quả đầu ra của Veo 2 hơn Sora Turbo, phiên bản nâng cấp của công cụ OpenAI.
Theo Google, 59% người dùng trong các đánh giá nội bộ thích Veo 2 hơn Sora Turbo, nêu bật tính ưu việt về mặt kỹ thuật của nó.
Runway, một công ty lớn khác trong lĩnh vực AI tổng hợp, cũng đã đạt được những bước tiến trong việc tạo video nhưng vẫn bị giới hạn ở đầu ra 720p. Điều này định vị Veo 2 của Google là công cụ tiên tiến nhất để tạo video ở cấp độ chuyên nghiệp.
Chiến lược tập trung của công ty vào chủ nghĩa hiện thực, kiểm soát người dùng và đầu ra chất lượng cao nhấn mạnh ý định chiếm thị phần đáng kể trong thị trường đang phát triển cho các công cụ sáng tạo dựa trên AI.
[nội dung nhúng]
Hình ảnh 3: Mở rộng khả năng nghệ thuật trong tạo hình ảnh AI
Google cũng đã cải tiến Imagen 3, phiên bản mới nhất của mô hình tạo hình ảnh AI. Bản cập nhật Imagen 3 mang đến kết cấu sắc nét hơn, cải thiện độ cân bằng bố cục và hỗ trợ mở rộng cho các phong cách nghệ thuật đa dạng, từ mô tả quang học thực tế đến diễn giải theo trường phái ấn tượng.
Một trong những tính năng nổi bật của Imagen 3 là khả năng hiển thị hình ảnh với độ trung thực cao hơn theo lời nhắc của người dùng. Mô hình hiện tạo ra các kết quả đầu ra phù hợp chính xác hơn với các mô tả được cung cấp, giảm bớt sự mơ hồ đôi khi gây khó khăn cho các phiên bản trước đó.
Khả năng thích ứng với nhiều phong cách và kịch bản nghệ thuật khác nhau của Imagen 3 khiến nó trở thành một công cụ hấp dẫn đối với nhiều người dùng, từ các nhà thiết kế chuyên nghiệp đến những người có sở thích khám phá các dự án sáng tạo. Mô hình này vượt trội trong việc tạo ra những hình ảnh cân bằng tính toàn vẹn về mặt nghệ thuật với khả năng tuân thủ nhanh chóng.
Trong một loạt ví dụ được Google chia sẻ, Imagen 3 đã thể hiện khả năng của mình thông qua những sáng tạo ấn tượng về mặt hình ảnh, bao gồm cảnh nhà ga xe lửa đầy sương mù những năm 1940, một quả dâu tây được điêu khắc thành hình con chim ruồi đang bay và một ảnh chụp macro độ phân giải cao chụp một chiếc bình gốm được điêu khắc trên một bánh xe.
Mỗi ví dụ nêu bật khả năng của mô hình trong việc nắm bắt các chi tiết đẹp, chẳng hạn như hiệu ứng ánh sáng và bóng tối hoặc kết cấu phức tạp của vật liệu.
Google nhấn mạnh rằng Imagen 3 hỗ trợ nhiều phong cách nghệ thuật, bao gồm hình ảnh sống động như thật, khái niệm trừu tượng và hình ảnh lấy cảm hứng từ anime, mang đến sự linh hoạt nhằm đáp ứng nhu cầu sáng tạo đa dạng.
Whisk: Xác định lại việc phối lại hình ảnh
Google cũng giới thiệu một công cụ mới có tên là Whisk, cung cấp một cách tiếp cận mới mẻ đối với khả năng sáng tạo do AI điều khiển bằng cách cho phép người dùng kết hợp các lời nhắc trực quan để tạo ra hình ảnh mới.
Không giống như các hệ thống dựa trên văn bản truyền thống, Whisk cho phép người dùng tải hình ảnh lên để xác định chủ đề, cảnh hoặc phong cách mà công cụ này sau đó xử lý để tạo ra kết quả đầu ra gắn kết. Điều này khiến nó trở nên lý tưởng cho những người dùng muốn nhanh chóng tạo nguyên mẫu cho các ý tưởng mà không cần dựa vào các mô tả văn bản rộng rãi.
Whisk tận dụng các khả năng của mô hình Gemini của Google, mô hình này phân tích và chú thích các hình ảnh đã tải lên để trích xuất các tính năng chính của chúng. Sau đó, những chú thích này được đưa vào Imagen 3, cho phép công cụ tạo ra sự kết hợp độc đáo giữa các yếu tố hình ảnh được cung cấp.
Trong một lần minh họa, Whisk đã được sử dụng để kết hợp hình ảnh một chiếc mô tô cổ điển với bối cảnh rừng rậm và phong cách nghệ thuật lấy cảm hứng từ anime những năm 1980. Kết quả là một bố cục hình ảnh gắn kết kết hợp liền mạch cả ba yếu tố. Người dùng có thể tinh chỉnh thêm kết quả đầu ra của mình bằng cách điều chỉnh lời nhắc hoặc điều chỉnh từng tính năng, đưa ra cách tiếp cận lặp đi lặp lại để khám phá nội dung sáng tạo.
[nội dung nhúng]
Google đã giải thích mục đích đằng sau Whisk trong thông báo của mình: “Chúng tôi muốn tạo ra một công cụ giúp đơn giản hóa ý tưởng trực quan, giúp người dùng dễ dàng thử nghiệm các khái niệm và tinh chỉnh tầm nhìn sáng tạo của họ.”
Whisk thể hiện một khía cạnh khác trong nỗ lực của Google nhằm cân bằng giữa tính sáng tạo với trách nhiệm đạo đức. Bằng cách cho phép người dùng kết hợp các lời nhắc trực quan, công cụ này mở ra những khả năng mới để thử nghiệm sáng tạo
Tuy nhiên, việc dựa vào các hình ảnh được tải lên đặt ra câu hỏi về quyền sở hữu trí tuệ và quyền riêng tư. Mặc dù Whisk không tạo ra bản sao chính xác của các hình ảnh đã tải lên nhưng nó trích xuất các tính năng chính để tạo ra các tác phẩm mới, điều này có thể vô tình. sao chép các yếu tố nhạy cảm hoặc có bản quyền.
Khả năng cung cấp toàn cầu rộng hơn nhưng có giới hạn
Imagen 3 hiện có sẵn trên toàn cầu thông qua Nền tảng ImageFX của Google Labs, ngoại trừ Đức. Google đã trích dẫn chiến lược triển khai theo từng giai đoạn thông thường của mình là lý do cho hạn chế này, nhưng các nhà phân tích trong ngành đã chỉ ra ảnh hưởng có thể có của Đạo luật AI của Liên minh Châu Âu.
Luật này yêu cầu các công ty tiết lộ thông tin chi tiết về bộ dữ liệu được sử dụng để đào tạo các mô hình AI của họ, bao gồm cả liệu có liên quan đến tài liệu có bản quyền hay không.
Mặc dù Google chưa xác nhận thông tin cụ thể về dữ liệu huấn luyện của Imagen 3, nhưng các báo cáo trước đây cho thấy rằng các tập dữ liệu chứa hình ảnh có sẵn công khai, có thể bao gồm cả nội dung YouTube, đã góp phần vào sự phát triển của mô hình.
Điều này sự thiếu minh bạch đã làm dấy lên mối lo ngại giữa các nghệ sĩ và những người ủng hộ bản quyền, những người cho rằng việc sử dụng hình ảnh công khai mà không có sự cho phép rõ ràng sẽ đặt ra các câu hỏi về đạo đức và pháp lý.
Trong tuyên bố chính thức của mình, Google nhắc lại cam kết của mình về tính minh bạch và tham gia vào các sáng kiến nhằm tạo ra các tiêu chuẩn đạo đức cho dữ liệu đào tạo AI.
Thách thức đạo đức và Động lực thị trường cạnh tranh
strong>
Khi Google vượt qua các ranh giới của AI sáng tạo với Veo 2, Imagen 3 và Whisk, các cân nhắc về đạo đức ngày càng trở nên quan trọng. Sự tinh vi ngày càng tăng của những công cụ này đặt ra câu hỏi về dữ liệu đào tạo được sử dụng, khả năng sử dụng sai và sự cân bằng giữa đổi mới và trách nhiệm.
Những vấn đề này đặc biệt quan trọng vì Đạo luật AI của EU và các quy định tương tự trên toàn cầu đòi hỏi sự minh bạch và trách nhiệm giải trình cao hơn từ các công ty công nghệ.
Google vẫn kín tiếng về các tập dữ liệu được sử dụng để đào tạo người mẫu của mình, bao gồm Veo 2 và Imagen 3, vốn đã thu hút sự giám sát chặt chẽ từ các nghệ sĩ, người ủng hộ bản quyền và cơ quan quản lý.
Các báo cáo trong ngành cho thấy rằng các video trên YouTube và nội dung công khai khác có thể đóng một vai trò nào đó trong quá trình đào tạo quá trình, một thực tiễn đã làm dấy lên những cuộc tranh luận về quyền sở hữu trí tuệ trong AI. Các nhà phê bình cho rằng việc sử dụng dữ liệu như vậy có thể vi phạm bản quyền của người sáng tạo, đặc biệt khi không nhận được sự đồng ý rõ ràng.
Đạo luật AI của EU tăng cường những lo ngại này bằng cách yêu cầu các công ty tiết lộ liệu tài liệu có bản quyền có nằm trong tập dữ liệu đào tạo của họ hay không. Mặc dù Google đã tuyên bố rằng họ cam kết minh bạch nhưng công ty vẫn chưa cung cấp thông tin chi tiết toàn diện về nguồn gốc dữ liệu đào tạo của mình.
Trong thông báo chính thức của mình, Google cho biết: “Chúng tôi đang tích cực tham gia vào các sáng kiến như Sáng kiến xác thực nội dung để đảm bảo thực hành đạo đức trong phát triển AI”.
Cam kết này bao gồm việc áp dụng Hình mờ SynthID và sự tham gia vào giao thức C2PA nguồn mở, đều nhằm mục đích thúc đẩy tính xác thực của nội dung và giảm thiểu việc sử dụng sai mục đích.
SynthID và Cuộc chiến chống lại thông tin sai lệch
Google SynthID áp dụng vô hình tạo hình mờ cho video và hình ảnh Không giống như hình mờ truyền thống, SynthID tích hợp hoàn toàn vào đầu ra trực quan mà không làm thay đổi hình thức của nó. Điều này khiến nó đặc biệt hữu ích cho các ứng dụng chuyên nghiệp, nơi các hình mờ hiển thị có thể làm giảm giá trị của sản phẩm cuối cùng.
SynthID vô hình. tuy nhiên, bản chất cũng đưa ra những thách thức. Tính hiệu quả của nó phụ thuộc vào các nền tảng và cá nhân tích cực xác minh nội dung, điều này có thể không phải lúc nào cũng xảy ra trong bối cảnh có mức độ rủi ro thấp như mạng xã hội.
Google đã nhấn mạnh rằng SynthID là một phần trong nỗ lực rộng lớn hơn nhằm giảm thiểu rủi ro như thông tin sai lệch về chính trị và chỉnh sửa độc hại nội dung do AI tạo ra.
Ý nghĩa rộng hơn cho các ngành công nghiệp sáng tạo
Việc tích hợp các công cụ như Veo 2, Imagen 3 và Whisk có tiềm năng định hình lại các ngành công nghiệp khác nhau, từ làm phim và quảng cáo đến nghệ thuật kỹ thuật số và sáng tạo nội dung.
Bằng cách hạ thấp các rào cản gia nhập, những công cụ này cho phép người sáng tạo ở mọi cấp độ kỹ năng tạo ra hình ảnh chất lượng cao mà trước đây chỉ có thể đạt được thông qua các studio chuyên nghiệp. Đồng thời, họ đặt ra những câu hỏi quan trọng về tương lai của công việc sáng tạo và vai trò của AI trong việc định hình sự thể hiện văn hóa và nghệ thuật.
Đối với các nhà làm phim, Veo 2 cung cấp một giải pháp thay thế hiệu quả về mặt chi phí để tạo ra hình ảnh điện ảnh, trong khi Imagen 3 và Whisk cung cấp những con đường mới để khám phá phong cách và ý tưởng nghệ thuật.
Tuy nhiên, việc sử dụng các công cụ AI cũng làm dấy lên lo ngại về sự thay thế các vai trò sáng tạo truyền thống, chẳng hạn như nhà quay phim, nhà thiết kế và họa sĩ minh họa. Đạt được sự cân bằng giữa việc hỗ trợ đổi mới và duy trì tính toàn vẹn của khả năng sáng tạo của con người sẽ là một thách thức quan trọng đối với các công ty như Google khi họ tiếp tục phát triển những công nghệ này.
Bộ công cụ mới nhất của Google phản ánh tầm nhìn về AI ưu tiên khả năng tiếp cận , linh hoạt và trách nhiệm. Thông qua những cải tiến như tạo video 4K, nâng cao độ chân thực của hình ảnh và phối lại hình ảnh, công ty mong muốn trao quyền cho người sáng tạo, đồng thời giải quyết một số thách thức về đạo đức và kỹ thuật đi kèm với quá trình đổi mới AI.
strong>
Veo 2 được xây dựng dựa trên nền tảng của phiên bản tiền nhiệm Veo, ra mắt vào đầu năm nay, mang đến những cải tiến đáng kể về tính chân thực của video và khả năng kiểm soát của người dùng. Model mới hỗ trợ độ phân giải 4K, mang lại hình ảnh sắc nét và chuyển động mượt mà hơn, một bản nâng cấp rõ ràng so với giới hạn 1080p của phiên bản trước.
Ngoài độ phân giải, Veo 2 còn giới thiệu các tính năng cho phép người dùng tạo các tác phẩm điện ảnh có tính cụ thể cao.
Những lời nhắc như “sử dụng ống kính 18mm để tạo hiệu ứng góc rộng”hoặc “lấy nét vào đối tượng có độ sâu trường ảnh nông”cho phép tinh chỉnh khả năng kiểm soát thẩm mỹ hình ảnh của video được tạo.
Google mô tả mô hình này đã được đào tạo về “ngôn ngữ điện ảnh”, cho phép mô hình tái tạo các hiệu ứng hình ảnh phức tạp mà trước đây là lĩnh vực của các nhà làm phim chuyên nghiệp.
Trong các cuộc trình diễn, Veo 2 đã thể hiện khả năng xử lý các tình huống hình ảnh phức tạp một cách chính xác. Một ví dụ là người nuôi ong làm việc giữa một đàn ong mật, trong đó chuyển động của những con ong và sự phản chiếu ánh sáng trên cánh của chúng được thể hiện với độ chính xác như thật
[được nhúng. nội dung]
Một đoạn clip khác mô tả một nhà khoa học đang nhìn vào kính hiển vi, trong đó máy ảnh ghi lại sự tập trung cao độ và các chi tiết môi trường tinh tế của cô ấy, chẳng hạn như ánh sáng huỳnh quang của phòng thí nghiệm
Google cho biết Veo 2 giúp hiểu rõ hơn về thực tế. vật lý thế giới cũng như sự tinh tế trong chuyển động và biểu cảm của con người, nhằm cải thiện tính chân thực và giải quyết những thách thức chung trong việc tạo video AI.
[nội dung nhúng]
Những cải tiến về chủ nghĩa hiện thực còn mở rộng đến việc giải quyết những cạm bẫy phổ biến của trình tạo video AI, chẳng hạn như như con người bị bóp méo hình ảnh, chuyển động không thực tế hoặc các tạo tác hình ảnh không liên quan. Khả năng quản lý những thách thức này của Veo 2 giúp Veo 2 trở thành công cụ hàng đầu dành cho các chuyên gia sáng tạo đang tìm kiếm nội dung video chất lượng cao do AI tạo ra.
SynthID: Các biện pháp bảo vệ đạo đức cho nội dung AI
Để giải quyết những lo ngại về đạo đức xung quanh việc lạm dụng nội dung do AI tạo ra, Veo 2 tích hợp công nghệ tạo hình mờ SynthID của Google. Chữ ký số vô hình này được nhúng trực tiếp vào đầu ra, cho phép nhận dạng các video do AI tạo ra mà không ảnh hưởng đến chất lượng hình ảnh của chúng.
SynthID được thiết kế để giảm thiểu rủi ro như thông tin sai lệch hoặc thao tác độc hại, đảm bảo rằng các công cụ AI được sử dụng một cách có trách nhiệm. Trong thông báo của mình, Google nhấn mạnh rằng họ đã tập trung vào việc đảm bảo độ tin cậy và khả năng truy xuất nguồn gốc của đầu ra của Veo 2, được hỗ trợ bởi các tính năng như hình mờ SynthID.
Không giống như các hình mờ hiển thị, SynthID hoạt động kín đáo, điều mà Google cho rằng khiến nó thực tế hơn để sử dụng chuyên nghiệp trong khi vẫn duy trì tính minh bạch. Tuy nhiên, cách tiếp cận này cũng đặt ra câu hỏi về việc thực thi vì nó dựa vào việc người dùng hoặc nền tảng tích cực xác minh nội dung để phát hiện hành vi lạm dụng tiềm ẩn.
Việc triển khai SynthID của Google phù hợp với những nỗ lực rộng lớn hơn trong ngành công nghệ, bao gồm Sáng kiến xác thực nội dung và giao thức tạo hình chìm mờ C2PA nguồn mở mà Google là thành viên tích cực trong đó.
Veo Người dùng hiện có thể truy cập phiên bản 2 này thông qua nền tảng VideoFX trong Google Labs, với kế hoạch triển khai rộng rãi hơn vào năm 2025. công ty cũng đã công bố kế hoạch tích hợp công nghệ này vào YouTube Shorts, cho phép người sáng tạo trên nền tảng này trực tiếp tạo ra các video chất lượng cao do AI điều khiển.
Tính đến thời điểm hiện tại, quyền truy cập vẫn bị hạn chế thông qua hệ thống danh sách chờ, phản ánh cách tiếp cận thận trọng của Google trong việc mở rộng phạm vi cung cấp.
Bối cảnh cạnh tranh trong video AI
Những tiến bộ của Google trong lĩnh vực tạo video xuất hiện khi sự cạnh tranh trong lĩnh vực AI ngày càng nóng lên. OpenAI gần đây đã ra mắt trình tạo video Sora, nhưng khả năng của nó vẫn bị giới hạn ở độ phân giải 1080p và thời lượng clip ngắn hơn lên tới 20 giây.
[nội dung nhúng]
Ngược lại, Veo 2 hỗ trợ độ phân giải lên tới 4K và có thể tạo các clip dài hơn, với thời lượng kéo dài đến vài phút. Trong quá trình đánh giá nội bộ, Google báo cáo rằng 59% người dùng thích kết quả đầu ra của Veo 2 hơn Sora Turbo, phiên bản nâng cấp của công cụ OpenAI.
Theo Google, 59% người dùng trong các đánh giá nội bộ thích Veo 2 hơn Sora Turbo, nêu bật tính ưu việt về mặt kỹ thuật của nó.
Runway, một công ty lớn khác trong lĩnh vực AI tổng hợp, cũng đã đạt được những bước tiến trong việc tạo video nhưng vẫn bị giới hạn ở đầu ra 720p. Điều này định vị Veo 2 của Google là công cụ tiên tiến nhất để tạo video ở cấp độ chuyên nghiệp.
Chiến lược tập trung của công ty vào chủ nghĩa hiện thực, kiểm soát người dùng và đầu ra chất lượng cao nhấn mạnh ý định chiếm thị phần đáng kể trong thị trường đang phát triển cho các công cụ sáng tạo dựa trên AI.
[nội dung nhúng]
Hình ảnh 3: Mở rộng khả năng nghệ thuật trong tạo hình ảnh AI
Google cũng đã cải tiến Imagen 3, phiên bản mới nhất của mô hình tạo hình ảnh AI. Bản cập nhật Imagen 3 mang đến kết cấu sắc nét hơn, cải thiện độ cân bằng bố cục và hỗ trợ mở rộng cho các phong cách nghệ thuật đa dạng, từ mô tả quang học thực tế đến diễn giải theo trường phái ấn tượng.
Một trong những tính năng nổi bật của Imagen 3 là khả năng hiển thị hình ảnh với độ trung thực cao hơn theo lời nhắc của người dùng. Mô hình hiện tạo ra các kết quả đầu ra phù hợp chính xác hơn với các mô tả được cung cấp, giảm bớt sự mơ hồ đôi khi gây khó khăn cho các phiên bản trước đó.
Khả năng thích ứng với nhiều phong cách và kịch bản nghệ thuật khác nhau của Imagen 3 khiến nó trở thành một công cụ hấp dẫn đối với nhiều người dùng, từ các nhà thiết kế chuyên nghiệp đến những người có sở thích khám phá các dự án sáng tạo. Mô hình này vượt trội trong việc tạo ra những hình ảnh cân bằng tính toàn vẹn về mặt nghệ thuật với khả năng tuân thủ nhanh chóng.
Trong một loạt ví dụ được Google chia sẻ, Imagen 3 đã thể hiện khả năng của mình thông qua những sáng tạo ấn tượng về mặt hình ảnh, bao gồm cảnh nhà ga xe lửa đầy sương mù những năm 1940, một quả dâu tây được điêu khắc thành hình con chim ruồi đang bay và một ảnh chụp macro độ phân giải cao chụp một chiếc bình gốm được điêu khắc trên một bánh xe.
Mỗi ví dụ nêu bật khả năng của mô hình trong việc nắm bắt các chi tiết đẹp, chẳng hạn như hiệu ứng ánh sáng và bóng tối hoặc kết cấu phức tạp của vật liệu.
Google nhấn mạnh rằng Imagen 3 hỗ trợ nhiều phong cách nghệ thuật, bao gồm hình ảnh sống động như thật, khái niệm trừu tượng và hình ảnh lấy cảm hứng từ anime, mang đến sự linh hoạt nhằm đáp ứng nhu cầu sáng tạo đa dạng.
Whisk: Xác định lại việc phối lại hình ảnh
Google cũng giới thiệu một công cụ mới có tên là Whisk, cung cấp một cách tiếp cận mới mẻ đối với khả năng sáng tạo do AI điều khiển bằng cách cho phép người dùng kết hợp các lời nhắc trực quan để tạo ra hình ảnh mới.
Không giống như các hệ thống dựa trên văn bản truyền thống, Whisk cho phép người dùng tải hình ảnh lên để xác định chủ đề, cảnh hoặc phong cách mà công cụ này sau đó xử lý để tạo ra kết quả đầu ra gắn kết. Điều này khiến nó trở nên lý tưởng cho những người dùng muốn nhanh chóng tạo nguyên mẫu cho các ý tưởng mà không cần dựa vào các mô tả văn bản rộng rãi.
Whisk tận dụng các khả năng của mô hình Gemini của Google, mô hình này phân tích và chú thích các hình ảnh đã tải lên để trích xuất các tính năng chính của chúng. Sau đó, những chú thích này được đưa vào Imagen 3, cho phép công cụ tạo ra sự kết hợp độc đáo giữa các yếu tố hình ảnh được cung cấp.
Trong một lần minh họa, Whisk đã được sử dụng để kết hợp hình ảnh một chiếc mô tô cổ điển với bối cảnh rừng rậm và phong cách nghệ thuật lấy cảm hứng từ anime những năm 1980. Kết quả là một bố cục hình ảnh gắn kết kết hợp liền mạch cả ba yếu tố. Người dùng có thể tinh chỉnh thêm kết quả đầu ra của mình bằng cách điều chỉnh lời nhắc hoặc điều chỉnh từng tính năng, đưa ra cách tiếp cận lặp đi lặp lại để khám phá nội dung sáng tạo.
[nội dung nhúng]
Google đã giải thích mục đích đằng sau Whisk trong thông báo của mình: “Chúng tôi muốn tạo ra một công cụ giúp đơn giản hóa ý tưởng trực quan, giúp người dùng dễ dàng thử nghiệm các khái niệm và tinh chỉnh tầm nhìn sáng tạo của họ.”
Whisk thể hiện một khía cạnh khác trong nỗ lực của Google nhằm cân bằng giữa tính sáng tạo với trách nhiệm đạo đức. Bằng cách cho phép người dùng kết hợp các lời nhắc trực quan, công cụ này mở ra những khả năng mới để thử nghiệm sáng tạo
Tuy nhiên, việc dựa vào các hình ảnh được tải lên đặt ra câu hỏi về quyền sở hữu trí tuệ và quyền riêng tư. Mặc dù Whisk không tạo ra bản sao chính xác của các hình ảnh đã tải lên nhưng nó trích xuất các tính năng chính để tạo ra các tác phẩm mới, điều này có thể vô tình. sao chép các yếu tố nhạy cảm hoặc có bản quyền.
Khả năng cung cấp toàn cầu rộng hơn nhưng có giới hạn
Imagen 3 hiện có sẵn trên toàn cầu thông qua Nền tảng ImageFX của Google Labs, ngoại trừ Đức. Google đã trích dẫn chiến lược triển khai theo từng giai đoạn thông thường của mình là lý do cho hạn chế này, nhưng các nhà phân tích trong ngành đã chỉ ra ảnh hưởng có thể có của Đạo luật AI của Liên minh Châu Âu.
Luật này yêu cầu các công ty tiết lộ thông tin chi tiết về bộ dữ liệu được sử dụng để đào tạo các mô hình AI của họ, bao gồm cả liệu có liên quan đến tài liệu có bản quyền hay không.
Mặc dù Google chưa xác nhận thông tin cụ thể về dữ liệu huấn luyện của Imagen 3, nhưng các báo cáo trước đây cho thấy rằng các tập dữ liệu chứa hình ảnh có sẵn công khai, có thể bao gồm cả nội dung YouTube, đã góp phần vào sự phát triển của mô hình.
Điều này sự thiếu minh bạch đã làm dấy lên mối lo ngại giữa các nghệ sĩ và những người ủng hộ bản quyền, những người cho rằng việc sử dụng hình ảnh công khai mà không có sự cho phép rõ ràng sẽ đặt ra các câu hỏi về đạo đức và pháp lý.
Trong tuyên bố chính thức của mình, Google nhắc lại cam kết của mình về tính minh bạch và tham gia vào các sáng kiến nhằm tạo ra các tiêu chuẩn đạo đức cho dữ liệu đào tạo AI.