Microsoft đang biến Windows 11 thành một”PC AI”với một bản cập nhật Copilot lớn được công bố hôm nay, nhằm mục đích giúp việc tương tác với máy tính trở nên tự nhiên và thông minh hơn.
Lời đánh thức”Hey, Copilot”mới cho phép người dùng ra lệnh bằng giọng nói, trong khi Copilot Vision hiện có sẵn trên toàn cầu cho phép AI nhìn và hiểu nội dung trên màn hình để cung cấp trợ giúp.
Microsoft cũng đang xem trước thử nghiệm Copilot Actions, trao quyền cho trợ lý thực hiện các tác vụ trực tiếp trên PC cho người dùng. Những bản cập nhật này, hiện đang được triển khai, thể hiện tầm nhìn của Microsoft trong việc tích hợp sâu một đối tác AI chủ động vào cốt lõi của hệ điều hành.
Giám đốc tiếp thị người tiêu dùng của công ty, Yusuf Mehdi đã trình bày tham vọng một cách rõ ràng và nêu rõ: “tầm nhìn mà chúng tôi có là: hãy viết lại toàn bộ hệ điều hành xung quanh AI và xây dựng về cơ bản những gì thực sự trở thành PC AI”. Mục tiêu là biến mọi thiết bị Windows 11 trở thành nền tảng cho mô hình mới này, bao gồm cả các trình kết nối Copilot cho các dịch vụ như Gmail.
‘Này, Copilot’: Giọng nói trở thành đầu vào PC cốt lõi
Microsoft đang thực hiện một nỗ lực đổi mới và đầy tham vọng nhằm biến giọng nói thành phương thức tương tác chính với PC. Trọng tâm của nỗ lực này là từ đánh thức “Này, Copilot” mới, hiện đã có sẵn rộng rãi, loại bỏ sự khó khăn khi nhấp vào biểu tượng để bắt đầu cuộc trò chuyện. Tính năng này là trọng tâm trong chiến lược của công ty nhằm giúp AI mạnh mẽ của họ dễ tiếp cận hơn với nhiều đối tượng hơn.
Đây không phải là nỗ lực đầu tiên của công ty trong việc tích hợp giọng nói. Các nhà phê bình nhanh chóng chỉ ra sự thất bại ngoạn mục của Cortana trên Windows 10 cách đây một thập kỷ. Tuy nhiên, Microsoft đang đánh cược rằng sự phức tạp của AI hiện đại cuối cùng sẽ thuyết phục người dùng rằng việc nói chuyện với PC của họ không có gì lạ, tạo ra một sự thay đổi thực sự trong hành vi mà những nỗ lực trước đây không thể thực hiện được.
Niềm tin của công ty được củng cố bởi dữ liệu nội bộ cho thấy rằng khi mọi người sử dụng giọng nói, họ tương tác với Copilot nhiều gấp đôi so với khi họ sử dụng văn bản.
Microsoft chỉ ra các hành vi hiện có, chẳng hạn như hàng tỷ phút dành cho việc nói chuyện. Các cuộc họp nhóm và việc sử dụng các công cụ trợ năng là bằng chứng cho thấy người dùng đã cảm thấy thoải mái khi nói chuyện với thiết bị của họ.
Trải nghiệm được thiết kế liền mạch. Sau khi bật tính năng chọn tham gia trong cài đặt, việc nói “Này, Phi công phụ”sẽ khiến biểu tượng micrô và chuông xuất hiện, xác nhận trợ lý đang lắng nghe. Người dùng có thể kết thúc cuộc trò chuyện bằng cách nói”Tạm biệt”hoặc đơn giản là dừng tương tác của họ. Tính dễ sử dụng này là điều mà Microsoft tin là “sự mở khóa thần kỳ” cho giọng nói.
[nội dung nhúng]
Yusuf Mehdi, giám đốc phụ trách tiêu dùng của Microsoft, tin rằng sự thay đổi này sẽ rất sâu sắc. Ông giải thích trong một cuộc họp báo: “Trong suy nghĩ của chúng tôi, giọng nói giờ đây sẽ trở thành cơ chế đầu vào thứ ba được sử dụng với PC của bạn”.
Tham vọng này vượt xa khả năng đọc chính tả đơn giản, định vị giọng nói như một công cụ cho các lệnh và truy vấn phức tạp có thể thu hẹp khoảng cách giữa ý định của người dùng và kỹ năng nhắc nhở của AI.
Tầm nhìn cuối cùng là về một máy tính có khả năng đàm thoại thực sự và phản hồi nhanh. “Bạn sẽ có thể nói chuyện với PC của mình, để nó hiểu bạn và sau đó có thể biến điều kỳ diệu thành hiện thực.”
Mehdi nói thêm. Điều này thể hiện một canh bạc lớn, cá cược rằng AI cuối cùng đã tạo ra sự tương tác bằng giọng nói đủ hấp dẫn để thay đổi thói quen hàng thập kỷ của người dùng được xây dựng xung quanh bàn phím và chuột.
Một AI nhìn thấy màn hình của bạn: Tầm nhìn của phi công phụ được triển khai trên toàn cầu
Một thành phần quan trọng của tương lai tập trung vào AI này là Copilot Vision, hiện có sẵn ở tất cả các thị trường nơi Copilot được cung cấp. Tính năng này cho phép AI “nhìn” và phân tích màn hình của người dùng, cung cấp trợ giúp theo ngữ cảnh trên bất kỳ ứng dụng nào.
Khả năng này đã phát triển nhanh chóng kể từ bản xem trước giới hạn đầu tiên, được giới hạn trong trình duyệt Edge và yêu cầu đăng ký trả phí.
Tính năng này biến Copilot từ một chatbot thụ động thành một hướng dẫn trực quan, chủ động. Không giống như tính năng Thu hồi gây tranh cãi, Vision hoàn toàn chọn tham gia và không phải lúc nào cũng bật.
Người dùng phải cấp quyền rõ ràng cho mỗi phiên bằng cách nhấp vào một “biểu tượng kính” riêng biệt, về cơ bản là truyền trực tuyến chế độ xem màn hình của họ theo cách tương tự như cuộc gọi Teams.
Sau khi được kích hoạt, Vision có thể đưa ra hướng dẫn từng bước, khắc phục sự cố trên PC hoặc trả lời các câu hỏi về nội dung trên màn hình. Khả năng này đã mở rộng từ việc xem các ứng dụng đơn lẻ sang chế độ”Chia sẻ màn hình”đầy đủ, cho phép AI hiểu ngữ cảnh trong toàn bộ quy trình làm việc của người dùng.
[nội dung được nhúng]
Nhóm Microsoft Copilot đã giải thích chức năng này, nêu rõ:”khi bạn chia sẻ màn hình của mình (hoặc bất kỳ cửa sổ ứng dụng hoặc trình duyệt cụ thể nào), Copilot có thể thấy những gì bạn nhìn thấy và trao đổi với bạn về điều đó trong thời gian thực.”
Ứng dụng thực tế rất phong phú. Người dùng có thể yêu cầu các mẹo về một dự án sáng tạo, nhận trợ giúp để cải thiện sơ yếu lý lịch của họ hoặc nhận hướng dẫn khi điều hướng một trò chơi mới. Tính năng “Điểm nổi bật” thậm chí còn cho phép Copilot chỉ ra một cách trực quan nơi cần nhấp để hoàn thành nhiệm vụ. Để tăng năng suất, nó có thể phân tích toàn bộ bản trình bày PowerPoint để tìm thông tin chi tiết mà người dùng không cần phải xem qua từng trang trình bày.
Mặc dù Vision có thể xem và tư vấn nhưng nó không thể thay mặt người dùng thực hiện hành động; khả năng đó được dành riêng cho tính năng Hành động phi công phụ riêng biệt. Để mang lại trải nghiệm linh hoạt hơn, Microsoft cũng đang chuẩn bị chế độ “Nhập văn bản vào”, cho phép người dùng tương tác với Vision qua văn bản thay vì chỉ bằng giọng nói.
Nhận thức trên toàn hệ thống này rất quan trọng để cung cấp hỗ trợ thực sự theo ngữ cảnh. Bằng cách hiểu những gì người dùng đang làm, Copilot có thể cung cấp hỗ trợ phù hợp mà không yêu cầu giải thích dài dòng, tiến gần hơn đến mục tiêu trở thành “người bạn đồng hành hàng ngày”. thanh tác vụ được thiết kế lại cung cấp quyền truy cập bằng một cú nhấp chuột vào các công cụ này, tích hợp thêm chúng vào trải nghiệm Windows cốt lõi.
Từ Trợ lý đến Đại lý: Copilot Hành động kiểm soát PC của bạn
Có lẽ yếu tố được mong đợi nhất của bản cập nhật là bản xem trước thử nghiệm của Hành động Copilot cho các tệp cục bộ. Có sẵn cho Người dùng nội bộ Windows thông qua Copilot Labs, tính năng này cho phép AI thực hiện các tác vụ nhiều bước trực tiếp trên PC của người dùng. Điều này đánh dấu một bước quan trọng hướng tới tương lai của AI tự động, trong đó trợ lý không chỉ phản hồi mà còn tích cực làm việc thay mặt bạn.
Khả năng mới này biến Copilot thành thứ mà Microsoft gọi là “tổng đài viên có mục đích chung”. Thay vì chỉ trả lời câu hỏi, nó có thể mở ứng dụng, nhập, cuộn và thực hiện chuỗi hành động phức tạp.
Người dùng có thể mô tả một nhiệm vụ bằng từ ngữ của riêng họ—như sắp xếp ảnh kỳ nghỉ hoặc trích xuất thông tin từ tệp PDF—và nhân viên sẽ cố gắng hoàn thành nhiệm vụ đó bằng cách tương tác với các ứng dụng web và máy tính để bàn.
Hệ thống này được thiết kế để hoạt động giống như một cộng tác viên kỹ thuật số thực sự. Trong khi tác nhân hoạt động ở chế độ nền, người dùng có thể thoải mái tập trung vào những việc khác. Tại bất kỳ thời điểm nào, họ có thể theo dõi tiến trình của tác nhân, xem xét các hành động cụ thể mà tác nhân đã thực hiện hoặc thậm chí lấy lại toàn bộ quyền kiểm soát tác vụ. Khả năng này mở rộng trên các Hành động dựa trên web mà Microsoft đã công bố lần đầu tiên vào tháng 4, mang sức mạnh tự động hóa trực tiếp đến máy tính để bàn Windows.
Tuy nhiên, công ty đang minh bạch về bản chất thử nghiệm của mình và đang bắt đầu với một nhóm trường hợp sử dụng hẹp để tối ưu hóa hiệu suất và học hỏi từ việc sử dụng trong thế giới thực.
Navjot Virk, Phó Chủ tịch Tập đoàn Trải nghiệm Windows của Microsoft, cảnh báo rằng hệ thống này vẫn đang trong quá trình học hỏi. Bà lưu ý: “Ban đầu, bạn có thể thấy tác nhân mắc một số lỗi hoặc gặp phải một số thách thức khi cố gắng sử dụng một số ứng dụng thực sự phức tạp”.
Sự minh bạch này là một phần trong chiến lược có chủ ý nhằm quản lý kỳ vọng của người dùng đối với công nghệ mạnh mẽ nhưng còn non trẻ này.
[nội dung nhúng]
Học từ việc thu hồi: Trọng tâm mới về chọn tham gia và bảo mật
Microsoft đã nói rõ ràng nhấn mạnh thiết kế chọn tham gia, lấy quyền riêng tư làm trung tâm của các tính năng mới này. Cách tiếp cận thận trọng này là phản ứng trực tiếp và cần thiết trước phản ứng dữ dội đối với tính năng Thu hồi Windows. Tính năng này đã bị chỉ trích nặng nề vì các lỗ hổng bảo mật nghiêm trọng sau khi ra mắt.
Việc thu hồi ban đầu được bán với lời hứa về quyền riêng tư trên thiết bị. Vào thời điểm đó, Yusuf Mehdi tuyên bố:”Recall tận dụng chỉ mục ngữ nghĩa cá nhân của bạn, được xây dựng và lưu trữ hoàn toàn trên thiết bị của bạn. Ảnh chụp nhanh là của bạn; chúng lưu trữ cục bộ trên PC của bạn.”
Lời hứa đó đã tan vỡ khi các nhà nghiên cứu phát hiện ra tính năng này lưu trữ dữ liệu của nó trong cơ sở dữ liệu cục bộ không được mã hóa, tạo ra cái mà nhiều người gọi là”mỏ vàng cho phần mềm độc hại”.
Những lời chỉ trích dữ dội đã buộc công ty phải hứng chịu những lời chỉ trích dữ dội. để trì hoãn tính năng này và thiết kế lại tính năng bảo mật của nó. Với Copilot Vision và Actions, Microsoft sẽ không mạo hiểm.
Công ty đã công bố một bộ cam kết bảo mật rõ ràng, nhấn mạnh rằng những trải nghiệm tác nhân mạnh mẽ này đang được giới thiệu một cách có trách nhiệm.
Điều quan trọng là Copilot Actions bị tắt theo mặc định. Người dùng phải chọn bật nó một cách rõ ràng và có thể tạm dừng, kiểm soát hoặc tắt nó bất cứ lúc nào.
Microsoft cũng hứa hẹn khả năng hiển thị đầy đủ, cho phép người dùng theo dõi tiến trình của tác nhân và xem xét từng bước thực hiện. Đối với các quyết định nhạy cảm, nhân viên thậm chí có thể yêu cầu phê duyệt cụ thể trước khi tiếp tục.
Việc tránh xa hoạt động thu thập dữ liệu thụ động của Recall là rất quan trọng để xây dựng lòng tin của người dùng. Mô hình mới cho Hành động đồng lái được thiết kế để đảm bảo người dùng luôn nắm quyền kiểm soát, trái ngược hoàn toàn với cách tiếp cận luôn bật ban đầu của Recall. Quá trình triển khai xem trước cẩn thận này được thiết kế để thu thập phản hồi và tinh chỉnh các biện pháp kiểm soát bảo mật trước khi phát hành rộng rãi hơn.
Cuối cùng, Microsoft đang định vị PC AI của mình là một đối tác đáng tin cậy. Như Mehdi đã nói, “chúng tôi muốn mọi người thực hiện chuyển đổi này đều có thể trải nghiệm ý nghĩa của việc có một chiếc PC không chỉ là một công cụ mà còn là một đối tác thực sự”.
Sự thành công của tầm nhìn đầy tham vọng này sẽ không chỉ phụ thuộc vào khả năng của công nghệ mà còn vào khả năng thuyết phục người dùng của công ty rằng các công cụ AI mới mạnh mẽ của họ đều an toàn và bảo mật.
[nội dung nhúng]