Apple引入了AI系統,旨在在App Store上凝結用戶評論,旨在為用戶提供快速的反饋消化。承認“評分和評論對於用戶來說是在應用商店探索應用程序的用戶的寶貴資源,提供了有關他人如何體驗應用程序的見解,”
該公司概述了該功能的目標,並指出:“我們製作評論摘要的目標是確保他們具有包容性,平衡,準確地反映用戶的聲音。 src=“ https://winbuzzer.com/wp-content/uploads/2025/04/apple-apple-app-store-ai-review-summaries.webp”>
倡議遵循以下情況下的內部原則,優先確定安全,公平,真實性和幫助。處理用戶生成的內容(例如應用程序評論)帶來了獨特的困難。 Apple明確地確定了儘管不斷的應用程序更新(及時性),捕獲評論的各種樣式和實質(多樣性),並濾除無關緊要或非主題備註以保持可靠性(準確性),但仍需要摘要保持最新。為了確保相關性,摘要每周至少刷新一次。 解碼用戶反饋,Apple構建的系統通過精心結構的工作流來解決這些問題。首先,它過濾原始評論以排除垃圾郵件,令人反感的語言和欺詐性帖子。然後,符合條件的評論輸入由多個LLM的動力供電的管道-複雜的AI模型擅長處理和生成類似人類的文本。儘管蘋果沒有指定確切的閾值。 洞察提取後,另一種特殊調整的語言模型執行動態主題建模。該模型將類似的見解分組到主題中,並生成標準化的主題名稱,而不依賴於預定義的,固定的列表或分類法。 它使用諸如嵌入式(文本的數值表示)和模式匹配的技術結合語義相關的主題和措辭變化。該模型還區分了與“應用程序經驗”(例如功能或性能)和“應用外的經驗”評論(例如有關送貨應用程序食品質量的意見)直接相關的反饋,將前者優先考慮在摘要中的相關性。 曾經對一項系統進行了確定的設置,該系統選擇了系統。此選擇優先考慮主題的知名度,但還納入了平衡,相關性,有用性和新鮮度的標準。它驗證了所選信息中反映的總體情緒與應用程序的一般評級分佈一致。 至關重要的是,系統選擇與這些主題相關的最具代表性的見解,以將其提供給最終的摘要生成步驟。蘋果解釋說,這種選擇提供了直接從用戶評論中得出的更自然的詞,從而摘要更具表現力和詳細性。 第三個LLM,也用Lora適配器進行了微調,製作了最終摘要。該模型最初是對人類專家撰寫的大量參考摘要進行培訓的。 It was then further refined using Direct Preference Optimization (DPO), a method for aligning model output with human judgments by learning directly from preferred versus non-preferred response pairs, focusing on examples where composition or style needed improvement according to human editors. 此最終LLM生成了100到300個字符之間的段落,該段落是針對蘋果的所需樣式,語音和作品量身定制的。鑑於摘要在不同的設備之間是一致的,這似乎是基於雲的,這表明它不僅依賴於新硬件上可能存在的蘋果智能功能。 用AI
生成簡潔的概述
質量控制和上下文
蘋果詳細評估了質量生成的質量的多型評估過程。人類評估者根據四個關鍵標準審查了數千份樣本摘要:安全性(檢查有害或冒犯性內容),紮根(確保忠實地代表輸入評論),組成(評估語法和遵守蘋果風格),並有用(確定輔助下載用戶下載決策)。根據蘋果的說法,A
獲得高安全性評級需要評估者一致協議,而其他三個標準是基於多數協議的。自動化有助於這一評估的部分,有效地指導人類專業知識。為了處理正在進行的質量維護,用戶和開發人員都可以通過App Store界面或App Store Connect直接向Apple報告有問題的摘要。
最初針對美國有限數量的應用程序的針對性的英語審查,Apple聲明計劃將其擴展到2025年的更多語言和區域,以供2025年進行審查。 2024)。
雖然某些評論員認為這種AI摘要是相對簡單的“低懸一起”,並具有明顯的用戶益處,但存在潛在的關注點,即對摘要被虛假評論操縱,或者可能阻止用戶參與更詳細的反饋。然而,其工作流程的質量和忠實的質量是,
展示LLMS用於管理大量用戶內容的應用。