Chiński startup AI Deepseek rozpoczął godną uwagi aktualizację swojego modelu sztucznej inteligencji R1, wyznaczonego DeepSeek-R1-0528, znacznie zwiększając jego możliwości i ustawiając go bliżej wiodących systemów globalnych. Pomimo godnych uwagi zysków wydajności firma uważa nowy model za „drobną aktualizację”.
Firma twierdzi, że nowa wersja zapewnia znacznie poprawę wydajności rozumowania, matematyki i programowania, jednocześnie zmniejszając generowanie nieprawidłowych informacji lub „halucynacji”. Jest to istotne dla użytkowników i szerszego przemysłu, podkreślając szybki postęp chińskich firm AI i obiecujące silniejsze, niezawodne narzędzia AI, tym samym intensyfikując globalną konkurencję AI.
Dla użytkowników przekłada się to na oczekiwania dokładniejszych i istotnych kontekstowo wyników, zwłaszcza podczas rozwiązania złożonych zadań. Firma podkreśliła również, że wersja R1-0528 oferuje zwiększoną obsługę wywoływania funkcji, umożliwiając lepszą interakcję z narzędziami zewnętrznymi i ulepszone wrażenia „kodowania atmosfery”, sugerujące, że bardziej intuicyjne generowanie kodu, jak stwierdzono w ich ogłoszeniu.
Najnowsza iteracja Deepseeek R1 kontynuuje korzystanie z mieszanki mieszanki (moe), w stosunku do około 670-685 milionu parametrów. ale aktywuje tylko około 37 miliardów na token podczas wnioskowania.
Ulepszone możliwości i głębsze myślenie
Deepseek kwantyfikuje skok wydajności z określonymi wynikami porównawczymi. W szczególności w teście AIME 2025, trudnej konkurencji matematycznej, dokładność modelu wzrosła z 70% do 87,5%.
przypisuje się to większej głębokości rozumowania; Nowy model wynosił średnio 23 000 tokenów-jednostki przetwarzanego tekstu-na pytanie w tym teście, znaczny wzrost w porównaniu z poprzednimi 12 000 tokenów. Ponadto, pokazując swoją sprawność, na tablicy liderów LiveCodeBench, utrzymywanych przez naukowców z UC Berkeley, MIT i Cornell, nowa Deepseek R1-0528 przewyższała licynację XAI, „Kluczową liczbę holycynacji”, „KRYTYCZNA KROKA KROKATOWANA ALEM AMETORING AM AMETORING FORING FORING FORING FORETIONATYMI. Ale fałszywe informacje pozostają trwałym wyzwaniem. Twórcy testujący model zaobserwowali również, że R1-0528
Użytkownicy mogą interakcja z modelem wzmocnionym przez Oficjalna strona czatu Deepseek Włączając opcję „Deepthink” dla programistów Model R1-0528 jest również dostępny z bezpłatnym interfejsem API za pośrednictwem OpenRouter. Społeczność open source, Deepseek wydała również DeepSeek-R1-0528-QWEN3-8B. Licencjonowane w ramach licencja mit , zezwalając na użytek komercyjny i destylację. href=”https://unsloth.ai/blog/deepseek-r1-0528″target=”_ puste”> post na blogu dostępność, open source i wspólnotowy odbiór
Podczas gdy Deepseek Twarz wpisuje znaczącą aktualizację, niektórzy scharakteryzowali wydanie w express Tribune , który również wspomniał o reprezentowaniu Deepseek, opisującym to w grupie Iteratywnej. Przygotowuje się do modelu rozumowania R2 nowej generacji, którego premiera została podobno przyspieszona, aby lepiej konkurować z globalnymi laboratoriami AI.
Oryginalny DEEPSEEK R1 wywarł znaczący wpływ na wcześniejszy rok, tak jak Trplexity A. Deepseek konsekwentnie przyczynił się do AI, uwalniając narzędzia, takie jak flashmla, złoże się na deepseek-Prover-V2-671B dla komitetu matematycznego. Raport pokazał, że Deepseek był nie tylko kolejną aplikacją AI, ale „bronią w arsenale chińskiej partii komunistycznej, zaprojektowanej w celu szpiegowania Amerykanów, kradzieży naszej technologii i obalenia prawa USA.”
W odpowiedzi na taką presję i kontrolę nad eksportem w USA. modele pod koniec 2024 r.