DeepSeek

Ostatnia aktualizacja: 06.04.2025

Zebrałem w jednym miejscu najciekawsze publikacje i wydane modele jakie w ostatnich miesiącach pojawiały się spod ręki DeepSeek’a. Jednak zanim przejdziemy do przeglądu, krótkie wprowadzenie.

DeepSeek zaskoczył świat ML i nie chodzi tutaj o to, że bez kompleksów wszedł do pierwszej ligi modeli LLM i zączł konkurować z (głównie) amerykańskimi korporacjami, dostarczając bardzo dojrzały produkt mimo restrykcji jakimi objęty jest sprzęt wykorzystywany do trenowania. Moim zdaniem największym zaskoczeniem była dokładność, kompleksowość i otwartość dostarczanych badań. Stało się to w momencie, gdy poszczególne rozwiązania były coraz bardziej szczątkowo lub w ogólne nie były opisywane, a duże komercyjne modele LLM były opisywane głównie językiem marketingowym, a o stosowanych lub badanych rozwiązaniach przez takie firmy jak OpenAI, Google, czy Meta dowiadywaliśmy się z poszlak i przypadkowych wypowiedzi pracowników tych firm na X czy Redditcie, wywiadów lub wspólnych publikacjach, gdzie o rozwiązaniach wspominało się przy okazji.

DeepSeek ze swoją otwartością jeżeli chodzi o prowadzone badania i pomysły wpłynął na pewną zmianę tego podejścia. Na ich publikacjach skorzystało wielu badaczy i równie wiele firm poprawiając i rozwijając swoje produkty (łącznie z naszym rodzinnym Bielikiem, który dorobił się eksperymentalnej wersji R1). Odczuwalnie zmieniła się też narracja i otwartość do dzielenia się pomysłami. Nawet sam Sam Altman (OpenAI) zapragnął być trochę bardziej “open”

TL;DR: we are excited to release a powerful new open-weight language model with reasoning in the coming months, and we want to talk to devs about how to make it maximally useful: https://t.co/XKB4XxjREV

we are excited to make this a very, very good model!

__

we are planning to…
— Sam Altman (@sama) March 31, 2025

Wracając do DeepSeek’a – zaraz po publikacji modelu R1, który przebił się do szerokiej publiczności jako poważny konkurent OpenAI, Liang Wenfeng – założyciel DeepSeeka – powiedział że… DeepSeek to side project, który powstał aby zutylizować zasoby jakie posiadają (https://www.entrepreneur.com/business-news/who-is-liang-wenfeng-the-founder-of-ai-disruptor-deepseek/486564).

Aby zrozumieć ten kontekst, warto wiedzieć, że Liang Wenfeng to CEO chińskiego hedge fund High-Flyer. Jest to jeden z największych o ile nie największy chiński hedge found, który w 2021 chwalił się posiadaniem 10 000 GPU A100 (https://en.wikipedia.org/wiki/High-Flyer). Tu warto przypomnieć, że Deep Seek R1 został wytrenowany na 2 000 GPU.

A teraz trochę o dokonaniach, tak aby potwierdzić, że DeepSeek R1 to nie był przypadek:

DeepSeek Coder – pojawił się w listopadzie 2023. Architektura podobna do Llama – https://deepseekcoder.github.io/
DeepSeek-LLM – model opublikowany również w listopadzie 2023. Rozwija temat eksperymentów z prawami skalowania (ang. scaling laws) i optymalizacją danych dwujęzycznych (angielski/chiński). W zadaniach matematycznych i koderskich pokonał LLaMA-2 70B – https://arxiv.org/abs/2401.02954v1
DeepSeek-MoE – na początku stycznia 24 na scenie pojawia się MoE. Sama technika znana i rozważna już od jakiegoś czasu (prawdopodobnie to była jedna ze ścieżek porzuconych przez OpenAI jeżeli chodzi o ich modele głębikiego myślenia). Mixture of Experts (MoE) z dynamicznym routingiem, redukująca zużycie zasobów przez aktywowanie tylko części parametrów na token (inaczej niż w podstawowej architekturze transformers, typu dense, aktywującej wszystkie paramtery). 37 mld aktywnych parametrów na token (z 671 mld całkowitych) – https://arxiv.org/abs/2401.06066
DeepSeek-Math – w kwietniu 2024 pojawia się paper, który opisuje wykorzystanie zautomatyzowanej ekstrakcji danych z Common Crawl, co znacząco pozowliło obniżyć koszty. Poza tym warto przyjrzeć się technice uczenia, dobrze opisanej w dokumencie. Ta technika to jeden z kluczy do późniejszych sukcesów – https://arxiv.org/abs/2402.03300
DeepSeek-V2 – maj/czerwiec 2024 – w ramach tego modelu zostało przedstawione Multi-Head Latent Attention (MLA), czyli kompresja wektorów Key/Value do oszczędzania pamięci. Pojawia się też udoskonalone DeepSeekMoE – optymalizacja routingu ekspertów z uwzględnieniem ograniczeń sprzętowych (w dokumentach można natknąć się na wzmianki o autorskim frameworku, który jest wykorzystywany do zarządzania procesem nauki i samą infrastukturą serwerową) – https://arxiv.org/abs/2405.04434
DeepSeek-Coder-V2 – w lipcu pojawia się model operujący na 236 mld parametrów, okno kontekstowe 128 tys. tokenów. Model zbudowny z głównym przeznaczniem do wsparcia przy skomplikowanych zadaniach koderskich, np. refactoring dużych repozytoriów – https://arxiv.org/abs/2406.11931
DeepSeek-V3 – w grudniu 2024 pojawił się model 671 mld, który początkowo był trochę przeoczony przez publikę. Posiadał rozszerzoną architekturę MoE, model wykorzystywał framework z precyzją FP8 – wykorzystany pierwszy raz przy tym modelu. Ciekawostkową poza znaczną optymalizacją w porównaniu do V2 był też trening w oparciu o HPC Co-Design, czyli równoległej optymalizacji architektury modelu i infrastruktury, co pozwoliło na trenowanie bardzo dużego modelu na sprzęcie z ograniczeniami (pamiętajmy, że mówimy tutaj o sprzęcie możliwym do wykorzystania w Chinach). – https://arxiv.org/abs/2412.19437
DeepSeek-R1 – styczeń 2025 – model wytrenowany z wykorzystaniem Reinforcement Learning w ostatnim cyklu budowy, z pominięciem fazy supervised fine tuning (zero-SFT). W modelu wykorzystano też Group Relative Policy Optimization (GRPO) – algorytm redukujący koszty obliczeniowe RL. Model oczywiście skupiony na “rozumowaniu”, bezpośredni konkurent dla OpenAI o1. Tym modelem DeepSeek zaistniał w świadomości większości użytkowników, nie tylko pasjonatów ML. – https://arxiv.org/abs/2501.12948
Tutaj warto jeszcze dodać, że API modelu udostępnionego przez DeepSeek jest w pełni kompatybilne z OpenAI SDK, wystarczy tylko zaktualizować link i API key 🙂
Janus-Pro-7B – również w styczniu pojawił się model wizyjny, do generowania i analizy obrazów – https://arxiv.org/abs/2501.17811v1

Wchodząc szczegóły techniczne, kilka innowacji z którym kojarzony jest DeepSeek (poza wspominanymi już rozwiązaniami przy okazji wymienionych modeli). Warto zwrócić uwagę jak duży nacisk kładziony jest na optymalizację sprzętową i kosztową:

HPC Co-Design – integracja architektury modelu z infrastrukturą obliczeniową – omówione w badaniu dla modelu V3
Zastąpienie RLHF (Reinforcement Learning from Human Feedback) procesem automatycznej oceny opartym na regułach (omówione m.in. w podlinkowanym badaniu dla modelu R1)
Optymalizacja Sprzętowa – wykorzystanie słabszych chipów Nvidia H800 zamiast H100/A100 (wykorzystywanych przez amerykańskich konkurentów) przy trenowaniu modeli, ale dzięki niskopoziomowemu programowaniu w PTX/assembler pozwoliło to obniżyć koszty (i pośrednio zniwelowało restrykcje eksportowe USA)
Multi-Token Prediction – Szkolenie modeli do przewidywania wielu tokenów naraz, co przyspieszyło proces i poprawiło dokładność. To koncept który pojawiał się modelach np. Meta dot predykcji całych sentencji, ale DeepSeek wszedł w to znacznie głębiej.
Emergent Reasoning – rozwój Chain-of-Thought poprzez RL, bez explicitnego programowania. Publikacje dot. modeli V2, V3 i potem R1, były dużym przełomem w tym obszarze.

Od strony biznesowej jest też ciekawie:

Zaraz po premierze R1 i pierwszych ocenach efektywności procesu trenowania akcje Nvidii spadły o 17%.
Używanie natywnego modelu udostępnionego przez stronę DeepSeek zostało zakazane w wielu amerykańskich instytucjach jak NASA czy Pentagon, podobne zakazy pojawiły się potem też w amerykańskich firmach
DeepSeek został oskarżony o cenzurę, gdzie przy pytaniu o plac Tienanmen chat odmawiał współpracy (https://www.theguardian.com/technology/2025/jan/28/we-tried-out-deepseek-it-works-well-until-we-asked-it-about-tiananmen-square-and-taiwan)
W opozycji do potwierdzonej cenzury, udostępnione wagi modelu umożliwiają uruchomienie go bez żadnych filtrów.
I kontując ten wątek – Open Source – to co zrobił Deep Seek było jak nowe otwarcie. Udostępnienie szczegółowej dokumentacji umożliwiającej przy odpowiedniej wiedzy replikację modelu, udostępnienie wag na licencji MIT spowodowało olbrzymie zamieszanie wśród czołówki firm udostępniającej modele i – z jednej strony zatrzymywało i wręcz cofnęło wzrost cen za korzystanie z modeli a z drugiej strony uwolniło lub wprost demokratyzowało dosęp do zaawansowanych modeli LLM.

Dodatkowe źródła:

Marzec 2025 w AI

ICLR 2025

Related Posts

Digital Red Queen – ewolucja programów w środowisku Core War z wykorzystaniem LLMów

Tytani Pamięci – Titans: Learning to Memorize at Test Time – analiza publikacji

Measuring Agents in Production – Analiza systemów agentowych w środowiskach produkcyjnych

DeepSeek-V3.2 – nowy model. Podsumowanie raportu.

Write A Comment Cancel Reply