Rok zaczął się od bardzo mocnych akcentów:
DeepSeek R1
Wydanie tego modelu ustawiam go jako chyba najważniejsze wydarzenie stycznia i zakładam, że będzie to też jedno z ważniejszych wydarzeń tego roku. DeepSeek już w ubiegłym roku dał się poznać po publikacji modelu V3, a wcześniej modeli matematycznych i koderskich oraz ciekawym konceptem Mixture of Experts (MoE), która nadal jest przez nich udoskonalana.
Udostępnione przez DeepSeek modele od razu trafiły do ścisłej czołówki – są porównywalne (lub nawet je przewyższając) do komercyjnie dostęnych rozwiązań od OpenAI czy Anthropic, co oczywiście zostało zauważone i przebiło się do mniej technicznych mediów.
Dodatkowo Deep Seek to wyśmienite publikacje na axriv – to co wcześniej było tajne i komercyjne, nagle stało się otwarte i dostępne praktycznie dla każdego (modele dostępne są na HaggingFace). Czeka nas w najbliższym czasie wysyp modeli Deep Thinking/Reasoning Model
Bardziej technicznie: DeepSeek R1(671B parametrów) – otwarty LLM (otwarte wagi) z 37B aktywnych parametrów w architekturze MoE (Mixture of Experts), Group Relative Policy Optimization (GRPO) – algorytm RL z weryfikowalnymi nagrodami w matematyce i programowaniu, multi-head latent attention (MLA), stabilne trenowanie FP8 – redukcja zużycia pamięci przy zachowaniu precyzji.
No i najważniejsze – dostępność: Licencja MIT (Llama od Mety już się wstydzi), integracja z AWS i GitHub Models.
- [2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- https://huggingface.co/deepseek-ai
Qwen 2.5 Max
Alibaba, której obecność jest coraz bardziej widocznych w ostatnich miesiącach pokazała model, który ma być bezpośrednim konkurentem dla udostępnionych modeli OpenAi i DeepSeek. Wg udostępnionych benchmarków, model 2.5 Max jest bardziej efektywny niż 4o oraz Claude 3.5.
Trochę szczegółów: hybrydowa architektura łącząca dense i sparse attention dla długich sekwencji, wbudowany mechanizm “chain-of-thought” dla zadań matematycznych (wg benchamrków poprawa o 15% w GSM8K vs GPT-4o)
o3 mini
Właściwie, jako bezpośrednia odpowiedź na to co zaprezentował DeepSeek jest nowy model o3 mini od OpenAI (co ciekawe, udostępniony również w wersji bezpłatnej).
- https://openai.com/index/openai-o3-mini/
- https://venturebeat.com/ai/its-here-openais-o3-mini-advanced-reasoning-model-arrives-to-counter-deepseeks-rise/
Gemini 2.0 Flash
Google zapowiedziało wydanie Gemini 2.0 Pro Experimental, ale pod koniec stycznia pokazało swój model Flash, szybszy, lepszy itp. Experimental zniknął ze strony i z Roadmapy…
Nowy 2.0 Flash to szybki model (2 razy szybszy niż poprzedni 1.5), model hybrydowy z obsługą multimediów. Google zatroszczyło się też o przygotowanie środowisk agentowych dla tego modelu
Wracając jeszcze do znikających wydań, można podejrzewać, że trochę na fali zapowiedzi i wydania DeepSeeka, chociaż to bardziej moje przypuszczenia, Google uznało, że nie osiągnie za wiele nowym modelem.
- (aktualizacja, link do bloga Google nie działa, wrzucam za to inny opis) https://techcrunch.com/2025/01/30/google-quietly-announces-its-next-flagship-ai-model/
- https://gemini.google.com/updates
- https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-exp
Stargate
Pojawiły się informacje o inwestycję o wartości 500 mld USD w ciągu czterech lat w celu zbudowania infrastruktury sztucznej inteligencji na dużą skalę i dominację USA w tej kategorii. Inwestycja ma obejmować zaawansowane centra danych i wysokowydajne systemy obliczeniowe. Inicjatywa ma być wspierana przez OpenAI, SoftBank, Oracle i MGX.
