Rok zaczął się od bardzo mocnych akcentów:

DeepSeek R1

Wydanie tego modelu ustawiam go jako chyba najważniejsze wydarzenie stycznia i zakładam, że będzie to też jedno z ważniejszych wydarzeń tego roku. DeepSeek już w ubiegłym roku dał się poznać po publikacji modelu V3, a wcześniej modeli matematycznych i koderskich oraz ciekawym konceptem Mixture of Experts (MoE), która nadal jest przez nich udoskonalana.

Udostępnione przez DeepSeek modele od razu trafiły do ścisłej czołówki – są porównywalne (lub nawet je przewyższając) do komercyjnie dostęnych rozwiązań od OpenAI czy Anthropic, co oczywiście zostało zauważone i przebiło się do mniej technicznych mediów.

Dodatkowo Deep Seek to wyśmienite publikacje na axriv – to co wcześniej było tajne i komercyjne, nagle stało się otwarte i dostępne praktycznie dla każdego (modele dostępne są na HaggingFace). Czeka nas w najbliższym czasie wysyp modeli Deep Thinking/Reasoning Model

Bardziej technicznie: DeepSeek R1(671B parametrów) – otwarty LLM (otwarte wagi) z 37B aktywnych parametrów w architekturze MoE (Mixture of Experts), Group Relative Policy Optimization (GRPO) – algorytm RL z weryfikowalnymi nagrodami w matematyce i programowaniu, multi-head latent attention (MLA), stabilne trenowanie FP8 – redukcja zużycia pamięci przy zachowaniu precyzji.

No i najważniejsze – dostępność: Licencja MIT (Llama od Mety już się wstydzi), integracja z AWS i GitHub Models.

Qwen 2.5 Max

Alibaba, której obecność jest coraz bardziej widocznych w ostatnich miesiącach pokazała model, który ma być bezpośrednim konkurentem dla udostępnionych modeli OpenAi i DeepSeek. Wg udostępnionych benchmarków, model 2.5 Max jest bardziej efektywny niż 4o oraz Claude 3.5.

Trochę szczegółów: hybrydowa architektura łącząca dense i sparse attention dla długich sekwencji, wbudowany mechanizm “chain-of-thought” dla zadań matematycznych (wg benchamrków poprawa o 15% w GSM8K vs GPT-4o)

o3 mini

Właściwie, jako bezpośrednia odpowiedź na to co zaprezentował DeepSeek jest nowy model o3 mini od OpenAI (co ciekawe, udostępniony również w wersji bezpłatnej).

Gemini 2.0 Flash

Google zapowiedziało wydanie Gemini 2.0 Pro Experimental, ale pod koniec stycznia pokazało swój model Flash, szybszy, lepszy itp. Experimental zniknął ze strony i z Roadmapy…

Nowy 2.0 Flash to szybki model (2 razy szybszy niż poprzedni 1.5), model hybrydowy z obsługą multimediów. Google zatroszczyło się też o przygotowanie środowisk agentowych dla tego modelu

Wracając jeszcze do znikających wydań, można podejrzewać, że trochę na fali zapowiedzi i wydania DeepSeeka, chociaż to bardziej moje przypuszczenia, Google uznało, że nie osiągnie za wiele nowym modelem.

Stargate

Pojawiły się informacje o inwestycję o wartości 500 mld USD w ciągu czterech lat w celu zbudowania infrastruktury sztucznej inteligencji na dużą skalę i dominację USA w tej kategorii. Inwestycja ma obejmować zaawansowane centra danych i wysokowydajne systemy obliczeniowe. Inicjatywa ma być wspierana przez OpenAI, SoftBank, Oracle i MGX.

Write A Comment