Kwiecień trwa, powoli zbieram materiał do podsumowania:

Llama 4

Dość szumnie zapowiadane wydanie, które miało obejmować Llama 4 Scout (17 mld parametrów i 16 ekspertów), Maverick (17 mld parametrów i 128 ekspertów) i Behemoth (288 mld parametrów i 16 ekspertów) – imponujące, prawda? Jak dodamy do tego zapowiadane 10 mln tokenów okienka kontekstowego dla małego modelu (model Scout) i 1 mln dla pozostałych to robi się naprawdę grubo.

Za magią cyferek nie poszła niestety magia efektywności. Na LmArena Llama 4 pojawiła się na moment na 2 miejscu, aby po chwili zniknąć… Okazało się, że model był delikatnie mówiąc podkręcony do przejścia ślepych testów z użytkownikami. Efektywny test przeprowadzony przez fiction.live pokazał, że efektywność Llama 4 jest dużo mniejsza.

GPT 4.1

GPT 4.1 lepszy nowszy i bardziej sprawny niż GPT 4.5, distępny tylko przez API. Wg pierwszych opinii to prawdopodobnie najlepszy aktualnie model językowy wspierający np kodowanie. Rodzina modeli pomyślana głównie o developerach.

Qwen 3.0

No i mamy hit na koniec miesiąca. Pojawił się nowy model od Alibaby – Qwen 3.0, Wersja MoE i Dense wyprzedzają konkurencję w obszarach matematyki i kodowania, właściwie w większości rankingach.

Co o nim wiemy? Modele trenowane w 2 reżimach – Dense i MoE. MoE z mniejsza liczbą parametrów prześciga model Dense.Wspiera 119 języków, modele obsługują okienka kontekstowe 32k i 128k. Post trening podobny do DeepSeek + strategia destylacji modeli Strong-to-Weak.

TPU Ironwood i NVIDIA cuM

Google bierze się za sprzęt – podczas konferencji Google Cloud Next 25 został zaprezentowany nowy układ TPU Ironwood. Zgodnie z zapowiedziami, układ ma 3 x większą wydajność energetyczną niż poprzednie generacje, a dodatkowo w porównaniu do pierwszej generacji TPUv2 jest 3600 x większą moc w szczytowej wydajności FP8.

W tym czasie Nvidia prezentuje framework cuML umożliwiający uruchamianie modeli Scikit-Learn na GPU Nvidia przyśpieszający ich wykonanie o 92 razy

Tematy do dalszej eksploracji:

Write A Comment