Kwiecień trwa, powoli zbieram materiał do podsumowania:
Llama 4
Dość szumnie zapowiadane wydanie, które miało obejmować Llama 4 Scout (17 mld parametrów i 16 ekspertów), Maverick (17 mld parametrów i 128 ekspertów) i Behemoth (288 mld parametrów i 16 ekspertów) – imponujące, prawda? Jak dodamy do tego zapowiadane 10 mln tokenów okienka kontekstowego dla małego modelu (model Scout) i 1 mln dla pozostałych to robi się naprawdę grubo.
Za magią cyferek nie poszła niestety magia efektywności. Na LmArena Llama 4 pojawiła się na moment na 2 miejscu, aby po chwili zniknąć… Okazało się, że model był delikatnie mówiąc podkręcony do przejścia ślepych testów z użytkownikami. Efektywny test przeprowadzony przez fiction.live pokazał, że efektywność Llama 4 jest dużo mniejsza.
- https://ai.meta.com/blog/llama-4-multimodal-intelligence/
- https://www.llama.com/llama-downloads/
- https://huggingface.co/meta-llama
- https://fiction.live/stories/Fiction-liveBench-April-6-2025/oQdzQvKHw8JyXbN87
- https://lmarena.ai/
GPT 4.1
GPT 4.1 lepszy nowszy i bardziej sprawny niż GPT 4.5, distępny tylko przez API. Wg pierwszych opinii to prawdopodobnie najlepszy aktualnie model językowy wspierający np kodowanie. Rodzina modeli pomyślana głównie o developerach.
Qwen 3.0
No i mamy hit na koniec miesiąca. Pojawił się nowy model od Alibaby – Qwen 3.0, Wersja MoE i Dense wyprzedzają konkurencję w obszarach matematyki i kodowania, właściwie w większości rankingach.
Co o nim wiemy? Modele trenowane w 2 reżimach – Dense i MoE. MoE z mniejsza liczbą parametrów prześciga model Dense.Wspiera 119 języków, modele obsługują okienka kontekstowe 32k i 128k. Post trening podobny do DeepSeek + strategia destylacji modeli Strong-to-Weak.
- https://qwenlm.github.io/blog/qwen3/
- https://chat.qwen.ai/
- https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
TPU Ironwood i NVIDIA cuM
Google bierze się za sprzęt – podczas konferencji Google Cloud Next 25 został zaprezentowany nowy układ TPU Ironwood. Zgodnie z zapowiedziami, układ ma 3 x większą wydajność energetyczną niż poprzednie generacje, a dodatkowo w porównaniu do pierwszej generacji TPUv2 jest 3600 x większą moc w szczytowej wydajności FP8.
W tym czasie Nvidia prezentuje framework cuML umożliwiający uruchamianie modeli Scikit-Learn na GPU Nvidia przyśpieszający ich wykonanie o 92 razy
- https://developer.nvidia.com/blog/nvidia-cuml-brings-zero-code-change-acceleration-to-scikit-learn/ (tak, to news z marca, ale znalazłem to w kwietniu 😉
Tematy do dalszej eksploracji:
- Token embeddings violate the manifold hypothesis https://arxiv.org/abs/2504.01002
- EU AI Content Action Plan – https://digital-strategy.ec.europa.eu/en/news/commission-sets-course-europes-ai-leadership-ambitious-ai-continent-action-plan
- Gemini 2.5 Flash with Hybrid Reasoning – https://blog.google/products/gemini/gemini-2-5-flash-preview/
- Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? https://arxiv.org/abs/2504.13837
- Llama 2 on DOS – https://yeokhengmeng.com/2025/04/llama2-llm-on-dos/
- AutoRound – https://huggingface.co/blog/autoround
