Nie jest to najnowsze badanie w tym obszarze i ma już swoje “rozwojowe” aktualizacje (do których mam też już trochę notatek), ale jest to bardzo kompleksowe i “kaloryczne” podejście do zmiany paradygmatu w projektowaniu sieci neuronowych i przechodzeniu ze statycznych wag ustalonych podczas treningu wstępnego do dynamicznych systemów pamięci. Powiem szczerze, że to badanie trochę mnie prześladuje, przeglądałem je chwilę po publikacji (publikacja jest z przełomu 2024/2025), potem było przez moment “modne” m.in na X.com czy Reddicie, a w ostatni weekend przypomniał o nim Yannic Kilcher w czasie weekendowej sesji na jego discordzie. Pomyślałem, że czas podejść do tej publikacji poważniej – poniżej notatki z przeglądu. Publikacja jest z przełomu roku i po drodze pojawiło się już kilka ciekawych opracowań (o których spróbuję wspomnieć, a linki znajdziecie poniżej), ale bazą pozostaje to badanie.

Jeszcze w ramach wstępu – publikacja koncentruje się na technicznej analizie modułu Neural Long-Term Memory (LMM), który wykorzystuje głębokie sieci MLP do bezstratnej kompresji kontekstu historycznego, sterowanej inspirowaną biologicznie „metryką zaskoczenia”. Raport omawia trzy warianty architektury (MAC, MAG, MAL), mechanizmy optymalizacji gradientowej w fazie inferencji oraz ramy teoretyczne MIRAS, stanowiące fundament dla modeli Nested Learning (w tym modelu „Hope”). W oparciu o wyniki eksperymentalne wykazano, że Titans skutecznie rozwiązuje problem kwadratowej złożoności Transformerów, skalując się do okien kontekstowych przekraczających 2 miliony tokenów, przy jednoczesnym zachowaniu wyższej precyzji w zadaniach typu „igła w stogu siana” niż wiodące modele SSM (Mamba) i hybrydowe. Czyli mamy przed sobą teoretycznie, bardzo rewolucyjne badanie… Teoretycznie – bo nie mamy oficjalnych źródeł.

Przejdźmy do badania

Problem z pamięcią dużych modeli językowych

Współczesna inżynieria sztucznej inteligencji, a w szczególności dziedzina przetwarzania języka naturalnego (NLP), od ponad dekady zdominowana jest przez wyścig o jak najefektywniejsze modelowanie sekwencji. Głównym wyzwaniem, z którym mierzą się badacze, jest dylemat pamięci: w jaki sposób przetwarzać nieskończony strumień informacji, nie tracąc wątku, a jednocześnie nie zapychając swoich zasobów obliczeniowych?

Od 2017 roku standardem de facto stała się architektura Transformer, przedstawiona w dokumencie “Attention Is All You Need”. Transformery zrewolucjonizowały obszar NLP dzięki mechanizmowi uwagi (self-attention), który pozwala modelowi na bezpośredni dostęp do każdego elementu w przetwarzanej sekwencji, niezależnie od odległości między nimi. Gwarantuje to niezwykłą precyzję w modelowaniu zależności długodystansowych – model widzi całe zdanie lub akapit jednocześnie. Jednakże ta “wszechwiedza” ma swoją cenę: złożoność obliczeniowa i pamięciowa mechanizmu uwagi rośnie kwadratowo względem długości sekwencji. W skrócie oznacza to, że dwukrotne wydłużenie tekstu wejściowego zwiększa zapotrzebowanie na zasoby czterokrotnie, co w praktyce ogranicza długość kontekstu, jaki model może obsłużyć, do sztywnego limitu (fixed-length context window).

Z drugiej strony spektrum znajdują się Rekurencyjne Sieci Neuronowe (RNN) oraz ich nowoczesne rozwinięcia, takie jak liniowe Transformery czy State Space Models (SSM, np. Mamba). Modele te przetwarzają dane sekwencyjnie, kompresując całą historię do wektora lub macierzy o stałym rozmiarze, zwanego stanem ukrytym (hidden state). Dzięki temu ich złożoność jest liniowa, co teoretycznie pozwala na przetwarzanie nieskończenie długich sekwencji przy stałym zużyciu pamięci RAM. Niestety, kompresja ta jest stratna… Próba upchnięcia informacji z miliona słów do wektora o rozmiarze kilku tysięcy liczb nieuchronnie prowadzi do utraty szczegółów i “zapominania”.

Google Research, prezentując architekturę Titans, proponuje alternatywny pomysł: model, który łączy precyzję uwagi z nieskończoną pojemnością pamięci rekurencyjnej, ale robi to w sposób odmienny od dotychczasowych prób. Zamiast pasywnego bufora, Titans wprowadza aktywną, uczącą się pamięć neuronową, która aktualizuje swoje parametry w czasie rzeczywistym, reagując na to, jak bardzo nowe informacje są zaskakujące/niespodziewane dla modelu (w dokumencie używa się słowa Surprise w odniesieniu do takiego zdarzenia). Jest to realizacja paradygmatu Test-Time Training (TTT), w którym granica między fazą treningu a fazą użytkowania (inferencji) ulega zatarciu.

Architektura Titans

Aby lepiej zrozumieć koncept Titans, warto przyjrzeć się inspiracjom płynącym z neurobiologii i psychologii poznawczej, na które powołują się autorzy badania. Ludzki mózg nie jest monolitycznym blokiem przetwarzającym dane w jeden sposób. Jest to federacja wyspecjalizowanych systemów pamięci, które współpracują ze sobą, ale mogą działać niezależnie.

W psychologii poznawczej istnieje podział na:

  • Pamięć roboczą (Krótkotrwałą), która odpowiada za utrzymywanie w umyśle informacji niezbędnych do wykonania bieżącego zadania (np. zapamiętanie początku zdania, aby zrozumieć jego koniec) – precyzyjna ale z ograniczoną pojemnością
  • Pamięć długotrwałą, która służy do magazynowania ogromnych ilości wiedzy i wspomnień przez długi czas – abstrakcyjna i skompresowana.

Do tej pory mechanizm uwagi pełnił rolę pamięci roboczej – doskonale radził sobie z bieżącym oknem kontekstowym, ale brakowało mu efektywnego mechanizmu przenoszenia wiedzy do trwałego magazynu. Z kolei RNN próbowały pełnić obie te funkcje naraz za pomocą jednego wektora stanu, co prowadziło do kompromisów.

Titans modeluje ten podział inaczej – mechanizm uwagi w rdzeniu modelu działa jak pamięć robocza, skupiając się na stanie obecnym. Natomiast nowy moduł Neural Long-Term Memory (LMM) działa jak pamięć długotrwała, która uczy się na podstawie doświadczeń i przechowuje skompresowaną, abstrakcyjną reprezentację przeszłości.   

Mamy zatem podstawowe bloki, ale to nie wszystko. Klucz do teoretycznej skuteczności pojawia się w roli zaskczenia w procesie uczenia się. Pojawia się pytanie – co warto zapamiętać? Zapamiętywanie wszystkiego jest nieefektywne energetycznie i obliczeniowo. Ludzki mózg ewoluował tak, by priorytetyzować informacje, które są nieoczekiwane lub naruszają nasze przewidywania. Rutynowe zdarzenia są ignorowane, ale zdarzenia niespodziewane (np hałas, nietypowy widok) są kodowane w pamięci.

W architekturze Titans ta biologiczna zasada została sformalizowana matematycznie jako Surprise Metric. Zaskoczenie jest definiowane jako gradient funkcji straty modelu w odniesieniu do danych wejściowych. Jeśli model, na podstawie swojej dotychczasowej wiedzy, błędnie przewiduje nadchodzący token (ma wysoki błąd/stratę), generuje to duży gradient. Ten duży gradient jest sygnałem dla modułu pamięci że to jest coś nowego lub coś ważnego i należy zaktualizować wagi, aby to zapamiętać.   

Warto tutaj wspomnieć o paradygmacie Test-Time Training (TTT). Podejście TTT, spopularyzowane m.in. przez prace Yu Sun (Learning to (Learn at Test Time): RNNs with Expressive Hidden States), zakłada, że model powinien kontynuować proces optymalizacji (uczenia się) również w fazie testowej. W Titans, dla każdego nowego fragmentu danych wejściowych, model wykonuje krok optymalizacji (Gradient Descent), aktualizując parametry swojego modułu pamięci. Dzięki temu model “dostraja się” do specyfiki bieżącego dokumentu czy rozmowy w locie. Nie jest to jednak pełny finetuning (który byłby zbyt wolny), lecz zoptymalizowana, lokalna aktualizacja części wag.

Neural Long-Term Memory (LMM)

Główną częścią architektury Titans jest moduł Neural Long-Term Memory (LMM). W przeciwieństwie do klasycznych podejść, gdzie pamięć jest pasywnym kontenerem danych (wektorem lub macierzą), w Titans pamięć jest funkcją – konkretnie głęboką siecią neuronową (MLP), której wagi przechowują historię.   

Większość nowoczesnych modeli liniowych (np. Mamba czy Linear Transformers) wykorzystuje pamięć o strukturze macierzy. Z perspektywy uczenia maszynowego, aktualizowanie macierzy jest równoważne trenowaniu modelu liniowej regresji w trybie online. Oznacza to, że modele te zakładają, iż zależności w danych historycznych mają charakter liniowy. Autorzy Titans uważają, że jest to nadmierne uproszczenie. Relacje semantyczne w języku naturalnym czy sekwencjach DNA rzadko są liniowe. Dlatego LMM jest modelowany jako wielowarstwowy perceptron (MLP) z co najmniej dwiema warstwami. Zgodnie z twierdzeniami o uniwersalnej aproksymacji, sieć neuronowa z warstwą ukrytą jest w stanie zamodelować dowolną funkcję, co daje jej znacznie większe możliwości niż prosta macierz. Tu warto zerknąć do eksperymentu (rozdział 5.5) gdzie pokazane jest, że zwiększanie głębokości pamięci prowadzi do obniżenia błędu przewidywania, co potwierdza, że głębsza pamięć lepiej radzi sobie z kompresją złożonych historii.

W kontekście zapamiętywania pojawią się jeszcze dwa elementy Momentum oraz Weight Decay (zanik wag). Prosta aktualizacja oparta na chwilowym gradiencie (chwilowe zaskoczenie) ma wadę – po wystąpieniu dużego zaskoczenia, kolejne tokeny mogą nie generować dużego błędu, mimo że są częścią ważnego kontekstu (np. wyjaśnienie zaskakującego faktu). Aby temu zapobiec, Titans wprowadza mechanizm pędu. Dzięki temu mechanizmowi, jeśli wystąpi silny sygnał zaskoczenia, zmienna odpowiedzialna za zaskoczenie “ładuje się” i podtrzymuje proces aktualizacji pamięci przez pewien czas, nawet jeśli kolejne gradienty są małe. Pozwala to na uchwycenie całych sekwencji zdarzeń, a nie tylko pojedynczych punktów anomalii.

Analogicznie – równie ważne jak zapamiętywanie jest zapominanie. W nieskończonym strumieniu danych pamięć musi się oczyszczać z informacji nieaktualnych i tu pojawia się mechanizm Weight Decay (zaniku wag). Autorzy wykazują, że ten mechanizm zaniku wag jest uogólnieniem mechanizmów bramkowania znanych z modeli takich jak LSTM, GRU czy Mamba2.

Linki i źródła

Write A Comment