W zastosowaniach wysokiego ryzyka nie wystarczy, że model „ma rację” — trzeba jeszcze rozumieć, dlaczego. Nowa metoda z obszaru wyjaśnialnej AI próbuje wydobyć z sieci pojęcia, których ta faktycznie używa, i zamienić je na zrozumiały język.
Dlaczego wyjaśnienia w AI stały się warunkiem zaufania
W medycynie, transporcie autonomicznym czy kontroli jakości w przemyśle wynik modelu komputerowego widzenia to dopiero początek rozmowy. Lekarz, inżynier czy operator systemu chce wiedzieć, co konkretnie „zobaczył” algorytm i na jakiej podstawie uznał, że obraz przedstawia zmianę chorobową, usterkę albo określony obiekt. Bez tego trudno ocenić, czy predykcja jest wiarygodna, czy tylko przypadkowo trafna.
Problem w tym, że najlepsze sieci neuronowe często działają jak czarne skrzynki: są skuteczne, ale ich tok rozumowania jest nieprzejrzysty. Stąd rosnące znaczenie nurtu interpretowalności i wyjaśnialnej AI (XAI), który ma dostarczać nie tylko odpowiedzi, lecz także uzasadnienia możliwe do zweryfikowania przez człowieka.
Wąskie gardło pojęć i jego słabe punkty
Jednym z popularnych rozwiązań są modele typu „concept bottleneck” (CBM). W skrócie: zamiast przechodzić od obrazu prosto do decyzji, model ma najpierw rozpoznać zestaw pojęć zrozumiałych dla ludzi (np. cechy wizualne), a dopiero potem na ich podstawie wydać werdykt. Taki „przystanek po drodze” pozwala podejrzeć, czy system kierował się sensownymi przesłankami.
W praktyce CBM często opierają się na pojęciach zdefiniowanych z góry przez ekspertów lub wygenerowanych przez modele językowe. To bywa wygodne, ale ryzykowne: lista cech może nie pasować do konkretnego zadania, być zbyt ogólna albo pomijać detale, które realnie decydują o wyniku. Efekt uboczny jest przewidywalny — spada trafność, a wyjaśnienia stają się bardziej dekoracją niż narzędziem kontroli.
Koncepcje z wnętrza sieci zamiast z notatnika eksperta
Nowe podejście zaproponowane przez badaczy z ośrodka akademickiego w USA idzie w inną stronę: zamiast narzucać modelowi „słownik” pojęć, próbuje wydobyć go z tego, czego sieć już nauczyła się podczas treningu. Założenie jest proste: skoro model osiąga dobre wyniki, to musiał wykształcić wewnętrzne reprezentacje odpowiadające istotnym cechom. Trzeba je tylko przełożyć na język, który człowiek zrozumie.
Metoda ma ambicję uniwersalną: ma dać się zastosować do dowolnego wstępnie wytrenowanego modelu komputerowego widzenia i „przerobić” go na wersję, która potrafi uzasadniać decyzje zestawem pojęć. To ważne, bo w realnych wdrożeniach rzadko buduje się modele od zera — częściej adaptuje się gotowe architektury i wagi.
Dwa narzędzia: selekcja cech i tłumaczenie na język ludzi
Technicznie rozwiązanie opiera się na parze wyspecjalizowanych komponentów. Pierwszy to „sparse autoencoder”, czyli model, który potrafi wyłuskać z bogatej, wewnętrznej reprezentacji sieci tylko te elementy, które są najbardziej informacyjne, i skompresować je do niewielkiej liczby „koncepcji”. W uproszczeniu: porządkuje to, co w sieci jest rozproszone i trudne do nazwania.
Drugi element to multimodalny model językowy, który dostaje te koncepcje i opisuje je prostym językiem. Co więcej, taki model może też oznaczać dane treningowe: wskazywać, które koncepcje są obecne na danym obrazie, a których nie ma. Na tej podstawie buduje się moduł „wąskiego gardła”, uczący się rozpoznawać koncepcje, a następnie wymusza się, by docelowy system podejmował decyzje wyłącznie w oparciu o ten zestaw.
Wycieki informacji i dyscyplina pięciu pojęć
Jednym z największych problemów CBM jest tzw. „information leakage” — sytuacja, w której model, mimo deklarowanej ścieżki pojęciowej, i tak przemyca do decyzji informacje spoza kontrolowanego zestawu cech. To podważa sens wyjaśnień: człowiek widzi jedno uzasadnienie, a sieć mogła kierować się czymś innym.
W opisywanym podejściu zastosowano twarde ograniczenie: model ma używać tylko pięciu koncepcji przy każdej predykcji. Taka dyscyplina ma dwa skutki. Po pierwsze, zwiększa czytelność uzasadnień (mniej „dymu” w wyjaśnieniach). Po drugie, zmusza system do wyboru najbardziej relewantnych przesłanek, co ma ograniczać pokusę korzystania z ukrytych skrótów.
Wyniki: lepsza trafność i bardziej „pasujące” wyjaśnienia
Metodę sprawdzano na zadaniach klasycznych dla komputerowego widzenia, m.in. rozpoznawaniu gatunków ptaków oraz identyfikacji zmian skórnych na obrazach medycznych. W porównaniu z czołowymi rozwiązaniami CBM nowe podejście miało osiągać najwyższą dokładność, a jednocześnie dostarczać wyjaśnień bardziej precyzyjnych i zwięzłych.
Istotny jest też aspekt dopasowania: koncepcje wydobyte z modelu okazywały się bardziej „na temat” względem danych, na których system pracuje. To logiczne — zamiast zgadywać, jakie cechy mogą być ważne, wykorzystuje się te, które sieć faktycznie uznała za użyteczne w trakcie uczenia.
Nie ma cudów: interpretowalność wciąż kosztuje
Badacze nie ukrywają jednak ograniczeń. Nadal istnieje napięcie między interpretowalnością a maksymalną skutecznością: modele w pełni nieprzejrzyste potrafią wciąż wygrywać w czystej dokładności. To ważne ostrzeżenie dla praktyków — wyjaśnialność nie jest „darmowym dodatkiem”, tylko zmianą architektury i reżimu uczenia, która może wpływać na wynik.
Do tego dochodzi pytanie o jakość automatycznych opisów i adnotacji. Jeśli multimodalny model językowy błędnie nazwie koncepcję albo źle oznaczy jej obecność na obrazie, cały łańcuch wyjaśnień może stać się kruchy. Wysokie stawki (np. diagnostyka) wymagają więc procedur walidacji, a nie tylko eleganckiej narracji o „mówieniu ludzkim językiem”.
Co dalej: szczelniejsze gardła i most do wiedzy symbolicznej
Kolejne kroki mają iść w stronę dalszego ograniczania „wycieków” — np. przez dodawanie dodatkowych modułów wąskiego gardła, które utrudnią korzystanie z niepożądanych sygnałów. Planowane jest też skalowanie podejścia: większy multimodalny model językowy i większy zbiór danych do adnotacji mogą poprawić zarówno trafność, jak i stabilność koncepcji.
Ciekawy jest również szerszy kontekst: koncepcje wyciągnięte z wnętrza sieci mogą stać się pomostem do podejść symbolicznych i grafów wiedzy, gdzie pojęcia da się łączyć w reguły, zależności i hierarchie. Jeśli wyjaśnienia mają być nie tylko „ładne”, ale też audytowalne i porównywalne między systemami, taki kierunek może okazać się kluczowy — zwłaszcza tam, gdzie odpowiedzialność za decyzję nie może kończyć się na zdaniu: „tak wyszło z modelu”.
Oryginalny tekst: Improving AI models’ ability to explain their predictions