Ocena ryzyka w ubezpieczeniach komercyjnych to pole minowe: dużo dokumentów, wysokie stawki i twarde regulacje. Nowe podejście do „agentic AI” pokazuje, jak ograniczać błędy modelu, nie odbierając decyzyjności człowiekowi.
Dlaczego underwriting nie lubi skrótów
Underwriting w ubezpieczeniach komercyjnych to jedna z tych dziedzin, w których „automatyzacja” brzmi kusząco, ale potrafi być niebezpiecznym uproszczeniem. Analitycy ryzyka muszą ręcznie przeglądać obszerne pakiety dokumentów, wyłapywać nieoczywiste zależności i na tej podstawie rekomendować warunki polisy oraz cenę. To praca czasochłonna, a jednocześnie obarczona odpowiedzialnością, bo pomyłka może oznaczać realne straty finansowe i spory prawne.
Sztuczna inteligencja potrafi przyspieszyć czytanie i porządkowanie informacji, ale w środowisku regulowanym liczy się nie tylko tempo. Kluczowe jest to, czy system umie sensownie uzasadnić wnioski, rozpoznać własną niepewność i nie „dopowiadać” faktów, gdy brakuje danych. W praktyce pełna automatyzacja takich decyzji bywa nie tylko trudna, ale też zwyczajnie niewskazana – tam, gdzie potrzebna jest rozliczalność, człowiek musi pozostać stroną decydującą.
Agent, który nie podejmuje decyzji za człowieka
W badaniu opisano podejście określane jako „agentic AI” w trybie human-in-the-loop, czyli z człowiekiem w pętli decyzyjnej. System ma charakter „decision-negative”: nie wydaje wiążących rozstrzygnięć, a raczej przygotowuje rekomendacje, wskazuje ryzyka i porządkuje argumenty, które finalnie ocenia ekspert. To ważne przesunięcie akcentu – z „zastąpienia” underwritera na „wzmocnienie” jego pracy.
Taka architektura jest projektowana tak, by autorytet człowieka był wbudowany w proces, a nie dopisany w regulaminie. Innymi słowy: nawet jeśli model jest bardzo pewny siebie, nie ma ścieżki, która pozwala mu samodzielnie „zatwierdzić” ofertę. W kontekście branż regulowanych to nie detal techniczny, tylko fundament odpowiedzialnego wdrożenia.
Wewnętrzny krytyk jako pas bezpieczeństwa
Najciekawszym elementem rozwiązania jest mechanizm „adversarial self-critique” – wewnętrznej, przeciwstawnej krytyki. Zanim rekomendacja trafi do człowieka, drugi komponent systemu (agent-krytyk) podważa wnioski głównego agenta: szuka luk w rozumowaniu, sprawdza, czy nie ma nieuprawnionych założeń i czy argumenty wynikają z danych, a nie z „intuicji” modelu.
To przypomina redakcyjną zasadę dwóch par oczu albo audyt wewnętrzny: jedna część zespołu tworzy propozycję, druga ma obowiązek ją rozmontować. W świecie modeli językowych ma to szczególne znaczenie, bo ich typowym problemem są halucynacje – generowanie informacji brzmiących wiarygodnie, ale niepopartych materiałem źródłowym.
Co mówią wyniki: mniej halucynacji, lepsza trafność
Autorzy przetestowali system na 500 przypadkach underwritingowych zweryfikowanych przez ekspertów. W takim ustawieniu mechanizm krytyki obniżył odsetek halucynacji z 11,3% do 3,8%. Jednocześnie wzrosła trafność decyzji (rozumiana jako zgodność rekomendacji z oceną ekspercką) z 92% do 96%.
Te liczby są istotne z dwóch powodów. Po pierwsze, pokazują, że „bezpieczeństwo” nie musi oznaczać wyłącznie hamulca ręcznego – może iść w parze z poprawą jakości. Po drugie, redukcja halucynacji jest tu praktycznym wskaźnikiem ryzyka: w ubezpieczeniach błędna przesłanka potrafi zmienić wycenę, zakres ochrony albo ocenę ekspozycji na szkodę.
Mapa typowych porażek, czyli po co taksonomia błędów
Badanie proponuje też formalną taksonomię trybów awarii (failure modes) dla agentów „decision-negative”. W prostych słowach: katalog tego, jak system może się mylić – nie tylko „że się myli”, ale w jaki sposób i na jakim etapie. Taki słownik błędów jest przydatny, bo pozwala zespołom wdrożeniowym i działom ryzyka mówić tym samym językiem.
W praktyce to narzędzie do zarządzania ryzykiem: łatwiej zaprojektować kontrolki, testy i procedury eskalacji, gdy wiadomo, czy problemem jest np. nadmierna pewność modelu, błędna interpretacja dokumentu, pominięcie kluczowego załącznika czy zbyt szerokie uogólnienie. Dla branż regulowanych taka „inżynieria porażek” bywa równie ważna jak same wyniki skuteczności.
Granice podejścia i pytania, które zostają
Mechanizm krytyka nie jest magiczną tarczą. Krytyk może przegapić błąd, jeśli sam działa na podobnych założeniach lub jeśli dane wejściowe są niekompletne. Wysoka skuteczność na zestawie 500 przypadków nie gwarantuje identycznych rezultatów w innych liniach biznesowych, jurysdykcjach czy przy dokumentach o innej jakości. W dodatku pozostaje pytanie o koszty: dodatkowy agent to dodatkowe obliczenia, a więc czas i budżet.
Wątpliwości budzi też to, jak mierzyć „jakość uzasadnienia” w sposób odporny na pozory. Modele potrafią tworzyć przekonujące narracje, dlatego w środowisku wysokiej stawki liczy się nie tylko spójność tekstu, ale ścisłe powiązanie wniosków z dowodami w dokumentach oraz możliwość audytu: kto, kiedy i na podstawie czego zaproponował dany wniosek.
Co to zmienia dla regulowanych branż
Najważniejsza lekcja jest szersza niż same ubezpieczenia. W wielu regulowanych obszarach – od finansów po administrację – problemem nie jest brak modeli, tylko brak architektur, które wymuszają ostrożność i rozliczalność. „Adversarial self-critique” działa tu jak wewnętrzny system checks and balances: nie eliminuje ryzyka, ale je ogranicza i czyni bardziej przewidywalnym.
Jeśli takie podejście ma się przyjąć, kluczowe będzie utrzymanie zasady nadrzędności człowieka oraz rozwijanie standardów testowania: nie tylko „czy działa”, ale „kiedy się myli”, „jak często” i „czy potrafimy to wykryć, zanim błąd stanie się decyzją biznesową”. To właśnie w tej różnicy – między automatem a narzędziem wspierającym odpowiedzialną decyzję – kryje się realna szansa na bezpieczniejsze wdrożenia AI.
Oryginalny tekst: Agentic AI for Commercial Insurance Underwriting with Adversarial Self-Critique