01.05.2021

dr Piotr Wojewnik

Wykorzystanie Machine Learning (ML) w działalności BIK

BIK jako największa baza informacyjna w Polsce współpracuje z całym sektorem bankowym oraz z instytucjami z sektora finansowego (SKOK-i, firmy pożyczkowe, bankowe firmy leasingowe i faktoringowe). W wyniku tej współpracy wszystkie te instytucje przekazują na bieżąco dane do bazy BIK. Banki oraz instytucje pożyczkowe przekazują BIK tzw. dane twarde, czyli informacje dotyczące udzielonych kredytów i pożyczek – ich liczbę, wartość oraz informacje o jakości dokonywanych spłat. Obecnie BIK w swojej bazie ma ponad 159 mln historii rachunków, dla 25 mln klientów indywidualnych oraz 1,6 mln firm, w tym o 989 tys. mikroprzedsiębiorców prowadzących działalność gospodarczą.

Trudno nie zgodzić się, że BIK to jedyny w kraju zbiór detalicznych danych o sytuacji finansowej zdecydowanej większości populacji. Dane, które posiada BIK umożliwiają prowadzenie szczegółowych analiz dotyczących ryzyka i zdolności kredytowej klientów sektora finansowego. Biorąc pod uwagę, że jakość posiadanych danych bezpośrednio przekłada się na jakość budowanych modeli statystycznych, prognozy oparte na modelach BIK cechują się bardzo wysoką trafnością i pozwalają na precyzyjne określenie ryzyka kredytowego. BIK jednak nie spoczywa na laurach i poszukuje uzupełniających źródeł informacji poza sektorem kredytowym (np. dane ubezpieczeniowe). Dokładniej, na połączonych zanonimizowanych zbiorach danych prowadzone są analizy badawcze.
Dodatkowe wykorzystanie zewnętrznych baz danych może jeszcze podnieść precyzję analiz kredytowych oraz w sposób bezpieczny powiększyć odsetek osób z potwierdzoną wiarygodnością kredytową, czyli redukować obszar tzw. wykluczenia finansowego. Jednak będzie to możliwe, o ile zostaną zidentyfikowane silne i stabilne zależności w danych. W poszukiwaniu takich zależności pomaga sztuczna inteligencja i machine learning (ML). Taka metodyka pozwala w oceanie danych wyszukać informacje istotne w ocenie ryzyka kredytowego i oddzielić je od szumu informacyjnego. Technologie zarządzania danymi stosowane w BIK umożliwiają efektywne przetwarzanie ogromnych ilości detalicznych danych w długich horyzontach czasowych. Co istotne, tak szeroka baza danych nie tyle stanowi wyzwanie dla ML, co właśnie jest warunkiem dobrego i stabilnego działania takich modeli.

Model ryzyka kredytowego oparty o ML - badania BIK

Ze względu na obecne regulacje sektorowe i przepisy dot. ochrony danych osobowych banki mają obowiązek dokumentowania i dobrego rozumienia stosowanych modeli. Konieczne jest również zapewnienie przejrzystości procesu kredytowego oraz możliwość uzasadnienia przyczyn podejmowanych decyzji kredytowych, co w przypadku modeli machine learning uznawane jest za trudne zadanie. Zgodnie z wynikami badania przeprowadzonego w BIK, istnieje szansa przełamania tej trudności

Informacje Jawne

przy zastosowaniu metod eXplainable Artificial Intelligence (XAI), które umożliwiają diagnozowanie funkcjonowania modeli ML. Badanie zostało przeprowadzone przy udziale ekspertów z Uniwersytetu Warszawskiego oraz Data Juice Lab Sp. z o.o., zachęcamy do zapoznania się z wynikami badania. ML dostarcza zarówno całościowych modeli, ale również możliwe jest cząstkowe wykorzystanie tej metodyki do wspierania modeli tradycyjnych. Wnioski uzyskiwane na podstawie ML mogą stanowić rekomendacje do wprowadzenia zmian w modelach tradycyjnych i pokazać zależności, które wcześniej nie były dostrzegalne. Dzięki temu istnieje szansa utworzenia lepszego algorytmu modelu – przy czym model wciąż budowany jest w metodyce tradycyjnej, z zachowaniem jej wszystkich zalet.

Wprowadzenie zewnętrznych źródeł danych do oceny ryzyka kredytowego umożliwi wartościowe rozszerzenie zakresu przetwarzanych informacji, natomiast zastosowanie ML pozwoli na uwolnienie pełni ich potencjału, co stanowi odpowiedź na potrzeby współczesności – zarówno z perspektywy BIK, jak i Partnerów BIK.