01.05.2021
dr Piotr Wojewnik
BIK jako największa baza informacyjna w Polsce współpracuje z całym sektorem bankowym oraz z instytucjami z sektora finansowego (SKOK-i, firmy pożyczkowe, bankowe firmy leasingowe i faktoringowe). W wyniku tej współpracy wszystkie te instytucje przekazują na bieżąco dane do bazy BIK. Banki oraz instytucje pożyczkowe przekazują BIK tzw. dane twarde, czyli informacje dotyczące udzielonych kredytów i pożyczek – ich liczbę, wartość oraz informacje o jakości dokonywanych spłat. Obecnie BIK w swojej bazie ma ponad 159 mln historii rachunków, dla 25 mln klientów indywidualnych oraz 1,6 mln firm, w tym o 989 tys. mikroprzedsiębiorców prowadzących działalność gospodarczą.
Trudno nie zgodzić się, że BIK to jedyny w kraju zbiór detalicznych danych o sytuacji finansowej zdecydowanej większości populacji. Dane, które posiada BIK umożliwiają prowadzenie szczegółowych analiz dotyczących ryzyka i zdolności kredytowej klientów sektora finansowego. Biorąc pod uwagę, że jakość posiadanych danych bezpośrednio przekłada się na jakość budowanych modeli statystycznych, prognozy oparte na modelach BIK cechują się bardzo wysoką trafnością i pozwalają na precyzyjne określenie ryzyka kredytowego. BIK jednak nie spoczywa na laurach i poszukuje uzupełniających źródeł informacji poza sektorem kredytowym (np. dane ubezpieczeniowe). Dokładniej, na połączonych zanonimizowanych zbiorach danych prowadzone są analizy badawcze.
Dodatkowe wykorzystanie zewnętrznych baz danych może jeszcze podnieść precyzję analiz kredytowych oraz w sposób bezpieczny powiększyć odsetek osób z potwierdzoną wiarygodnością kredytową, czyli redukować obszar tzw. wykluczenia finansowego. Jednak będzie to możliwe, o ile zostaną zidentyfikowane silne i stabilne zależności w danych. W poszukiwaniu takich zależności pomaga sztuczna inteligencja i machine learning (ML). Taka metodyka pozwala w oceanie danych wyszukać informacje istotne w ocenie ryzyka kredytowego i oddzielić je od szumu informacyjnego. Technologie zarządzania danymi stosowane w BIK umożliwiają efektywne przetwarzanie ogromnych ilości detalicznych danych w długich horyzontach czasowych. Co istotne, tak szeroka baza danych nie tyle stanowi wyzwanie dla ML, co właśnie jest warunkiem dobrego i stabilnego działania takich modeli.
Ze względu na obecne regulacje sektorowe i przepisy dot. ochrony danych osobowych banki mają obowiązek dokumentowania i dobrego rozumienia stosowanych modeli. Konieczne jest również zapewnienie przejrzystości procesu kredytowego oraz możliwość uzasadnienia przyczyn podejmowanych decyzji kredytowych, co w przypadku modeli machine learning uznawane jest za trudne zadanie. Zgodnie z wynikami badania przeprowadzonego w BIK, istnieje szansa przełamania tej trudności