Wybierz region
pl
  • PL
  • EN
Wydrukuj

Data Science Business Mini-Guide

W dzisiejszym świecie otaczają nas dane. Po wejściu na dowolną stronę internetową jesteśmy atakowani wyskakującymi okienkami, które informują nas, że gdy tylko klikniemy „Zamknij” lub „Akceptuj”, wyrazimy zgodę na przetwarzanie naszych danych. Przeglądając portale internetowe lub serwisy społecznościowe, ku naszemu zdziwieniu możemy zobaczyć reklamy i propozycje produktów, o potrzebie których nawet nie wiedzieliśmy. Platformy streamingowe proponują nam muzykę i filmy dopasowane do naszego gustu, a po wejściu do samochodu smartfon informuje nas, ile czasu zajmie nam droga do celu, mimo, że nawet nie włączyliśmy aplikacji do nawigacji. Wspólny mianownik? Data Science.

Pod pojęciem Data Science kryje się wiele. Jest to dziedzina interdyscyplinarna, która łączy ze sobą statystykę, matematykę i programowanie. Jej głównym celem jest analiza i inżynieria danych, a osoba, która się w tym specjalizuje określana jest jako Data Scientist. John Wills na swoim Twitterze opublikował w 2012 roku poniższą definicję „Data Scientist (n.): Person who is better at statistics than any software engineer and better at software engineering than any statistician”. W jakich zatem obszarach biznesu Data Scientist może wykorzystywać swoje umiejętności?

Zanim możliwe będzie wkroczenie w świat uczenia maszynowego i sztucznej inteligencji pierwszą trudnością, z którą trzeba się zmierzyć to pozyskiwanie danych i ich właściwe przygotowanie (ang. Data Preprocessing). Zwykle dane wymagają sporej ilości żmudnej pracy, począwszy od przeanalizowania ich struktury i charakterystyki, poprzez weryfikację sensowności i istotności zmiennych, ich oczyszczenie, skategoryzowanie lub standaryzację, finalnie docierając do problemu brakujących danych i wzajemnej korelacji zmiennych. Istotna jest również wizualizacja wszelkiego rodzaju zależności. Jest co robić.

Ogólna koncepcja uczenia maszynowego i sztucznej inteligencji zakłada, że za pomocą wytrenowanego modelu chcemy dokonywać różnego rodzaju predykcji. W zależności od problematyki możemy używać uczenia nadzorowanego (ang. Supervised Learning), nienadzorowanego (ang. Unsupervised Learning) lub uczenia ze wzmacnianiem (ang. Reinforcement Learning). W przypadku tego pierwszego, używając Pythona często wystarczy nam wykorzystanie możliwości biblioteki scikit-learn (https://scikit-learn.org/stable/index.html), do bardziej zaawansowanych modeli polecane jest używanie TensorFlow (https://www.tensorflow.org/) lub Keras (https://keras.io/).

 

Zastosowań wspomnianych metod w biznesie jest wiele. W przypadku banków i ryzyka kredytowego kluczową rolę odgrywa regresja logistyczna ze względu na niezbyt duże skomplikowanie i wysokie możliwości interpretacyjne ważne z perspektywy banków. Celem instytucji finansowych jest oszacowanie zdolności kredytowej klienta i ustalenie, czy będzie on w stanie wywiązać się z danego zobowiązania finansowego. Na podstawie danych dotyczących klientów (zarobki, wykształcenie, zawód, majątek itp.) tworzony jest model, który następnie pozwala na przewidywanie prawdopodobieństwa niespłacenia zobowiązania wobec banku. Oczywiście poza regresją logistyczną stosowane są inne algorytmy, jednakże ze względu na większe skomplikowanie ich możliwości interpretacyjne maleją.

Kolejnym przykładem zastosowania jest detekcja fraudów, czyli nadużyć finansowych dotykających banki, towarzystwa ubezpieczeniowe i wiele innych firm, które w ten sposób tracą spore sumy pieniędzy. Do tego zagadnienia można podchodzić dwojako, w zależności od typu posiadanych danych. W przypadku, gdy nasze dane posiadają etykietę czy dana obserwacja była fraudem możemy używać metod uczenia nadzorowanego (np. regresja logistyczna, SVM, drzewa decyzyjne, lasy losowe czy też gradient boosting).

Drugą możliwością jest wkroczenie w świat uczenia nienadzorowanego i potraktowanie fraudu jako obserwacji odstającej (ang. Outliers/Anomaly detection). W tym wypadku pomocne będą m.in. nienadzorowane algorytmy takie jak k-means oraz isolation forest.

 

Praktycznym zastosowaniem modeli uczenia maszynowego w biznesie jest prognozowanie sprzedaży (ang. Sales Forecasting), które może mieć kluczowe znaczenie w zachowaniu płynności finansowej przedsiębiorstwa. Prognozowanie jest pomocne w celu określania wpływu nowych produktów i inicjatyw na działalność przedsiębiorstwa, a także do planowania zasobów i szacowania przyszłych budżetów. Tutaj zastosowanie znajdują algorytmy regresyjne takie jak regresja liniowa, modele oparte o drzewa regresyjne oraz szeregi czasowe (np. modele ARMA i ARIMA), które to pozwalają na dopasowanie modelu do danych (np. obrotów firmy) zmieniających się w czasie, w celu umożliwienia przewidywania przyszłych punktów w szeregu, czyli w tym wypadku predykcji przyszłych obrotów.

Niewątpliwie, jedną z popularniejszych gałęzi zastosowań Data Science są systemy rekomendacyjne. W dużym skrócie ich celem jest dostarczenie użytkownikowi najbardziej odpowiednich i spersonalizowanych pozycji. Mechanizmy rekomendacji mają na celu wykrycie powiązań i wzorców w zbiorze danych, aby następnie móc zaprezentować użytkownikowi/klientowi najbardziej dopasowany do jego charakterystyki kontent. W tym wypadku możemy wyróżnić dwie najpopularniejsze kategorie tzw. „content based” oraz „collaborative filtering”. Ta pierwsza skupia się na oznaczaniu produktów za pomocą określonych tagów, a następnie na weryfikacji zainteresowań użytkownika i rekomendacji innych produktów cechujących się tymi samymi/podobnymi atrybutami. Ta druga na podstawie danych historycznych pozwala na dopasowanie rekomendacji dla nowego użytkownika/klienta w oparciu o jego charakterystykę dopasowaną do profili innych użytkowników - w efekcie nowy klient otrzyma propozycję treści, które podobały się również podobnym mu użytkownikom. Jako algorytmy mające tu zastosowanie możemy wyróżnić k-nearest neighbors oraz sieci neuronowe.

W przypadku szkody motoryzacyjnej, stłuczki lub wypadku samochodowego powołany ekspert rzeczoznawca ma za zadanie rozpatrzenie zgłoszenia uszkodzenia pojazdu. Taka weryfikacja i wycena szkody mogą zająć nawet kilka tygodni. Metodą na przyspieszenie tego procesu jest wykorzystanie uczenia maszynowego i sztucznej inteligencji do automatycznej analizy. Stosowane są do tego algorytmy pozwalające na rozpoznawanie obrazu (ang. image recognition). Wykorzystywane do tego sieci neuronowe są trenowane na podstawie zdjęć/obrazów danych obiektów przetwarzając jego wszystkie piksele i dopasowane etykiety. W konsekwencji sieć uczy się co dany obraz przedstawia i jest w stanie rozpoznawać podobne obiekty. W przypadku czasochłonnego i kosztownego procesu wyceny szkody samochodowej takie rozwiązanie pozwala na natychmiastowe podjęcie działań po wypadku. Na podstawie zdjęć samochodu zrobionych przez właściciela model automatycznie dokonuje ich analizy. Wysokość odszkodowania można określić na podstawie wykrytych na zdjęciach uszkodzonych części samochodowych rozpoznanych przez model.

Nie da się ukryć, że wspomniane zastosowania to jedynie kropla w oceanie możliwości. Medycyna, chatboty, cyberbezpieczeństwo, autonomiczne samochody i roboty to kolejne obszary, w których Data Science rozwija się niezwykle szybko usprawniając i optymalizując dotychczasowe rozwiązania. W biznesie każdy innowacyjny pomysł i efektywny sposób jego realizacji pozwala na rozwój danego produktu, a ze wsparciem Data Science możliwości stają się nieograniczone. Nic zatem dziwnego, że coraz więcej firm otwiera się na uczenie maszynowe i sztuczną inteligencję, a klienci coraz chętniej z takich rozwiązań korzystają.


Małgorzata Więcek

Na co dzień Analityk w Pionie Business Intelligence w Asseco, gdzie współpracuje przy projektach w obszarach Customer Intelligence oraz Compliance, rozwijając rozwiązania oparte o zaawansowane algorytmy i machine learning. Prywatnie entuzjastka podróżowania, natury i książek.


Wydrukuj