Power Query to zaskakująco wydajne narzędzie do przekształcania danych. Nieco mniej popularna jest w nim funkcja umożliwiająca szybką analizę struktury danych, aby upewnić się, czy ich kształt nie odbiega od naszych założeń.

Poznaj swoje dane, czyli profilowanie w  Power Query

Czy jest możliwe, żeby kucharz nie znał właściwości składników swojej potrawy? Teoretycznie tak, ale niewiele różni się wtedy od robota, do którego wsypujemy wszystko, co przepis każe, a on według zadanych algorytmów przygotowuje danie. Taki kucharz zawsze będzie odtwórcą, który nigdy nie wyjdzie poza te same smaki. Jeśli kucharz chce być mistrzem, tworzyć potrawy eksplodujące na języku i obezwładniające kubki smakowe, z perspektywą na dość nieoczywiste docenienie przez francuskiego producenta opon – wtedy musi dokładnie poznać swoje składniki. Powinien wiedzieć, jak pachną i smakują konkretne przyprawy, czym różnią się mąki i miody, co można czym zastąpić, co będzie współgrać, a co się wyklucza.

Po tym, może niezbyt oczywistym wstępie, co domyślniejsi zapewne już wiedzą, jaka będzie puenta tej opowieści. Z analitykami jest dokładnie tak samo jak z kucharzami. Mogą przeprowadzać uproszczone analizy bez zagłębiania się w charakterystykę danych, ale wtedy będą działać jak rozbudowany algorytm. Mogą też wyjść od podstawowej cechy każdego dobrego analityka i po prostu znać swoje dane. W ten sposób można się pokusić o stworzenie analizy dogłębnej, szytej na miarę i z budzącymi zaufanie wnioskami. Tylko co zrobić, by szybko poznać swoje dane?

W tym momencie na scenę wkracza Power Query – doskonałe narzędzie do agregacji i przekształcania danych, które oferuje niezwykle intuicyjną opcję prześwietlania danych w tabeli.

Kolory na pierwszej linii

Zacznijmy od czegoś, z czego wiele osób nie zdaje sobie sprawy. Już w momencie wczytania danych Power Query mówi nam, z jakimi danymi mamy do czynienia w każdej z kolumn. Nagłówek tabeli jest oddzielony od jej zawartości pogrubioną, kolorową linią. Linia ta, dla każdej z kolumn, pokazuje, z jakimi danymi i w jakiej proporcji mamy do czynienia. Kolor zielony odpowiada danym poprawnym. Pomarańczowy to błędy. Z kolei ciemny brąz oznacza puste wiersze. Możliwy jest także wzór w paskowaną zieleń, który odnosi się do sytuacji nie do końca jasnej, np. w przypadku kolumny z obliczeniami. Zwróćmy uwagę, że dla jednej kolumny możliwe jest istnienie różnych typów danych, co znajduje odwzorowanie w zabarwieniu jedynie części linii oddzielającej (Rysunek 1).

Jeśli najedziemy kursorem nad taki pasek, wyświetli się okno z nieco bardziej szczegółową informacją na temat danych w kolumnie. Dla każdej z grup danych (czyli prawidłowe, z błędem i puste) podane zostaną liczba wierszy oraz ich procentowy udział w całości. Jeśli kolumna zawiera błędy lub puste wiersze, u dołu okna pojawia się opcja filtrowania, usuwająca ten typ danych. W prawym, dolnym rogu tego okna, pod ikoną wielokropka, dostępne jest nieco bardziej rozbudowane menu. Polecenie Kopiuj ładuje do schowka tabelę z ilościami i procentami poszczególnych danych. Polecenia Zachowaj duplikaty i Zachowaj błędy działają jak filtry, usuwając to, co jest – odpowiednio – wartością unikatową w kolumnie lub wartością poprawną. Następne trzy polecenia to również filtr, ale tym razem usuwający kolejno duplikaty, puste wartości i błędne wartości. Ostatnie polecenie pozwala na zamianę błędów w dowolną wartość słowną lub liczbową.

Już tego typu uproszczone dane, znajdujące się u góry każdej z tabel, pozwalają na rozeznanie się w typie danych, jakie mamy do dyspozycji w tabeli, ale – oczywiście – to dopiero początek.

Jakość i rozkład

Na karcie Widok, w grupie poleceń Podgląd danych, znajdują się trzy pola wyboru, zmieniające wygląd wyświetlanej tabeli, a tym samym dające wgląd w jej statystyki. Zanim jednak zaczniemy z nich korzystać, zwróćmy uwagę na to, jaki zakres danych jest brany pod uwagę. W oknie Power Query, na samym dole, widzimy belkę, na której, po lewej stronie, wyświetla się informacja o liczbie wierszy i kolumn w zapytaniu, które obecnie mamy otwarte. Obok widać zakres, dla którego przeprowadzane jest profilowanie kolumn. Jako domyślna wartość jest tu wpisane Profilowanie kolumn w oparciu o następującą liczbę wierszy: 1000. Aby to zmienić i objąć profilowaniem całość tabeli, wystarczy kliknąć na tym napisie, po czym z menu wybrać Profilowanie kolumn w oparciu o cały zestaw danych. Warto wyrobić w sobie dobry nawyk sprawdzania zakresu wykorzystywanego w profilowaniu, nawet jeśli nasze dane zwykle mają poniżej tysiąca wierszy. Jeżeli pewnego dnia do naszej analizy trafi zbiór danych składający się z większej liczby rekordów, zmniejszymy już teraz ryzyko, że w naszej analizie będziemy podpierać się wnioskami z niepełnych danych. Oczywiście to ograniczenie dotyczy tylko profilowania, ale używamy go, aby poznać nasze dane i wykorzystać to w dalszych przekształceniach. Poznanie tylko ich części, nawet jeśli to większość, nie przystoi poważnemu analitykowi.

Mając przygotowane dane, możemy przejść do profilowania kolumn za pomocą wspomnianych trzech pól wyboru (Rysunek 2). Pierwsze z nich – Jakość kolumn – pozwala na wyświetlenie na stałe informacji, o których pisałem wcześniej, czyli jaki jest udział procentowy (i tylko udział procentowy, bez wartości liczbowych) każdego z trzech rodzajów danych (poprawne, z błędami, puste) w każdej z kolumn. Zwracam uwagę na fakt, że w przypadku danych niepewnych ich procent nie zostanie podany.

Kolejne polecenie to Rozkład kolumn. Jego zaznaczenie spowoduje wyświetlenie nad każdą z kolumn, ale poniżej jej nagłówka, prostego wykresu pokazującego rozkład wartości w każdej z kolumn. Pamiętajmy, że jest to rozkład, a zatem słupki przedstawiają częstotliwość występowania określonych pozycji w kolumnie, a nie – na przykład – same wartości liczbowe. Dodatkowo prezentowane są tylko dane dla wartości określonych. Pola puste i zawierające błędy nie są uwzględniane w tej statystyce.

Najechanie kursorem ponad oba wyświetlone wskaźniki wyświetla te same okna ze statystykami i podręcznym menu, co kolorowy pasek pokazujący proporcje między różnymi danymi.

Profilowanie, ale nie przestępców

Ostatnią opcją dostępną w ramach profilowania jest Profil kolumny. Zaznaczenie tego pola otworzy u dołu aplikacji osobne okno ze szczegółowymi informacjami dotyczącymi zaznaczonej kolumny. Po lewej stronie nowego okna mamy szereg informacji dotyczących danych. Są to w pierwszej kolejności liczba wierszy, liczba pól z błędami i liczba pól pustych. Następnie mamy statystyki dotyczące wartości odrębnych, czyli liczby różnych wartości w danej kolumnie. Uwaga – do tej liczby wliczają się też pola puste, więc wartość ta będzie zawsze o jeden większa niż rzeczywista liczba odrębnych wartości. Dalej mamy podaną liczbę wartości unikatowych, czyli takich, które występują w danej kolumnie tylko raz.

Dalsze dane różnią się w zależności od rodzaju danych zawartych w kolumnie. Za każdym razem mamy wartość minimum i maksimum, ale o ile w przypadku danych liczbowych lub dat są one dość oczywiste, o tyle w przypadku wartości tekstowych możemy zauważyć pewne odstępstwo od kolejności alfabetycznej. Jako maksima pojawiają się słowa zaczynające się od polskich liter, chociaż alfabetycznie powinny być gdzieś w środku. Pamiętajmy, że w tym wypadku pierwsza litera każdego ciągu zamieniana jest na jej kod liczbowy i to on decyduje o kolejności pozycji. Kody polskich znaków mają wyższą wartość niż kod litery Z.

Dla dat i wartości liczbowych podana jest jeszcze wartość średnia, a tylko dla danych liczbowych wartość odchylenia standardowego. Klikając na wielokropek ponad tym zestawieniem, możemy je skopiować do schowka. Po wklejeniu do dowolnej aplikacji pojawi się tabelka zawierająca wszystkie wymienione wyżej dane.

Po prawej stronie okna z profilem kolumny widzimy ponownie wykres prezentujący częstość występowania poszczególnych wartości. Dla wartości liczbowych jest to wykres kolumnowy, a dla tekstowych – słupkowy. Tym razem jednak, poza funkcją czysto informacyjną, wykresy mogą służyć jako uproszczone filtry. Kliknięcie na dowolnym słupku lub kolumnie wyświetli okno z informacją o liczbie danych elementów. Możliwe jest także szybkie założenie filtru dla elementów równych bądź różnych od wybranej wartości. Kliknięcie w wielokropek w prawym dolnym rogu tego okienka pozwoli na założenie nieco bardziej zaawansowanych filtrów (Rysunek 3). Z tego miejsca możliwe jest też zamienienie wybranej wartości na inną. Z kolei wielokropek w prawym górnym rogu okna z wykresem profilu danych pozwala na ich zgrupowanie na wykresie, na przykład według długości ciągu znaków dla danych tekstowych. To przydatna funkcja, pozwalająca na jeszcze efektywniejsze spojrzenie na nasze dane z nieco szerszej perspektywy.

Żeby poznać dane...

Opisane w tym artykule sposoby na poznawanie danych z wykorzystaniem narzędzi profilujących wydają się obligatoryjnymi ruchami w przypadku dużych ilości danych w analizie. Profilowanie pozwala błyskawicznie wychwytywać wszelkie zarówno błędy w danych, jak i puste rekordy. Można również w szybki sposób sprawdzić zakres danych liczbowych, aby zweryfikować je pod kątem ewentualnych błędów wynikających z zawyżeń lub zaniżeń – podobnie zresztą jak analiza rozkładu wartości. A ponieważ Power Query pozwala na podgląd danych na każdym etapie ich przekształcania, profilowanie kolumn może i powinno być wykorzystywane nie tylko przy jednorazowym wczytywaniu danych, lecz także w ustawionych procesach, automatyzujących przekształcanie danych. Korzystając z zapisanego wcześniej zapytania w celu odświeżenia danych, warto przyjrzeć się liczbom na wejściu właśnie za pomocą profilowania. Możemy w ten sposób wychwycić i odpowiednio szybko zareagować na nieprawidłowości niosące ryzyko zaburzenia wniosków końcowych.

Oczywiście, aby móc w pełni i świadomie skorzystać z tego udogodnienia i poznać dobrze dane, należy najpierw... poznać swoje dane – trzeba wiedzieć, jakie są charakter danych, ich typ i akceptowalne wartości. Dopiero z tą wiedzą możemy weryfikować ich rzeczywisty kształt, zanim przystąpimy do ostatecznego przekształcania i analizowania. To jednak wydaje się oczywiste – gdybyśmy nie wiedzieli nic o danych, które poddajemy analizie, nie różnilibyśmy się od algorytmów, które coraz śmielej zastępują człowieka w prostych, powtarzalnych czynnościach, albo od drogiego robota kuchennego. Warto zadbać, aby w świecie zalewających nas zewsząd danych być prawdziwym mistrzem kuchni.

Możesz zobaczyć ten artykuł, jak i wiele innych w naszym portalu Controlling 24. Wystarczy, że klikniesz tutaj.

Ulubione Drukuj

Zobacz również

Sparklines w Excelu. Jak tworzyć wykresy przebiegu w czasie?

Sparklines w Excelu. Jak tworzyć wykresy przebiegu w czasie?

Czasami chcemy uatrakcyjnić nasz raport za pomocą drobnych wizualizacji, które pokażą nam trend albo jednoznacznie określą wynik jako pozytywny bądź negatywny. W Excelu taką rolę odgrywają wykresy przebiegu w czasie.

Czytaj więcej

Roboty w MS Excel. Co jest ważne przy projektowaniu i budowie automatycznie działających rozwiązań

Roboty w MS Excel. Co jest ważne przy projektowaniu i budowie automatycznie działających rozwiązań

Czas tworzenia rozwiązania przy projektowaniu i budowie automatycznie działających rozwiązań zależy przede wszystkim od złożoności problemu do rozwiązania (zakresu automatyzacji). Trzeba wiedzieć, że im bardziej złożona jest problematyka związana z automatyzacją rozwiązania, tym większy jest czas procesu jego tworzenia. Związek ten nie jest prostoliniowy, ale wykładniczy. Czas projektowania i budowy rozwiązania rośnie szybciej niż poziom złożoności problemu (Rysunek 1). Podstawowym narzędziem do projektowania jest więc podział problemu na części. Na rozwiązanie każdej z mniejszych części potrzeba zdecydowanie mniej czasu. Naturalnym podziałem problemu na części jest podział problemu według funkcji informatyki. Są one wymienione w dalszej części artykułu; jest tam również schemat projektowy, według którego projektuje się i buduje rozwiązania.

Czytaj więcej

Przejdź do

Partnerzy

Reklama

Polityka cookies

Dalsze aktywne korzystanie z Serwisu (przeglądanie treści, zamknięcie komunikatu, kliknięcie w odnośniki na stronie) bez zmian ustawień prywatności, wyrażasz zgodę na przetwarzanie danych osobowych przez EXPLANATOR oraz partnerów w celu realizacji usług, zgodnie z Polityką prywatności. Możesz określić warunki przechowywania lub dostępu do plików cookies w Twojej przeglądarce.

Usługa Cel użycia Włączone
Pliki cookies niezbędne do funkcjonowania strony Nie możesz wyłączyć tych plików cookies, ponieważ są one niezbędne by strona działała prawidłowo. W ramach tych plików cookies zapisywane są również zdefiniowane przez Ciebie ustawienia cookies. TAK
Pliki cookies analityczne Pliki cookies umożliwiające zbieranie informacji o sposobie korzystania przez użytkownika ze strony internetowej w celu optymalizacji jej funkcjonowania, oraz dostosowania do oczekiwań użytkownika. Informacje zebrane przez te pliki nie identyfikują żadnego konkretnego użytkownika.
Pliki cookies marketingowe Pliki cookies umożliwiające wyświetlanie użytkownikowi treści marketingowych dostosowanych do jego preferencji, oraz kierowanie do niego powiadomień o ofertach marketingowych odpowiadających jego zainteresowaniom, obejmujących informacje dotyczące produktów i usług administratora strony i podmiotów trzecich. Jeśli zdecydujesz się usunąć lub wyłączyć te pliki cookie, reklamy nadal będą wyświetlane, ale mogą one nie być odpowiednie dla Ciebie.