W poprzednim numerze „Informacji Zarządczej” pozyskaliśmy ciekawe dane i stworzyliśmy pierwszy workflow w KNIME. Jeden z systemów GUS – Bank Danych Lokalnych – posłużył jako źródło danych o wynagrodzeniach i emeryturach Polaków w ostatnich 15 latach. Eksportowane dane w plikach csv dodaliśmy do workflow na zasadzie „przeciągnij i upuść”.

Knime Analytics Platform - analiza przeciętnych wynagrodzeń i emerytur Polaków w ostatnich 15 latach

Następnie, łącząc dane i wykonując kilka przekształceń przy użyciu węzłów z kategorii manipulowania danymi (Node Repository – Manipulation) uzyskaliśmy efekt w formie tabeli z czterema kolumnami: województwo, rok, wynagrodzenie, emerytura (Rysunek 1). Tym razem zajmiemy się agregacją danych. W tym celu wykorzystamy jeden z bardziej zaawansowanych węzłów do wyliczania miar statystycznych – GroupBy.

Kontrola typu zmiennych

Zanim przejdziemy do agregacji, warto jeszcze skontrolować typ zmiennych w poszczególnych kolumnach. Nagłówki kolumn widoczne w podglądzie danych zawierają pierwsze litery od nazw typów, np. „S” jak String czy „I” jak Integer. Z kolei w zakładce ze specyfikacją kolumn oprócz pełnych nazw typów możemy również sprawdzić indeks, wartości graniczne lub unikatowe (Rysunek 2).

Konwersja typu zmiennych

Wyraźnie widać, że w przypadku analizowanych danych powinniśmy zmienić typ kolumn „wynagrodzenie” i „emerytura”. Z typu tekstowego String na liczbowy Double. Inaczej wyliczanie jakichkolwiek miar statystycznych nie będzie możliwe.

Korzystając z węzła String To Number, możemy w prosty sposób skonwertować typ zmiennych.

Wystarczy wybrać docelowy typ, separator oraz dodać wybrane kolumny do sekcji Include (Rysunek 3).

Agregacja danych

Po konwersji typów możemy przejść do agregacji danych. Węzeł GroupBy wyszukujemy w repozytorium lub w widoku Workflow Coach. Dołączając na koniec, uzyskujemy całościowo workflow jak na Rysunku 4.

Warto zauważyć, że GUI KNIME umożliwia wizualne porządkowanie przestrzeni workflow za pomocą kilku użytecznych funkcji, takich jak adnotacje, meta nodes (Rysunek 5) czy skalowanie obszaru roboczego – możliwości te zostaną jeszcze zaprezentowane w ramach cyklu.

Węzeł GroupBy umożliwia grupowanie danych oraz agregowanie wartości według różnych metod statystycznych (i nie tylko) opisanych w zakładce Description (Rysunek 6).

Pozostałe 65% artykułu dostępne jest dla zalogowanych użytkowników serwisu.

Jeśli posiadasz aktywną prenumeratę przejdź do LOGOWANIA. Jeśli nie jesteś jeszcze naszym Czytelnikiem wybierz najkorzystniejszy WARIANT PRENUMERATY.

Zaloguj Zamów prenumeratę Kup dostęp do artykułu

Możesz zobaczyć ten artykuł, jak i wiele innych w naszym portalu Controlling 24. Wystarczy, że klikniesz tutaj.

Zobacz również

Tylko on-line nr 29/2021

SaaS – blaski i cienie modelu

SaaS – blaski i cienie modelu

Trudno wyobrazić sobie funkcjonowanie współczesnych przedsiębiorstw bez wykorzystania rozwiązań opartych na chmurze. W tej technologii działają już nie tylko proste aplikacje biurowe czy księgowe, lecz również złożone systemy służące do zarządzania całą organizacją lub wybranym jej segmentem. Jeszcze kilka lat temu przedsiębiorstwa z dużą ostrożnością podchodziły do oprogramowania utrzymywanego na serwerze, którego fizyczna lokalizacja znajduje się poza firmą, obawiając się chociażby o bezpieczeństwo czy dostępność danych. Dziś usługi dostarczane w modelu SaaS (Software as a Service) są niemal standardem. Jak każda technologia, tak i SaaS ma swoje atuty i słabości. Kiedy warto stosować ten model? Na jakie inne rozwiązania chmurowe warto zwrócić uwagę?

Czytaj więcej

Raporty na posiedzenia zarządu – przykłady dobrych praktyk w narzędziach BI

Raporty na posiedzenia zarządu – przykłady dobrych praktyk w narzędziach BI

Początek spotkania zarządu to czas, który jest godziną zero nie tylko dla osób zasiadających na spotkaniu, lecz także – niejednokrotnie – dla licznej grupy ludzi odpowiedzialnych za przygotowanie materiałów omawianych „na zarządzie”. Niezależnie od tego, z jakich narzędzi analitycznych korzysta się w organizacji, w większości przypadków jedynym akceptowalnym formatem prezentacji jest PowerPoint. Wynika to w dużej mierze z przyzwyczajenia do narzędzia, łatwości obsługi oraz z tego, że PowerPoint jest zazwyczaj zainstalowany na wszystkich komputerach. Bez względu na to, czy spotkanie odbywa się w formie zdalnej, czy w biurze, każdy, kto dostanie plik z gotową prezentacją, otworzy go jednym kliknięciem.

Czytaj więcej

Przejdź do

Partnerzy

Reklama

Polityka cookies

Dalsze aktywne korzystanie z Serwisu (przeglądanie treści, zamknięcie komunikatu, kliknięcie w odnośniki na stronie) bez zmian ustawień prywatności, wyrażasz zgodę na przetwarzanie danych osobowych przez EXPLANATOR oraz partnerów w celu realizacji usług, zgodnie z Polityką prywatności. Możesz określić warunki przechowywania lub dostępu do plików cookies w Twojej przeglądarce.

Usługa Cel użycia Włączone
Pliki cookies niezbędne do funkcjonowania strony Nie możesz wyłączyć tych plików cookies, ponieważ są one niezbędne by strona działała prawidłowo. W ramach tych plików cookies zapisywane są również zdefiniowane przez Ciebie ustawienia cookies. TAK
Pliki cookies analityczne Pliki cookies umożliwiające zbieranie informacji o sposobie korzystania przez użytkownika ze strony internetowej w celu optymalizacji jej funkcjonowania, oraz dostosowania do oczekiwań użytkownika. Informacje zebrane przez te pliki nie identyfikują żadnego konkretnego użytkownika.
Pliki cookies marketingowe Pliki cookies umożliwiające wyświetlanie użytkownikowi treści marketingowych dostosowanych do jego preferencji, oraz kierowanie do niego powiadomień o ofertach marketingowych odpowiadających jego zainteresowaniom, obejmujących informacje dotyczące produktów i usług administratora strony i podmiotów trzecich. Jeśli zdecydujesz się usunąć lub wyłączyć te pliki cookie, reklamy nadal będą wyświetlane, ale mogą one nie być odpowiednie dla Ciebie.