KNIME Analytics Platform – przygotowanie danych do analizy

INFO_08_45.jpg

W poprzednim numerze IZ poznaliśmy sposoby wczytywania danych do KNIME. Możliwości jest sporo, ale proces eksploracji danych można rozpocząć nawet od przeciągnięcia dowolnej liczby plików z danymi (np. xlsx, csv) do przestrzeni workflow i dostosowania opcji odczytu w konfiguracji węzła. Zwykle na tym etapie mamy do czynienia z danymi z różnych źródeł o niezależnej strukturze, z brakującymi lub błędnymi wartościami.

Modelowanie procesu data mining na niesprawdzonych danych (ang. raw data) nie jest najlepszym pomysłem, tym bardziej jeśli wyniki analizy mogą mieć realny wpływ na decyzje biznesowe w organizacji.

Poza tym już Arystoteles wspominał, że mały błąd na początku staje się wielkim na końcu. Co więcej, prawie zawsze będziemy potrzebowali w jakiś sposób oczyszczać, przekształcać, grupować, agregować i kategoryzować dane. W końcu w systemach informatycznych gromadzone są ogromne ilości danych, więc precyzyjne analizy muszą być poprzedzone procesem czyszczenia i wstępnego przetwarzania danych (ang. cleaning and preprocessing data).

W niniejszej, trzeciej części cyklu na temat analiz data mining w KNIME przedstawimy najczęściej używane węzły do wykonywania przekształceń. W pierwszej kolejności skupimy się na kolumnach. Wszystkie węzły z tej kategorii dostępne są w widoku repozytorium w grupie „Manipulation” i podgrupie „Column”.

Dostęp możliwy dla zalogowanych użytkowników serwisu. Jeśli posiadasz aktywną prenumeratę przejdź do LOGOWANIA. Jeśli nie jesteś jeszcze naszym Czytelnikiem wybierz najkorzystniejszy WARIANT PRENUMERATY.

Zaloguj Zamów prenumeratę
Drukuj

Zobacz również

Archiwum