dplyr – szybkie wyświetlanie danych – tbl_df, sample_n, sample_frac

Język R zdobywa coraz większą popularność w kręgach związanych z szeroko pojętą analizą danych. Obecnie jest on zdecydowanym liderem w tej kategorii i raczej nic w najbliższej przyszłości nie zagrozi jego pozycji. Część z Was na pewno miała do czynienia w mniejszym lub większym stopniu z tym językiem, a po jego integracji z narzędziami platformy danych od Microsoft jego znaczenie w naszej codziennej pracy będzie nieprzerwanie rosło. R w pakiecie bazowym daje nam bardzo wiele możliwości manipulacji danymi, jednak można oczywiście używać dodatkowych bibliotek – jedną z najważniejszych w moim mniemaniu jest pakiet dplyr.

Pakiet ten daje ogromne możliwości jeśli chodzi o działanie na danych, dużą część czynności zdecydowanie upraszcza, a kod wykorzystujący jego funkcje jest przejrzysty i wydajny. Jak on działa? Postaram się to przedstawić w kilku kolejnych artykułach. Przy okazji chciałbym zachęcić Was do zgłębiania wiedzy dotyczącej nie tylko pakietu dplyr ale całego języka R – tak więc zaczynajmy!

Krokiem od którego zaczniemy jest oczywiście instalacja pakietu dplyr. Dodatkowo zainstalujemy pakiet hflights zawierający próbkę danych na której będziemy operować we wszystkich artykułach związanych z pakietem dplyr. Do instalacji pakietów służy ogólna komenda install.packages – tak więc zainstalujmy te dwa pakiety:

Po krótkiej instalacji musimy zainstalowane pakiety załadować – zrobimy to przy użyciu komendy library:

Pierwszą funkcjonalnością jakiej się przyjrzymy jest podglądanie danych w zestawie będącym data.frame. Z pudełka R oczywiście daję nam taką możliwość, przypiszmy do zmiennej df dataframe hflights, a następnie ją wyświetlmy:

W rezultacie otrzymamy zestaw danych jak poniżej:

R-result

Oczywiście wyświetlany przez nas data frame jest długi i szeroki dlatego konsola przeniosła część kolumn do nowej linii dlatego dane nie są nam serwowane w przejrzysty i wygodny sposób. Oczywiście możemy wyświetlić tylko część danych używając takich komend jak head i tail lub podsumowanie używając  summary – lecz oczywiście możemy również użyć pakietu dplyr i obiektu tbl_df. Jest to typ pochodny data.frame umożliwiający dużo sprawniejsze wyświetlanie danych – przetestujmy ten fakt konwertując naszą zmienną df na tbl_df i przypisując rezultat do zmiennej tdf:

R-result

Jak można zauważyć rezultat jest dużo bardziej przejrzysty i kompaktowy. Oprócz wyświetlenie 10 pierwszych wartości  – rezultat został dopasowany do rozmiaru naszego okna – pozostałe kolumny zostały jedynie wyświetlone w dolnej części. Dodatkowo w górnej części możemy zauważyć rozmiary naszego obiektu czyli z jaką ilością kolumn i wierszy mamy do czynienia. Najciekawszym jest fakt, iż jeśli zwiększymy rozmiar naszej konsoli to zostanie w niej wyświetlona większa ilość kolumn wraz z wartościami:

R-result

Możemy również wyświetlać losowe elementy zestawu przy użyciu funkcji sample_n oraz losowy procent wierszy z wykorzystaniem funkcji sample_frac:

R-result

Results

Można odnotować, iż funkcja sample_frac traktuje liczbę 1 jako 100% wierszy – dlatego też użyliśmy tak niskiego wskaźnika aby uzyskać dostatecznie małą liczbę wierszy.

Powyższe funkcje pozwalają na szybkie, poglądowe wyświetlenie określonych danych. Oczywiście pakiet dplyr pozwala na wiele więcej – w kolejnym artykule zajmiemy się metodami filtracji oraz wyświetlania określonych danych z naszego zestawu.

Adrian Chodkowski
Follow me

Adrian Chodkowski

SQL geek, Data enthusiast, Consultant & Developer
Adrian Chodkowski
Follow me

Latest posts by Adrian Chodkowski (see all)

Leave a Comment

Your email address will not be published. Required fields are marked *