Język R zdobywa coraz większą popularność w kręgach związanych z szeroko pojętą analizą danych. Obecnie jest on zdecydowanym liderem w tej kategorii i raczej nic w najbliższej przyszłości nie zagrozi jego pozycji. Część z Was na pewno miała do czynienia w mniejszym lub większym stopniu z tym językiem, a po jego integracji z narzędziami platformy danych od Microsoft jego znaczenie w naszej codziennej pracy będzie nieprzerwanie rosło. R w pakiecie bazowym daje nam bardzo wiele możliwości manipulacji danymi, jednak można oczywiście używać dodatkowych bibliotek – jedną z najważniejszych w moim mniemaniu jest pakiet dplyr.
Pakiet ten daje ogromne możliwości jeśli chodzi o działanie na danych, dużą część czynności zdecydowanie upraszcza, a kod wykorzystujący jego funkcje jest przejrzysty i wydajny. Jak on działa? Postaram się to przedstawić w kilku kolejnych artykułach. Przy okazji chciałbym zachęcić Was do zgłębiania wiedzy dotyczącej nie tylko pakietu dplyr ale całego języka R – tak więc zaczynajmy!
Krokiem od którego zaczniemy jest oczywiście instalacja pakietu dplyr. Dodatkowo zainstalujemy pakiet hflights zawierający próbkę danych na której będziemy operować we wszystkich artykułach związanych z pakietem dplyr. Do instalacji pakietów służy ogólna komenda install.packages – tak więc zainstalujmy te dwa pakiety:
install.packages("dplyr") install.packages("hflights")
Po krótkiej instalacji musimy zainstalowane pakiety załadować – zrobimy to przy użyciu komendy library:
library(dplyr) library(hflights)
Pierwszą funkcjonalnością jakiej się przyjrzymy jest podglądanie danych w zestawie będącym data.frame. Z pudełka R oczywiście daję nam taką możliwość, przypiszmy do zmiennej df dataframe hflights, a następnie ją wyświetlmy:
##przypisanie do zmiennej df<-data.frame(hflights) ##wyświetlenie zmiennej df
W rezultacie otrzymamy zestaw danych jak poniżej:
Oczywiście wyświetlany przez nas data frame jest długi i szeroki dlatego konsola przeniosła część kolumn do nowej linii dlatego dane nie są nam serwowane w przejrzysty i wygodny sposób. Oczywiście możemy wyświetlić tylko część danych używając takich komend jak head i tail lub podsumowanie używając summary – lecz oczywiście możemy również użyć pakietu dplyr i obiektu tbl_df. Jest to typ pochodny data.frame umożliwiający dużo sprawniejsze wyświetlanie danych – przetestujmy ten fakt konwertując naszą zmienną df na tbl_df i przypisując rezultat do zmiennej tdf:
##przypisanie do zmiennej tdf obiektu tbl_df tdf<-tbl_df(df) ##wyświetlenie rezultatu tdf
Jak można zauważyć rezultat jest dużo bardziej przejrzysty i kompaktowy. Oprócz wyświetlenie 10 pierwszych wartości – rezultat został dopasowany do rozmiaru naszego okna – pozostałe kolumny zostały jedynie wyświetlone w dolnej części. Dodatkowo w górnej części możemy zauważyć rozmiary naszego obiektu czyli z jaką ilością kolumn i wierszy mamy do czynienia. Najciekawszym jest fakt, iż jeśli zwiększymy rozmiar naszej konsoli to zostanie w niej wyświetlona większa ilość kolumn wraz z wartościami:
Możemy również wyświetlać losowe elementy zestawu przy użyciu funkcji sample_n oraz losowy procent wierszy z wykorzystaniem funkcji sample_frac:
##pobranie ośmiu losowych wierszy z zestawu sample_n(tdf,8)
##pobranie ośmiu losowych 5 tysięcznych procenta wierszy sample_frac(tdf,0.00005)
Można odnotować, iż funkcja sample_frac traktuje liczbę 1 jako 100% wierszy – dlatego też użyliśmy tak niskiego wskaźnika aby uzyskać dostatecznie małą liczbę wierszy.
Powyższe funkcje pozwalają na szybkie, poglądowe wyświetlenie określonych danych. Oczywiście pakiet dplyr pozwala na wiele więcej – w kolejnym artykule zajmiemy się metodami filtracji oraz wyświetlania określonych danych z naszego zestawu.
- Avoiding Issues: Monitoring Query Pushdowns in Databricks Federated Queries - October 27, 2024
- Microsoft Fabric: Using Workspace Identity for Authentication - September 25, 2024
- Executing SQL queries from Azure DevOps using Service Connection credentials - August 28, 2024
Last comments