Data Quality Serivces – Knowledge Discovery

Kilka dni temu napisałem kilka słów o tym czym jest DQS oraz jak zarządzać domenami (Domain Management) dziś natomiast chciałbym rozszerzyć ten temat o tzw. Knowledge Discovery – dzięki czemu będziemy mogli zainicjować nasze bazy wiedzy i zacząć wykorzystać tworzone przez nas bazy wiedzy w praktyce.

Aby nie tracić czasu na tworzenie nowej bazy wiedzy od początku wykorzystamy gotowy przykład od Microsoft, który możecie ściągnąć (paczka dostępna jest tutaj). Po rozpakowaniu paczki interesujący jest dla nas plik o rozszerzeniu dqs, który musimy zaimportować w narzędziu Data Quality Client – przy tworzeniu nowej bazy wiedzy wskazując import z pliku dqs tak jak zostało to przedstawione na poniższym zrzucie ekranowym:

Baza ta jest dosyć prosta i zawiera kilka domen opisujących pracowników – idealnie sprawdzi się w naszym przykładzie. Po zaimportowaniu bazy zapiszmy ją pod nazwą AdventureWorks i opublikujmy na serwerze. Następnie w menu głównym wybieramy naszą bazę wiedzy i z listy rozwijanej wybieramy Knowledge Discovery:

Naszym oczom ukaże się kreator składający się z trzech kroków. Pierwszy krok o nazwie Map pozwala nam na wskazanie źródła, którym może być SQL Server lub plik Excel – w naszym przypadku wybierzmy Excel oraz wskażmy plik o nazwie AdventureWorksSampleData.xls znajdujący się w pobranych przez nas samplach. Następnie musimy zmapować kolumny z Excel z domenami w naszej bazie wiedzy – wybierzmy następujące atrybuty:

  • Job Title
  • First Name
  • Last Name
  • Marital Status
  • Gender
  • Email Address

w przypadku gdy brakuje nam miejsca na wpisy możemy użyć przycisku dodania wiersza dostępnego powyżej wpisywanych wartości.

W przypadku gdy w źródle znajdują się dane z domeny, która nie istnieje w naszej bazie wiedzy – możemy ją z tego miejsca dodać korzystając z przycisku Create a Domain znajdującego się powyżej wprowadzonych wartości. Po poprawnym zdefiniowaniu mapowania domen musimy przejść do kolejnego kroku o nazwie Discover, który pozwala uruchomić proces “odkrywania wiedzy” kliknijmy przycisk start i poczekajmy na rezultaty – czas trwania całej operacji zależy w dużej mierze od dostępnych zasobów i wielkości zestawu danych wejściowych.

Po zakończeniu procesu w dolnej części okna w sekcji Profiler możemy podejrzeć podstawowe statystyki na temat naszego danych oraz podjętych działań. W danych tych możemy odnaleźć kilka interesujących nas faktów m.in informacje na temat ilości rekordów oraz poszczególnych wartości ogółem oraz w podzieleniu na każdą domenę. Ponadto możemy tutaj zobaczyć ile wartości zostało dodanych, ile jest unikalnych oraz poprawnie zdefiniowanych w domenie. W kolumnie Completeness dostępna jest wizualizacja przedstawiająca proporcję wartości pustych i niepustych (gdzie kolor zielony oznacza wartości niepuste, a kolor czerwony wartości puste).

W ostatnim kroku kreatora możemy prześledzić wartości każdej z domen i poprawić lub oznaczyć jako błędy tam gdzie jest to potrzebne.

W tym widoku możemy również prześledzić automatyczne zmiany jakich dokonał DQS na danych i dokonać ewentualnych korekt.

Następnie możemy kliknąć Finish aby zakończyć proces Knowledge Discovery. Następnie możemy opublikować naszą zaktualizowaną bazę wiedzy i/lub dokonać dodatkowych zmian w sekcji Domain Management.

Baza wiedzy zostanie zaktualizowana o nowe wartości. Proces, który właśnie przeprowadziliśmy można nazwać procesem półautomatycznym z nadzorem. W kolejnych artykułach powiemy sobie jak wykorzystać bazę wiedzy do czyszczenia i deduplikacji danych z wykorzystaniem Integration Services.

Leave a Reply