Szkoła Główna Handlowa w Warszawie - Centralny System Uwierzytelniania
Strona główna

Data mining (w języku polskim) 223120-S
Laboratorium (LAB) Semestr letni 2020/21

Informacje o zajęciach (wspólne dla wszystkich grup)

Liczba godzin: 14
Limit miejsc: (brak limitu)
Zaliczenie: Ocena
Zakres tematów:

Wstęp do data mining; filozofia data mining i metodologia SEMMA; analiza danych w SAS Enterprise Miner; interfejs SAS Enterprise Miner; tworzenie projektu; tworzenie źródła danych; tworzenie diagramu modelowania; proces podziału zbiorów; wstępna eksploracja danych; metody próbkowania.

Metody redukcji wymiarowości i selekcji zmiennych: analiza składowych głównych; jądrowa analiza składowych głównych; analiza czynnikowa.

Metody uzupełniania niepełnych danych i metody selekcji rekordów.

Brakujące wartości atrybutów - przyczyny i kategorie: sposoby przetwarzania niepełnych zbiorów danych; wybrane metody uzupełniania brakujących danych; selekcja rekordów: zastosowanie i wybrane metody.

Wstępne przetwarzanie danych na poziomie zmiennych i rekordów: redukcja wymiaru w eksploracji danych; analiza składowych głównych; metody selekcji rekordów.

Modelowanie predykcyjne - drzewa decyzyjne i lasy losowe: proces budowy drzew; reguły podziału drzew; przycinanie drzew; zalety i wady drzew; lasy losowe.

Drzewa decyzyjne - aplikacja w SAS Enterprise Miner: wybrane zagadnienia modeli drzew decyzyjnych w SAS Enterprise Miner; budowa drzewa; wybór modelu; lasy losowe.

Sieci neuronowe typu wielowarstwowy perceptron: podstawowy model neuronu i sieci neuronowej; działanie sieci neuronowej i jej uczenie; zalety i wady sieci neuronowych.

Sieci neuronowe - aplikacja w SAS Enterprise Miner: budowa modelu, dobór architektury sieci; uczenie sieci neuronowych; ograniczenia metod uczenia gradientowego sieci.

Analiza modeli klasyfikacyjnych: oszacowanie dokładności modelu; metody dedykowane dla pojedynczej klasy i wielu klas; ocena statystycznej istotności uzyskanych wyników; metody graficzne oceny dokładności modeli.

Naiwna estymacja bayesowska i sieci bayesowskie: klasyfikacja maksymalnego a posteriori; naiwny klasyfikator bayesowski.

Rozpoznawanie wzorców: sieci samoorganizujące; wykorzystanie analizy skupień w data mining; modelowanie danych transakcyjnych; analiza asocjacji i sekwencji

Rozwiązania High Performance Analytics (HPA). Wydajność, szybkość i dokładność analityki.

Realizacja przykładowych analiz z zastosowaniem praktycznym.

Wybrane metody data mining z wykorzystaniem pakietu R

Grupy zajęciowe

zobacz na planie zajęć

Grupa Termin(y) Prowadzący Akcje
1 co druga sobota (parzyste), 13:30 - 15:10, (sala nieznana)
Aneta Ptak-Chmielewska szczegóły
3 co druga sobota (parzyste), 9:50 - 11:30, (sala nieznana)
Wioletta Grzenda szczegóły
4 co druga sobota (parzyste), 11:40 - 13:20, (sala nieznana)
Wioletta Grzenda szczegóły
5 co druga sobota (parzyste), 13:30 - 15:10, (sala nieznana)
Wioletta Grzenda szczegóły
6 co druga sobota (parzyste), 15:20 - 17:00, (sala nieznana)
Aneta Ptak-Chmielewska szczegóły
Wszystkie zajęcia odbywają się w budynku:
Opisy przedmiotów w USOS i USOSweb są chronione prawem autorskim.
Właścicielem praw autorskich jest Szkoła Główna Handlowa w Warszawie.
al. Niepodległości 162
02-554 Warszawa
tel: +48 22 564 60 00 http://www.sgh.waw.pl/
kontakt deklaracja dostępności USOSweb 7.0.2.0