Od plików płaskich do Data Mash. Modele przetwarzania danych w Big Data.
ETL i modelowanie w trybie wsadowym (offline learning) i przyrostowym (online learning).
Strumienie danych, zdarzenia i koncepcje czasu i okien czasowych w przetwarzaniu danych w czasie rzeczywistym.
Mikroserwisy i komuniakcja przez REST API.
Współczesne architektury aplikacji do przetwarzania danych strumieniowych - Lambda, Kappa, Pub/Sub.
Przetwarzanie ustrukturyzowanych i niestrukturyzowanych danych. Środowisko programistyczne dla języka Python.
Wykorzystanie obiektowych elementów Pythona w procesie modelowania za pomocą Scikit-Learn i Keras
Podstawy OOP dla języka Python. Budowa klasy dla algorytmu błądzenia losowego, Perceprtonu i Adeline.
Przygotowanie mikroserwisu z modelem ML do zastosowania produkcyjnego.
Strumieniowanie danych z wykorzystaniem RDD dla Apache Spark. Wprowadzenie do obiektu DataFrame.
Metody tworzenia sturmienia danych z wykorzystaniem obiektu DataFrame w Apache Spark. Sterowanie Outputem i Inputem.
Strumieniowanie danych z wykorzystaniem Apache Kafka. Obiekty producenta i konsumenta.
Przechwytywanie strumieni danych ze źródła Apache Kafka i ich transforamcje w Apache Spark
Detekcja anomalii dla danych strumieniowych z wykorzystaniem Apache Kafka, Apache Spark i modelu IsolationForest.
Przegląd realizacji projektów.
|