Analiza danych w czasie rzeczywistym
Informacje ogólne
| Kod przedmiotu: | 222890-D |
| Kod Erasmus / ISCED: | (brak danych) / (brak danych) |
| Nazwa przedmiotu: | Analiza danych w czasie rzeczywistym |
| Jednostka: | Szkoła Główna Handlowa w Warszawie |
| Grupy: |
Przedmioty kierunkowe do wyboru SMMD-EKO Przedmioty obowiązkowe na programie SMMD-ADA |
| Punkty ECTS i inne: |
3.00 (zmienne w czasie)
|
| Język prowadzenia: | polski |
| Efekty uczenia się: |
Wiedza: Zna historię i filozofię modeli przetwarzania danych Zna typy danych ustrukturyzowanych jak i nieustrukturyzowanych Znać możliwości i obszary zastosowania procesowania danych w czasie rzeczywistym Zna teoretyczne aspekty REST API oraz PUB/SUB Umie wybrać strukturę IT dla danego problemu biznesowego Rozumieć potrzeby biznesowe podejmowania decyzji w bardzo krótkim czasie Umiejętności: Rozróżnia typy danych strukturyzowanych jak i niestrukturyzowanych Umie przygotować, przetwarzać oraz zachowywać dane generowane w czasie rzeczywistym rozumie ograniczenia wynikające z czasu przetwarzania przez urządzenia oraz systemy informatyczne potrafi skonstruować i zastosować system do przetwarzania w czasie rzeczywistym umie przygotować raportowanie dla systemu przetwarzania w czasie rzeczywistym Kompetencje społeczne: formułuje problem analityczny wraz z jego informatycznym rozwiązaniem utrwala umiejętność samodzielnego uzupełniania wiedzy teoretycznej jak i praktycznej w zakresie programowania, modelowania, nowych technologii informatycznych z wykorzystaniem analizy w czasie rzeczywistym. |
Zajęcia w cyklu "Semestr letni 2025/26" (jeszcze nie rozpoczęty)
| Okres: | 2026-02-21 - 2026-09-30 |
Przejdź do planu
PN LAB
LAB
WYK
LAB
LAB
WT LAB
LAB
ŚR CZ PT |
| Typ zajęć: |
Laboratorium, 20 godzin
Wykład, 10 godzin
|
|
| Koordynatorzy: | (brak danych) | |
| Prowadzący grup: | Sebastian Zając | |
| Lista studentów: | (nie masz dostępu) | |
| Zaliczenie: |
Przedmiot -
Ocena
Wykład - Ocena |
|
| Skrócony opis: |
1. Od plików płaskich do Data Mash. Modele przetwarzania danych w Big Data. 2. ETL i modelowanie w trybie wsadowym (offline learning) i przyrostowym (online learning). Map-Reduce. 3. Strumienie danych, zdarzenia i koncepcje czasu i okien czasowych w przetwarzaniu danych w czasie rzeczywistym. 4. Mikroserwisy i komuniakcja przez REST API. 5. Współczesne architektury aplikacji do przetwarzania danych strumieniowych - Lambda, Kappa, Pub/Sub. 6. Przetwarzanie ustrukturyzowanych i niestrukturyzowanych danych. Środowisko programistyczne dla języka Python. 7. Wykorzystanie obiektowych elementów Pythona w procesie modelowania za pomocą Scikit-Learn i Keras 8. Podstawy OOP dla języka Python. Budowa klasy dla algorytmu błądzenia losowego, Perceprtonu i Adeline. 9. Przygotowanie mikroserwisu z modelem ML do zastosowania produkcyjnego. 10. Strumieniowanie danych z wykorzystaniem RDD dla Apache Spark. Wprowadzenie do obiektu DataFrame. 11. Metody tworzenia stur |
|
| Pełny opis: |
Podejmowanie prawidłowych decyzji opartych na danych i ich analizie jest niezwykle istotne w dzisiejszym i nowoczesnym biznesie. Wprowadzenie nowoczesnych metod takich jak uczenie maszynowe, sztuczna inteligencja i głębokie sieci neuronowe, może znacznie poprawić zarówno zrozumienie biznesu, jak i jakość podejmowanych decyzji. Ponadto, szybkośc podejmowania decyzji jest kluczowym czynnikiem w dynamicznym środowisku biznesowym, zwłaszcza tam, gdzie pracuje się bezpośrednio z klientem. Zajęcia mają na celu przekazanie studentom doświadczenia oraz kompleksowej wiedzy teoretycznej w zakresie przetwarzania i analizy danych w czasie rzeczywistym oraz zaprezentowanie najnowszych technologii informatycznych służących do przetwarzania danych ustrukturyzowanych (pochodzących np. z hurtowni danych) jak i nieustrukturyzowanych (np. obrazy, dźwięk, strumieniowanie video) w trybie on-line. W toku zajęć przedstawiona zostanie filozofia analizy dużych danych w czasie rzeczywistym jz wykorzystaniem programowania w języku Python. Przedstawione zostaną struktury oprogramowania służące do przetwarzania danych wraz z omówieniem problemów i trudności jakie spotyka się w realizacji modelowania w czasie rzeczywistym dla dużej ilości danych. Wiedza teoretyczna zdobywana będzie (oprócz części wykładowej) poprzez realizację przypadków testowych w narzędziach takich jak Apache Spark czy Apache Kafka. Na zajęciach laboratoryjnych studenci korzystać będą z pełni skonfigurowanych środowisk programistycznych przygotowanych do przetwarzania, modelowania i analizy danych. Tak, aby oprócz umiejętności i znajomości technik analitycznych studenci poznali i zrozumieli najnowsze technologie informatyczne związane z przetwarzaniem danych w czasie rzeczywistym. |
|
| Literatura: |
Literatura podstawowa: 1. Zając S. "Modelowanie dla biznesu. Analityka w czasie rzeczywistym - narzędzia informatyczne i biznesowe. Oficyna Wydawnicza SGH, Warszawa 2022 2. K. Przanowski K. , Zając S. red. "Modelowanie dla biznesu, metody ML, modele portfela CF, modele rekurencyjne, analizy przeżycia, modele scoringowe, SGH, Warszawa 2020. 3. Frątczak E., red. "Modelowanie dla biznesu, Regresja logistyczna, Regresja Poissona, Survival Data Mining, CRM, Credit Scoring". SGH, Warszawa 2019. 4. S. Raschka, Python. Uczenie maszynowe. Wydanie II 5. Maas G., Garillot F. Stream Processing with Apache Spark, O'Reilly, 2021 6. F. Hueske, V. Kalavri Stream Processing with Apache Flink, O'Reilly, 2021 7. Nandi A. "Spark for Python Developers", 2015 Literatura uzupełniająca: 1. Frątczak E., "Statistics for Management & Economics" SGH, Warszawa, 2015 2. Simon P., "Too Big to IGNORE. The Business Case for Big Data", John Wiley & Sons Inc., 2013 3. Frank J. Ohlhorst. "Big Data Analytics. Turning Big Data into Big Money". John Wiley & Sons. Inc. 2013 4. Russell J. "Zwinna analiza danych Apache Hadoop dla każdego", Helion, 2014 5. Todman C., "Projektowanie hurtowni danych, Wspomaganie zarządzania relacjami z klientami", Helion, 2011 6. P. Bruce, A. Bruce, P. Gedeck, "Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python". Helion, Wydanie II, 2021 |
|
| Uwagi: |
Kryteria oceniania: egzamin tradycyjny-pisemny: 0.00% egzamin testowy (Realizacja w MS Forms): 40.00% egzamin ustny: 0.00% kolokwium (Realizacja zadania na podstawie ćwiczeń): 20.00% referaty/eseje (Przygotowanie prezentacji): 40.00% inne: 0.00% Odsetek nieobecności, powyżej którego nie zalicza się przedmiotu (nie dot. wykładów) wyrażony odsetkiem godzin, powyżej którego wyklucza się osiągnięcie efektów uczenia się: 50% |
|
Zajęcia w cyklu "Semestr zimowy 2025/26" (w trakcie)
| Okres: | 2025-10-01 - 2026-02-20 |
Przejdź do planu
PN WT ŚR CZ PT |
| Typ zajęć: |
Laboratorium, 20 godzin
Wykład, 10 godzin
|
|
| Koordynatorzy: | (brak danych) | |
| Prowadzący grup: | (brak danych) | |
| Lista studentów: | (nie masz dostępu) | |
| Zaliczenie: |
Przedmiot -
Ocena
Wykład - Ocena |
|
| Skrócony opis: |
1. Od plików płaskich do Data Mash. Modele przetwarzania danych w Big Data. 2. ETL i modelowanie w trybie wsadowym (offline learning) i przyrostowym (online learning). Map-Reduce. 3. Strumienie danych, zdarzenia i koncepcje czasu i okien czasowych w przetwarzaniu danych w czasie rzeczywistym. 4. Mikroserwisy i komuniakcja przez REST API. 5. Współczesne architektury aplikacji do przetwarzania danych strumieniowych - Lambda, Kappa, Pub/Sub. 6. Przetwarzanie ustrukturyzowanych i niestrukturyzowanych danych. Środowisko programistyczne dla języka Python. 7. Wykorzystanie obiektowych elementów Pythona w procesie modelowania za pomocą Scikit-Learn i Keras 8. Podstawy OOP dla języka Python. Budowa klasy dla algorytmu błądzenia losowego, Perceprtonu i Adeline. 9. Przygotowanie mikroserwisu z modelem ML do zastosowania produkcyjnego. 10. Strumieniowanie danych z wykorzystaniem RDD dla Apache Spark. Wprowadzenie do obiektu DataFrame. 11. Metody tworzenia stur |
|
| Pełny opis: |
Podejmowanie prawidłowych decyzji opartych na danych i ich analizie jest niezwykle istotne w dzisiejszym i nowoczesnym biznesie. Wprowadzenie nowoczesnych metod takich jak uczenie maszynowe, sztuczna inteligencja i głębokie sieci neuronowe, może znacznie poprawić zarówno zrozumienie biznesu, jak i jakość podejmowanych decyzji. Ponadto, szybkośc podejmowania decyzji jest kluczowym czynnikiem w dynamicznym środowisku biznesowym, zwłaszcza tam, gdzie pracuje się bezpośrednio z klientem. Zajęcia mają na celu przekazanie studentom doświadczenia oraz kompleksowej wiedzy teoretycznej w zakresie przetwarzania i analizy danych w czasie rzeczywistym oraz zaprezentowanie najnowszych technologii informatycznych służących do przetwarzania danych ustrukturyzowanych (pochodzących np. z hurtowni danych) jak i nieustrukturyzowanych (np. obrazy, dźwięk, strumieniowanie video) w trybie on-line. W toku zajęć przedstawiona zostanie filozofia analizy dużych danych w czasie rzeczywistym jz wykorzystaniem programowania w języku Python. Przedstawione zostaną struktury oprogramowania służące do przetwarzania danych wraz z omówieniem problemów i trudności jakie spotyka się w realizacji modelowania w czasie rzeczywistym dla dużej ilości danych. Wiedza teoretyczna zdobywana będzie (oprócz części wykładowej) poprzez realizację przypadków testowych w narzędziach takich jak Apache Spark czy Apache Kafka. Na zajęciach laboratoryjnych studenci korzystać będą z pełni skonfigurowanych środowisk programistycznych przygotowanych do przetwarzania, modelowania i analizy danych. Tak, aby oprócz umiejętności i znajomości technik analitycznych studenci poznali i zrozumieli najnowsze technologie informatyczne związane z przetwarzaniem danych w czasie rzeczywistym. |
|
| Literatura: |
Literatura podstawowa: 1. Zając S. "Modelowanie dla biznesu. Analityka w czasie rzeczywistym - narzędzia informatyczne i biznesowe. Oficyna Wydawnicza SGH, Warszawa 2022 2. K. Przanowski K. , Zając S. red. "Modelowanie dla biznesu, metody ML, modele portfela CF, modele rekurencyjne, analizy przeżycia, modele scoringowe, SGH, Warszawa 2020. 3. Frątczak E., red. "Modelowanie dla biznesu, Regresja logistyczna, Regresja Poissona, Survival Data Mining, CRM, Credit Scoring". SGH, Warszawa 2019. 4. S. Raschka, Python. Uczenie maszynowe. Wydanie II 5. Maas G., Garillot F. Stream Processing with Apache Spark, O'Reilly, 2021 6. F. Hueske, V. Kalavri Stream Processing with Apache Flink, O'Reilly, 2021 7. Nandi A. "Spark for Python Developers", 2015 Literatura uzupełniająca: 1. Frątczak E., "Statistics for Management & Economics" SGH, Warszawa, 2015 2. Simon P., "Too Big to IGNORE. The Business Case for Big Data", John Wiley & Sons Inc., 2013 3. Frank J. Ohlhorst. "Big Data Analytics. Turning Big Data into Big Money". John Wiley & Sons. Inc. 2013 4. Russell J. "Zwinna analiza danych Apache Hadoop dla każdego", Helion, 2014 5. Todman C., "Projektowanie hurtowni danych, Wspomaganie zarządzania relacjami z klientami", Helion, 2011 6. P. Bruce, A. Bruce, P. Gedeck, "Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python". Helion, Wydanie II, 2021 |
|
| Uwagi: |
Kryteria oceniania: egzamin tradycyjny-pisemny: 0.00% egzamin testowy (Realizacja w MS Forms): 40.00% egzamin ustny: 0.00% kolokwium (Realizacja zadania na podstawie ćwiczeń): 20.00% referaty/eseje (Przygotowanie prezentacji): 40.00% inne: 0.00% Odsetek nieobecności, powyżej którego nie zalicza się przedmiotu (nie dot. wykładów) wyrażony odsetkiem godzin, powyżej którego wyklucza się osiągnięcie efektów uczenia się: 50% |
|
Zajęcia w cyklu "Semestr letni 2024/25" (zakończony)
| Okres: | 2025-02-15 - 2025-09-30 |
Przejdź do planu
PN LAB
LAB
LAB
LAB
WT LAB
LAB
WYK
ŚR CZ PT |
| Typ zajęć: |
Laboratorium, 20 godzin
Wykład, 10 godzin
|
|
| Koordynatorzy: | (brak danych) | |
| Prowadzący grup: | Sebastian Zając | |
| Lista studentów: | (nie masz dostępu) | |
| Zaliczenie: |
Przedmiot -
Ocena
Wykład - Ocena |
|
| Skrócony opis: |
1. Od plików płaskich do Data Mash. Modele przetwarzania danych w Big Data. 2. ETL i modelowanie w trybie wsadowym (offline learning) i przyrostowym (online learning). Map-Reduce. 3. Strumienie danych, zdarzenia i koncepcje czasu i okien czasowych w przetwarzaniu danych w czasie rzeczywistym. 4. Mikroserwisy i komuniakcja przez REST API. 5. Współczesne architektury aplikacji do przetwarzania danych strumieniowych - Lambda, Kappa, Pub/Sub. 6. Przetwarzanie ustrukturyzowanych i niestrukturyzowanych danych. Środowisko programistyczne dla języka Python. 7. Wykorzystanie obiektowych elementów Pythona w procesie modelowania za pomocą Scikit-Learn i Keras 8. Podstawy OOP dla języka Python. Budowa klasy dla algorytmu błądzenia losowego, Perceprtonu i Adeline. 9. Przygotowanie mikroserwisu z modelem ML do zastosowania produkcyjnego. 10. Strumieniowanie danych z wykorzystaniem RDD dla Apache Spark. Wprowadzenie do obiektu DataFrame. 11. Metody tworzenia stur |
|
| Pełny opis: |
Podejmowanie prawidłowych decyzji opartych na danych i ich analizie jest niezwykle istotne w dzisiejszym i nowoczesnym biznesie. Wprowadzenie nowoczesnych metod takich jak uczenie maszynowe, sztuczna inteligencja i głębokie sieci neuronowe, może znacznie poprawić zarówno zrozumienie biznesu, jak i jakość podejmowanych decyzji. Ponadto, szybkośc podejmowania decyzji jest kluczowym czynnikiem w dynamicznym środowisku biznesowym, zwłaszcza tam, gdzie pracuje się bezpośrednio z klientem. Zajęcia mają na celu przekazanie studentom doświadczenia oraz kompleksowej wiedzy teoretycznej w zakresie przetwarzania i analizy danych w czasie rzeczywistym oraz zaprezentowanie najnowszych technologii informatycznych służących do przetwarzania danych ustrukturyzowanych (pochodzących np. z hurtowni danych) jak i nieustrukturyzowanych (np. obrazy, dźwięk, strumieniowanie video) w trybie on-line. W toku zajęć przedstawiona zostanie filozofia analizy dużych danych w czasie rzeczywistym jz wykorzystaniem programowania w języku Python. Przedstawione zostaną struktury oprogramowania służące do przetwarzania danych wraz z omówieniem problemów i trudności jakie spotyka się w realizacji modelowania w czasie rzeczywistym dla dużej ilości danych. Wiedza teoretyczna zdobywana będzie (oprócz części wykładowej) poprzez realizację przypadków testowych w narzędziach takich jak Apache Spark czy Apache Kafka. Na zajęciach laboratoryjnych studenci korzystać będą z pełni skonfigurowanych środowisk programistycznych przygotowanych do przetwarzania, modelowania i analizy danych. Tak, aby oprócz umiejętności i znajomości technik analitycznych studenci poznali i zrozumieli najnowsze technologie informatyczne związane z przetwarzaniem danych w czasie rzeczywistym. |
|
| Literatura: |
Literatura podstawowa: 1. Zając S. "Modelowanie dla biznesu. Analityka w czasie rzeczywistym - narzędzia informatyczne i biznesowe. Oficyna Wydawnicza SGH, Warszawa 2022 2. K. Przanowski K. , Zając S. red. "Modelowanie dla biznesu, metody ML, modele portfela CF, modele rekurencyjne, analizy przeżycia, modele scoringowe, SGH, Warszawa 2020. 3. Frątczak E., red. "Modelowanie dla biznesu, Regresja logistyczna, Regresja Poissona, Survival Data Mining, CRM, Credit Scoring". SGH, Warszawa 2019. 4. S. Raschka, Python. Uczenie maszynowe. Wydanie II 5. Maas G., Garillot F. Stream Processing with Apache Spark, O'Reilly, 2021 6. F. Hueske, V. Kalavri Stream Processing with Apache Flink, O'Reilly, 2021 7. Nandi A. "Spark for Python Developers", 2015 Literatura uzupełniająca: 1. Frątczak E., "Statistics for Management & Economics" SGH, Warszawa, 2015 2. Simon P., "Too Big to IGNORE. The Business Case for Big Data", John Wiley & Sons Inc., 2013 3. Frank J. Ohlhorst. "Big Data Analytics. Turning Big Data into Big Money". John Wiley & Sons. Inc. 2013 4. Russell J. "Zwinna analiza danych Apache Hadoop dla każdego", Helion, 2014 5. Todman C., "Projektowanie hurtowni danych, Wspomaganie zarządzania relacjami z klientami", Helion, 2011 6. P. Bruce, A. Bruce, P. Gedeck, "Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python". Helion, Wydanie II, 2021 |
|
Zajęcia w cyklu "Semestr zimowy 2024/25" (zakończony)
| Okres: | 2024-10-01 - 2025-02-14 |
Przejdź do planu
PN WT ŚR CZ PT |
| Typ zajęć: |
Laboratorium, 20 godzin
Wykład, 10 godzin
|
|
| Koordynatorzy: | (brak danych) | |
| Prowadzący grup: | (brak danych) | |
| Lista studentów: | (nie masz dostępu) | |
| Zaliczenie: |
Przedmiot -
Ocena
Wykład - Ocena |
|
| Skrócony opis: |
1. Od plików płaskich do Data Mash. Modele przetwarzania danych w Big Data. 2. ETL i modelowanie w trybie wsadowym (offline learning) i przyrostowym (online learning). Map-Reduce. 3. Strumienie danych, zdarzenia i koncepcje czasu i okien czasowych w przetwarzaniu danych w czasie rzeczywistym. 4. Mikroserwisy i komuniakcja przez REST API. 5. Współczesne architektury aplikacji do przetwarzania danych strumieniowych - Lambda, Kappa, Pub/Sub. 6. Przetwarzanie ustrukturyzowanych i niestrukturyzowanych danych. Środowisko programistyczne dla języka Python. 7. Wykorzystanie obiektowych elementów Pythona w procesie modelowania za pomocą Scikit-Learn i Keras 8. Podstawy OOP dla języka Python. Budowa klasy dla algorytmu błądzenia losowego, Perceprtonu i Adeline. 9. Przygotowanie mikroserwisu z modelem ML do zastosowania produkcyjnego. 10. Strumieniowanie danych z wykorzystaniem RDD dla Apache Spark. Wprowadzenie do obiektu DataFrame. 11. Metody tworzenia stur |
|
| Pełny opis: |
Podejmowanie prawidłowych decyzji opartych na danych i ich analizie jest niezwykle istotne w dzisiejszym i nowoczesnym biznesie. Wprowadzenie nowoczesnych metod takich jak uczenie maszynowe, sztuczna inteligencja i głębokie sieci neuronowe, może znacznie poprawić zarówno zrozumienie biznesu, jak i jakość podejmowanych decyzji. Ponadto, szybkośc podejmowania decyzji jest kluczowym czynnikiem w dynamicznym środowisku biznesowym, zwłaszcza tam, gdzie pracuje się bezpośrednio z klientem. Zajęcia mają na celu przekazanie studentom doświadczenia oraz kompleksowej wiedzy teoretycznej w zakresie przetwarzania i analizy danych w czasie rzeczywistym oraz zaprezentowanie najnowszych technologii informatycznych służących do przetwarzania danych ustrukturyzowanych (pochodzących np. z hurtowni danych) jak i nieustrukturyzowanych (np. obrazy, dźwięk, strumieniowanie video) w trybie on-line. W toku zajęć przedstawiona zostanie filozofia analizy dużych danych w czasie rzeczywistym jz wykorzystaniem programowania w języku Python. Przedstawione zostaną struktury oprogramowania służące do przetwarzania danych wraz z omówieniem problemów i trudności jakie spotyka się w realizacji modelowania w czasie rzeczywistym dla dużej ilości danych. Wiedza teoretyczna zdobywana będzie (oprócz części wykładowej) poprzez realizację przypadków testowych w narzędziach takich jak Apache Spark czy Apache Kafka. Na zajęciach laboratoryjnych studenci korzystać będą z pełni skonfigurowanych środowisk programistycznych przygotowanych do przetwarzania, modelowania i analizy danych. Tak, aby oprócz umiejętności i znajomości technik analitycznych studenci poznali i zrozumieli najnowsze technologie informatyczne związane z przetwarzaniem danych w czasie rzeczywistym. |
|
| Literatura: |
Literatura podstawowa: 1. Zając S. "Modelowanie dla biznesu. Analityka w czasie rzeczywistym - narzędzia informatyczne i biznesowe. Oficyna Wydawnicza SGH, Warszawa 2022 2. K. Przanowski K. , Zając S. red. "Modelowanie dla biznesu, metody ML, modele portfela CF, modele rekurencyjne, analizy przeżycia, modele scoringowe, SGH, Warszawa 2020. 3. Frątczak E., red. "Modelowanie dla biznesu, Regresja logistyczna, Regresja Poissona, Survival Data Mining, CRM, Credit Scoring". SGH, Warszawa 2019. 4. S. Raschka, Python. Uczenie maszynowe. Wydanie II 5. Maas G., Garillot F. Stream Processing with Apache Spark, O'Reilly, 2021 6. F. Hueske, V. Kalavri Stream Processing with Apache Flink, O'Reilly, 2021 7. Nandi A. "Spark for Python Developers", 2015 Literatura uzupełniająca: 1. Frątczak E., "Statistics for Management & Economics" SGH, Warszawa, 2015 2. Simon P., "Too Big to IGNORE. The Business Case for Big Data", John Wiley & Sons Inc., 2013 3. Frank J. Ohlhorst. "Big Data Analytics. Turning Big Data into Big Money". John Wiley & Sons. Inc. 2013 4. Russell J. "Zwinna analiza danych Apache Hadoop dla każdego", Helion, 2014 5. Todman C., "Projektowanie hurtowni danych, Wspomaganie zarządzania relacjami z klientami", Helion, 2011 6. P. Bruce, A. Bruce, P. Gedeck, "Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python". Helion, Wydanie II, 2021 |
|
Właścicielem praw autorskich jest Szkoła Główna Handlowa w Warszawie.
