Repozytorium zawierające projekty przygotowywane na zajęcia z Analizy Danych w Czasie Rzeczywistym w semestrze letnim 2024/25.
Repozytorium jest podzielone na foldery odpowiadające poszczególnym zadaniom realizowanym w ramach kursu:
ZADANIE1🔍 - API z regułą decyzyjną
- Prosty serwis API implementujący regułę decyzyjną
- Technologie: Python, Flask, Docker
ZADANIE2 📊 - Strumieniowanie danych w Apache Spark
- Implementacja przetwarzania strumieniowego z wykorzystaniem Spark Structured Streaming
- Analiza i segmentacja danych w czasie rzeczywistym
- Różne źródła danych: rate, JSON
- Agregacja w oknach czasowych (tumbling, sliding windows)
- Technologie: Python, Apache Spark, Kafka
- 🐍 Python - główny język programowania
- 🔌 Flask - framework do tworzenia API
- 🐳 Docker - konteneryzacja aplikacji
- ⚡ Apache Spark - przetwarzanie danych w czasie rzeczywistym
- 📮 Apache Kafka - broker wiadomości dla strumieniowania
Każdy projekt zawiera własny plik README.md z instrukcjami dotyczącymi uruchomienia. Większość projektów jest skonteneryzowana w Dockerze, co ułatwia ich uruchomienie w różnych środowiskach.
Projekty są tworzone i testowane w środowisku z przygotowanym kontenerem Docker zawierającym niezbędne narzędzia do analizy danych w czasie rzeczywistym.
Bartosz Sobkowicz, 2025