Python Data Science - analizy Big Data

Opis

Data Science stało się w ciągu ostatnich lat istotnym trendem systemów informatycznych. Duże ilości danych przetwarzane na co dzień w systemach wymagają wyspecjalizowanych narzędzi do analizy danych. Język Python jako relatywnie prosty język z bogatą bazą narzędzi i bibliotek świetnie się do tego nadaje. Szkolenie Python Data Science jest dedykowane osobom, które w swojej pracy zawodowej zajmują się lub będą się zajmować takową analizą.

Szczegółowy program

Moduł 1.
Wprowadzenie do Python
  • Interpreter Python
  • Wprowadzenie do IPython
  • Kluczowe elementy składni Python
  • Struktury danych i sekwencje
  • Funkcje
  • Pliki i operacja na plikach
Moduł 2.
Wprowadzenie do NumPy: obliczenia oparte na tablicach i wektorach
  • Wielowymiarowe tablice NumPy ndarray
  • Wycinanie, indeksowanie, transponowanie oraz zamiana osi z NumPy
  • Funkcje uniwersalne
  • Programowanie oparte o tablice
  • Wejście plikowe i wyjście tablicowe
  • Metody matematyczne i statystyczne
  • Sortowanie
  • Algebra liniowa
  • Generator liczb losowych
Moduł 3.
Wprowadzenie do pandas
  • Wprowadzenie do struktur danych pandas
  • Series
  • DataFrame
  • Index Objects
  • Reindeksowanie
  • Indeksowanie, selekcja i filtrowanie
  • Dopasowywanie danych
  • Stosowanie funkcji i mapowanie
  • Sortowanie i ranking
  • Korelacja i kowariancja
  • Wartości unikalne, zliczanie wystąpień, przynależność
Moduł 4.
Ładowanie danych, przechowywanie danych i formaty danych
  • Odczyt i zapis formatów tekstowych
  • Praca z plikami oddzielanymi znacznikami (delimiters)
  • JSON
  • XML
  • Formaty binarne
  • HDF5 i Excel
  • Komunikacja z Web API
  • Interakcja z bazami danych
Moduł 5.
Czyszczenie i przygotowywanie danych
  • Obsługa brakujących danych
  • Transformacje danych
  • Usuwanie duplikatów
  • Podmiana wartości
  • Dyskretyzacja
  • Sampling
  • Przetwarzanie ciągów znakowych
  • Indeksowanie hierarchiczne
  • Łączenie zbiorów danych
  • Pivoting
  • Agregacja danych i funkcje grupujące
  • Serie danych
  • Obsługa stref czasowych
Moduł 6.
Wizualizacja
  • Wprowadzenie do matplotlib
  • Wprowadzenie do wizualizacji z pandas i seaborn
  • Inne narzędzia
Moduł 7.
Przykładowe analizy danych

Parametry szkolenia

Czas trwania
3 x 8h
Forma zajęć
Ćwiczenia - 50%, wykład - 50%
Kod
PDS
Wielkość grupy
do 12 osób

Jak zamówić

« lista szkoleń