Python Data Science - analizy Big Data
Opis
Data Science stało się w ciągu ostatnich lat istotnym trendem systemów informatycznych. Duże ilości danych przetwarzane na co dzień w systemach wymagają wyspecjalizowanych narzędzi do analizy danych. Język Python jako relatywnie prosty język z bogatą bazą narzędzi i bibliotek świetnie się do tego nadaje. Szkolenie Python Data Science jest dedykowane osobom, które w swojej pracy zawodowej zajmują się lub będą się zajmować takową analizą.
Szczegółowy program
Moduł 1.
Wprowadzenie do Python
- Interpreter Python
- Wprowadzenie do IPython
- Kluczowe elementy składni Python
- Struktury danych i sekwencje
- Funkcje
- Pliki i operacja na plikach
Moduł 2.
Wprowadzenie do NumPy: obliczenia oparte na tablicach i wektorach
- Wielowymiarowe tablice NumPy ndarray
- Wycinanie, indeksowanie, transponowanie oraz zamiana osi z NumPy
- Funkcje uniwersalne
- Programowanie oparte o tablice
- Wejście plikowe i wyjście tablicowe
- Metody matematyczne i statystyczne
- Sortowanie
- Algebra liniowa
- Generator liczb losowych
Moduł 3.
Wprowadzenie do pandas
- Wprowadzenie do struktur danych pandas
- Series
- DataFrame
- Index Objects
- Reindeksowanie
- Indeksowanie, selekcja i filtrowanie
- Dopasowywanie danych
- Stosowanie funkcji i mapowanie
- Sortowanie i ranking
- Korelacja i kowariancja
- Wartości unikalne, zliczanie wystąpień, przynależność
Moduł 4.
Ładowanie danych, przechowywanie danych i formaty danych
- Odczyt i zapis formatów tekstowych
- Praca z plikami oddzielanymi znacznikami (delimiters)
- JSON
- XML
- Formaty binarne
- HDF5 i Excel
- Komunikacja z Web API
- Interakcja z bazami danych
Moduł 5.
Czyszczenie i przygotowywanie danych
- Obsługa brakujących danych
- Transformacje danych
- Usuwanie duplikatów
- Podmiana wartości
- Dyskretyzacja
- Sampling
- Przetwarzanie ciągów znakowych
- Indeksowanie hierarchiczne
- Łączenie zbiorów danych
- Pivoting
- Agregacja danych i funkcje grupujące
- Serie danych
- Obsługa stref czasowych
Moduł 6.
Wizualizacja
- Wprowadzenie do matplotlib
- Wprowadzenie do wizualizacji z pandas i seaborn
- Inne narzędzia
Moduł 7.
Przykładowe analizy danych