Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.
Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.
Dzięki książce poznasz:
model programowania w ekosystemie Spark
podstawowe metody stosowane w nauce o danych
pełne implementacje analiz dużych publicznych zbiorów danych
konkretne przypadki użycia narzędzi uczenia maszynowego
kod, który łatwo dostosujesz do swoich potrzeb
PySpark: systemowa odpowiedź na problemy inżyniera danych!
Informacja dotycząca wprowadzenia produktu do obrotu:
Ten produkt został wprowadzony na rynek przed 13 grudnia 2024 r. zgodnie z obowiązującymi wówczas przepisami (Dyrektywą o ogólnym bezpieczeństwie produktów). W związku z tym może on być nadal sprzedawany bez konieczności dostosowania do nowych wymogów wynikających z Rozporządzenia o Ogólnym Bezpieczeństwie Produktów (GPSR). Produkt zachowuje pełną legalność w obrocie, a jego jakość i bezpieczeństwo pozostają zgodne z obowiązującymi wcześniej standardami.
Information regarding product placement on the market:
This product was placed on the market before December 13, 2024, in accordance with the applicable regulations at the time (the General Product Safety Directive). As a result, it can continue to be sold without needing to meet the new requirements introduced by the General Product Safety Regulation (GPSR). The product remains fully compliant with all previously valid legal standards, ensuring its continued quality and safety.