Web Scraping – co to i jakie są „dobre” praktyki?
Wprowadzenie do web scrapingu, jego zastosowań oraz omówienie dobrych i legalnych praktyk podczas pozyskiwania danych ze stron internetowych.
MiroslawMamczur.pl to blog prowadzony przez Mirosława Mamczura, doświadczonego Data Scientist z ponad 15-letnim stażem w analizie danych, uczeniu maszynowym i monetyzacji danych w dużych firmach. Na blogu znajdziesz artykuły o data science, sztucznej inteligencji (AI), uczeniu maszynowym i wizualizacji danych, które autor tłumaczy na język praktyki, od drzew decyzyjnych i lasów losowych poprzez wdrażanie modeli w kontenerach z Dockerem po wizualizacje swarmplot i ridgeline plot. Mirosław wierzy, że dzięki AI można nie tylko zwiększać efektywność biznesu, ale też zostawiać świat lepszym miejscem. Blog powstał, by dzielić się wiedzą w przystępny sposób, by inni mogli ją wykorzystać i wprowadzać zmiany dla dobra kolejnych pokoleń.
49 artykuły z tego bloga
Wprowadzenie do web scrapingu, jego zastosowań oraz omówienie dobrych i legalnych praktyk podczas pozyskiwania danych ze stron internetowych.
Wprowadzenie do wykresów Sankeya, ich historii oraz praktyczny przykład implementacji w Pythonie z użyciem biblioteki Plotly.
Jak użyć OpenStreetMap i Nominatim do geokodowania adresów oraz obliczania odległości w celu znalezienia najbliższych punktów, np. restauracji.
Praktyczny przewodnik po tworzeniu efektu 'płaszcza niewidki' przy użyciu OpenCV i wykrywania kolorów w przestrzeni HSV.
Przewodnik po tworzeniu wykresów bąbelkowych w Pythonie z użyciem biblioteki Plotly, w tym animacje i najlepsze praktyki.
Wprowadzenie do regresji liniowej - jednego z najprostszych algorytmów uczenia maszynowego, wyjaśniające jej działanie i zastosowania.
Wprowadzenie do wykresu mapa drzewa (treemap) - wizualizacja hierarchii danych za pomocą prostokątów wraz z przykładem implementacji w Pythonie.
Wyjaśnienie czym jest technologia deepfake, jak działa i jakie niesie ze sobą zagrożenia oraz możliwości wykorzystania.
Przegląd 18 inspirujących źródeł wiedzy dla fanów data science i uczenia maszynowego, w tym repozytoria kodu, blogi i narzędzia.