Data Scraping

Wraz z rozwojem Internetu wzrasta różnorodność danych krążących w sieci oraz zwiększa się ich objętość.

Jednym z priorytetów współczesnych analiz staje się automatyzacja żmudnych procesów – przede wszystkim zbierania danych, także tych ze stron www. Dzięki temu usprawnieniu można skupić się na bardziej twórczej i strategicznie ważniejszej części analitycznej – interpretacji, wyciąganiu wniosków oraz podejmowaniu na ich podstawie istotnych decyzji biznesowych.

Załóżmy kilka hipotetycznych scenariuszy, które dotyczą danych pochodzących z sieci:

  1. Interesuje Cię tematyka kursu pewnej waluty i jej zmian historycznych. Bank Y udostępnia dane dzienne w pliku Excel, które możesz pobrać. Każdy taki plik jednak znajduje się na osobnej stronie. Aby przygotować dane dla 2 lat, musiałbyś odwiedzić ponad 700 stron. Dla 10 lat to więcej niż 3500 kliknięć.
  2. Dla swojej kampanii społecznościowej planujesz przeanalizować treść nagłówków artykułów udostępnionych w ciągu ostatnich 2 lat na najważniejszych portalach branżowych. Każdy nagłówek wymaga zaznaczenia myszką, skopiowania oraz wklejenia do lokalnego pliku.
  3. Planowałaś na nadchodzącym spotkaniu zaprezentować pewne dane, aby podeprzeć swoje argumenty dla kilku decyzji w dziale. Na jednej ze stron www interesujące cię dane wyświetlane są w postaci tabeli, jednak kopiowanie ich do Excela z niewiadomych przyczyn nie przynosi rezultatów. Co więcej, nawet, jeśli by się udało, to tabela ta jest podzielona na ponad 100 stron, więc musiałabyś czynność powtórzyć tyle samo razy, a czas Ci na to nie pozwala.

Przeczytaj więcej ▾

We wszystkich powyższych sytuacjach, manualne zebranie danych okazałoby się mało wydajne lub wręcz niemożliwe. W takich momentach ze wsparciem przychodzi ekstrakcja danych a konkretnie web scraping.

Czym jest web scraping i ekstrakcja danych?

Web scraping, czyli programistyczne wyciąganie danych ze stron internetowych jest częścią ogólniejszego procesu, jakim jest ekstrakcja danych tj. wydobywanie informacji ze źródeł nieustrukturyzowanych lub słabo ustrukturyzowanych.

  • Przykładowym źródłem ustrukturyzowanym może być powszechnie znana tabela w Excelu lub odpowiednio sformatowany plik CSV. Takie źródła są wręcz stworzone do analiz i łatwo się z nimi obchodzić.
  • Nieustrukturyzowana będzie treść email lub wypowiedź zapisana na nagraniu audio. Strony internetowe leżą gdzieś pomiędzy tymi dwoma biegunami – mają one swoją strukturę (HTML), choć nie tak oczywistą, jak tabele. Obecność tej struktury daje jednak możliwość automatyzacji, uproszczenia i wystandaryzowania zbierania danych, dzięki czemu proces analityczny zostaje znacznie wzbogacony.

Przykładowe zadania lub pytania, na jakie pomoże odpowiedzieć analiza ekspertów PMR z wykorzystaniem web scrapingu:

  • jaki jest wiodący temat dyskusji na danym forum internetowym
  • w jakich cenach oferowany jest dany produkt w świecie ecommerce
  • o których cechach firmy X mówią jej klienci w sieci
  • jak wydajnie pobrać z sieci oraz uspójnić dane historyczne udostępnione w wielu plikach Excel

Korzyści z ekstrakcji danych i web scrapingu przeprowadzanego z PMR:

  • oszczędność zasobów czasowych i umysłowych ze względu na zautomatyzowanie żmudnego i nudnego procesu
  • wyższa dokładność danych
  • lepsza kontrola nad procedurą wydobywania informacji i wystandaryzowanie procedury zbierania danych
  • łatwiejsze zarządzanie danymi