Złoto na wyciągnięcie ręki, czyli o wykorzystaniu #opendata w analizach danych.



W dzisiejszych czasach często porównuje się szeroko rozumiane dane do „ropy naftowej XXI wieku”. W gospodarce cyfrowej odpowiednie dane, wnoszące wartość dodaną dla przedsiębiorstwa, warte są ogromne pieniądze – w odpowiednich rękach pozwalają na stworzenie analiz i wniosków prowadzących do jeszcze większych zysków. Problem jest tylko jeden, takie dane trudno pozyskać. Można co prawda kupić odpowiednie dane od zewnętrznego dostawcy lub zebrać je samodzielnie, ale w obu przypadkach wymaga to wyłożenia pewnych, często dość znacznych, środków pieniężnych – jak nie bezpośrednio, to pośrednio, poprzez stworzenie odpowiedniej infrastruktury i zespołu odpowiedzialnego za zbieranie takich danych. W tym artykule chciałbym przybliżyć możliwości analiz jakie dają ogólnodostępne dane, czyli takie, które dostać może byle Kowalski mający dostęp do szerokopasmowego Internetu.

Jedną z głównych inspiracji do napisania niniejszego artykułu był fakt, że w połowie ubiegłego roku (a dokładnie 31 lipca 2020 roku) w życie weszła nowelizacja ustawy z dnia 17 maja 1989 r. Prawo geodezyjne i kartograficzne (Dz. U. z 2020 r. poz. 276 z późn. zm.), dzięki której uwolniono od opłat pobieranie danych zarządzanych przez Główny Urząd Geodezji i Kartografii – w tym m.in. dane z baz danych obiektów topograficznych (BDOT10K), ortofotomapy czy numeryczny modelu terenu. Można by pomyśleć „No dobrze, ale to jakieś publiczne dane, które do niczego mi się nie przydadzą”. I tutaj się czytelnik myli. Jako przykład niech posłuży część aplikacji, którą mieliśmy już okazję stworzyć w BitPeak. Model utworzonej aplikacji przewidywał ocenę poszczególnych budynków w celu generowania potencjalnych nabywców usług sprzedawanych przez naszego klienta. W celu analizy i wizualizacji danych wykorzystaliśmy udostępnione dane BDOT10k. Dane te zawierają w sobie informacje m.in. na temat uzbrojenia terenu, sieci komunikacyjnej, a także – co istotne z perspektywy naszej aplikacji – informacje dotyczące budynków, w tym dokładne położenie poszczególnych nieruchomości, ich kształt, liczbę kondygnacji czy przeznaczenie.


Część ekranu aplikacji, prezentująca mapę Łodzi z nałożonymi obrysami budynków, kolor nieruchomości zależny od nadanego scoringu.


Dane te nie tylko pozwalają na identyfikację poszczególnych nieruchomości, ale przede wszystkim były niezmiernie istotne z perspektywy modelowanej przez nas zmiennej. Udostępnione dane pozwalają na filtrowanie i sortowanie po poszczególnych typach budynków lub innych rodzajach obiektów topograficznych znajdujących się w bazie. W naszym przypadku niezmiernie istotnym okazała się jednak warstwa wizualna – korzystając z geometrii obecnej w bazie przygotować można wizualizacje, dzięki którym użytkownik końcowy ma lepsza możliwość wizualnego sprawdzenia danych.


OpenStreetMap nie gorszy niż Google Maps

Każdy z nas kojarzy Wikipedię – otwartą encyklopedię, która tworzona jest wspólnie przez jej użytkowników. Nie każdy jednak kojarzy jej odpowiednik, OpenStreetMap, który działa na analogicznej zasadzie – użytkownicy wspólnymi siłami tworzą portal z mapami będący otwartą wersją Map Google. W przeciwieństwie jednak do komercyjnego rozwiązania od giganta z Kalifornii, OpenStreetMap pozwala na darmowe pobieranie danych w postaci surowej, a nie wyłącznie przeglądanie map.


W szczególności zwróćmy uwagę na dwa typy danych: POI (z ang. points of interest) oraz sieć komunikacyjną. POI-e to punkty, które są lub mogą być użyteczne z perspektywy odbiorcy, takie jak kina, teatry czy szpitale. Niech za przykład ich wykorzystania służy poniższy case.


Wyobraźmy sobie młode małżeństwo, które chce zainwestować w mieszkanie w Warszawie. Uznajmy ponadto, że jednym z głównych kryteriów wyboru nieruchomości jest lokalizacja – a mianowicie niewielka odległość od szkoły podstawowej, bo można było ją pokonać pieszo w stosunkowo krótkim czasie. Z OpenStreetMap bez problemu pobrać można nie tylko listę szkół zawężoną wstępnie do odpowiedniej lokalizacji, ale także (co najistotniejsze w niniejszym przypadku) listę dróg i chodników, która udostępniona jest w postaci grafu. Za jego pomocą możliwym jest stworzenie modelu przypisującemu każdemu poszczególnemu punktowi informację o przybliżonym czasie przejścia pieszo odległości pomiędzy danym budynkiem na najbliższą szkołą. Korzystając dodatkowo z obrysów budynków pobranych ze wspomnianej w poprzedniej części bazy BDOT10k można stworzyć mapkę jak poniżej, która posłużyć może w wyborze odpowiedniej lokalizacji miejsca zamieszkania.


Mapa przedstawiająca czas przejścia pieszo pomiędzy budynkami mieszkalnymi a najbliższą szkołą. Czarne kropki na mapie oznaczają szkoły.


Na podstawie powyższej mapy zidentyfikować można m.in. że budynki znajdujące się na południu Warszawy, wydłuż Wisły mają jedną z najgorszych lokalizacji pod omawianym względem.


Nie tylko pieszo

Ostatnim przykładem niech ponownie będzie wybór lokalizacji (z ang. site location). Załóżmy, drogi Czytelniku, że planujesz wybudować biurowiec dla swojej nowej firmy i potrzebujesz wybrać odpowiednie miejsce dla swojego miejsca pracy. Chcąc ciąć koszty nie możesz wybrać miejsca w ścisłym centrum, więc zmuszony jesteś do wyboru lokalizacji bardziej na uboczu miasta. Musisz jednak znaleźć miejsce na tyle dobrze połączone komunikacją miejską, aby pracownicy niezmotoryzowani mogli w łatwy sposób dostać się do pracy.


W tym również pomóc mogą otwarte dane. Większość z nas wie, że w Internecie znaleźć można informacje dotyczące czasów odjazdów poszczególnych autobusów, najczęściej na stronie poszczególnych MPK. Nie każdy jednak wie, że dla znacznej liczby większych miast, nie tylko polskich, dane te publikowane są w postaci zagregowanej. General Transit Feed Specification (GTFS) jest międzynarodowym formatem zapisu informacji o rozkładach jazdy i lokalizacji przystanków. Format ten jest na tyle specyficzny i popularny, że istnieją niezliczone narzędzia i algorytmy, pozwalające na włączenie do swoich analiz informacji o transporcie miejskim niewielkim kosztem.


W połączeniu z danymi OpenStreetMap możliwe jest zbudowanie modelu, który w oparciu o wybraną lokalizację wyliczy bardziej realny średni czas dojazdu do tego miejsca, niż wynikałoby to z surowych danych. Przykładowo, poniżej zaprezentowano mapę Warszawy z nałożonymi informacjami informującymi o czasie dojazdu komunikacją miejską do punktu oznaczonego czerwoną kropką na mapie – interwały 15 minutowe, tzn. najjaśniejszy odcień niebieskiego oznacza dojazd o sumarycznym czasie do 15 minut, a najciemniejszy odcień dojazd do 60 minut.


Przy założeniu, że pieszy porusza się pomiędzy przystankami z prędkością 4,5 km/h, a czas oczekiwania na przyjazd autobusu wynosi 1/3 średniego czasu pomiędzy autobusami na danym przystanku.


Zakończenie

W niniejszym artykule omówione zostały przykładowe możliwości wykorzystania otwartych danych w różnych projektach. Warto podkreślić, że zaprezentowane źródła są jedynie przykładami – na stronie https://dane.gov.pl/pl odnaleźć można znacznie więcej źródeł danych, które pozwalają rozszerzyć zakres projektów. Przykładowo ortofotomapy (de facto zdjęcia lotnicze) prezentują znacznie wyższy poziom jakości niż ogólnie znane zdjęcia satelitarne od Google, co więcej są zdecydowanie bardziej aktualne - pozwala to m.in. na automatyczną analizę miast oraz detekcję obiektów. Numeryczny model pokrycia terenu może służyć do utworzenia zaawansowanych map 3D badanego obszaru. Nie wykluczamy, że kolejne źródła i ich potencjalne zastosowania zostaną omówione w kolejnych artykułach na naszym blogu. Dane w dzisiejszych czasach są na wyciągniecie ręki, po co więc czekać?



Piotr Więckiewicz

Junior Machine Learning Developer

piotr.wieckiewicz@bitpeak.pl





Źródła:

https://ana.blogs.com/maestros/2006/11/data_is_the_new.html, https://www.businessoffashion.com/articles/technology/data-is-the-new-oil-and-more-from-sxsw,

https://ec.europa.eu/commission/presscorner/detail/en/SPEECH_09_156.

126 wyświetleń

Ostatnie posty

Zobacz wszystkie