Re: CEPIK - baza danych
Posted: 21 Mar 2020, 18:49
@Krzychu: ten Neoplan to może jest jednak na podwoziu Mercedesa i dlatego tak wpisany. Info-car co do zasady nie widzi pojazdów gdzie jest VIN inny niż 17-znakowy.
@niedzul05: co do tej niezgodności modeli - przypominam, że ja tą bazę wkleiłem do Excela. Jeżeli wg BA jest to model "0405" to pewnie Excel potraktował to jako cyfrę i zjadł to zero z przodu i stąd samo "405".
Podobnie widzę zamiast Jelcz "043" w Excelu zapisało się jako "43".
Te rozbieżności i braki też mnie dziwią, bo przecież jest to wyciągnięte z tej samej bazy, z której korzysta "BA". Ja z oryginalnych danych wyfiltrowałem wszystko co zostało oznaczone jako "autobus", "autobusy", "trolejbus" - więc niby wielkiej filozofii nie ma.
Dlaczego są braki - nie wiem. Przykładowo wczoraj wieczorem ściągnąłem sobie aktualną baze pojazdów dla woj. łódzkiego i po wyfiltrowaniu autobusów i po ich posortowaniu według daty modyfikacji okazało się, że pojawiły się dwa Solarisy U12 z 2013 r., które należą do MPK Łódź fabrycznie od samego początku (i zarejestrowane w Łodzi), ale w pobranym poprzednio pliku ich nie było. Dlaczego dopiero teraz się pojawiły? Nie wiem... Co jakiś czas będę starał się aktualizować te pliki dla województw, to może się coś pojawi czego wcześniej nie było.
Inna sprawa, że oryginalne pliki dla każdego województwa zawierają po kilka milionów wierszy. Zwykły Excel to tam nieco po ponad 1 milionie wierszy ucinał całą resztę. Znalazłem więc nawet jakieś proste programy, które takie duże pliki CSV odczytują, ale w sumie to też nie mam pewności czy wszystkie wiersze prawidłowo się wczytują i potem filtrują, czy coś się nie ucina. Może na tym etapie się mogło coś zagubić, a oryginalnie było.
Także metoda idealna nie jest, ale na pewno w wielu sytuacjach pomocna. A teraz jak jest zalecane pozostać w domu i ktoś zdecyduje się na robienie w tym czasie porządków na TWB to mam nadzieję, że się przyda.
@niedzul05: co do tej niezgodności modeli - przypominam, że ja tą bazę wkleiłem do Excela. Jeżeli wg BA jest to model "0405" to pewnie Excel potraktował to jako cyfrę i zjadł to zero z przodu i stąd samo "405".
Podobnie widzę zamiast Jelcz "043" w Excelu zapisało się jako "43".
Te rozbieżności i braki też mnie dziwią, bo przecież jest to wyciągnięte z tej samej bazy, z której korzysta "BA". Ja z oryginalnych danych wyfiltrowałem wszystko co zostało oznaczone jako "autobus", "autobusy", "trolejbus" - więc niby wielkiej filozofii nie ma.
Dlaczego są braki - nie wiem. Przykładowo wczoraj wieczorem ściągnąłem sobie aktualną baze pojazdów dla woj. łódzkiego i po wyfiltrowaniu autobusów i po ich posortowaniu według daty modyfikacji okazało się, że pojawiły się dwa Solarisy U12 z 2013 r., które należą do MPK Łódź fabrycznie od samego początku (i zarejestrowane w Łodzi), ale w pobranym poprzednio pliku ich nie było. Dlaczego dopiero teraz się pojawiły? Nie wiem... Co jakiś czas będę starał się aktualizować te pliki dla województw, to może się coś pojawi czego wcześniej nie było.
Inna sprawa, że oryginalne pliki dla każdego województwa zawierają po kilka milionów wierszy. Zwykły Excel to tam nieco po ponad 1 milionie wierszy ucinał całą resztę. Znalazłem więc nawet jakieś proste programy, które takie duże pliki CSV odczytują, ale w sumie to też nie mam pewności czy wszystkie wiersze prawidłowo się wczytują i potem filtrują, czy coś się nie ucina. Może na tym etapie się mogło coś zagubić, a oryginalnie było.
Także metoda idealna nie jest, ale na pewno w wielu sytuacjach pomocna. A teraz jak jest zalecane pozostać w domu i ktoś zdecyduje się na robienie w tym czasie porządków na TWB to mam nadzieję, że się przyda.