Głównym motywem była ciekawość autora i chęć poznania ilości dostępnych narzędzi
generujących/modyfikujących pliki PDF.
Raport pozwoli na uzyskanie odpowiedzi np. na pytania:
Dysponując bazą danych można oczywiście tworzyć inne raporty z dostępnych metadanych,
zawężać kryteria itd.
I Etap - Polskie strony internetowe
Przeskanowano strony internetowe z końcówką .pl (Polska) w poszukiwaniu plików PDF.
Zobacz szczegółowy opis.
II Etap - Analiza zbioru danych projektu Common Crawl
Oczywistym jest, że dysponując jednym serwerem i łączem < 100Mbps(download) nie jest
możliwe w krótkim czasie przeskanowanie całego Internetu oraz pobranie wszystkich plików.
W związku z powyższym, autor postanowił wykorzystać projekt Common Crawl,
który zajmuje się skanowaniem stron www i udostępnia dane bezpłatnie na serwerach AMAZON.
W celu rozpoznania podjęta została próba pobrania i przeanalizowano zbioru danych
CC 2014-10 o wielkości
36,5TB(pliki warc.gz) - 55 700 plików po ok. 685MB każdy.
Analizując pliki warc.gz okazało się, że średnio zawierają one ok. 80 dokumentów PDF.
Uzyskana w ten sposób liczba plików PDF nie byłaby imponująca. Podjęto jednak decyzję aby kontynuować analizę
plików warc.gz oraz dodatkowo wydobyć z każdego pliku adresy URL kończące się rozszerzeniem ".pdf".
Po zakończeniu przetwarzania segmentu kolejny etap polegać będzie na pobraniu wszystkich plików PDF.
Zobacz szczegóły.
III Etap - Pobranie i analiza zebranych linków PDF z etapu II
Zebrano ponad 26 mln unikalnych adresów URL z rozszerzeniem .pdf. Zobacz szczegóły.
W trakcie trwania projektu powstały 3 bazy danych(MySQL) zawierające metadane plików PDF:
Baza danych zawiera następujące pola
Szczegółowe dane znajdują się w zakładce Statystyki