O projekcie

1. W skrócie

Projekt powstał w celu zebrania informacji zawartych w dokumentach PDF(metadanych) dostępnych w Internecie oraz stworzeniu z nich raportu.

2. Czym są metadane ?

Metadane to informacje opisujące właściwości dokumentu. Dla celów projektu uwzględniono następujące metadane:
  • Autor
  • Data modyfikacji
  • Data utworzenia
  • Format(A4, A3 itd.)
  • Informacja o optymalizacji
  • Liczba Stron
  • Producent oprogramowania generującego dokument PDF
  • Rozmiar dokumentu
  • Twórca - program generujący PDF
  • Tytuł
  • Wersja PDF

3. Motywacja i cel powstania raportu

Głównym motywem była ciekawość autora i chęć poznania ilości dostępnych narzędzi generujących/modyfikujących pliki PDF.
Raport pozwoli na uzyskanie odpowiedzi np. na pytania:

  • Który producent oprogramowania ma największy udział w generowaniu plików PDF,
  • Jakie oprogramowanie jest najczęściej wykorzystywane do generowania plików PDF,
  • Która wersja specyfikacji PDF jest najczęściej stosowana,
  • Ilustronicowe dokumenty PDF występują najczęściej.

Dysponując bazą danych można oczywiście tworzyć inne raporty z dostępnych metadanych,
zawężać kryteria itd.

4. Realizacja projektu

I Etap - Polskie strony internetowe

Przeskanowano strony internetowe z końcówką .pl (Polska) w poszukiwaniu plików PDF.
Zobacz szczegółowy opis.

II Etap - Analiza zbioru danych projektu Common Crawl

Oczywistym jest, że dysponując jednym serwerem i łączem < 100Mbps(download) nie jest możliwe w krótkim czasie przeskanowanie całego Internetu oraz pobranie wszystkich plików.
W związku z powyższym, autor postanowił wykorzystać projekt Common Crawl, który zajmuje się skanowaniem stron www i udostępnia dane bezpłatnie na serwerach AMAZON.

W celu rozpoznania podjęta została próba pobrania i przeanalizowano zbioru danych CC 2014-10 o wielkości 36,5TB(pliki warc.gz) - 55 700 plików po ok. 685MB każdy. Analizując pliki warc.gz okazało się, że średnio zawierają one ok. 80 dokumentów PDF. Uzyskana w ten sposób liczba plików PDF nie byłaby imponująca. Podjęto jednak decyzję aby kontynuować analizę plików warc.gz oraz dodatkowo wydobyć z każdego pliku adresy URL kończące się rozszerzeniem ".pdf". Po zakończeniu przetwarzania segmentu kolejny etap polegać będzie na pobraniu wszystkich plików PDF.
Zobacz szczegóły.

III Etap - Pobranie i analiza zebranych linków PDF z etapu II

Zebrano ponad 26 mln unikalnych adresów URL z rozszerzeniem .pdf. Zobacz szczegóły.

5. Podsumowanie

W trakcie trwania projektu powstały 3 bazy danych(MySQL) zawierające metadane plików PDF:

  • Baza danych plików znajdujących się na stronach w domenie .pl - POLSKA - 787MB
  • Baza danych plików z przetworzenia zbioru Common Crawl 2014-10 - 659MB
  • Baza danych plików z uzyskanych adresów URL znajdujących się w zbiorze 2014-10 CC - ok. 10GB

Baza danych zawiera następujące pola

  • Author - autor dokumentu
  • Creator - program generujący
  • CreationDate - data utworzenia dokumentu
  • Encrypted - informacja o szyfrowaniu pliku
  • FileSize - rozmiar dokumentu w bajtach
  • ModDate - data modyfikacji dokumentu
  • Pages - liczba stron
  • PageSize - format strony
  • PdfVersion - wersja PDF
  • Producer - producent oprogramowania
  • Optimized - informacja o optymalizacji
  • Title - tytuł dokumentu
  • Fhash - suma kontrolna SHA1
  • Url - link do pliku
  • Date - data dodania do bazy

Szczegółowe dane znajdują się w zakładce Statystyki