PDFinfo.NET | Analiza metadanych plików PDF

1. W skrócie

Projekt powstał w celu zebrania informacji zawartych w dokumentach PDF(metadanych) dostępnych w Internecie oraz stworzeniu z nich raportu.

2. Czym są metadane ?

Metadane to informacje opisujące właściwości dokumentu. Dla celów projektu uwzględniono następujące metadane:

Autor
Data modyfikacji
Data utworzenia
Format(A4, A3 itd.)
Informacja o optymalizacji
Liczba Stron
Producent oprogramowania generującego dokument PDF
Rozmiar dokumentu
Twórca - program generujący PDF
Tytuł
Wersja PDF

3. Motywacja i cel powstania raportu

Głównym motywem była ciekawość autora i chęć poznania ilości dostępnych narzędzi generujących/modyfikujących pliki PDF.
Raport pozwoli na uzyskanie odpowiedzi np. na pytania:

Który producent oprogramowania ma największy udział w generowaniu plików PDF,
Jakie oprogramowanie jest najczęściej wykorzystywane do generowania plików PDF,
Która wersja specyfikacji PDF jest najczęściej stosowana,
Ilustronicowe dokumenty PDF występują najczęściej.

Dysponując bazą danych można oczywiście tworzyć inne raporty z dostępnych metadanych,
zawężać kryteria itd.

4. Realizacja projektu

I Etap - Polskie strony internetowe

Przeskanowano strony internetowe z końcówką .pl (Polska) w poszukiwaniu plików PDF.
Zobacz szczegółowy opis.

II Etap - Analiza zbioru danych projektu Common Crawl

Oczywistym jest, że dysponując jednym serwerem i łączem < 100Mbps(download) nie jest możliwe w krótkim czasie przeskanowanie całego Internetu oraz pobranie wszystkich plików.
W związku z powyższym, autor postanowił wykorzystać projekt Common Crawl, który zajmuje się skanowaniem stron www i udostępnia dane bezpłatnie na serwerach AMAZON.

W celu rozpoznania podjęta została próba pobrania i przeanalizowano zbioru danych CC 2014-10 o wielkości 36,5TB(pliki warc.gz) - 55 700 plików po ok. 685MB każdy. Analizując pliki warc.gz okazało się, że średnio zawierają one ok. 80 dokumentów PDF. Uzyskana w ten sposób liczba plików PDF nie byłaby imponująca. Podjęto jednak decyzję aby kontynuować analizę plików warc.gz oraz dodatkowo wydobyć z każdego pliku adresy URL kończące się rozszerzeniem ".pdf". Po zakończeniu przetwarzania segmentu kolejny etap polegać będzie na pobraniu wszystkich plików PDF.
Zobacz szczegóły.

III Etap - Pobranie i analiza zebranych linków PDF z etapu II

Zebrano ponad 26 mln unikalnych adresów URL z rozszerzeniem .pdf. Zobacz szczegóły.

5. Podsumowanie

W trakcie trwania projektu powstały 3 bazy danych(MySQL) zawierające metadane plików PDF:

Baza danych plików znajdujących się na stronach w domenie .pl - POLSKA - 787MB
Baza danych plików z przetworzenia zbioru Common Crawl 2014-10 - 659MB
Baza danych plików z uzyskanych adresów URL znajdujących się w zbiorze 2014-10 CC - ok. 10GB

Baza danych zawiera następujące pola

Author - autor dokumentu
Creator - program generujący
CreationDate - data utworzenia dokumentu
Encrypted - informacja o szyfrowaniu pliku
FileSize - rozmiar dokumentu w bajtach
ModDate - data modyfikacji dokumentu
Pages - liczba stron
PageSize - format strony
PdfVersion - wersja PDF
Producer - producent oprogramowania
Optimized - informacja o optymalizacji
Title - tytuł dokumentu
Fhash - suma kontrolna SHA1
Url - link do pliku
Date - data dodania do bazy

Szczegółowe dane znajdują się w zakładce Statystyki

O projekcie

1. W skrócie

2. Czym są metadane ?

3. Motywacja i cel powstania raportu

4. Realizacja projektu

5. Podsumowanie