Z zebranych metadanych powstały, w formie wykresów, następujące raporty:
Na wykresach uwzględniono producenta/twórcę dla liczby dokumentów powyżej 5 tysięcy.
Przejdź do wykresów
Ze względu na ograniczone zasoby sprzętowe oraz brak chęci ponoszenia dodatkowych kosztów proces skanowania przeprowadzono na posiadanym sprzęcie - 1 serwer z łączem 70Mbps(download) oraz przeznaczoną do celów skanowania Internetu maszyną wirtualną wyposażoną w 5GB pamięci RAM. Cały proces gromadzenia nowych domen oraz linków do plików PDF został wykonany za pomocą tejże maszyny wirtualnej.
Jako pająk sieciowy wykorzystany został ogólnodostępmy framework napisany w języku Python.
Proces gromadzenia danych polegał na uruchomieniu ok. 150(a w fazie końcowej 250) instancji pająka. Każda instancja skanowala jedną domenę. W początkowej fazie wyszukiwane były nowe domeny i pliki PDF, które pobierano i analizowano na bieżąco. Szybko okazało się, że zasoby pamięci i procesora nie są wystarczające, konieczne było zmniejszenie liczby instancji co wiązało się ze znacznym wydłużeniem trwania projektu. W związku z powyższym pająk otrzymał za zadanie wyłącznie wyszukiwanie nowych domen, linków PDF oraz dodawanie ich do bazy danych w celu dalszego przetwarzania.
Ze względu na działające inne projekty, zdecydowano aby pobieranie plików PDF oddelegować poza serwer główny. W tym celu wykorzystano darmowe instancje OpenShift. W celu komunikacji klientów zewnętrznych z bazą danych powstał webservice, który umożliwia pobranie adresu URL do przetworzenia oraz zwrócenie wyników. Webservice wykorzystywany jest również w etapie III projektu.
Skanowanie trwało od 1 czerwca 2014r. do 23 listopada 2014r. W sierpniu 2014 rozpoczęto realizację etapu II - na wykresie widać znaczny wzrost użycia łącza. Proces jednak przerwano pod koniec października 2014 w celu szybszego zakończenia etapu I.