-
Notifications
You must be signed in to change notification settings - Fork 0
/
README.txt
19 lines (13 loc) · 858 Bytes
/
README.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Autor: Mikołaj Błaż
Album: 346862
27.10.2016
W katalogu 'scripts' znajdują się skrypty, w celu pełnego wystartowania hadoopa
(łącznie z pobraniem) należy uruchomić skrypt 'run_all.sh' z argumentami 'master slaves'.
Kopiowanie do HDFS - put_to_hdfs.sh
Kompilacja i uruchomienie - compilenrun.sh
Policzenie shingli w różnych plikach - klasa 'Summary' z folderem z plikami jako jednym argumentem, np.
yarn jar Summary.jar Summary /input/books
LSH - klasa 'Similarity' z folderem z plikami jako jednym argumentem i folderem na wyjście jako drugim, np.
yarn jar Similarity.jar Similarity /input/books /output
UWAGA: żeby policzyć powyższe rzeczy na pliku z tweetami (czyli jednym pliku CSV z wieloma dokumentami wewnątrz)
należy uruchomić odpowiadające powyższym klasom klasy 'SummaryCSV' i 'SimilarityCSV' z takimi samymi argumentami.