fix: Revert to nltk download in docker

neagualexa · neagualexa · commit e39b3449d0b9 · 2024-09-11T10:25:15.000+01:00
diff --git a/app/Dockerfile b/app/Dockerfile
@@ -18,34 +18,34 @@ COPY w2v .
 RUN yum install -y wget unzip
 RUN pip3 install -r requirements.txt
 
-# Download NLTK data files
-RUN wget -O /usr/share/nltk_data/corpora/wordnet.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/wordnet.zip
-RUN wget -O /usr/share/nltk_data/models/word2vec_sample.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/models/word2vec_sample.zip
-RUN wget -O /usr/share/nltk_data/corpora/brown.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/brown.zip
-RUN wget -O /usr/share/nltk_data/corpora/stopwords.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip
-RUN wget -O /usr/share/nltk_data/tokenizers/punkt.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/tokenizers/punkt.zip
-RUN wget -O /usr/share/nltk_data/tokenizers/punkt_tab.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/tokenizers/punkt_tab.zip
+# # Download NLTK data files
+# RUN wget -O /usr/share/nltk_data/corpora/wordnet.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/wordnet.zip
+# RUN wget -O /usr/share/nltk_data/models/word2vec_sample.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/models/word2vec_sample.zip
+# RUN wget -O /usr/share/nltk_data/corpora/brown.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/brown.zip
+# RUN wget -O /usr/share/nltk_data/corpora/stopwords.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip
+# RUN wget -O /usr/share/nltk_data/tokenizers/punkt.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/tokenizers/punkt.zip
+# RUN wget -O /usr/share/nltk_data/tokenizers/punkt_tab.zip https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/tokenizers/punkt_tab.zip
 
-# Unzip the downloaded files into the correct subfolders corresponsing to NLTK requirements
-RUN unzip /usr/share/nltk_data/corpora/wordnet.zip -d /usr/share/nltk_data/corpora/
-RUN unzip /usr/share/nltk_data/models/word2vec_sample.zip -d /usr/share/nltk_data/models/
-RUN unzip /usr/share/nltk_data/corpora/brown.zip -d /usr/share/nltk_data/corpora/
-RUN unzip /usr/share/nltk_data/corpora/stopwords.zip -d /usr/share/nltk_data/corpora/
-RUN unzip /usr/share/nltk_data/tokenizers/punkt.zip -d /usr/share/nltk_data/tokenizers/
-RUN unzip /usr/share/nltk_data/tokenizers/punkt_tab.zip -d /usr/share/nltk_data/tokenizers/
+# # Unzip the downloaded files into the correct subfolders corresponsing to NLTK requirements
+# RUN unzip /usr/share/nltk_data/corpora/wordnet.zip -d /usr/share/nltk_data/corpora/
+# RUN unzip /usr/share/nltk_data/models/word2vec_sample.zip -d /usr/share/nltk_data/models/
+# RUN unzip /usr/share/nltk_data/corpora/brown.zip -d /usr/share/nltk_data/corpora/
+# RUN unzip /usr/share/nltk_data/corpora/stopwords.zip -d /usr/share/nltk_data/corpora/
+# RUN unzip /usr/share/nltk_data/tokenizers/punkt.zip -d /usr/share/nltk_data/tokenizers/
+# RUN unzip /usr/share/nltk_data/tokenizers/punkt_tab.zip -d /usr/share/nltk_data/tokenizers/
 
-# Clean up zip files to reduce image size
-RUN rm /usr/share/nltk_data/corpora/*.zip
-RUN rm /usr/share/nltk_data/models/*.zip
-RUN rm /usr/share/nltk_data/tokenizers/*.zip
+# # Clean up zip files to reduce image size
+# RUN rm /usr/share/nltk_data/corpora/*.zip
+# RUN rm /usr/share/nltk_data/models/*.zip
+# RUN rm /usr/share/nltk_data/tokenizers/*.zip
 
 # Warnings: those commands sometimes download corrupted zips, so it is better to wget each package from the main site
-# RUN python -m nltk.downloader wordnet
-# RUN python -m nltk.downloader word2vec_sample
-# RUN python -m nltk.downloader brown
-# RUN python -m nltk.downloader stopwords
-# RUN python -m nltk.downloader punkt
-# RUN python -m nltk.downloader punkt_tab
+RUN python -m nltk.downloader wordnet
+RUN python -m nltk.downloader word2vec_sample
+RUN python -m nltk.downloader brown
+RUN python -m nltk.downloader stopwords
+RUN python -m nltk.downloader punkt
+RUN python -m nltk.downloader punkt_tab
 
 # Copy the evaluation and testing scripts
 COPY brown_length ./app/