wasmerio · rutvishah22 · Jun 7, 2025 · Copilot · Jul 21, 2025 · Copilot
diff --git a/PDF to text/script.py b/PDF to text/script.py
@@ -65,6 +65,24 @@ def convert_pdf_to_txt(pdf_path, save_to_file=True, output_folder="output_texts"
     except Exception as e:
         print(f"Error processing {pdf_path}: {e}")
 
+
+def count_words_in_pdf(pdf_path):
+       try:
+           with open(pdf_path, 'rb') as pdf_file:
+               pdf_reader = PyPDF2.PdfReader(pdf_file)
+               text = ""
+               for page_num in range(len(pdf_reader.pages)):
+                   page = pdf_reader.pages[page_num]
+                   text += page.extract_text()
+
+               # Remove extra whitespaces and split into words
+               words = re.findall(r'\b\w+\b', text.lower())
+               return len(words)
-           with open(pdf_path, 'rb') as pdf_file:
-               pdf_reader = PyPDF2.PdfReader(pdf_file)
-               text = ""
-               for page_num in range(len(pdf_reader.pages)):
-                   page = pdf_reader.pages[page_num]
-                   text += page.extract_text()
-
-               # Remove extra whitespaces and split into words
-               words = re.findall(r'\b\w+\b', text.lower())
-               return len(words)
+           # Reuse extract_text_from_pdf to get the text
+           text = extract_text_from_pdf(pdf_path)
+           if text is None:
+               return "Error: Could not extract text from the PDF."
+
+           # Remove extra whitespaces and split into words
+           words = re.findall(r'\b\w+\b', text.lower())
+           return len(words)
-           with open(pdf_path, 'rb') as pdf_file:
-               pdf_reader = PyPDF2.PdfReader(pdf_file)
-               text = ""
-               for page_num in range(len(pdf_reader.pages)):
-                   page = pdf_reader.pages[page_num]
-                   text += page.extract_text()
-
-               # Remove extra whitespaces and split into words
-               words = re.findall(r'\b\w+\b', text.lower())
-               return len(words)
+           # Reuse extract_text_from_pdf to get the text
+           text = extract_text_from_pdf(pdf_path)
+           if text is None:
+               return "Error: Could not extract text from the PDF."
+
+           # Remove extra whitespaces and split into words
+           words = re.findall(r'\b\w+\b', text.lower())
+           return len(words)
+       except FileNotFoundError:
+           return "Error: PDF file not found."
+       except Exception as e:
+           return f"An error occurred: {e}"
-       try:
-           with open(pdf_path, 'rb') as pdf_file:
-               pdf_reader = PyPDF2.PdfReader(pdf_file)
-               text = ""
-               for page_num in range(len(pdf_reader.pages)):
-                   page = pdf_reader.pages[page_num]
-                   text += page.extract_text()
-
-               # Remove extra whitespaces and split into words
-               words = re.findall(r'\b\w+\b', text.lower())
-               return len(words)
-       except FileNotFoundError:
-           return "Error: PDF file not found."
-       except Exception as e:
-           return f"An error occurred: {e}"
+    try:
+        with open(pdf_path, 'rb') as pdf_file:
+            pdf_reader = PyPDF2.PdfReader(pdf_file)
+            text = ""
+            for page_num in range(len(pdf_reader.pages)):
+                page = pdf_reader.pages[page_num]
+                text += page.extract_text()
+
+            # Remove extra whitespaces and split into words
+            words = re.findall(r'\b\w+\b', text.lower())
+            return len(words)
+    except FileNotFoundError:
+        return "Error: PDF file not found."
+    except Exception as e:
+        return f"An error occurred: {e}"
-           return "Error: PDF file not found."
-       except Exception as e:
-           return f"An error occurred: {e}"
+           raise FileNotFoundError(f"PDF file not found: {pdf_path}")
+       except Exception as e:
+           raise RuntimeError(f"An error occurred while processing the PDF: {e}")
-       try:
-           with open(pdf_path, 'rb') as pdf_file:
-               pdf_reader = PyPDF2.PdfReader(pdf_file)
-               text = ""
-               for page_num in range(len(pdf_reader.pages)):
-                   page = pdf_reader.pages[page_num]
-                   text += page.extract_text()
-
-               # Remove extra whitespaces and split into words
-               words = re.findall(r'\b\w+\b', text.lower())
-               return len(words)
-       except FileNotFoundError:
-           return "Error: PDF file not found."
-       except Exception as e:
-           return f"An error occurred: {e}"
+    try:
+        with open(pdf_path, 'rb') as pdf_file:
+            pdf_reader = PyPDF2.PdfReader(pdf_file)
+            text = ""
+            for page_num in range(len(pdf_reader.pages)):
+                page = pdf_reader.pages[page_num]
+                text += page.extract_text()
+
+            # Remove extra whitespaces and split into words
+            words = re.findall(r'\b\w+\b', text.lower())
+            return len(words)
+    except FileNotFoundError:
+        return "Error: PDF file not found."
+    except Exception as e:
+        return f"An error occurred: {e}"
-           return "Error: PDF file not found."
-       except Exception as e:
-           return f"An error occurred: {e}"
+           raise FileNotFoundError(f"PDF file not found: {pdf_path}")
+       except Exception as e:
+           raise RuntimeError(f"An error occurred while processing the PDF: {e}")
+
 # Example usage:
 
 #example pdf from internet
@@ -75,3 +93,5 @@ def convert_pdf_to_txt(pdf_path, save_to_file=True, output_folder="output_texts"
 
 # Convert PDF to text and save the cleaned text to a file
 convert_pdf_to_txt(pdf)
+word_count = count_words_in_pdf(pdf)
+print(f"Total word count in the PDF: {word_count}")