documentparser

Here is 1 public repository matching this topic...

generalMG / MetadataDocumentParser

Comprehensive PDF parser focused on metadata-rich, layout-aware extraction. Combines PyMuPDF/pdfplumber text analysis, Camelot/Tabula tables, image and formula capture, plus column detection to preserve reading order. Ships with TOON export + token comparisons, CLI examples, and utilities for visual debug + dataset generation.

parser metadata-extraction pdf-parser documentparser