Es un script en Python para “corporatizar” archivos de combos email:password, eliminando correos de dominios gratuitos/conocidos y dejando principalmente posibles correos corporativos. raw.githubusercontent
- Lee archivos (o una carpeta de archivos) con líneas tipo
email:passwordy normaliza separadores como, | espacioa:. raw.githubusercontent - Valida que cada línea tenga formato correcto de email y descarta líneas vacías o mal formadas. raw.githubusercontent
- Excluye una lista extensa de dominios gratuitos, temporales y typos comunes (gmail, hotmail, yahoo, protonmail, yopmail, mailinator, etc.). raw.githubusercontent
- Conserva las líneas restantes como posibles correos corporativos y las guarda en un nuevo archivo con sufijo
_corporatizado. raw.githubusercontent
- Genera un archivo de salida con encabezado descriptivo, fecha de análisis y estadísticas de limpieza (totales leídos, válidos, removidos por formato, removidos por dominio y líneas finales). raw.githubusercontent
- Incluye un resumen de distribución por dominio (conteo y porcentaje) de los correos que quedaron tras la limpieza. raw.githubusercontent
- Si se procesa una carpeta, crea además un
global_corporatizado.txtcon el consolidado de todos los archivos ya limpiados, sin duplicados, más estadísticas globales por dominio. raw.githubusercontent
- Uso básico:
python corporatizarv2.py ruta_entrada [es|en]. raw.githubusercontent - Soporta español e inglés para todos los mensajes, descripciones y encabezados de los archivos generados. raw.githubusercontent
- Los textos se acreditan a @BlackHat_RedCat en la descripción y en los headers de salida. raw.githubusercontent