Skip to content

Esperansa08/bs4_parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Проект парсинга PEP

Python BeautifulSoup4 Prettytable Logging

Проект парсинга документации Python

Парсер собирает данные обо всех PEP документах, сравнивает статусы и записывает их в файл, также реализованы сбор информации о статусе версий, скачивание архива с документацией и сбор ссылок о новостях в Python, логирует свою работу и ошибки в командную строку и файл логов.

Технологии проекта

  • Python — высокоуровневый язык программирования.
  • BeautifulSoup4 - библиотека для парсинга.
  • Prettytable - библиотека для удобного отображения табличных данных.
  • Logging - Логирование работы и отслеживания ошибок

Содержание:

Как запустить проект

Выполните следующие команды в терминале:

  1. Клонировать проект из репозитория
git clone https://github.com/Esperansa08/bs4_parser_pep.git
  1. Создать, активировать виртуальное окружение и в него установить зависимости:
python -m venv venv
venv/Scripts/activate
pip install -r requirements.txt 
  1. Запустить парсер из командной строки, например:
python src/main.py pep --output pretty

Описание работы

Парсер рабоет в четырех режимах, для каждого из которых присвоена своя функция:

  1. сбор версий языка и их авторов - whats_new;
  2. сбор информации о версиях - latest_versions;
  3. сбор информации о стандартах PEP - pep;
  4. скачивание документации - download.

Три способа вывода собранных данных пользователю:

  • Обычный вывод в консоль (stdout);

    Пример: python src/main.py latest-versions

  • Вывод в консоль в табличном виде (аргументы -o {pretty});

    Пример: python src/main.py pep --output pretty

  • Сохранение в формате csv (аргументы -o {file}) в папку /src/results/;

Пример: python src/main.py whats-new --output file

В родительской директории src/ будет создана новая results/, в которую сохранится файл с результатами работы парсера.

Настроено логирование работы парсера.
Лог сохраняется в папку /src/logs/.

Доступные аргументы командной строки

Для просмотра режимов работы парсера в терминале введите команду с именованным аргументом -h или --help:

python src/main.py -h

Результат работы команды будет следующим:

usage: main.py [-h] [-c] [-o {pretty,file}] {whats-new,latest-versions,download,pep}

Парсер документации Python

positional arguments:
  {whats-new,latest-versions,download,pep}
                        Режимы работы парсера

optional arguments:
  -h, --help            show this help message and exit
  -c, --clear-cache     Очистка кеша
  -o {pretty,file}, --output {pretty,file}
                        Дополнительные способы вывода данных

Автор

About

Проект синтаксиса документации Python

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages