Skip to content

rekaasb/youtube-live-parser

Repository files navigation

🎙️ YouTube Live Parser — универсальный парсер эфиров

Инструменты для работы с расшифровками YouTube-эфиров: разбивка на смысловые блоки, классификация речи с помощью ИИ и накопление статистики по экспертам.


📦 Инструменты

1. Парсер (index.html) — универсальный

Разбивает расшифровку на смысловые блоки по гостям. Автоматически определяет гостей четырьмя способами:

  • По фразе "с нами на связи" — классическое представление гостя
  • По обращению ведущего — "Юрий Евгеньевич, доброе утро" → Юрий Фёдоров
  • По паузе между репликами — если перерыв > 30 секунд, новый спикер
  • По заголовкам эпизодов — "Обсуждаем с Андреем Калитиным", "Рассказывает Дмитрий Некрасов"

Особенности:

  • Поддерживает 3 формата временных меток: 2:27:42, 14:07, 2 минуты 15 секунд
  • Словарь экспертов сохраняется в браузере (localStorage)
  • Пользователь может добавлять новых экспертов прямо в интерфейсе
  • Кнопка "Очистить всех" — быстрое удаление всех экспертов из словаря
  • Автопредложение добавить экспертов — после разбора парсер сам находит гостей и предлагает добавить
  • Работает локально, без интернета

2. Анализатор (classifier_blocks.html)

Анализирует каждый блок через DeepSeek API и определяет тип речи.

  • ФАКТ — проверяемое утверждение (цифры, даты, события)
  • ОЦЕНКА — мнение, интерпретация, прогноз
  • ШУМ — связки, междометия, повторы

Результат: для каждого гостя — % фактов, % оценок, коэффициент доверия.
Экспорт: JSON для передачи в базу экспертов.

3. База экспертов (expert_db.html)

Накапливает статистику по экспертам из разных эфиров.

  • Хранит историю анализов в браузере (localStorage)
  • Считает рейтинг доверия (IQ = % фактов × стабильность)
  • Показывает таблицу лидеров
  • Экспорт/импорт базы в JSON

4. Классификатор для локальной Ollama (classifier_ollama_batch.html)

Анализирует речь экспертов по 5-минутным блокам на локальной модели qwen3.5:27b.

Требования:

  • Установить Ollama
  • Запустить модель: ollama run qwen3.5:27b

Особенности:

  • Работает полностью локально, без интернета
  • Группирует фразы в осмысленные блоки
  • Показывает % ФАКТОВ, ОЦЕНОК и ШУМА
  • Не требует API-ключей

🚀 Как использовать

Для парсера (универсального)

  1. Скачайте index.html
  2. Откройте в браузере
  3. Загрузите файл расшифровки (.txt)
  4. При необходимости нажмите "Очистить всех" — если словарь заполнен старыми экспертами
  5. Нажмите "Разобрать на блоки"
  6. Парсер найдёт гостей в заголовках эпизодов и предложит "➕ Добавить всех в словарь"
  7. Нажмите добавить — эксперты сохранятся для следующих разборов

Как добавить эксперта вручную:

  • Введите имя (например, "Андрей Калитин")
  • Введите ключевые слова через запятую (например, "андрей, калитин")
  • Нажмите "➕ Добавить"

Для анализатора

  1. Получите API-ключ на platform.deepseek.com (бесплатный кредит $5)
  2. Скачайте classifier_blocks.html
  3. Откройте в браузере
  4. Вставьте API-ключ
  5. Загрузите расшифровку
  6. Нажмите "Анализировать"
  7. После завершения нажмите "Экспорт для базы экспертов" — JSON скопируется в буфер обмена

Для базы экспертов

  1. Скачайте expert_db.html
  2. Откройте в браузере
  3. Нажмите "Импортировать результаты из анализатора"
  4. Вставьте JSON (Ctrl+V) из анализатора
  5. База обновится, рейтинг пересчитается

📄 Формат расшифровки

Файл должен содержать временные метки в одном из форматов: 2:27:42 14:07 2 минуты 15 секунд Пример: 14:07 Дмитрий Быков, писатель. С нами на связи Дмитрий Львович. 14:12 Рада вас видеть. Спасибо, что подключились.


🔧 Технологии

  • Чистый HTML/CSS/JS
  • Работает локально, без сервера
  • DeepSeek API для анализа
  • LocalStorage для хранения словаря экспертов и базы

🔒 Конфиденциальность и приватность

Все инструменты работают полностью локально на вашем компьютере:

  • Парсер — не требует интернета, вся обработка происходит в браузере
  • Анализатор — отправляет текст в DeepSeek API (только с вашего разрешения), но не сохраняет результаты на внешних серверах
  • База экспертов — хранит все данные в localStorage вашего браузера

Ваши данные не покидают ваш компьютер, если вы не решите экспортировать их самостоятельно для резервного копирования.

Каждый пользователь ведёт свою собственную базу экспертов — данные не смешиваются и не передаются третьим лицам.

📬 Контакты

По вопросам использования, предложениям и сообщениям об ошибках:

  • Откройте Issue в этом репозитории
  • Напишите на email: rekaasb@gmail.com
  • Или найдите меня в GitHub: @rekaasb

📄 Лицензия

MIT — свободно используйте, модифицируйте и распространяйте.


🤝 Планы развития

  • Парсер расшифровок (3 формата времени)
  • Автоопределение гостей по фразе "с нами на связи"
  • Автоопределение гостей по обращению ведущего
  • Автоопределение гостей по паузам между репликами
  • Автоопределение гостей по заголовкам эпизодов
  • Возможность добавлять новых экспертов в интерфейсе
  • Кнопка "Очистить всех"
  • Автопредложение добавить найденных экспертов
  • Классификация речи через DeepSeek API
  • Экспорт результатов в JSON
  • База экспертов с рейтингом доверия
  • Поддержка локальных моделей (Ollama)
  • Визуализация динамики экспертов по эфирам
  • Удержание гостя на протяжении всего выступления
  • Нормализация падежей имён экспертов

About

Умный парсер эфиров — автоматическое выделение гостей по фразе "с нами на связи" и объединение в смысловые блоки

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages