Skip to content

smwu-ITPLE/ITPLE-AI-NegativeText

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

ITPLE-AI-NegativeText

한국어 텍스트 데이터에서 비하, 악플, 혐오 표현 등 부정적인 문장을 감지하고 분류하는 모델 KoBERT 모델을 활용하여 한국어의 문맥적 특성을 파악하고, 미세 조정(Fine-tuning)을 통해 높은 분류 성능을 달성하는 데 집중함

Overview

이 프로젝트는 텍스트 데이터를 입력받아 다음 과정을 수행:

  • 한국어 악플/혐오 표현 데이터셋 전처리
  • KoBERT(Korean BERT) 모델 로드 및 토크나이징
  • 텍스트 시퀀스에 대한 다중 클래스/이진 분류 학습
  • 테스트 문장에 대한 부정 지수 및 레이블 예측
  • 모델 성능 평가 (Accuracy, F1-score 등)

Tech Stack

  • Python
  • PyTorch
  • Hugging Face Transformers
  • KoNLPy / KoBERT
  • Pandas / Scikit-learn

Main Features

  • Negative Sentiment Classification 입력된 문장이 부정적인지(비하/혐오) 혹은 중립/긍정인지 실시간으로 판별

  • Pre-trained Model Fine-tuning 대규모 한국어 말뭉치로 학습된 KoBERT를 활용해 신조어나 구어체 표현에 대한 대응력 강화

  • Data Preprocessing & Cleansing 불용어 제거 및 특수문자 처리를 통해 모델 학습에 최적화된 형태로 데이터 정제

File Description

  • data/ 모델 학습 및 검증에 사용되는 텍스트 데이터셋 포함

  • detector.py 텍스트를 분석하여 부정적인 표현(욕설 등)을 감지하는 메인 엔진

  • char2vec.py / similars.py 문자를 벡터로 변환하고, 유사도 계산을 통해 변칙적인 부정 표현을 탐지하는 로직

  • join_jamos.py / functions.py 한글 자모 결합 및 텍스트 정규화를 통해 'ㄱㅐㅅㅐㄲㅣ'와 같은 분리된 형태의 문자를 처리하는 유틸리티

  • curse.json 감지 기준이 되는 부정 표현 및 키워드 사전 데이터

  • test.py 다양한 입력 케이스를 통해 감지 모델의 성능을 확인하는 테스트 스크립트

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages