ITPLE-AI-NegativeText

한국어 텍스트 데이터에서 비하, 악플, 혐오 표현 등 부정적인 문장을 감지하고 분류하는 모델 KoBERT 모델을 활용하여 한국어의 문맥적 특성을 파악하고, 미세 조정(Fine-tuning)을 통해 높은 분류 성능을 달성하는 데 집중함

Overview

이 프로젝트는 텍스트 데이터를 입력받아 다음 과정을 수행:

한국어 악플/혐오 표현 데이터셋 전처리
KoBERT(Korean BERT) 모델 로드 및 토크나이징
텍스트 시퀀스에 대한 다중 클래스/이진 분류 학습
테스트 문장에 대한 부정 지수 및 레이블 예측
모델 성능 평가 (Accuracy, F1-score 등)

Tech Stack

Python
PyTorch
Hugging Face Transformers
KoNLPy / KoBERT
Pandas / Scikit-learn

Main Features

Negative Sentiment Classification 입력된 문장이 부정적인지(비하/혐오) 혹은 중립/긍정인지 실시간으로 판별
Pre-trained Model Fine-tuning 대규모 한국어 말뭉치로 학습된 KoBERT를 활용해 신조어나 구어체 표현에 대한 대응력 강화
Data Preprocessing & Cleansing 불용어 제거 및 특수문자 처리를 통해 모델 학습에 최적화된 형태로 데이터 정제

File Description

data/ 모델 학습 및 검증에 사용되는 텍스트 데이터셋 포함
detector.py 텍스트를 분석하여 부정적인 표현(욕설 등)을 감지하는 메인 엔진
char2vec.py / similars.py 문자를 벡터로 변환하고, 유사도 계산을 통해 변칙적인 부정 표현을 탐지하는 로직
join_jamos.py / functions.py 한글 자모 결합 및 텍스트 정규화를 통해 'ㄱㅐㅅㅐㄲㅣ'와 같은 분리된 형태의 문자를 처리하는 유틸리티
curse.json 감지 기준이 되는 부정 표현 및 키워드 사전 데이터
test.py 다양한 입력 케이스를 통해 감지 모델의 성능을 확인하는 테스트 스크립트

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
CurseWordDetector		CurseWordDetector
.gitignore		.gitignore
README.md		README.md
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ITPLE-AI-NegativeText

Overview

Tech Stack

Main Features

File Description

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

ITPLE-AI-NegativeText

Overview

Tech Stack

Main Features

File Description

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages