쇼핑몰 리뷰 평점 분류 AI 해커톤

알고리즘 | NLP | 분류 | 리뷰 | Accuracy

  • moneyIcon Prize : 인증서, 장학금, 스타벅스 기프티콘 등
  • 621명 마감

 

노이즈 제거, 띄어쓰기 전처리 후 KcELECTRA 모델로 예측

2022.08.05 21:36 1,846 Views language

0. 라이브러리 및 설정
- py-torch, transformer
- 구글 코랩 (GPU), 구글 드라이브
1. 전처리
- 노이즈 제거 (한글만 남기기), 
- 한글자 리뷰 제거 : train(12), test(8) 삭제
- 네이버 띄어쓰기, 맞춤법 (py-hanspell) 적용
2. 토크나이징 + 임베딩&패딩 (max_len=64)
- KcELECTRA
3. 데이터 분할: train(0.8) + valid(0.2)
4. 학습(train)
- SequenceClassification with KcELECTRA
- num_epochs=5
5. 평가(valid)
6. 예측값 생성(test)
7. 제출 자료 생성(submission)
- 제출 acc 0.6685

Code