[신규 오픈 기념] 데이스쿨 최대 40% 할인 🎁
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
노이즈 제거, 띄어쓰기 전처리 후 KcELECTRA 모델로 예측
0. 라이브러리 및 설정
- py-torch, transformer
- 구글 코랩 (GPU), 구글 드라이브
1. 전처리
- 노이즈 제거 (한글만 남기기),
- 한글자 리뷰 제거 : train(12), test(8) 삭제
- 네이버 띄어쓰기, 맞춤법 (py-hanspell) 적용
2. 토크나이징 + 임베딩&패딩 (max_len=64)
- KcELECTRA
3. 데이터 분할: train(0.8) + valid(0.2)
4. 학습(train)
- SequenceClassification with KcELECTRA
- num_epochs=5
5. 평가(valid)
6. 예측값 생성(test)
7. 제출 자료 생성(submission)
- 제출 acc 0.6685
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved