GitHub - dorae222/HAI_Kaggle_Competition: 한국 지역 방언 분류
한국 지역 방언 분류. Contribute to dorae222/HAI_Kaggle_Competition development by creating an account on GitHub.
github.com
위는 현재 기록 중인 레포이고, 모델 종류 및 진행 방식에 따라 버전명을 다르게 지정해놨다.
현재 교내 동아리에서 열린 한국어 방언 분류 대회가 어느새 10일 정도가 남았고,
지금까지 진행했던 내용과 앞으로의 방향성에 대해 조금 공유하고자 한다.
(연합 동아리랑 해커톤 일정까지 겹쳤어서, 지금이 아니면 쓸 시간이 없을 것 같다...)
진행상황
초반에는 직접 전처리부터 토큰화와 임베딩 방식을 바꿔가며코드를 직접 작성하고,
머신러닝을 기반으로 학습을 진행하였는데
정확도가 60점을 넘어가지를 못했다.
추가적인 데이터를 학습시키는 것도 고려했지만,
이미 데이터셋 자체가 한글 데이터셋을 운영진분들께서
다 모아뒀기에 다른 방향을 선택하기로 했다.
1. 앙상블 기법을 활용한 성능 향상 기대
2. BERT 기반의 모델 활용
BaseLine 코드에서는 distilkobert를 활용하여
63점 정도의 기본 모델이 제시되어 있었다.
그래서 처음에는 distilkobert을 기반으로 하이퍼파라미터 튜닝을 진행했지만, 이 모델 또한 어느 정도의 한계선이 명확했다.
이에 따라 추가적으로 모델을 탐색하고,
학습 결과에 따라 앙상블을 진행하고자 한다.
다음편 예고
현재는 정확도를 95점 근처까지 개선하였다.
다음 편에서는 한국어 분류 테스크에 적합한 최신 딥러닝 모델들을 분류하여 정리하고,
추가적으로 학습 과정에 대한 로직을 정리하려고 한다.
현재 가장 고민이 과적합인데,
아직 정확한 결론을 내릴수 없지만
앙상블을 통한 교차검증을 통해 해결해보고자 한다.
감사합니다.
'HAI - 교내 동아리 > Kaggle_한국 방언 분류(여름 방학)' 카테고리의 다른 글
[HAI] 2023 여름 방학 프로젝트 - 6편(최종 정리 및 느낀점) (0) | 2023.08.18 |
---|---|
[HAI] 2023 여름 방학 프로젝트 - 5편(학습 플로우 & BERT 계열 선정이유) (0) | 2023.08.12 |
[HAI] 2023 여름 방학 프로젝트 - 3편(GPU 관련 Error) (0) | 2023.08.07 |
[HAI] 2023 여름 방학 프로젝트 - 2편(TensorBoard+Tip) (0) | 2023.08.06 |
[HAI] 2023 여름 방학 프로젝트 - 1편(프로젝트 소개) (0) | 2023.08.04 |