HAI - 교내 동아리/Kaggle_한국 방언 분류(여름 방학)

이전 글 참고 Github 최종정리 캐글에서 타이타닉 데이터셋 제출을 해본 것을 제외하고, 직접 Commit 해보는 것은 처음이었습니다. 현재 기준으로 97.2%정도의 정확도로 2등에 위치해 있습니다. 실험을 진행하며 이번 대회에서 성능을 높이기 위한 포인트를 몇가지 남겨보고자 합니다. (자세한 코드가 궁금하다면 아래 링크에서 확인 가능합니다.) 코드 리뷰 1. 왜 GPT 계열이 아닌 BERT 계열을 선택해야 하는가? (이 부분과 관련하여 이전 글 제일 아래 부분에서 간략하게 다루었습니다.) 머신러닝 기법들도 적용을 했을 때, 전처리에 심혈을 기울였음에도 성능이 80% 이상 나오지 않아 BERT 계열의 모델을 최종적으로 선택하였습니다. 2. 데이터셋의 분포를 고려해야 한다. 모델을 바꾸고 파라미터 튜닝을..
GitHub - dorae222/HAI_Kaggle_Competition: 한국 지역 방언 분류 한국 지역 방언 분류. Contribute to dorae222/HAI_Kaggle_Competition development by creating an account on GitHub. github.com 1. 데이터 처리 및 학습 플로우 데이터 불러오기 train.csv, valid.csv 파일 로드 Tokenizer 선택 및 로딩 transformers 라이브러리의 Pre-trained Tokenizer 선택 (BertTokenizerFast, AlbertTokenizer 등) Tokenizer 로드 데이터 전처리(BERT 계열 모델 기준) 문장 앞뒤에 [CLS], [SEP] 토큰 추가 문장 토큰화 토큰..
GitHub - dorae222/HAI_Kaggle_Competition: 한국 지역 방언 분류 한국 지역 방언 분류. Contribute to dorae222/HAI_Kaggle_Competition development by creating an account on GitHub. github.com 위는 현재 기록 중인 레포이고, 모델 종류 및 진행 방식에 따라 버전명을 다르게 지정해놨다. 현재 교내 동아리에서 열린 한국어 방언 분류 대회가 어느새 10일 정도가 남았고, 지금까지 진행했던 내용과 앞으로의 방향성에 대해 조금 공유하고자 한다. (연합 동아리랑 해커톤 일정까지 겹쳤어서, 지금이 아니면 쓸 시간이 없을 것 같다...) 진행상황 초반에는 직접 전처리부터 토큰화와 임베딩 방식을 바꿔가며코드를 ..
2023.08.06 - [HAI/Kaggle_한국 방언 분류_여름 방학] - [HAI] 2023 여름 방학 프로젝트 - 2편(TensorBoard+Tip) TensorBoard와 팁에 이어, 오늘은 모델링 중 GPU를 사용하며 발생했던 간단한 에러들을 정리해보려고 합니다. 들어가기에 앞서 알아야할 점들 CUDA는 NVIDIA에서 제공하는 병렬 컴퓨팅 플랫폼으로, GPU를 이용해 고성능 연산을 가능하게 합니다. PyTorch는 이 CUDA를 활용하여 딥러닝 모델의 훈련을 가속화합니다. 즉, GPU를 사용하여 작업하기 위해서는 그래픽 드라이버와 CUDA를 설치해줘야 하는데, 이 부분은 기회가 되면 정리하도록 하겠습니다! 아무고토 모를 때는 노트북 초기화를 몇 번 했는지 모르겠네요... 같은 실수를 반복하지 ..
Dorae222
'HAI - 교내 동아리/Kaggle_한국 방언 분류(여름 방학)' 카테고리의 글 목록