본문 바로가기

人 煙403

RoBERTa - A Robustly Optimized BERT Pretraining Approach RoBERTa (A Robustly Optimized BERT Pretraining Approach)는 Facebook AI에 의해 개발된 NLP 모델로,기존의 BERT모델을 기반으로 더 나은 성능을 얻기 위해 여러 가지 최적화를 수행한 모델입니다.RoBERTa는 BERT의 기본 아키텍쳐 (Transformer기반, Bidirectional Encoder)를 유지하면서학습방식과 데이터 활용법을 대폭 개선하여 더 우수한 성능을 달성했습니다. RoBERTa의 핵심 개선점은 다음과 같습니다.더 긴 학습 과정 : RoBERTa는 BERT보다 더 긴 시간 동안 대량의 데이터를 활용해 학습되었습니다.더 큰 데이터 세트 활용 : RoBERTa는 BERT보다 약 10배 더 많은 데이터를 사용했습니다.Next Sente.. 2024. 11. 23.
LoRA (Low-Rank Adaptation) LoRA(Low-Rank Adaptation)는 대규모 언어 모델(LLM)의 효율적인 파인튜닝을 위한 기법입니다. Low-Rank : 저순위 라는 개념은 주로 수학, 선형대수학, 그리고 머신러닝에서 행렬이나 텐서의 성질과 관련이 있습니다.구체적으로 말하면, Low-Rank는 행렬의 계수(rank)가 낮다는 것을 의미합니다.이를 이해하려면 Rank(계수)개념부터 알아야 합니다. Rank(계수) 란?행렬의 Rank는 행렬에서 독립적인 행 또는 열 벡터의 최대 수를 나타냅니다.예를 들어 3x3행렬이 있을때 그 행렬의 Rank는 최대 3입니다.이때 Full-Rank (완전계수)는 Rank가 행렬의 최대크기와 같을 때를 나타내고,Low-Rank (저계수)는 Rank 가 행렬의 최대 크기보다 작을 때를 나타냅니다... 2024. 11. 22.
Sentence Transformer Sentence Transformer는 Sentence embedding 을 생성하는 모델로,문장을 고차원 벡터로 변환하여 의미를 유지하면서 비교 가능하게 만들어주는 역할을 합니다.원래 BERT와 같은 Transformer모델은 문장 단위 입력에 대한 표현을 생성할 수 있었지만,sentence embedding을 효율적으로 생성하기 위해서는 추가적인 fine-tuning과정이 필요했습니다. Sentence Transformer는 BERT RoBERTa 같은 Transformer 기반 모델을 활용하면서도효율적이고 품질 높은 문장 임베딩을 생성하도록 설계된 프레임워크입니다.특히, Siamese Network 아키텍처를 사용해 두 문장 간의 유사도를 빠르게 계산할 수 있습니다. Sentence Transfor.. 2024. 11. 21.
Transfer Learning Transfer Learning은 기존에 학습된 모델(보통 대규모 데이터셋으로 학습된)을다른 유사한 문제에 재사용하는 머신러닝/딥러닝 기법입니다.특히, 소규모 데이터셋으로 학습해야 하는 문제에서 강력한 성능을 발휘합니다.이 방식은 기본적으로 모델이 학습한 지식을 새로운 작업에 "전이"(transfer) 하는데 초첨을 맞춥니다. Transfer Learning 작업 흐름문제에 맞는 사전 학습된 모델 선택 (이미지 분류 문제는 ResNet, NLP 문제는 BERT 등)Feature Extraction모델의 하위 계층에서 추출된 특성을 새 데이터에 활용기존 모델의 가중치를 고정(frozen)하고 새로운 데이터에 적합한 classifier 계층만 학습Fine-Tuning기존 모델의 일부 또는 전체 계층을 재학습.. 2024. 11. 20.