본문 바로가기

전체 글396

Transfer Learning Transfer Learning은 기존에 학습된 모델(보통 대규모 데이터셋으로 학습된)을다른 유사한 문제에 재사용하는 머신러닝/딥러닝 기법입니다.특히, 소규모 데이터셋으로 학습해야 하는 문제에서 강력한 성능을 발휘합니다.이 방식은 기본적으로 모델이 학습한 지식을 새로운 작업에 "전이"(transfer) 하는데 초첨을 맞춥니다. Transfer Learning 작업 흐름문제에 맞는 사전 학습된 모델 선택 (이미지 분류 문제는 ResNet, NLP 문제는 BERT 등)Feature Extraction모델의 하위 계층에서 추출된 특성을 새 데이터에 활용기존 모델의 가중치를 고정(frozen)하고 새로운 데이터에 적합한 classifier 계층만 학습Fine-Tuning기존 모델의 일부 또는 전체 계층을 재학습.. 2024. 11. 20.
Sparse Attention Sparse Attention은 Transformer 모델의 효율성을 높이기 위해 사용되는 기법으로,Attention 메커니즘의 연산 복잡도를 줄이면서 중요한 정보를 유지하려는 목적을 가집니다. Transformer 모델의 기본 Attention 메커니즘인 Self-Attention 은 O(n^2)의 시간 복잡도를 가지며,이는 입력 시퀀스의 길이 n이 커질수록 계산량과 메모리 사용량이 기하급수적으로 증가함을 의미합니다.Sparse Attention은 이러한 한계를 극복하기 위해 특정 패턴에 따라 어떤 Attention 값을 계산하지 않음으로써연산량을 줄입니다. Sparse Attention의 기본 아이디어Sparse Attention은 입력 시퀀스의 모든 토큰 간의 Attention 관계를 계산하는 대신.. 2024. 11. 19.
특이값 분해 (Singular Value Decomposition, SVD) 특이값 분해는 행렬을 고유 벡터와 고윳값을 기반으로 분해하여 다양한 응용에 활용하는 선형 대수학의 강력한 도구입니다. 수학적 정의특이값 분해는 다음과 같은 형태로 표현됩니다.A : m x n 크기의 임의의 행렬 (정방행렬일 필요 없음)U : m x m 크기의 직교행렬. AA^T의 고유 벡터들로 구성V : n x n 크기의 직교행렬. A^TA의 고유 벡터들로 구성Σ : m x n 크기의 대각행렬로, 대각 원소는 A의 특이값 (Singular Values) SVD 계산 방법행렬 A^TA 와 AA^T의 고윳값과 고유벡터를 계산합니다.Σ: A^TA의 고유값들의 제곱근을 대각선 원소로 하는 대각 행렬을 생성합니다.V: A^TA의 고유벡터들로 구성된 직교행렬U: AA^T의 고유벡터들로 구성된 직교행렬최종적으로 A를.. 2024. 11. 18.
아이겐벡터 (Eigenvector) 아이겐벡터와 아이겐값의 정의아이겐벡터는 "특별한 방향을 가진 화살표"라고 생각할 수 있습니다.수학에서 아이겐벡터는 특정한 변환 (이미지를 회전, 늘리기, 줄이기 등) 후에도 원래 방향이 변하지 않는 특별한 벡터를 말합니다.이때 벡터의 크기를 조정하는 값이 바로 아이겐값이에요.수식으로는 다음과 같이 표현합니다.A : 변환을 나타내는 행렬v : 아이겐벡터 (원래 방향이 변하지 않는 벡터)λ : 아이겐값 (벡터의 크기를 조정하는 값)예제 : 2x2 행렬다음과 같은 행렬 A가 있다고 가정해보면, 이 행렬 A가 변환하는 동안 방향이 변하지 않는 벡터 v를 찾아봅니다. Av = λv(A - λI)v = 0 (I : 단위행렬) 벡터 v가 0이 아닌 해를 가지려면 다음의 조건을 성립해야 합니다.det(A - λI) =.. 2024. 11. 17.