人 煙403 Sparse Attention Sparse Attention은 Transformer 모델의 효율성을 높이기 위해 사용되는 기법으로,Attention 메커니즘의 연산 복잡도를 줄이면서 중요한 정보를 유지하려는 목적을 가집니다. Transformer 모델의 기본 Attention 메커니즘인 Self-Attention 은 O(n^2)의 시간 복잡도를 가지며,이는 입력 시퀀스의 길이 n이 커질수록 계산량과 메모리 사용량이 기하급수적으로 증가함을 의미합니다.Sparse Attention은 이러한 한계를 극복하기 위해 특정 패턴에 따라 어떤 Attention 값을 계산하지 않음으로써연산량을 줄입니다. Sparse Attention의 기본 아이디어Sparse Attention은 입력 시퀀스의 모든 토큰 간의 Attention 관계를 계산하는 대신.. 2024. 11. 19. 특이값 분해 (Singular Value Decomposition, SVD) 특이값 분해는 행렬을 고유 벡터와 고윳값을 기반으로 분해하여 다양한 응용에 활용하는 선형 대수학의 강력한 도구입니다. 수학적 정의특이값 분해는 다음과 같은 형태로 표현됩니다.A : m x n 크기의 임의의 행렬 (정방행렬일 필요 없음)U : m x m 크기의 직교행렬. AA^T의 고유 벡터들로 구성V : n x n 크기의 직교행렬. A^TA의 고유 벡터들로 구성Σ : m x n 크기의 대각행렬로, 대각 원소는 A의 특이값 (Singular Values) SVD 계산 방법행렬 A^TA 와 AA^T의 고윳값과 고유벡터를 계산합니다.Σ: A^TA의 고유값들의 제곱근을 대각선 원소로 하는 대각 행렬을 생성합니다.V: A^TA의 고유벡터들로 구성된 직교행렬U: AA^T의 고유벡터들로 구성된 직교행렬최종적으로 A를.. 2024. 11. 18. 아이겐벡터 (Eigenvector) 아이겐벡터와 아이겐값의 정의아이겐벡터는 "특별한 방향을 가진 화살표"라고 생각할 수 있습니다.수학에서 아이겐벡터는 특정한 변환 (이미지를 회전, 늘리기, 줄이기 등) 후에도 원래 방향이 변하지 않는 특별한 벡터를 말합니다.이때 벡터의 크기를 조정하는 값이 바로 아이겐값이에요.수식으로는 다음과 같이 표현합니다.A : 변환을 나타내는 행렬v : 아이겐벡터 (원래 방향이 변하지 않는 벡터)λ : 아이겐값 (벡터의 크기를 조정하는 값)예제 : 2x2 행렬다음과 같은 행렬 A가 있다고 가정해보면, 이 행렬 A가 변환하는 동안 방향이 변하지 않는 벡터 v를 찾아봅니다. Av = λv(A - λI)v = 0 (I : 단위행렬) 벡터 v가 0이 아닌 해를 가지려면 다음의 조건을 성립해야 합니다.det(A - λI) =.. 2024. 11. 17. RAG (Retrieval-Augmented Generation) RAG는 Retrieval Augmented Generation의 약자로, 검색과 생성을 결합한 자연어 처리 접근 방식입니다.이는 대규모 언어 모델(LLM)과 검색 시스템을 통합하여 높은 정확도와 콘텍스트 의존적 결과를 생성합니다. RAG는 왜 사용하는가?대규모 언어모델(LLM)만을 사용하여 생성하는 방식은 답변의 정확도의 한계가 있어 이를 보완하고 보다 정확하고 신뢰성 높은 결과를 제공하기 위함입니다. 조금 더 구체적으로 이야기해보면,LLM의 지식은 고정적이기 때문에 최신 정보나 특정 도메인 데이터에 대한 답변이 부정확하거나 불가능할 수 있습니다.그리고 LLM 하면 함께 등장했던 환각(hallucination) 문제도 존재하기 때문에,답변 생성을 요청할 때 질문과 관련된 문서들을 포함시켜서 질문하게 되.. 2024. 11. 16. 이전 1 2 3 4 5 6 ··· 101 다음