본문 바로가기
Data Science

트랜스포머 (Transformer) 모델

by leanu 2024. 11. 9.

aiml.com - explain-the-transformer-architecture

소개

로봇인가? 생각이 잠깐 들 수도 있겠지만

트랜스포머(Transformer)는 최근 딥러닝 분야에서 주목받는 개념 중 하나입니다.

2017년 구글 연구진이 발표한 논문 'Attention is All You Need'에서 소개된 모델로,

자연어 처리(NLP) 분야에서 혁신적인 변화를 가져왔습니다.

이 모델은 기존의 순환신경망(RNN)ㅣ반 모델들이 가진 한계를 극복하며,

다양한 언어 처리 작업에서 뛰어난 성능을 보이고 있습니다.

 

 

구조

트랜스포머는 크게 두 부분으로 나뉩니다

  • 인코더(Encoder) : 위 그림에서 노란색으로 색칠된 부분으로, 입력된 문장을 분석하여 그 의미를 해석합니다.
  • 디코더(Decoder) : 인코더기 이해한 내용을 바탕으로 새로운 문장을 만들어냅니다.

이러한 구조를 통해 트랜스포머는 입력 시퀀스의 모든 단어 간의 관계를 효과적으로 학습하고,

다양한 자연어 처리 작업에서 높은 성능을 발휘합니다.

 

특징

트랜스포머 모델은 크게 세가지 주요 특징을 가지고 있습니다.

 

  • 어텐션 메커니즘 : 트랜스포머의 핵심은 '셀프 어텐션' 메커니즘입니다. 이는 입력 시퀀스 내의 각 단어가 다른 언어와의 관계를 파악하여 문맥을 이해하는 방식입니다. 이를 통해 모델은 문장 내에서 중요한 단어에 더 많은 가중치를 부여하고, 장거리 의존성 문제를 효과적으로 처리할 수 있습니다.
  • 병렬처리 : 기존의 RNN기반 모델들은 입력시퀀스를 순차적으로 처리해야 했기 때문에 학습 속도가 느리고 긴 시퀀스를 처리하는데 어려움이 있었습니다. 반면, 트랜스포머는 어텐션 메커니즘을 통해 입력 시퀀스를 병렬로 처리할 수 있어 학습 속도가 빠르고 효율적입니다.
  • 포지셔널 인코딩 : 트랜스포머는 입력 시퀀스의 단어 순서 정보를 학습하기 위해 포지셔널 인코딩을 사용합니다. 이는 각 단어의 위치 정보를 벡터 형태로 표현하여 모델이 단어의 순서와 문맥을 이해하도록 돕습니다.

 

ChatGPT 와의 관계?

ChatGPT는 트랜스포머 아키텍처를 기반으로 한 GPT (Generative Pre-trained Transformer) 시리즈의 모델입니다.

이러한 모델들은 대규모 텍스트 데이터를 사전 학습하여 언어의 구조와 패턴을 학습하고, 

이후 특정 작업에 맞게 미세 조정 (fine-tuning) 됩니다.

트랜스포머의 효율적인 구조 덕분에 ChatGPT는 자연스러운 대화생성, 질문 응답, 텍스트 요약등 다양한 언어 처리 작업에서 뛰어난 성능을 발휘합니다.

 

트랜스포머는 ChatGPT와 같은 대규모 언어 모델의 핵심기술이라니, 굉장하죠?

 

좀 더 자세히 알고 싶으신 분들은 아래의 논문을 참고해 주세요.

 

https://arxiv.org/pdf/1706.03762

 

'Data Science' 카테고리의 다른 글

아이겐벡터 (Eigenvector)  (2) 2024.11.17
Contrastive Learning  (2) 2024.11.12
딥러닝 처음 접할 때 어려워하는 몇가지 핵심 개념들  (0) 2024.11.08
Activation Functions  (0) 2024.11.07
precision & recall  (4) 2010.11.30

댓글