linucb 절차1 Contextual Bandit & LinUCB Contextual Bandit은 주로 추천 시스템, 광고 배치, A/B 테스트와 같은 문제에서 사용되는강화 학습 (또는 온라인 학습) 알고리즘으로시스템은 사용자 또는 상황에 맞는 최적의 활동을 선택할 수 있습니다. Contextual Bandit이전 글(링크)에서 설명드렸던 MAB에서 파생된 개념입니다. 다중 슬롯머신 문제는 여러 슬롯머신 중 하나를 선택해 최적의 보상을 얻는 것을 목표로 하는 문제입니다.하지만 Contextual Bandit에서는 선택할 때 상황에 대한 정보가 추가됩니다. 예를 들어 날씨가 더운 날에는 아이스크림 가게가 인기가 있고, 추운 날에는 핫초고 가계가 인기 있을 수 있는 것처럼요. Agent는 주어진 컨텍스트를 통해 각각의 행동을 선택하며,각 행동은 보상(Reward)을 가지.. 2024. 11. 14. 이전 1 다음