기본적인 개념이지만 자꾸 해깔리기에 이곳에 정리해 둔다.

precision 과 recall 은 정확도를 측정하는데 자주 사용되는 2가지 기본 지표이다.

precision = 찾은 문서 중 연관된 문서 개수 / 찾은 문서 총 개수
recall = 찾은 문서 중 연관된 문서 개수 / 연관된 문서 총 개수

presicion -> 예측 -> 찾은것 중에 얼마나 관련된걸 찾았냐?
recall -> 기억 -> 실제 연관된 것 중에 얼마나 기억하는가? ( 두번째 것은 좀 억지인가? ㅎ ) 재현율 (Po깜소wer)
  1. Favicon of http://blog.ggamsso.wo.tc BlogIcon 깜쏘 2010.11.30 14:28 신고

    precision이야 정확도라는 의미가 확실해서 외우기 쉬운 단어죠.
    하지만 recall 인 경우 한글로 바꿔 쓰면 재현률로 보통 쓰는데, "재현", 즉 "얼마나 많은 정답들을 안 틀리고 재현했느냐"라고 저는 머리속에 넣어 놨어요^^;;
    여기 말로 바꿔 쓰면, A란 연관된 문서 셋을 얼마나 가깝게 재현했는가 정도?

  2. 2013.08.26 22:34

    비밀댓글입니다

    • Favicon of http://finsternis.tistory.com BlogIcon leanu 2013.09.26 15:10 신고

      대상이 되는 모델의 성능 측정 기준중의 하나입니다. 이 수치를 이용하여 어떤게 더 나은지를 판단하게 됩니다. f1 score 를 참조해보시기 바랍니다.

      http://en.wikipedia.org/wiki/F1_score

True / False 만으로 결론을 내야 하는 문제에서

답이 No 인데 Yes 로 잘못 대답한 경우 false positive이고
답이 Yes 인데 No 로 잘못 대답한 경우 false negative이다.

근데 이것이 도대체 어디에 쓰일까?

2분법을 결과로 사용하는 특정 모듈에서는,
틀린걸 맞았다고 했을때와 맞은걸 틀렸다고 했을 때의 오류 가중치가 다를 수 있다.
이런 경우 성능 지표로 (맞은 횟수 / 총횟수)로 정하면 가중치가 성능평가에서 무시되므로
좀 더 정확한 성능지표를 도출하기 위해 사용되기도 한다. 
아래의 성능지표 예제는 맞은걸 틀렸다고 했을 때가 좀 더 심각한 오류라고 보고
반영한 가중치이다.

성능 지표 예 = ( 총횟수 - ( F.P. * 0.2 + F.N. * 0.8 ) ) / 총 횟수

+ Recent posts

티스토리 툴바