기본적인 개념이지만 자꾸 해깔리기에 이곳에 정리해 둔다.

precision 과 recall 은 정확도를 측정하는데 자주 사용되는 2가지 기본 지표이다.

precision = 찾은 문서 중 연관된 문서 개수 / 찾은 문서 총 개수
recall = 찾은 문서 중 연관된 문서 개수 / 연관된 문서 총 개수

presicion -> 예측 -> 찾은것 중에 얼마나 관련된걸 찾았냐?
recall -> 기억 -> 실제 연관된 것 중에 얼마나 기억하는가? ( 두번째 것은 좀 억지인가? ㅎ ) 재현율 (Po깜소wer)
  1. Favicon of http://blog.ggamsso.wo.tc BlogIcon 깜쏘 2010.11.30 14:28

    precision이야 정확도라는 의미가 확실해서 외우기 쉬운 단어죠.
    하지만 recall 인 경우 한글로 바꿔 쓰면 재현률로 보통 쓰는데, "재현", 즉 "얼마나 많은 정답들을 안 틀리고 재현했느냐"라고 저는 머리속에 넣어 놨어요^^;;
    여기 말로 바꿔 쓰면, A란 연관된 문서 셋을 얼마나 가깝게 재현했는가 정도?

  2. 2013.08.26 22:34

    비밀댓글입니다

    • Favicon of https://finsternis.tistory.com BlogIcon leanu 2013.09.26 15:10 신고

      대상이 되는 모델의 성능 측정 기준중의 하나입니다. 이 수치를 이용하여 어떤게 더 나은지를 판단하게 됩니다. f1 score 를 참조해보시기 바랍니다.

      http://en.wikipedia.org/wiki/F1_score

True / False 만으로 결론을 내야 하는 문제에서

답이 No 인데 Yes 로 잘못 대답한 경우 false positive이고
답이 Yes 인데 No 로 잘못 대답한 경우 false negative이다.

근데 이것이 도대체 어디에 쓰일까?

2분법을 결과로 사용하는 특정 모듈에서는,
틀린걸 맞았다고 했을때와 맞은걸 틀렸다고 했을 때의 오류 가중치가 다를 수 있다.
이런 경우 성능 지표로 (맞은 횟수 / 총횟수)로 정하면 가중치가 성능평가에서 무시되므로
좀 더 정확한 성능지표를 도출하기 위해 사용되기도 한다. 
아래의 성능지표 예제는 맞은걸 틀렸다고 했을 때가 좀 더 심각한 오류라고 보고
반영한 가중치이다.

성능 지표 예 = ( 총횟수 - ( F.P. * 0.2 + F.N. * 0.8 ) ) / 총 횟수


This course introduces core statistical machine learning algorithms in a (relatively) non-mathmatical way, emphasizing applied problem-solving. The prerequisites are light; some prior exposure to basic probability and to linear algebra will suffice.

  • Jan 22: Tutorial [Ariel Kleiner]
  • Jan 29: Classification [Simon Lacoste-Julien]
  • Feb 5: Regression [Romain Thibaux]
  • Feb 12: Clustering [Sriram Sankararaman]
  • Feb 19: Dimensionality reduction [Percy Liang]
  • Feb 26: Feature selection [Alex Bouchard]
  • Mar 4: Cross-validation, bootstrap, ROC plots [Gad Kimmel]
  • Mar 11: Hidden Markov models, graphical models [Erik Sudderth]
  • Mar 18: Visualization and nonlinear dimensionality reduction [Fei Sha]
  • Apr 1: Collaborative filtering [Alex Simma]
  • Apr 8: Reinforcement learning [Peter Bodik]
  • Apr 15: Time series, sequential hypothesis testing, anomaly detection [Charles Sutton]
  • Apr 22: Nonparametric Bayesian methods (Dirichlet processes) [Kurt Miller]
  • Apr 29: Active learning, experimental design [Alex Shyr]
  • May 6: Multi-class classification, structured classification [Guillaume Obozinski]
    • 큰 헤드라인에 오는 글자 줄은 가지런히 맞추어 쓴다. 표제어는 가장 왼쪽에 쓰고, 그 밑에 소단원이나 내용들은 3~4칸 띄우고 쓴다.
    • 필기할 필요가 없으면 카피한다. 무작정 필기하지 말고 별로 중요하지 않은 것은 카피하여 정리한다.
    • 대담하게 여백은 남긴다. 여백은 복습때 부족한 부분을 채워 쓸 수 있다.
    • 인덱스를 사용한다. 오른쪽이나 윗쪽에 타이틀은 붙인다. 첫페이지에 목차를 써두면 좋다.
    • 단락의 구분을 확실히 한다.
    • 자신만의 노트 서식을 가진다. 사용하기 편한 형식을 가지도록 하자.
    • 깔끔하게 쓴다. 글씨의 굵기는 일정하게 글씨체도 동일하게 쓴다.

    요즘들어 부쩍이나 필기를 잘 안하게 되는데, 슬슬 개발노트도 컴퓨터가 아닌 수기로 해볼까나 ... ㅋ

    여백을 남기라고 하는데에 가장 많이 관심이 간다. 글을 쓰다보면 생각만큼 여백을 남기지 않는 습성이 있는데, 낭비라고 생각하는걸까? 그래서인지 다음에 볼때는 빡빡해서 보기가 싫어지더라. 여백을 남기자...

    출처 : 펀샵 동경대 합격생 노트
    프로그래밍은 한동안 일쪽에만 신경쓰다가
    블로그를 통해 좋은 논문자료를 하나 얻게 되었다.

    고감자님이 블로그에서 언급한 논문인데
    개념적으로만 생각했던 Map Reduce 기법을 
    조금 더 구체화 시킬 수 있는 논문이 되지 않을까 싶다.

    1. Favicon of http://blog.ggamsso.wo.tc BlogIcon 깜쏘 2009.05.22 08:11

      전 기계 학습과 같은 리소스가 많이 필요한 분야에서 사용할려고 공부하고 싶었는데...
      이런 것도 세미나 주제로 선정되면 재미있겠어요^^
      PlatformDay 2009에 참석할 수 있을까 했는데, 신입교육과 겹쳐버려서 ㅠ.ㅠ
      http://www.platformday.com/2009/

      • Favicon of https://finsternis.tistory.com BlogIcon leanu 2009.05.22 14:52 신고

        신입교육이 이번부터 캠핑 분위기로 가는군요 ㅋㅋ

        잘 다녀오세요~!


    프로그래밍 뿐만 아니라 인생의 진리인 즉슨,

    범용적인 것은 특정 부분에서 약하기 마련이라는 것.

    해쉬와 관련해서 속도관련 고민해보다가

    문득 실험정신이 든다. 주말에 한번 종류별 테스트를 해볼까나...

    위키에 Hash 에 대한 설명이 잘 나와있다. 

    요기는 속도에 관해 비교해 놓은 것인데 참고가 될 만 하다.

    consensus : 일치, 합의
    occupy : 차지하다.

    분산 네트워크를 설계할때의 design pattern에 대한 언급이 담겨져 있다. 촘 유용하군!!

    요약하자면, 전체 시스템적 차원에서의 관리와 내부 노드간의 효율성을 동시에 고려한 디자인이 나와야 한다는 말. 

    굳이 구조를 따라할 필요는 없지만 왜 저런식의 패턴이 나오게 되었는지를 이해하는데 도움이 되는 듯 하다

    관련 문서는 background reading에 있다. (아래에도 있다. pdf)

    관련 Site : http://www.zeromq.org/



    + Recent posts