본문 바로가기

Data Science26

precision & recall 기본적인 개념이지만 자꾸 해깔리기에 이곳에 정리해 둔다. precision 과 recall 은 정확도를 측정하는데 자주 사용되는 2가지 기본 지표이다. precision = 찾은 문서 중 연관된 문서 개수 / 찾은 문서 총 개수 recall = 찾은 문서 중 연관된 문서 개수 / 연관된 문서 총 개수 presicion -> 예측 -> 찾은것 중에 얼마나 관련된걸 찾았냐? recall -> 기억 -> 실제 연관된 것 중에 얼마나 기억하는가? ( 두번째 것은 좀 억지인가? ㅎ ) 재현율 (Po깜소wer) 2010. 11. 30.
False positive & False negative True / False 만으로 결론을 내야 하는 문제에서 답이 No 인데 Yes 로 잘못 대답한 경우 false positive이고 답이 Yes 인데 No 로 잘못 대답한 경우 false negative이다. 근데 이것이 도대체 어디에 쓰일까? 2분법을 결과로 사용하는 특정 모듈에서는, 틀린걸 맞았다고 했을때와 맞은걸 틀렸다고 했을 때의 오류 가중치가 다를 수 있다. 이런 경우 성능 지표로 (맞은 횟수 / 총횟수)로 정하면 가중치가 성능평가에서 무시되므로 좀 더 정확한 성능지표를 도출하기 위해 사용되기도 한다. 아래의 성능지표 예제는 맞은걸 틀렸다고 했을 때가 좀 더 심각한 오류라고 보고 반영한 가중치이다. 성능 지표 예 = ( 총횟수 - ( F.P. * 0.2 + F.N. * 0.8 ) ) / 총 횟수 2010. 11. 8.
ROUGE - Automated text summarization tool Link : http://berouge.com 자신이 구현한 텍스트 요약 알고리즘의 정확도를 측정하기 위해 제공되는 툴. 역시나 사람 손을 타야 하는 데이터들을 정답셋으로 이용하고 있다. 그래도 측정해 주는게 어디랴... 좋다 좋아. 2010. 11. 5.
Practical Machine Learning Link from : http://www.cvchina.info/2010/11/03/practical-machine-learning/ This course introduces core statistical machine learning algorithms in a (relatively) non-mathmatical way, emphasizing applied problem-solving. The prerequisites are light; some prior exposure to basic probability and to linear algebra will suffice. Jan 22: Tutorial [Ariel Kleiner] Jan 29: Classification [Simon Lacoste-Ju.. 2010. 11. 3.