자신이 구현한 텍스트 요약 알고리즘의 정확도를 측정하기 위해 제공되는 툴.
역시나 사람 손을 타야 하는 데이터들을 정답셋으로 이용하고 있다.
그래도 측정해 주는게 어디랴... 좋다 좋아.


Maximum likelihood estimation : 

   - likelihood :  A가 true B가 true일 확률.    p( A | B ) 로 나타낸다. 보통 어떤 결과가 있고, 결과를 이끌어낸 여러가지 가설이 있을때 각 가설이 결과를 도출해 낼 확률을 likelihood 라고 한다.
        (예) 배고플때 라면을 먹을 확률.  p ( 배고름 | 라면먹기 )

   - Maximum likelihood estimation : B가 정해저있을때 여러가지 A중에 확률을 높이는 것을 찾는것.
        (예) 난 지금 라면을 먹을꺼야. 그런데 내 상태는 어떨때 만족할 확률이 높을까?
                  p ( 배고픔 | 라면먹기 )  >>> p ( 배부름 | 라면먹기 )

     간단하게 2개의 인자들로만 확률값의 maximum likelihood를 측정했지만, 여러상황을 고려해야 하므로 실제로 쓰이는 계산은 복잡하다. (참고 : http://en.wikipedia.org/wiki/Maximum_likelihood_method )


Corpus smoothing : 특정 확률 계산 모델을 이용하여 한 문서의 확률값을 계산하는경우 그 값이 0이 나오는 경우가 있다. 그런경우 0 이 아닌 다른수치로 보정하는 작업을 smoothing 기법이라 한다.

Wiki 에 있는 문서들을 download 받을수 있다는 사실을 이제야 알게 되었다. ㅎㅎ

corpus 만들때 사용하면 유용할듯~!

  1. Favicon of http://blog.ggamsso.wo.tc/ BlogIcon 깜쏘 2009.06.29 16:14 신고

    많이들 사용하시죠. 논문을 쓸 때 자주 등장합니다.
    정리도 잘 되어 있고, db형태고 제공도 제공되고...
    특히 카테고리 분류가 예술이죠.



선형 대수에 대한 좋은 강의가 있다길래 눈도장겸 기록해 놓는다.


서울대학교 심형보 교수님의 강의를 학생들이 녹화해서 올린 모양이다.

이 과목을 대학교서 처음 배울때 특정 형태로 만드는 공식만을 외울뿐

변환했을때 이녀석의 특징에 대해서는 제대로 설명을 못들은거 같아

멍하게 시간을 때우다 만 것 같다.

이 강의를 들으면 의문점들이 채워질수 있을까? ㅎㅎ

한번 달려보자.
  1. Favicon of http://usemagic.net/blog BlogIcon RYaN_MU 2009.05.19 10:11 신고

    우왕 좋은 자료!

Stop words, or stopwords, is the name given to words which are filtered out prior to, or after, processing of natural language data (text).

Hans Peter Luhn, one of the pioneers in information retrieval, is credited with coining the phrase and using the concept in his design. It is controlled by human input and not automated. This is sometimes seen as a negative approach to the natural articles of speech as mentioned above.

There is no definite list of stop words which all natural language processing tools incorporate. Not all NLP tools use a stoplist. Some tools specifically avoid using them to support phrase searching. The use of a stemming algorithm may reduce part of the rationale or dependence on a stoplist to filter out words.[citation needed]

Stop words can cause problems when using a search engine to search for phrases that include them, particularly in names such as 'The Who' or 'Take That'.


간단히 말하자면 검색에서 제외되는 비중이 없는 단어들을 stop words 라고 한다.




검색 관련 공부 최고의 서적이라 생각됩니다.

인쇄하려면 print 버전을

온라인상에서 읽으려면 onlinereading 버전을 받으세요.










---------------------------------------------------------------------------------

+ Recent posts