라게에 게시판 전체검색을 위한 방안을 찾아보다가..
MySQL의 FullText Indexing은 아직 Unicode지원이 개판이고..
그리하여 직접 텍스트를 파싱하여 키워드를 추출, 그 키워드를 특정 테이블에 보관하고
그 키워드 인덱스로 문서를 Numerical Indexing하여 DB Data크기를 줄이면서 인덱싱 하는 방안을 구상했었습니다.
그러나 띄어쓰기, 조사처리 등의 문제가 불확실해서..
현재는 한글 형태소 분석에 관한 논문들을 뒤지는 중입니다.
쓸만한 사전이 있음 좋겠구만..흐음..

이게 되면 키워드 추출단계에서 형태소 분석 처리를 해서 사전에 대입, 거기서 유효한 키워드만을 뽑아내어 더 효율적인 인덱싱을 할 수 있을듯 합니다.
삽질로 보이겠지만..
해보니 재미있네요.
우훗~