Index: [Article Count Order] [Thread]

Date:  Fri, 14 Feb 2003 11:39:08 +0900
From:  ssasaki@mmm-keio.net
Subject:  [analog-jp:01456] 検索単語について
To:  analog-jp@jp.analog.cx
Message-Id:  <mid-1456-analog-jp@jp.analog.cx>
X-Mail-Count: 01456

K2と申します。
analog-5.31 を使っています。

表題のとおり検索単語についての機能について質問させてください。

1.検索単語では例えば、"apache", "Apache", "APACHE" 等大文字
小文字の区別をして集計されていますが、これを区別せずに集計する
機能はありますか?

2.現在は analogurldecode.pl を使用して検索単語等の日本語文字
を変換していますが、これだけだと EUC-JP, Shift-JIS 等文字コード
が違うが実際の文字列は同じものが別単語として集計されますよね?
(つまり、例えば「インストール」が検索単語に2度現れる)
これを同単語として集計するにはどのようにすればよいでしょうか?
logkf も使用してみたのですが、うまく変換できずに異常ログ行数が
大量に出てしまいます。。。

よろしくお願いします。