クエリのログをとってない場合どうやって補完するのか。
- ジャンルが絞り込めるなら、そのコーパスを使用する
- コーパスから入力中クエリを使用して検索
問題点
- 入力中クエリでコーパスから検索しても精度が低い
提案手法
- 入力中のクエリで、完全なフレーズと不完全なフレーズに分ける。
- 不完全なフレーズでコーパスから検索
- 一般的すぎるフレーズを避ける
- TF-IDF
- 短いフレーズが優先されすぎないようにパラメータチューニング(短いフレーズを含む長いフレーズと比べると短いフレーズの出現回数が常に多いため。ex.「言語処理」だと短い「言語」のほうが出現回数が多い)
- 完全なフレーズも修正補完
- 完全と不完全フレーズが両方存在する文書を探して、正規化。完全一致はスパースネスを起こすのでしない。
感想
こういう正統派は実践で使いやすそう好き
0 件のコメント:
コメントを投稿