2011年10月22日土曜日

クエリログが存在しないときのクエリ補完


このエントリーをはてなブックマークに追加


クエリログのない状況下でのクエリ補完


クエリのログをとってない場合どうやって補完するのか。



  • ジャンルが絞り込めるなら、そのコーパスを使用する

  • コーパスから入力中クエリを使用して検索



問題点



  • 入力中クエリでコーパスから検索しても精度が低い



提案手法



  • 入力中のクエリで、完全なフレーズと不完全なフレーズに分ける。

  • 不完全なフレーズでコーパスから検索

  • 一般的すぎるフレーズを避ける

    • TF-IDF

    • 短いフレーズが優先されすぎないようにパラメータチューニング(短いフレーズを含む長いフレーズと比べると短いフレーズの出現回数が常に多いため。ex.「言語処理」だと短い「言語」のほうが出現回数が多い)



  • 完全なフレーズも修正補完

    • 完全と不完全フレーズが両方存在する文書を探して、正規化。完全一致はスパースネスを起こすのでしない。






感想


こういう正統派は実践で使いやすそう好き





0 件のコメント:

コメントを投稿