視点を利用した情報抽出に対する一手法
新開 大樹
1. はじめに

本研究ではユーザーの興味や関心(本研究ではこれを視点と呼ぶ)を反映させた形で、意味的な定義に基づき視点に近い情報を提供し、効率のよい情報抽出に対する手法を提案する.そのためこの手法を導入したプロトタイプシステムを設計、製作し、その評価及び問題点の検証を行った.
近年のインターネット及びWWWの急速な発展により情報ベースシステムが巨大化の一途を辿っており、それに伴い様々な問題点が顕在化してきた.現在の情報検索システムが使いにくい原因として``情報ベースの全容が見えてこない''、``ユーザーの判断を情報検索に反映できない''の原因が考えられる.この2点の問題点を考慮してより効率的な情報検索方式の確立を目指していく.その改善方法として
[1]情報空間の可視化→情報ベースの中身を分りやすい形で利用者に提示
[2]情報空間のカスタマイズ→利用者の視点や価値観に応じて主観的に情報空間を操作する
の2点が挙げられる.
この2点を実現するためにテキストを2次元平面上に分類し、その手法として自己組織化マップ(Self-Organizing(Feature)Map:SOM)を利用する.ユーザーの視点を反映させるためには言葉の階層構造であるシソーラスを用い、ユーザーの視点の変化に対応したテキスト自動分類を本研究の目指すところとする.
2.システム評価実験及び考察

前節で構築したシステムを用い、今回の実験ではある視点を基に探索距離、入力テキスト数、重み付けの係数の3つの要素を比較し自己組織化マップ上での分類結果の検討を行った.重み付け手法についてはシソーラスの特性を利用してあらかじめ定式化されたものを用いる手法、及び各距離において視点から探索し、確保された全ての名詞のうちテキスト中の名詞と一致している割合による重み付け、つまり適合率を用いた重み付け手法の2つの手法で実験を行った.
重み付けの係数については、適合率を用いた重み付け手法は視点はもちろんテキストの内容をより反映して重み付けが行われる.つまり定式化されたものを用いる手法よりも適合率を用いたほうが実際に使用されるテキストからより個々のテキストの内容を反映しつつ、視点に対応した情報を抽出することに対して適切であると考えられる.
自己組織化マップ上の分類結果によると探索距離が短いとテキスト間の関係が把握でき、ユーザーの視点に対応した結果が得られたが、探索距離が長いと自己組織化マップ上に一様に発散する傾向が見られた.

3.結論

本研究では自己組織化マップを用いてテキストを2次元平面上にマッピングする際、ユーザーの興味や関心を反映させ、ユーザーにとって有益な情報を効率よく抽出できるシステムの構築を目的として研究を行った.
自己組織化マップ上の分類については探索距離が長い時は分類結果がマップサイズに依存するという問題点が確認された.今後の課題として本研究のテーマでもある情報抽出という目的を果たす為にもインタフェースの改善を目指す.