OLAPツールSPSSのオープンセミナーに行ってきた。

SPSSのユーザー向けの会なので、製品紹介とかはあんまり無く、
データマイニングマーケティングの研究論文発表がメインだった。


研究発表のひとつに、日本語のテキストマイニングの検証をしているものがあった。
ある化粧品会社のコールセンターへ寄せられた苦情や問合せをデータ化して、
クラスタ分析する。ここでSPSS社製かなんかのテキストマイニングツールを使い
データを類型化するわけだけども、
どうも相手が英語の時のような有意な結果が得られないみたい。

原因はビミョーな日本語の表現にある。
まず社会的配慮(気遣い)の多さ。
「どうかと思う」という言い回しは、「良くない」という立派な苦情だけど、
言葉の意味だけを考えると苦情じゃない。とデータマイニングしてしまう。
前後の文章の流れを汲み取らないと、間違った意味で捉えちゃうのだ!

社交辞令も同様で、
「御社の製品はとても良いと思うけど、…(以下苦情)」という言い回しの場合、
「製品」が「とても良い」という結果が得られてしまい、
苦情としての類型がボンヤリしてしまう。

こんな感じで、英語版テキストマイニングツールの日本語化というのは一朝一夕には片付かない課題のようです。

今後の言語解析技術の研究動向を気にしたくなったそんな会でした。