人工知能してみる

人工知能の中の人が機械学習とか統計とかAI的なことを書き連ねます

KH Coderを使って自然言語解析する

日本語の自然言語解析における強力なツールであるKH Coderを使って自然言語解析をしてみます。

対象した文章は青空文庫から夏目漱石の「それから」です。
ちなみにGrahamianは「それから」を読んだことがありません。
なので今回は小説を読まずに小説の内容を予想してみようと思います。

それではさっそくKH Coderを使ってみます。
ちなみにちゃんと使い方を勉強したわけではないので使い方間違っていたらスミマセン…

ダウンロードは下記からできます。
KH Coder Index Page

起動して解析対象の文章を読み込みます。
プロジェクト→新規→参照で文章を選びます。

次に文章の前処理を行います。
前処理→分析対象ファイルのチェック、次に前処理→前処理の実行です。

これで前処理が終わるので、解析に移ります。
KHコーダーは簡単にいろんな解析を実行することができます。

今回は文章中の単語について注目して解析します。
ツール→抽出後から解析を実行できます。

階層的クラスター解析と共起ネットワークについて実行します。
パラメータをいろいろと設定できますが、とりあえずデフォルトでOKです。
出現数による取捨選択は、選択対象となる単語を出現数で足切りできます。
オプションの方法や距離は計算するときの方法や距離の定義になります。
出現数は簡単ですが、オプションは今度別途説明してみます。

さて、解析を実行してみましょう。
階層的クラスター分析の結果はこんな感じです。
f:id:Grahamian:20160919194400p:plain

次に共起解析はこんな感じです。
f:id:Grahamian:20160919194441p:plain

クラスター解析の結果は「父さん」「兄さん」「結婚」「働」「金」など生活に近い言葉が同じクラスターとなっています。
このことから生活して様子を書いた小説だとわかります。
戦争小説とかSFとかではなさそうですね。
共起分析の結果を見ると「自分」が共起の中心になっていることがわかります。
「自分」から「父」「三千代」が共起しており、他の人物が繋がっていないことから「自分」と「父」「三千代」のつながりが物語の中心に見えますね。
また、「助」という字もそこそこ強い共起の中心になっているので「助」がキーワードっぽいですね。
でも「助ける」なのか「助けられる」なのかは分からないです。

上記解析結果から、「それから」はなんとなーく家族のことを書いた小説であることがわかりますね。
次回はパラメータについて説明してみます。