人工知能してみる

人工知能の中の人が機械学習とか統計とかAI的なことを書き連ねます

自然言語処理

自然言語処理技術の開発は検索方法を変えるのか?

こんにちは。Grahamianです。 今日は自然言語処理と検索方法について考えてみます。 www.itmedia.co.jpchat botなんかが最近は話題になったりして人間vs機械の会話が注目されていますね。 いろんなサービスでchat botを使われるようになっています。 実際に…

人工知能が記事を書く時代になりました

jp.techcrunch.comつまるところ、企業の出す決算短信など適時開示情報をもとに各社の要約文を出力するわけですね。実際に出力されている文章をみると割りとルールベースなのかな?って感じです。 たとえば数値について言及しているあたりは企業の過去データ…

gensimでトピックモデルを実装してみる

自然言語処理のライブラリはpythonでは多々ありますが、gensimを今回は使います。 以前もgensimはWord2Vecを使うために使いましたね。 grahamian.hatenablog.com今回はトピックモデルを実装するために使います。 とはいえ、作るだけならコードは3行で済みま…

PythonでMeCabを使う

自然言語処理では定番となったmecabをpythonで使います。 以前はpython用のmecabがなかったので独自にコンパイルされたものを導入していました。 今はpipで簡単に使えるようになったので、覚書として書いておきます。ちなみに私はanacondaによるpython3系の…

word2vecしてみる

2014年くらいに流行ったツールであるword2vecを使ってみます。 word2vecの詳細は省きますが、簡単に言うと、単語を任意のベクトルに変換するものです。 skip-gramかCountinuous Bag of Wordsモデルに基づいてベクトル化されます。 簡単に言うと、ある単語の…

KH Coderのオプション「Ward・郡平均・最短距離法」って?

前回はKH Coderを使って簡単な自然言語解析をしてみました。 grahamian.hatenablog.com今回はKH CoderのオプションにあるWard・郡平均・最短距離法について書いてみます。 Ward・郡平均・最短距離法ってそもそも何? そもそもWard・郡平均・最短距離法とは階…

KH Coderを使って自然言語解析する

日本語の自然言語解析における強力なツールであるKH Coderを使って自然言語解析をしてみます。対象した文章は青空文庫から夏目漱石の「それから」です。 ちなみにGrahamianは「それから」を読んだことがありません。 なので今回は小説を読まずに小説の内容を…

トピックモデルについて簡単に考えてみる

たまには解析ではなく解析モデルについて考えてみます。今回考えるのは基本のトピックモデル。 トピックモデルとは種々の文章があったとき、それらがどのトピックに属するのか分類するためのモデルです。 クラスタリングの一種とも言えるでしょう。例えば、…

RMeCabで文章マトリックスとTF-IDFを計算する

今回はテキストマイニングへの一歩としてRMecabを勉強します。 RMeCabの標準関数として文章の単語マトリクスとTF-IDFの計算を行います。単語マトリクスとは複数の文章における単語の出現頻度をベクトル表示したものです。 bag of wordsモデルでは単語同士を…

RMecabで文章を分かち書きして単語の出現頻度を調べてみる。

タイトル通りですけど、RMecabで文章を分かち書きして単語の出現頻度を調べてみます。RMeCabは日本語用の形態素解析器MeCabのR言語版です。 自然言語処理の偉い方が開発したもので、おそらく日本で最も使用されている形態素解析器だと思います。MeCab: Yet A…