人工知能してみる

人工知能の中の人が機械学習とか統計とかAI的なことを書き連ねます

統計学

2つの分布が異なるか調べるKolmogorov–Smirnov検定

Kolmogorov–Smirnov検定って簡単にいうと? コルモゴロフ-スミルノフ検定(Kolmogorov–Smirnov test)以下KS検定 は任意の2つの分布が異なるか評価する検定です。 例えば用途として、金融では与信スコアリングモデルがデフォルトと非デフォルトを分離できて…

ROC曲線とAUC

機械学習や統計の評価指標は多々ありますが、その中でも基本になるROC曲線とAUCについて説明します。 TL;DR Q: ROC曲線とは? A: 横軸に偽陽性、縦軸に真陽性をとったグラフです Q: AUCとは? A: ROC曲線の右下側の面積です ROC曲線とAUC ある2値分類問題を…

KH Coderを使って自然言語解析する

日本語の自然言語解析における強力なツールであるKH Coderを使って自然言語解析をしてみます。対象した文章は青空文庫から夏目漱石の「それから」です。 ちなみにGrahamianは「それから」を読んだことがありません。 なので今回は小説を読まずに小説の内容を…

Rを使ったポアソン分布における最尤推定

本格的に統計を学ぶためにデータ解析のための統計モデリング入門、いわゆる緑本を読み始めました。 ナナメ読みで概観を捉えながら、追ってRで手を動かして勉強してます。 統計はツマミ食いでしか学んでいなかったので、こうやって体系的に学ぶと、いままでの…