Data Developerのメモ帳

機械学習とかデータ分析とかしているData Developerのメモ帳です

Crezit株式会社へ転職します

はい、タイトルのとおりです。

今日が最終出社日で、9月末をもって3年と9ヶ月お世話になりましたfreee株式会社を退職し、10月よりCrezit株式会社へ転職します。

Crezit株式会社とは?

消費者与信の領域で頑張るFintechスタートアップです。まだ2期目のできたてほやほやで、私も社員一桁。特にモバイルに特化した融資・与信サービスの展開をしています。

corp.crezit.jp

↓こんなサービスを展開しています。

モバイル完結の少額融資サービス

crezit.jp

賃貸初期費用分割サービス

openup.crezit.jp

なんでCrezit?

Crezitへ転職しようと思ったのは「私がやりたいこと」と「Crezitが求めるもの」が一致していることがかなり大きいです。与信というデータサイエンスが強力に活きる舞台があり、データ関係のチームや基盤をゼロから立ち上げるというチャレンジングな機会などは自分の求めているものでした。ここまで合致することはなかなか珍しいと思います。Crezitがなかったらfreeeにそのまま在籍していたと思います。

ちなみに、声をかけてもらったのはTwitter経由で、Crezitができたばかりのころに声をかけていただき軽くランチを食べたのがキッカケでした。当時はわたしがやれることが少ないため一旦ながれましたが、そこから1年経って改めてオファーの相談を受け、今日に至る感じです。

やること

Crezitのデータまわりを全部やります。クレジットスコアリングモデルを作ったりデータ基盤構築したりデータ分析したりデータ周りのチームの立ち上げもやります。freeeでもAIラボという機械学習チームの立ち上げをしていましたが、今回はそれ以上になにもないのでマジでなんでもやらないといけません。ゼロから始める異世界転生ハードモードです。

おわりに

3年9ヶ月という短い間でしたがfreeeでは技術的なハードスキルに限らず、コミュニケーションやメンタル面などソフトスキルも含めて大きく成長する機会を得ることができました。クソ生意気なガキがまともな人間になれたのはfreeeのおかげだと思っています。自分の関わった人もそうでない人もありがとうございました。本当に心から感謝しています。辞めはしますが、freeeはとても良い会社でした。

10月からはできたてスタートアップという濁流に揉まれるような生活が始まるので久々にエキサイティングな日々が送れそうです。忙しくはなりますが、Twitterやblogはいつもどおりなので、今後ともGrahamianをよろしくお願いします。

ちなみにCrezitでは様々な職種で人材を募集しているのでご興味ある方はぜひご応募いただけると嬉しいです!

bosyu.me

データ応用達成度によるデータ活用レベル

この記事はビジネスにおけるデータ応用の達成度によるデータ活用レベルを自分なりに考えてみたもの。完全に個人的な感覚。

あんまり推敲していないんで、そのうち意味の変わらない範囲で文章を直すと思います。

概要

全部でtier5 ~ tier0の6階層にわけてみた。数値が大きいほど下の階層で数値が下がるほど高いレベルでデータを応用している状態。あくまで個人の感想であり、伝聞で聞いた話とかも総合して書いてるのでそこらへんはいい感じによろしく。

データ活用レベル

tier5: データによる成果の観測

シンプルな企業におけるデータ活用はこのレベル。現預金や債権債務のような会計データや営業成績など事業や業務の結果が集計され観測している状態。

この状態の企業ではデータは意思決定のために使われるというよりは結果を観測するために使われれている。観測しているデータは必要だから見ているという状態に限られており、意思決定の多くは勘や経験によるもの。データドリブンにアクションを行うというカルチャーはない。

tier4: 単発的なデータ分析による意思決定

データ活用を意識的に着手した企業が最初に到達する階層。サービス開発や広告配信など現場でデータを用いた意思決定が単発的に実施されている状態。

この状態ではPdMやマーケティングなど現場がデータを用いて現状把握やアクションの効果検証などが実施されている。単発的な分析としてSQLを書いてデータ抽出したりスプレッドシートを用いた分析が主。この状態では草の根的な活動や片手間ということが多く、分析リソースは十分ではないと思う。

重要な点はデータドリブンなカルチャー浸透し始めているだろうという点。少なくともデータを分析してアクションを決定することがスモールにスタートしている。組織的であったり長期的にデータを中心においた状態ではないが、データを用いてアクションを決める・計測するというデータドリブンの萌芽が見える。

tier3: 継続的なデータの監視と分析

tier4では単発的なデータ分析を行っていたが、それが継続的に行われ活用されている状態。継続的な数値の監視・分析からアクションをおこなう。

この状態ではチームなどの組織的な活動としてデータを用いて状況把握や効果検証をおこなっている。監視すべきデータを定期的に取得し複数のメンバーで観察・検証をおこなう。tier4ではショットで分析をおこなっていたがtier3では継続性がありデータの知見が貯まるという良い循環が生まれる。また、チームでデータを活用する状態にあり分析を行うリソースも明確に工数として確保されているはず。

tier3はデータドリブンなカルチャーがtier4に比べて広まり、データを活用するということが組織的な活動になっている。どのデータを継続的に監視するのかチームで認識を揃えKPIを設定してアクションしている。tier3へ到達しているならばデータドリブンな経営や開発を行っていると自信を持って良いはず。

tier2: 単発の予測や開発

このステージは数値を見るだけでなく統計学機械学習数理モデルなどを現場や開発に用いている状態。プリミティブな例では広告やUIのA/Bテストや数理モデルを用いた需要予測などがあり、開発としては機械学習を用いたサービスの提供など。

tier3まではデータを数値で見ることに終始していたが、ここから先の階層では数学やアルゴリズムを応用することが求められる。そのため人材のスキルセットも統計学機械学習などtier3までとは大きく変わってくる。

tier2ではこれらの応用が単発的に行われている。組織的にこれらの技術を用いることへ継続的かつ十分な投資が行われておらず草の根活動的に行われていたり味見として実施されている。多くの企業がこのステージへ突撃してくるけどPoCで失敗してもとに戻るケースが多い。そもそもそういう企業はtier3に到達してないことが多いのでさもありなん。

tier1: 継続的な予測や開発体制

このステージへ到達した企業は既存の技術を活用して様々なプロセスや事象を自動化・効率化・精緻化している状態。先進的なテックカンパニーとしてデータ活用の到達点。

機械学習や統計モデルが自社サービスや業務に組み込まれている状態で、いわゆるAI活用と聞いて多くの人が思い浮かべるようなものが実装されている。継続的な投資がおこなれており、これらの機能やサービスが優位性を産むポイントの1つとなっているはず。

「DX推進部」であったり「AI活用チーム」のようなタスクフォースが組織され開発を行っていても、その開発が継続的でなければまだまだtier2。tier1の重要な点はそれら技術を継続的に応用することへ組織的な理解と投資であり、カルチャーとして根付いていること。なんでもやるより継続するのが大変なんです。

tier0: 技術発展による自動化の拡大

このステージは既存の技術に限らず、新しい技術を研究・開発をとおして「できること」を広げている状態。研究から社会実装という長いスパンでデータ活用を実践できているとtier0。具体例でいえばGoogleなど技術レベルの高いテックカンパニーや研究開発に特化したスタートアップとかかな。

このステージへ到達した企業は技術的に不可能であったことを可能にしていく研究ができる企業。自社内に独自の研究機関が存在しアカデミックの世界でも存在感があるはず。

tier0に到達する企業は統計学機械学習を高いレベルで開発することで優位性を得られると確信していて、データからアクションを決定したり必要に応じて機械学習をサービスに適用することは当然のように選択肢として行っていると思う。いかんせん、私はそういう会社にいたことがないけど、たぶんそう。

おもったこと

思いつきで書き始めたけど気がついたことが2点

「挑戦」と「継続」が分水嶺

主にtier3までのデータドリブンとtier2以上の統計学機械学習の応用というステップにわけているんだけど、その中の階層の分離は挑戦と継続でわかれてる。データを用いた新しいことに挑戦して草の根で動き始めている段階と、挑戦の実績から継続し組織的に投資され認められている状態の2つ。

よくPoCやるだけで企画がポシャったり、リリースしたけど誰もイテレーションしないみたいなケースってよく見かけるけど、それってやっぱり階層としては分けるべき。で、そういう継続できていないケースって組織的な動きになっていないのがだいたいは原因で、組織的な動きになっておらず投資され続けていないのはやっぱり大事な課題だと思う。

ステージを飛ばすことはできない

tier1にちょっと書いたんだけど、前のステージが達成されていない企業が飛び級することはできない。少なくとも継続できないのでそこから更に進むことはできなくなる。つまりデータドリブンな組織でないなら機械学習統計学を応用することはできない。

これは至極当然で、機械学習とか統計学とかいわゆるデータサイエンスという領域に手を出すにはそもそもデータが揃っている必要があるし、それを継続的に投資するには効果を測定するためにデータ分析する環境がないとやれない。だからデータドリブンな環境があってこそのデータサイエンスの適用。逆はありえない。

おわりに

まずはデータドリブンな組織作りを挑戦する、そして実績を積んで定着させる。そのあとに統計学機械学習に挑戦する。という流れが大事だと思う。とはいえ、上位のステージにいるから偉いというわけではなく、会社のシチュエーションに応じて最適な状態を選ぶことが大事だと思う。

もちろん、完全にこのステージごとに区切る必要はなくてうまくいっている領域で先んじて高度な技術に挑戦するのはありよりのあり。そもそも、今回はレベルを分けてみたけど実際は1つの直線上にあるもので明確にわかれることはない。

ツッコミとかご意見ありましたらTwitterなどへコメントいただけたら幸いです。

データ分析レポートで気をつけたい初歩的なこと

データ分析レポートで気をつけたい初歩的なこと

この記事はビジネスにおいてデータ分析のレポートを作成する際に気をつけたほうがよいことを自分なりにまとめたものです。間違いやすい点なんかを集めたTIPSみたいな記事になっています。 レポートの書き方そのものについては良い書籍や記事がたくさんありますのでそちらを参照することをオススメします。

この記事は以前にnoteで執筆した記事を加筆修正したものになります。

前提

データ分析のレポートでは基本構成としてIMRAD形式に則るのが良いです。IMRADとはIntroduction, Methods, Results And Discussionの頭文字を取ったもので、特に論文でよく使われる構成です。シンプルですが科学的検証に向いた形式でありデータ分析もデータを元に客観的に検証するという観点からIMRAD形式に合わせると適切に記述・検証することが可能になるので強く推奨です。逆に言えば、ビジネスのプレゼンテーションにありがちなインパクトを優先する恣意的な印象を与える方法は基本的にはNGです。

一方で、ビジネスの現場では重要な点をすぐに把握できる形が好まれます。そのため記述する形式はIMRADに限る必要はありません。私がよくやる方法は抄録を冒頭に置いてそれだけで要点をすぐに把握できるようにし、詳しく読みたい人向けに後ろにIMRAD形式で記述する方法です。要約には基本として議論を理解できる最低限の前提と手法そして重要な結果と考察を技術します。要約を書くことはとてもむずかしいです。ぜひ訓練を積みましょう。

Introduction

この章では分析の目的・背景を記述します。あなたが何を目的にこの分析を行い、何を得たいのか明確にわかるように書きましょう。目的や背景を書くときに重要なことは、データ分析では分析の結果からどんな結果を得たいのか記述することです。これがなければ分析の意味がないので当然ながら重要な事柄になります。データ分析の目的は抽象化すると下記の3パターンにわけられます。

  1. 仮説をデータから検証する

  2. 変化を検知するために定常的なデータを取得する

  3. 数字感覚を知るために探索的分析をする

手元の分析が上記のどれに当てはまるのか分類し、それを踏まえて記述するとよいでしょう。たとえば、あなたが1番の仮説検証を行いたいのであれば、どんな仮説があり・どんな検証が必要で・その結果としてどんな判断をとることができるのか書くことになります。

背景を記述する際に気をつける点として、その分析が妥当であることを明記することが挙げられます。分析を行うまでには様々な背景や先行調査などがあるかと思います。それらを記載することで分析が妥当であることを説明します。1つの課題に対して手段は複数ありますが、なぜあなたはその手法を行ったのでしょうか?この問に対して十分な回答をここに記載する必要があります。もし、背景を省略した場合はあなたの分析が必要であることが伝わらず価値を理解してもらえないかもしれません。そのような状態を避けるために背景を記載することが重要です。そして、その背景は事前に関係者と共有し理解を得ていることが望ましいです。

Method

この章では分析の対象や手法をすべて記載します。あなたがどこからデータを取得してきてどのように分析したのかわかり、再現できるようにしましょう。

基本として書くべきことは母集団の説明、データの取得方法(クエリやアンケート方法)、分析方法(特に統計的手法)です。ありがちなのが母集団に関する説明の不足です。データをどのような母集団から得たのか明記しましょう。データは取得した母集団によってバイアスを受けるため、バイアスに留意した記述が必要になります。

手法を記述する基本は5W1Hを用いた方法です。ビジネスの現場では特定の属性を対象にデータを集めることが多いと思うので、そのような事前に決めていた属性は網羅的に記述します。データの取得方法はアクティビティなどをデータベースから取得した場合は意図的に絞り込んだ条件の記載とクエリ、可能であれば生データを共有しておくと一番よいです。アンケートなど能動的にデータを取りに行った場合はいつ、どこで、どのようにして実施したのかなど可能な限り詳細にアンケート方法を記載しておくとよいでしょう。アンケートは様々な理由からバイアスが発生しうるので、なるべく詳細に実施内容を書いておくと良いです。どちらの手法にせよ、他の人が同じようにデータを取得できるレベルに記載しておくことが望ましいです。

分析方法は集計以上に統計的手法を用いた場合は明記しておくとよいです。統計的手法はいくらでも嘘の結論を導くことができるのでどんな手法を選んだのか明確に記述するべきです。とはいえ、そもそもレポートの書き方がままならないレベルの人は統計的手法を使わないほうが望ましいです。理解していない技術を使うことは思わぬ失敗を招きます。必要ならば専門家と共同して行うべきでしょう。

Results and Discussion

この章では分析から得られた結果とその考察を記載します。あなたが分析から得られたデータや統計的解析結果とそれに対する考察を書きます。

結果と考察の項を書くときに最も重要なことは客観的事実と自分の考えを明確にわけて書くことです。データ分析はデータという客観的な情報を元に意思決定することを目的としています。にもかかわらず、あなたの主観と客観的情報を混ぜて書いてしまってはその価値は失われてしまうでしょう。

特にグラフの書き方はルールや作法がありますので留意すべき点でしょう。グラフを記載する際のルールはそれを守ることによってグラフを見た人が誤解をせず適切にグラフから情報を読み取れるようにするためのものです。軸の単位やラベルを書いたり説明を記述することは最低限であり、これが不足しているグラフを描くことは避けましょう。もし図や表の書き方を詳細に知りたい方は科学コミュニティにおける書き方を参考にすると良いでしょう。

統計学的手法を用いている場合はその結論を導いて良いのか適切に検討しましょう。例えば、相関関係と因果関係を見誤ることはとても多い問題です。他にも検定の結果の受け方は一癖あるので手法を理解し記述するよう気をつけるべきでしょう。これを間違うと一気にレポートの信頼性が落ちてしまいます。

また、バイアスの存在は重要です。データは常に何かしらのバイアスの影響を受けています。結論に影響がなくても影響が無いことを明記すべきです。バイアスについて留意した考察を行うことを行ったということが重要になります。

留意点

ここまでIMRAD形式をベースにレポーティングの留意点を記述しました。ここまで読んだ人の中にはこんなにたくさんの文字を書くことは非常に労力がかかり、まるで冗長な作業のように感じる方もいるでしょう。私も以前はそう思っていました。

もちろん、このような内容を網羅的に記述することは労力がかかります。実際に、ベテランは意図的にこれらのいくつかを書かないことがあります。しかし、それはケースごとの"重点"を理解した手抜きです。レポートを見る人の関係性や分析の重要度、実験の難易度などを加味した上で省略をします。

しかし、少なくとも初心者のうちはこのような省略をおこなわず、すべてを明確に書くべきだと考えます。なぜなら、このように網羅的な記述を行うことは物事を整理し言語化する力を強くしてくれるからです。大変ですが、それでも時間と労力をかけて明確に記述することを推奨します。

初めてこのようにレポートを書いたとき、とても大変で投げたくなるでしょう。大丈夫です、私もそうでした。もしよければ3ヶ月だけ我慢してみてください。きっとあなたのスキルが進化していることを体感できるでしょう。

あとがき

この記事ではデータ分析を行ったときのレポーティングについて簡単に重要な点を述べさせていただきました。

この記事をとおして、あなたのレポートが良いものになれば嬉しい限りです。