アンジャッシュの渡部さんと⾷ベログがコラボしたグルメサイト「わたログ by 賢者の⾷卓」の新機能である「グルメ王 渡部の AI」に関するシステムを開発するなど、様々なAIソルーションで業界内外から注目される株式会社KICONIA WORKSの田中様にご登壇いただきました。

テーマは「データサイエンティスト20年から見た 生き残る人材とプロダクトとは」です。 レポートするのは今回のイベントで司会を務めたアイデンティティーの川野がお贈りします。

田中様:これからお話しすることは、この機会を頂いた時に何を皆さんに価値を与えられるか考え、初めて考えをまとめ、初めて発表するものとなります。テーマタイトルに反しますが、元々データサイエンティストは20年間も存在していません。昔から同じ仕事をしていながら5年前に大手AIベンチャーに入社したとき「あなたの仕事はデータサイエンティストという名前です」と言われ、これを聞いた時に驚き「恥ずかしい名前をつけられた」と思いました。しかし「職業は何ですか?」と聞かれた時、名前がついて「ありがたいな」と思いました。

挨拶に続き本日のテーマについてお話しして頂きました。

田中様:プロジェクトで色々作ったとしてもPOCを回した後に本当に使われていないと思うことがあり、私の経験から「こうするとメンテナンス性の高いプロダクトになるのではないか?」と思うことがあります。そこから「長期で生存できるプロダクトとは」と考えをまとめました。もう一つは「データサイエンティストのキャリアはどうなるのか?」から考え「長期生存できるデータサイエンティストとは」というテーマについてお話しします。

逆相関するグラフ

続いて田中様のキャリアの20年間を振り返ります。キャリアのスタートは日本の大手証券会社、その後外資系の会社に入社し給与面でも順調に進んでいったとのこと。ですがお金が儲かり、満足することによってオレンジの線(進歩)が下に向かっていきます。

その後、自分の進歩が低迷して会社を辞める機会があり給料が30分の1に。そこで「これで終わりたくない」と決心し急に進歩したそうです。そして「満足と進歩は逆相関」と力説しました。年収で満足している時期には進歩がなくなっているのが分かります。下記の図をご覧ください。

KICONIA WORKSの田中様

以下、理解を深めるために田中様の言葉を引用します。

田中様:ここで満足したタイミング(青の直線)とは「自分が作ったデータサイエンスのプロダクトを十数年間続けたということ、そしてノウハウとして学んだこと」であり、次に進歩しているタイミングで「データサイエンティストとして長期で生存するためにどうするのか?」ということを考えました。今日は自分の体験から話せる話をしたいと思っております。

キャリア

ここからまた興味深い証券会社時代の話に戻ります。株式の全自動取引は田中様の発案によるものです。FAX利用の取引が中心だった時代に取引を全自動で考えていることはバカにされましたが、データも豊富にあるので「ロジックを作れば少人数で利益がでる」と確信し、作ったそうです。

結局は成功し、毎日ボタンを押すだけで1000万円ぐらい儲かる日々。当時、田中様は考えました「こんな人生いいことあるのかな」と。それからスイス本社から要人が来て「あなたのノウハウは貴重だから誰に話せるのか決めます」とチーム3人以外に話してはいけない厳しい規制が入り苦労したとのこと。10何年間で100億円以上利益を出し順風満帆だったのですが、実はうまくいっていないところがあったそうです。

それはHFT、コンピュータを利用して頻度の高い取引「ハイフリークエンシートレード」を悪とする風潮です。2013年末に出版された本「FLASH BOY」がきっかけとなりました。そして事業は撤退。当時、田中様はチームのヘッドだったので辞職します。

そこで田中様は「私がしたことは、お金を儲けたけど社会に何も残せなかった」と後悔したそうです。その後、大手AIベンチャーに入社。小売の分析や業界の分析をして、日々進歩を実感できたそうです。そして昨年10月にKICONIA WORKSに入社します。

長く生存できるプロダクトに至るまで

今回のテーマのうちの一つ「長く生存できるプロダクトに到るまで」の話に移ります。実際にあった怖い話もあり、臨場感も含め田中様の言葉を引用します。

田中様:データサイエンスで作ったプログラムは本当に更新を続けなければいけません。もちろんテストもしなければなりません。私がいた業界はバグひとつでゲームオーバーになる世界です。

例えば、アップデートしたところを間違え、10秒間で3000万円損して「やばい! 止めろ」と叫び、止めて確認したらバグっていました。止めなかったら数億円の損していたでしょう。そのようなことが何回か起こり、その時は「損した分、稼ごう」と思いました。

これは別チームの話ですが、もっと大きな例としてFacebookがナスダックに上場し、もの凄い注文が殺到した時のことです。注文を捌(さば)ききれなくて、アクノレッジ(注文書)を返せない状態でした。そこで、アクノレッジが返ってこなかったら、もう一回注文を出すという1行のプログラムを書きました。

何度も注文を出すロジックです。結果的には全てをトレードしてしまい、一瞬で350億円損しました。プログラムの一行で350億円損する世界です。そういう中で生きてきました。毎日いくら儲けても一瞬のバグで350億損する可能性がある、かなりストレスの高い仕事です。

そこで自分の気づいたやり方に「柔軟性を持った更新」と「安全なアウトプット」の間にあるレイヤーを厳しく作ることです。そうすれば前半の部分でバグっていても止められます。これで十数年間、大きな損をせず済み、スッキリ眠れる状態ができました。これがデータサイエンスで作ったプロダクトが生き残るために必要なことだと思います。

メンテナンス性重視

もうひとつにメンテナンス性を重視したことに触れています。これによって技術負債の少ない長期実用化できる データサイエンスを目指しているそうです。

以下3点が具体的な施策です。

⚫ 動きが理解できる

⚫ 必要以上に複雑にしない

⚫ 分割評価にこだわる

分割評価を可能にする

下記の図は、上記の分割評価についてです。

分割評価を実務の中でいかに作っていくか考え、そのバグを作らないようにするのが技術的負債をなくす方法だそうです。

さらに分割評価の具体例を説明して頂きました。

具体的には売上予測をしたいとします。売上=購入人数×平均単価です。

その場合、売上予測は2通りあります。

A方式:売上を直接予測

B方式:購入人数と平均単価を予測

具体例を挙げて頂きました。

田中様:私はB方式を推薦しています。それは購入人数と平均単価は個別で観測可能だからです。範囲を2分の1で観測できます。二つに分けることによって売り上げが思ったほど良くなかったときに、人数(購入人数)がおかしいのか? そうなると「競合店のオープンで人数が減った」と考えるかもしれません。

また平均単価の問題として商品が不人気で単価が減ったと考えられます。しかし、これらを分割せず売上だけで予測すると分からなくなります。まさに大海でダイヤを探すようなものです。

長期生存できるデータサイエンティストとは

続いては本日のもう一つのテーマである「長期生存できるデータサイエンティストとは」です。下の図をご覧ください。

狭義データサイエンスとはアルゴリズムを選択・実装することとします。しかし顧客課題全体でみてみると3割程度とのこと。外側(外部)の人材や両方こなせる人材が育っていないそうです。中の核の方のロジックが育ってデータサイエンス業界を引っ張っているのは事実ですが、核の中は元々企業の人が作ってくれたプログラムであって、その問題を作ること自体、非常に技術が必要になってくるとのこと。どのように残りの70%を埋めていくのか? それは重要なノウハウだと思っているそうです。

続いてはその70%を埋めていく、実践的なノウハウを聞いてみましょう。

田中様:そこには3つの段階があって、まず一つ目は「解るべき分野の発見」。自分は何が解らないのかわからなければなりません。二つ目はそれを発見した時にそれが重要かどうか(重要性把握)。三つ目はそれを学習する。これを繰り返すことによって自分のできることが増えてきます。

何が難しいかというと自分ができると思っている認識と実際にできている事実のギャップが障害となり進歩が始まらないことです。認識で「できる/知っている」が事実としては「できない/知らない」、世の中にはこういった障害が多く存在します。これは「なぜ人と組織は変われないのか――ハーバード流 自己変革の理論と実践」ロバート・キーガン(著)を参考にしました。

イノベーションを知っているつもりだった自分

田中様は上記のギャップを通し改めて「イノベーション」とは何かを考えました。イノベーションを知っている自分はいるが、なぜイノベーションは生まれないのかと思っていたそうです。結局は自分がイノベーションを理解していなかったとのこと。

そこで「イノベーションのジレンマ」クレイトン・クリステンセン (著)を読んで反省したそうです。いくつかのクエスチョンマークの中で、これは正しい認識の疑問と理解しました。また「ジョブ理論 イノベーションを予測可能にする消費のメカニズム」クレイトン M クリステンセン, タディ ホール他(著)を読んで技術重視から顧客ニーズ重視へシフトしたとのこと。この2冊から結果として顧客ニーズ重視で、イノベーションを起こそうとしていなかったと気がついたそうです。

本から学んだことは他にもあるとのこと。AIプロジェクトでどうすれば顧客満足度を高められるのか? これに対する疑問は「トラスト・ファクター〜最強の組織をつくる新しいマネジメント」ポール J・ザック(著)から「信頼×目標=やりがい。それがお客さんの満足度に70パーセント程関わりがある」といことに気がついたそうです。

次の疑問、AIプロジェクトに適した組織はあるのか? これについても本を挙げられました。「学習する組織――システム思考で未来を創造する」ピーター・M.センゲ(著)、「チームが機能するとはどういうことか――『学習力』と『実行力』を高める実践アプローチ」です。

続く疑問、プロジェクトとプロダクトの関係は? でも本を挙げられました。「エンジニアリング組織論への招待 〜不確実性に向き合う思考と組織のリファクタリング」広木 大地(著)です。疑問を掲げながら実際に読むとより思考を深められると思います。

学習方法へのこだわり

下図は多くの読書量から答えを導き出すスタイルを可視化したものです。ラーニングピラミッドとして説明して頂きました。

図を見ると最下部の「人に教える」が一番いいみたいです。田中様は、ポストイットを貼りながら読書して、まとめノートを作り、社内で発表するとのこと。このやり方で、50,60冊読み、まとめて話すことで、自分の中にインデックスができたそうです。

解るべき分野の広がり

こういったことを通して解るべき分野が広がり、結果下記の図のようになったとのこと。顧客課題の70%部分(薄い青部分)は個人レベルでの埋め込みはできているそうです。これを現在、田中様は会社全体で行なっています。

本日のテーマ

最後に結論をまとめます。

長期生存できるプロダクトとは?

メンテナンス性を重視

長期生存できるデータサイエンティストとは?

残り70%領域を探索して埋めていける人

プレゼンは以上となります。私事で恐縮ですが70%領域(組織論、スタートアップ等)を埋める具体的な手段も分かり、データサイエンティストについて理解を深めることができました。

最後に質問タイムに移ります。会場の皆様からの質問に対し、時間の許す限り応えて頂きました。

質問タイム

数学的な素養はどの程度求められますか?

価値として出したいのはお客様のニーズを掴む事だと思います。お客様のニーズは2種類あり、お客様のレベル、スタート地点をはっきりさせること、お客様のエンド地点、こうありたいというものを明確にすることです。

それらが明確にならないと不確実性の三つが起こります。実のところ技術不確実性は問題ではなく他の二つ、お客さんの作りたいものが定まらず「こんなんじゃない」と失望させるリスクつまり目的不確実性、もう一つはお客様が思っていることがうまく伝わらない通信不確実性、この二つの不確実性がPOCに影響があります。

いかにこれらを減らすかということが本当に重要です。これを理解する方が数学を学ぶより重要だと思います。数学ができる人いればその人に任せればいいと思います。

データサイエンティストと機械学習エンジニアの違いは?

機械学習エンジニアの方が狭い範囲で求められたプラグラムをいかに早く作るかということで、データサイエンティストはもう少し広いエリアで何らかのロジックを選択したりすることも含まれているのかと思います。明確な定義は分かりません。個人的な認識です。

株全自動取引はどの言語を使用しましたか?

C++です。作った当初、東証は4秒に1回の更新でしたが、2010年になってミリセカンドに変わり、今はマイクロセカンドになっています。当時を考えるとC++しか考えられませんでした。

この後トークセッションもございますので、引き続きお楽しみください。

今すぐシェアしよう!
今すぐシェアしよう!