最後はトークセッションです。参加者の皆さんから寄せられた質問に対して、お時間の許す限りご回答して頂きました。

目次

データサイエンティストの最も必要な適正とは?

田中様:与えられた仕事の範囲を決めないことです。「どうしたら広げられるか」を考えることだと思います。今は与えられた問題を解くというものが主流で外側を解く人、内側を解く人に分かれています。これは非常に危険なことです。

コンウェイの法則によると「組織そのものが設計できたプロダクトを決めてしまう」つまり、そのつくり方をしていると最適なプロダクトを作れない可能性があるということです。やはり両方を理解する事によってより適切なプロダクトができるのではと、いつも疑っていくべきかと思いますね。

辻様:僕は事業会社の立場から考えるとデータサエインティストがデータサイエンスにコミットするのではなく、事業にコミットするのが大事かと思います。例えば何かの検定を行なっていて、帰無仮説が棄却されたとしても、その後どうやってフォローしていくのか? 次の手段を考えて進めていかなければならないと思っています。

AIの民主化の話もありましたが、今後数年間あると思いますか?

田中様:狭義のデータサイエンティスト、つまりアルゴリズムをただ実装するだけという人はどんどん価値は減っていくのかと思います。逆に深堀していく人は生き残るかと思います。より外側に広がっていける人のニーズは高まっていくかと思いますね。広げている人ならまだまだ続くと個人的に思っています。

辻様:同意見です。民主化できるということは自動化できるということで、インターネットもそうでした。使いこなしやすいフレームワークが登場し、Cloudのプラットフォームが台頭、それらから見ても、自動化されているところが民主化されていくというのが大きいと思います。

その点でドメイン知識が大事だと思っていて、そのドメインに対してどういう分析を局所的に分析していくのかということができる人はこれからも必要不可欠な人となると思います。

デーサイエンティストの適正年収は?

田中様:今は比較法で決まっていることが多いと感じます。私自身は絶対基準で決めるべきだと思います。昔、チーム5人で年間15億円儲けました。「これぐらいもらっていいですよね?」と会社に交渉できました。これは特殊なケースなので、実際は自分の作ったプロダクトがお客様にどれだけの価値を与えたか、皆さん考えていますか? 「私はこういう技術があってこういうことができます、これだけもらっていいでしょう?」 という人は厳しいと思います。最終的な価値を理解して「その価値を生んだから自分はこうあるべきだ」と主張できる人はどんどん年収が高くなるべきで、そうあってほしいと思っています。

辻様:かっこいいですね。僕もそうありたいと思います。MLエンジニアの年収は高いイメージがありますよね。実際はみなさんが考えている程ではないです。デリの服着てそんなことを言うのは憚れますが(笑)。

インフラ、サーバーサイドの知識で有益なものや使用されているスキルはありますか?

辻様:データパイプラインやストリーミングパイプラインは、海外のデータドリブン企業、ストリーミング配信している企業NetflixやSpotifyでは、非常に有用な知識だと考えられています。分析力よりも「データをいかに効率よく適切な場所にトランスポートしていくのか」というものが非常に重要な知識になるかと思います。

もし組織がデータよりも出資者と一部のキーマンの意見を尊重する傾向がある場合、どう立ち振る舞いますか?

田中様:実際に起こり得ることだと思います。以前の私は「データでこう証明できるから、こうあるべきだ」と押し通し、『北風と太陽』(イソップ物語)の北風作戦を敢行しました。しかし結果的にそれはうまくいきませんでした。考えるべきは一部のキーマンや出資者、権限を持つ人たちが「どうしたら喜ぶのか?」それを精査し、その人たちに合うものをデータとして示し、それを証明することによって、結果的にはデータが認められるという、小さい成功を重ねていくべきだと思います。

辻様:そうですね、僕も社長の堀江と話します。ビジョンのある人は、ビジョンに突き進みたいという気持ちが強く、僕らはそれに引っ張ってもらっているという実態があると思っていますが、一方でそういうものをフォローしていくというのはエビデンスとしてのデータが重要であり、堀江もそう考えています。同じ思いのステークホルダーに出会えたことは「良かったな」と思う一方で、もしそうでなかったら、そのような方向に自分が導くべきだ思います。

新しい事業でデータサイエンスはどのフェーズで必要になりますか? 

田中様:初期段階に「データサイエンスで解ける問題なのか」と見極めるのが非常に重要だと思います。私は最初から入ることをお勧めしています。最初から問題が出来上がっているところで「これを解いてください」というと「解けません」となりかねません。なるべく早い段階で入ることをお勧めします。最近、気が付いたことに「プロジェクトを始める前に4割決まっている」ということです。問題の整理、どういうパーツを組み込んでいいか、顧客のニーズを正確に整理した時点で、早期に入った方がリスク少ないと思います。

辻様:先ほどのスライドで説明しましたが、イベントデザインファーストに近いと思いました。作る前に「どのデータを取りたいのか」をデザインしていくことによって、その結果に対し、アタッチも早くなると思います。そこでUIデザイナーやディレクターと話す中で、啓蒙もできるかと思うので、早い段階で入るようにしています。

データサイエンスを使って今までどのような課題を解決してきましたか? どのような改善ができたのか? 事例を知りたいです。

田中様:コンビニのファーストフードをどのように作るのか? ロジックで考え、これだけ売れたら、これだけ作る、それ自体の価値はありましたが、実際コンビニの方がオペレーションで行なったら作成個数指示アプリを見すぎて、作業効率が下がってしまったので、結果的に「もっと簡単なものを作れ」とダメ出しされたことがありました。

エンタメ系ではカラオケ店の話ですが「友達同士で同じカードを出す」という情報を使い、誰と誰が友達なのか、その中心は誰で、カラオケの行動を決めているのか、それはうまく当たり、安定的でした。また中部電力の話では、どういう電力を使ったのか、機械的にどの電力なのか、それらを当てるようなロジックが一般的でした。実際は「エアコンを使った」というアノテーション(あるデータに対して関連する情報を注釈として付与することすること)によって、正確なものが出ると、提案し、学会で発表したところ「それは面白いね」と学会で評価されました。

ダイナミックプライシング(市場の需要に応じて価格を変える方法)でもデータサイエンスは有用で、値段を上げることによって「お客様が買うのか買わないのか」確率を計算することによって、どの値段まで上げることが適切なのか、適応します。

辻様:パーソナラズの部分で話しますと、ユーザーの行動データからその人の生活サイクルが見えてきます。レシピの情報からその人の嗜好性をレコメンドで使い、サムネールがCTRにどのくらい寄与しているのか調べます。再生数が同じようなレシピの構成をしているものがふたつあったとして、一方では再生数が高い、こちら低い、それら二つのサムネールを見比べると、顕著な成果が出ました。また何かタイアップしたい商品があり、例えば「紫色のパッケージのラーメンを販売したい(誰が食べたいのか? そんなものは無理です!)」と言い出せない場合「こういう色味の、こういうデータがあり、売り上げが伸びるみたいですよ」と忖度したアプローチで相手を説得できます。後方支援とプロダクションの両方で使えますね。

プロジェクトに対してどのようなデータが必要か、見極める力はどのように身につけましたか?

田中様:私は「データを見てはいけない」と思っています。「何が観測できるのか」を見なければなりません。どういうことか? 小売り在庫管理の最適化をしてほしい場合、ユーザーが在庫の中で商品を選択するプロセスが観測できるものです。ユーザーの商品選択はランダム性を持つ中で、我々は在庫管理を考えなければならないのです。

辻様:過去にEDAスクラムで出した、コンクルージョンを参照しながら、この時にこういう結果が出たので「このベクトルは使えるか?」のような感じで進めています。

質の高いイシュー、解くべき課題を見つけ出す上で決定的に重要なことは何ですか?

田中様:機械学習を使い解けたことで「確実に価値が出たのか」という点が重要です。例えば工場で「人がオペレートしている作業を99.999%、機械学習で可能か?」という問い合わせがありますが、まず低性能なものを作って、徐々に性能レベルをあげて、ニーズを満たすレベルの壁を越えなければいけません。それを認められない業界を私はお断りしています。期待値に対して「コミットできるものなのか」といつも気をつけています。

辻様:質の高いものを納品しないといけない田中さんとは違い、僕たちはそこまで質を考えなくても、フィードバックループを先に作り、「どういうデータになっているのか」を得ていくところに着目し、徐々に質をブラシュアップしていくアプローチです。

データサイエンスを活かしづらい不得意なジャンルはあるのでしょうか?

田中様:「機械学習でいい答えが出るのでは?」のような、本質がなさそうなものに試すのは危険だと思います。

辻様:「汎用的な問題に対しては苦手なのでは?」というイメージがあります。全てに対して同じように解を導こうとすると局所解に陥り、うまくいかないことがあるのかと。だからこそ限定的な課題として限定することが重要かと思っています。

データサイエンティストが所属する部署はどこが最適でしょうか?

田中様:今は圧倒的にマーケティング部ですね、お客さんに近い方が価値を出しやすいと思います。ただお客さんに会いに行くことではなく、その辺のバランスをうまく取れるような仕組みを作るべきだと思います。

辻様:弊社の場合、開発部の中にUXデザイナーがいます。彼らにも統計的なエビデンスを見せたりもして理解を得ています。UX部門はこれから活用できる部門だと思います。

データサイエンティストのこれからの時代、どんなロードマップが考えられるか? CTOでしょうか?

田中様:CTOのようなポジションはプロダクトサイドの考え方で、私のような立場だと組織の方にのめり込み、結果的にデータサイエンスする以上に組織を作りたいと考えます。

辻様:弊社のCTOはこの間「CTO譲ります」とtweet投げバズってました。彼がノートに書いていたのは「これからはデータドリブンの時代なのでエンジニアリングとデータサイエンスとソフトウェアの知見と、全てを持ち合わせている方にお願いしたい」と。そういうロードマップをお望みの方なら是非うちのCTOになってください(笑)。

自分以外のデータサイエンティストを育てていく上で気をつけるべきポイントがあれば教えて下さい。

田中様:「でき上がったロジックを知りたい」と皆さんいいますが、それは本質的には意味はありません。ゼロの地点からロジックに至るまでに毎回色々な選択をしてそこに辿り着くことが重要です。「どのようにしてそこに辿り着いたのか」と考えられる方だけが問題点を理解して次に進めると思います。

辻様:今、インターン二人の面倒を見ています。二人とも特長的な性格の持ち主で「三度の飯よりKaggleで遊んでいる方が好き」というタイプと「健康が一番大事です」といいオーガニックな食事をとるタイプです。彼らの特性に合わせてフォローしていくような形で取り組んでいます。

定期的にチェックしている情報源の具体名を教えてください

田中様:私は日経新聞が大好きです。ネットは自分の読みたいものしか取りに行きませんが、新聞は他に知っているともっと価値がでるものがあると思います。Kaggleは自分ではしませんが、過去4年分何が起きているのか、変化の衰退と進化に興味があり、古いロジックから新しいロジックに代わっていくプロセスを見るのが好きです。

辻様:僕は数学が好きなので昔からアーカイブを見ています。アーカイブをいくつかサブスクライブして論文を見ています。後は田中さんのような知見をお持ちの方に自分から出向いて、いろいろ教えてもらい、知見を得ています。

最後に

田中様:最後に辻さんに感謝したいことがあり、何回かこういうイベントで辻さんとお話して「いい人いるな」と思って、私もこういう人と会えるなら、こういう場で話す義務があるなと思い、その後、弊社にSageMakerのスペシャリストとして朝の9時にわざわざ来てもらい、1時間ほど教えてもらっています。

辻様:本当です(笑)。SageMakerが本当に好きで皆に使ってもらって「凄いね」といわれると嬉しいです。でも僕はAWSから何も見返りを貰っていません。

田中様:でもSageMakerに「こう変えて下さい」とリクエストすると変えるぐらいのインパクトを与えているので凄いと思います。実際に変えたところもありますよね?

辻様:当時バージニアリージョンしか使えなかったのですが、そのバージニアリージョンの時代から使っていて、思うことが色々あったので、先方のプロジェクトマネージャー に話したら「それはいいね!」と採用されたことはありました。

田中様:本当に凄い人です。この場を借りて感謝したいと思っています。ありがとうございます。

以上で今回のイベントは終了です。いかがでしたでしょうか。キャリアや立場の違いはありながら、データサイエンティストとして強く繋がるお二人のお話を興味深く聞くことができました。ありがとうございます。それではまた次回、お会いしましょう。

今すぐシェアしよう!
今すぐシェアしよう!