アーフィ:『AI Conference 今のAIと、未来のAIの話』が開催されています。
インジェ:AI研究の最前線でご活躍中の理化学研究所 革新知能統合研究センター長の杉山教授をはじめ、AIソリューション開発のKICONIA WORKS社の書上様、AI教育のプラットフォームを運営するスキルアップAI社の田原様のお話を聞くことのできるという、まさに千載一遇の大注目イベントです。
アーフィ:今回も多くの参加者の皆様にお越しいただき、大盛況となっています。
インジェ:いよいよ杉山教授のご登壇です。「収集コストの低い、弱い教師データを用いた機械学習」というタイトルでお話いただきます。
イントロダクション
アーフィ:杉山教授は大阪のご出身で、当初はエンジニアになろうと考えておられたそうです。
アーフィ:メインのお仕事として、理化学研究所AIPセンターのセンター長をされておられます。
インジェ:3年ほど前に設立され、今や700人を越えるポスドク研究員が所属する大きな研究所です。
アーフィ:また、東京大学で教授もされておられます。研究室には学生が50人も。現在、卒論や修論の発表で佳境を迎えているそうです。
インジェ:さらに、さまざまな企業の技術顧問もされています。もともとエンジニア志望でおられたのもあって、応用面へのご興味も大きいようです。
アーフィ:また、杉山教授は多くの本を書かれています。スライドに載っていた本のタイトルのリストは、以下のとおりです。
スライド下部(日本語の本)
・パターン認識と機械学習 上
・パターン認識と機械学習 下
・統計的学習の基礎
・機械学習のための確率と統計
・統計的機械学習
・強くなるロボティック・ゲームプレイヤーの作り方
・イラストで学ぶ機械学習
・異常検知と変化検知
スライド右部(英語の本)
・Machine Learning in Non-Stationary Environments
・DENSITY RATIO ESTIMATION IN MACHINE LEARNING
・STATISTICAL REINFORCEMENT LEARNING
・STATISTICAL MACHINE LEARNING
・Variational Bayesian Learning Theory
・Tensor Networks for Dimensionality Reduction and Large-scale Optimization
インジェ:さらに、先ほどの田原さんのお話にもあったG検定の本「徹底攻略 ディープラーニングG検定 ジェネラリスト問題集」もありますね。
アーフィ:理研AIPセンターの説明です。正式名称は、”革新知能統合研究センター(Center for Advanced Intelligence Project)”です。
インジェ:センターの活動には5本の柱があります。まずはAIの基礎研究。そして医学や材料などのサイエンスへの応用。そのほかにもさまざまな役割があります。
アーフィ:AIの社会実装では、GoogleやFacebookのようなビジネス利用ではなく、自然災害対策やインフラ管理自動化などの方になります。
インジェ:AIへの正しい理解を広めていったり、AI人材を育成したりすることもミッションとなっています。
アーフィ:政府の「Society5.0」の中で、AIは重要なキーワードのひとつになっています。「AI ×???(何か)」の、「???」にあたるのは農業やものづくりなどですが、「AI」の部分を発展させ、現実世界との橋渡しをする(「×(掛ける)」部分)のがAIPセンターの役割です。
インジェ:AIPセンターには3つのグループがあります。
アーフィ:企業との連携も活発で、AIPセンターの中に入ってもらっているそうです。
インジェ:AIPセンターの研究拠点はコレド日本橋の15階にあります。ここは東京駅から徒歩圏内です。
アーフィ:自由にディスカッションできるスペースがあり、研究者と企業の方々との共同研究にも利用されているそうです。講演会も行われていますので、機会があれば足を運んでみられてはいかがでしょうか。
インジェ:さて、AIPセンターの話から機械学習の話に移ります。
アーフィ:機械学習には、教師つき学習、教師なし学習、強化学習がありました。Kaggleをされているようなレベルの皆様はご存知の内容ですね。
1.弱教師付き機械学習
インジェ:そして今回は、弱(じゃく)教師つき機械学習についてのお話です。
アーフィ:ビッグデータを用いた機械学習ができるところでは、人間と同等かそれ以上の性能を達成しました。
インジェ:しかし、医療や自然災害、インフラ管理などの分野では、データを簡単にとれません。
アーフィ:そこで、限られた情報からでも学習できる手法の開発が急務となりました。
インジェ:まず、2クラスの教師つき分類のケースを見てみましょう(2次分類)。
アーフィ:ここでは、青い○印で表される正のデータと、赤い×印で表される負のデータ、この2種類を分類することを考えます。
インジェ:これは、大量のラベルつきデータを用いれば、精度良く分離境界を学習できます。
アーフィ:理論的には、ラベルつきデータ数nに対し、分離境界の推定誤差は1/ルート(n)の速さで減っていきます。データ数が100倍になると誤差が1/10になる、ということです。
インジェ:しかし、全くデータがない状況を表す、教師なし分類ではどうでしょう。黒い○は正か負かわからない、ラベルなしのデータを表しています。ラベルなしデータは低コストですが・・・
アーフィ:この場合はただクラスタリングをするだけになります。近くにあるデータ同士がまとまって塊り(クラスタ)になるようなイメージでしょうか。
インジェ:データが偶然にクラスごとのクラスタに分かれていないかぎり、正しく分類できないんですね。教師なし学習を、教師つき学習の目的で使おうとしても、当然うまくいきません。
アーフィ:次に、半教師つき分類を考えます。これは教師つきと教師なしの中間くらいの方法になります。
インジェ:少量のラベルつきデータ(青、赤)と、大量のラベルなしデータ(黒)が分類できるかどうかですね。少量のラベルつきデータを生かしてうまく分類できればいいのですが・・・
アーフィ:これも、結局は教師なしの場合とほとんど同様に、ラベルなしデータがなすクラスタ構造に従って分類することになってしまいます。
インジェ:同じクラスタに属するデータが全て同じラベルであればうまく分類できるのですが、常にそのような都合の良い状況であるとはかぎりません。よって、この方法は実際の世界ではあまり動いておらず、ほとんどうまくいっていません。
アーフィ:分類問題の手法の分類です。
インジェ:この図ですが、左下に原点を取って、縦軸をラベル付けコスト、横軸を学習の精度とする見方もできるかもしれません。
アーフィ:そのようにした図の中に各分類手法をプロットしていくと、比例直線のような線を原点から引けそうです。その線を基準に右下に位置するほど効率が良い方法、左上ほど効率が悪い方法になります。
インジェ:いずれにせよ、高精度でかつラベル付けコストの低い分類手法の確立が重要です。
アーフィ:ここからが弱教師つき分類の手法になるのでしょうか。新手法1として、正例とラベルなしデータからの分類を考えてみます。
インジェ:青○(ラベルつき正データ)がいくつかと、黒□(ラベルなし、正または負)のみのケースです。赤(ラベルつき負データ)はコストが高くてとれません。
アーフィ:結論としては、青と黒だけで最適な分類が出来るようになりました。赤は1つも入りません。
インジェ:応用例としては、ユーザがあるリンクをクリックしたかどうかでそのリンクに興味を持ったかどうかを判定するケースが挙げられます。このとき、非クリック(黒に対応)は、ユーザが興味を持ったが忙しかったからクリックしなかったケースかもしれません。
アーフィ:非クリックを青か赤かに分類できるんですね。ただ、クリックの中には誤ってクリックしてしまった場合も含まれる気がします。
インジェ:なお、タイトル右下の緑の字で紹介されているのは、杉山教授のグループの投稿論文が掲載されたジャーナルになります。
・NIPS:Neural Information Processing Systems
・ICML:International Conference on Machine Learning
・MLJ:Machine Learning Journal
アーフィ:この新手法1を使いますと、先ほどの半教師つき分類が解けるようになります(新手法2)。
インジェ:赤を全部捨てて青と黒だけにして、新手法1を適用します。でもそれでは赤データがもったいないので、青と黒を分けるのと、青と赤を分けるのを組み合わせるやり方もあります。
アーフィ:一見頼りないようですが、理論的に最適であることが杉山教授の論文で証明されています。
インジェ:次はもっと難しい状況です。正クラスのデータ(青○)しか取れません。例えば、自社のデータしか取れないというケースが考えられます。
アーフィ:このケースは原理的には分類不可能です。しかし、信頼度さえわかれば、最適な分類ができます(新手法3)。95%の確率で青、70%の確率で青、などです。
インジェ:数学的には「クラス事後確率」と言うそうです。これを使えば、例えば自社データだけから他社データの分類ができるようになるんですね。
アーフィ:次に、類似データ対から分類する手法を紹介します(新手法4)。
インジェ:例えば、収入や支持政党などのデリケートな質問への回答の分類をしたいときに役立ちます。直接的な回答は難しくても、誰かと同じという形で答えてもらえれば、類似データ対ができます。
アーフィ:その類似データ対を使えば最適な分類ができるんですね。ただ、分離境界はわかっても、どちらが正か負かなどはわからないので、1個だけでもラベルを付ける必要があるようです。
インジェ:なんと、完全に教師なしでも分類できる場合があります。クラス比の異なるラベルなしデータが2セットあれば、学習可能です(新手法5)。
アーフィ:例えば、クラス比3:7のものと、クラス比7:3のものがあればいいんですね。特殊なケースですが、完全に教師なしでも解けると。
インジェ:一見情報(ラベルつきデータ)が減っているようですが、これまで紹介した新手法5つは全て、推定誤差の減少速度1/ルート(n)を達成しており、理論的に最適な学習ができていることが証明されています。
アーフィ:最後に、正負など2つではなく、多数のクラスがあるケースを考えます。例えば犬、猫、鳥、・・・などです。さらに犬にはいろんな種類があります。
インジェ:多クラスの訓練データのラベル付けは、クラスが多いほど高コストになります。
アーフィ:この場合、パターンが属さないクラスのラベルを与えるという方法をとります(補ラベルを与える、新手法6)。例えば、あるデータに対して、これは絶対に犬ではない、という補ラベルをつけます。これは低コストでできます。
インジェ:この補ラベルを利用すれば、最適な分類ができるんですね。クラスが多い場合に有効です。
アーフィ:弱教師つき学習のまとめです。先ほどの図において、高精度でかつラベルつきコストの低い分類手法が求められていましたが、ここにあてはまる方法のひとつが弱教師つき学習になります。
インジェ:限られた情報の中からなんとか分類に有用な情報を抽出し利用していくことで、高精度かつ低ラベル付けコストの学習が実現できるんですね。
アーフィ:弱教師つき学習についていろいろ論文を書かれたので、そろそろ本を出そうと思ってらっしゃるそうです。すでに出版契約済みで、「Machine Learning from Weak Supervision」のタイトルで2020年に刊行予定とのことです。
インジェ:弱教師つき学習研究の位置づけです。2次元の表になっています。
アーフィ:機械学習の手法は、学習法とモデルの組み合わせになります。
インジェ:学習法は、教師あり学習、教師なし学習、強化学習、弱教師つき学習などです。
アーフィ:モデルは、線形モデル、加法モデル、カーネルモデル、深層モデルなどです。線形モデルは簡単なので理論解析によく使われます。深層モデルは最先端で、企業での応用研究に使われます。
インジェ:arXivなどを見ればわかるように、論文があまりに多いので、学習法の研究をしている杉山教授らは、モデルの論文をほとんど見ていないそうですよ。学習法とモデルはそれぞれ独立しているんですね。
2.ロバスト深層学習
アーフィ:残った時間でロバスト深層学習を紹介します。
インジェ:ロバスト(robust)とは、強壮な、頑強な、などの意味です。ロバスト性とは、「ある系が、外乱の影響を受けて変化することに適宜対処する仕組みまたは性質を有すること」をいいます。
アーフィ:つまり、ロバスト深層学習とは、ノイズの影響を受けにくい深層学習方法ということですね。
インジェ:「ノイズに弱い」というケースには、ノイズを含む訓練データに過適合しやすい、ノイズを含むテストデータの影響を受けやすい、の2種類があります。
アーフィ:以下の論文(Attacking Machine Learning with Adversarial Examples|OpenAI)に、パンダ画像などでの誤認識の例が紹介されています。
インジェ:人間が見るとほとんど変わらないのに、AIは誤認識してしまうんですね。
アーフィ:自動運転の車で、道路標識の誤認識をしてしまうととても危険です。
インジェ:そこで、ノイズに対してロバストな深層学習方法が求められるようになりました。
アーフィ:こういった問題は、1970年代から「ロバスト統計」としてずっと研究されてきています。ただ、昔の学習法では学習結果に対して評価していました。
インジェ:現在の深層学習では、確率的勾配法を使って、徐々に学習していくアプローチをとっています。つまり、学習結果よりも学習プロセスのほうに注目しています。
アーフィ:深層学習は、ノイズの少ないデータを早く学習する傾向があることが経験的にわかっています。つまり、学習を早めに止めれば、ノイズの少ないデータと多いデータに分けられます(アーリーストップ)。
インジェ:これを2つのニューラルネットワークAとBを使って行います。そうするとAとBそれぞれでノイズが少ないと判断したデータが得られるので、それを互いに教え合います(Co-teaching)。
アーフィ:これをニューラルネットワークAとBで何度も繰り返すと、深層学習のノイズ耐性が大幅に改善されます。
インジェ:ただ、これは経験的な方法であって、まだ理論的な証明はされていません。また、この方法よりもさらにいいアイデアも考え出されているようです。
アーフィ:ベイズの深層学習では、予測値の信頼度がわかります。
インジェ:この学習での適合のよさを測る距離尺度に、二乗誤差ではなく、新しくロバストな距離尺度を用いました。これによって、深層ベイズ学習の訓練データの入力と出力に含まれるノイズに対するロバスト性が大幅に改善されたそうです。
アーフィ:最後にテストデータの話です。テスト入力にε程度のノイズがあっても出力の値が変わらないようにしよう、というのが目標です。
インジェ:ニューラルネットワークの関数のなめらかさを増すように学習させるんですね。
アーフィ:各レイヤーごとのリフシッツ定数を計算していくと、深層モデル全体のリフシッツ定数がわかります。そのリフシッツ定数が小さいものが、よい学習法といえます(リフシッツ・マージン学習)。
3.まとめ
インジェ:まとめと今後の展望です。
アーフィ:過去には人工知能とニューラルネットがばらばらな時代がありました。その後、その2つが手を取り合ったことで機械学習が発展しました。将来的には汎用人工知能につながっていくでしょう。
インジェ:ある程度のことができるようになった一方、できないことは相変わらずできないままだったりするようです。機械学習もまだまだ人間のような高度な知能とは雲泥の差があります。
アーフィ:ただ、そのギャップを埋める新しい方法はどんどん出てきています。難しい問題をよりかんたんな方法でできるように、最終的にはビジネスに生かせるように、これからも研究を続けていかれるそうです。
インジェ:日本が世界に遅れないように、とのお考えもお持ちです。2017年11月の記事ですが、杉山教授のコメントが載っている記事(AIに強い国・地域・大学はどこ? AI関連の論文を発表した大学が最も多い10カ国とは|ZUU online)がありました。
アーフィ:国際レベルで通用するAI研究者を育成する必要があるんですね。
質疑応答タイム
インジェ:続いて質疑応答です。多くの質問が寄せられました。
Q1 EDA(探索的データ分析)をして、データの素性を可視化した後、その後はどう前処理をする?と思ってしまいます。何かコツや、注意するとよい観点はありますか?
杉山教授:データを与えられたら、まずは盲目的に調べて肌感覚をつかもうとします。
データがたくさんあるなら、最初からディープラーニングにかけることもあります。やっているうちにわかってくることもあるので。どれぐらいの次元かにも依存しますが。その泥臭いサイクルをいかに早く回せるかだと思います。
Q2 どういう影響で結果が変わってしまったのか(ノイズの影響を受けてしまったのか)というような解析を行うための手法などはあるのでしょうか?
杉山教授:結果が変わるとは、テストデータの話でしょうか。例えば自動運転では事故が起こらないように、そういう結果が出ないように事前に防ぐ必要があります。
命に関わるようなこともあるのでミスは許されません。ただ、100%は難しいので、ミスが起こったときにどうするかも考えておかないといけません。倫理や法律など、技術の話だけでは解決できないようになってきたと感じています。
Q3 レコメンドの研究はされていますでしょうか?結局ABテストを行うことでしか評価ができず、リリースまで持ち込む根拠を示すことが難しくて困っています。
杉山教授:レコメンドの研究はやっています。
ABテストできない場面もありますね。同じ人に広告を打った場合と打たなかった場合の比較など、一方を観測するともう一方を観測できなくなるという因果推論のパラドクスがあり、一見解けないように見えます。ただ、少し問題設定を工夫すると理論的に解ける場合があります。
レコメンドのアルゴリズムを作るのと、ABテストをやらなくていいというのは研究レベルでは別々の話です。それぞれ、それなりの解法が出てきています。
Q4 半教師つき学習は、異常検知にも適用できますか?
杉山教授:先ほどの、正のデータとラベルなしデータだけから学習するというのは、ほとんど異常検知と一緒です。正のデータが正常、ラベルなしデータが異常または正常、ということですね。
異常検知そのものはもう少し簡単な方法で解けます。我々の作った方法がいろんな企業などで使われています。
Q5 理研にはAIの研究者は何人いますか?
杉山教授:たくさんいますが、出身はさまざまです。コンピュータサイエンス以外では、数学や物理、バイオ、医学など。コンピュータサイエンスの学生自体が圧倒的に少なくて、しかも優秀な学生は産業界に行ってしまいます。
今はいろんな学科で数学やプログラムの勉強をやるようになってきているので、5年10年すれば両方わかる人が増えてくるのかなと期待しています。アメリカではすでにほとんどの学生が文理に関係なく統計やプログラムの授業をうけるようになっています。
理研の研究者を増やしていけるよう、努力を続けたいと思っています。
アーフィ:内容的に少し難しいところもありましたが、とても興味深い内容でした。杉山教授ありがとうございました。