東北大学AIE - 機械学習中級編とAzure紹介

dahatake 773 views 62 slides Feb 16, 2021
Slide 1
Slide 1 of 62
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58
Slide 59
59
Slide 60
60
Slide 61
61
Slide 62
62

About This Presentation

機械学習のモデル作成は、多くの試行錯誤の中で行われ、終わりが見えません。直近数年は、更に効率的にモデル作成
を行う研究やそれらの実装が進んでいます。機械学習自身がブーム的に扱われがちであるが故、研究や�...


Slide Content

機械学習 中級編 と Azure - Cloud による最適なコンピューティング環境 - 畠山 大有 | Daiyu Hatakeyama | @dahatake Architect && Software Engineer && Applied Data Scientist ( 目指している ) Microsoft Japan 東北大学人工知能エレクトロニクス卓越大学院プログラム

AI への 過度の期待 と失望 研究 と ビジネス を関連付けられる人材の不足 Deep Learning の Project は、現状 非常に 高コスト

最近の潮流 Data Science and ML platforms Collaboration Acceleration Automation 1,000 を超えるモデルの展開と管理のための 自動化されたワークフロー GPT3 に代表される、複数 AI モデルの融合と トランスファーラーニング NLP 、リコメンデーション、 Many-Models の様な 構成可能で再現可能なレシピ ML の実践に貢献する複数ロールのための ツールとプロセス
複数のステークホルダーによる倫理的使用を保証する堅牢な責任ある AI アプローチ エンタープライズグレードのデータとモデルの ガバナンス / セキュリティ モデルの運用化を加速する MLOps の台頭
強化学習、 AN 、合成データなどの高度な技術 複数クラウド での トレーニングと推論

Microsoft AI

- 最新のアナリティクス・機械学習ツールの外部評価 - 2018 年 - 2020 年の大幅なアップデートにより、 2020 年最新の調査で「 Market Leader 」の評価を頂きました

Azure AI a b Cognitive Services Knowledge mining Machine Learning

The 80:20 Rule for AI Azure Machine Learning Develop Your Own Model 20 https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/technology-choices/data-science-and-machine-learning https://medium.com/microsoftazure/9-advanced-tips-for-production-machine-learning-6bbdebf49a6f Use Pre-trained Model 80 Azure Cognitive Services

Tool を知る価値 数年前だと … コンサル費用 数千万 + 数か月 誰でも数分でできる 襟あり RALPH LAUREN Cognitive Services Custom Vision

非構造化データ NLP, Vision, IoT など 構造化データ DB 格納、 CSV など 全てのスキルレベルの方向けの Studio Notebooks Automated ML UX Designer 科学的アプローチと変化への対応などための MLOps Reproducibility Automation Deployment Re-training 豊富なコンピューティング環境 CPU, GPU, FPGAs IoT Edge Apps REST Endpoint: ACI, AKS など Batch : SQL DB など Model Export: ONNX など Analytics Azure Synapse Power BI など Azure Machine Learning モデルの構築・展開を、個人から企業レベルでも

Automated Machine Learning

この車の妥当な価格は ?

Mileage Condition Car brand Year of make Regulations … Parameter 1 Parameter 2 Parameter 3 Parameter 4 … Gradient Boosted Nearest Neighbors SVM Bayesian Regression LGBM … Mileage Gradient Boosted Criterion Loss Min Samples Split Min Samples Leaf Others 30% Model Which algorithm? Which parameters? Which features? Car brand Year of make モデルの開発には、多くの 試行錯誤 が必要 …

Criterion Loss Min Samples Split Min Samples Leaf Others N Neighbors Weights Metric P Others Which algorithm? Which parameters? Which features? Mileage Condition Car brand Year of make Regulations … Gradient Boosted Nearest Neighbors SVM Bayesian Regression LGBM … Nearest Neighbors 50% Model 繰り返し 30% Gradient Boosted Mileage Car brand Year of make Car brand Year of make Condition

Mileage Condition Car brand Year of make Regulations … Gradient Boosted Nearest Neighbors SVM Bayesian Regression LGBM … Gradient Boosted SVM Bayesian Regression LGBM Nearest Neighbors Which algorithm? Which parameters? Which features? 50% 30% 70% 30% 45% 50% 65% 95% 35% 10% 75% 20% 70% 30% 15% 繰り返し Regulations Condition Mileage Car brand Year of make

データセット 目標設定 学習の一貫性 出力 入力 アンサンブル学習 仮想マシンの自動起動・オートスケール 学習過程の可視化・モデルの説明性 ( 解釈性 ) ベストなモデルの選択 25% 25% 25% 25% 25% 25% 40% 40% 40% 40% 40% 70% 70% 70% 70% 95% Optimized model 95% Automated Machine Learning 分類・回帰 ・ 時系列予測 ONNX サポート

ジョブ出力例

内部で行っている事 User inputs Feature engineering Algorithm selection Hyperparameter tuning Model Leaderboard Dataset Configuration & Constraints 76% 34% 82% 41% 88% 72% 81% 54% 73% 88% 90% 91% 95% 68% 56% 89% 89% 79% Rank Model Score 1 95% 2 76% 3 53% … Data Clearing Model Explanation GPU GPU Job Management Container Packaging VM Auto scale Ensemble Learning “ HyperDrive ” Logging for Visualize

内部で行っている事 User inputs Feature engineering Algorithm selection Hyperparameter tuning Model Leaderboard Dataset Configuration & Constraints 76% 34% 82% 41% 88% 72% 81% 54% 73% 88% 90% 91% 95% 68% 56% 89% 89% 79% Rank Model Score 1 95% 2 76% 3 53% … Data Clearing Model Explanation GPU GPU Job Management Container Packaging VM Auto scale Ensemble Learning “ HyperDrive ” Logging for Visualize インフラのベストプラクティス 機械学習のベストプラクティス

深層学習でも User inputs Feature engineering Algorithm selection Hyperparameter tuning Model Leaderboard Dataset Configuration & Constraints 76% 34% 82% 41% 88% 72% 81% 54% 73% 88% 90% 91% 95% 68% 56% 89% 89% 79% Rank Model Score 1 95% 2 76% 3 53% … Data Clearing Model Explanation GPU GPU Job Management Container Packaging VM Auto scale Ensemble Learning “ HyperDrive ” Logging for Visualize インフラのベストプラクティス 深層学習のベストプラクティス

Automated ML Data Preprocessing Feature Selection Algorithm Selection Hyperparameter Tuning Model Recommendation Interpretability & Explaining データの クリーニング Feature の選択 ジョブの並列実行と合わせて 設定範囲の中で、何を選択して 何を選択肢から除外するか 精度と 実行速度も 加味 そのモデルに影響のあった Feature は どれだったのか ?

Deep Learning BEAT BiLSTM ForecastTCN

Deep learning Auto-settings 休日検知 気象など Open Dataset の利用 複数の models 新しい learners Time series forecasting 連続した時間に発生する イベントを予測する

目的変数 Target 目的変数 Target 説明変数の中に、 妥当性のある時間 のデータ Time Series Forecasting Requirements Day Store Sales Week_of_year 9/3/2018 A 2000 36 9/3/2018 B 600 36 9/4/2018 A 2300 36 9/4/2018 B 550 36 説明変数 Feature 頻度の一貫性

値の取りうる範囲が広い 例 : Learning rate: 0.1 もしくは 0.01 もしくは 0.001 もしくは … 複数の値の組み合わせ 最適な構成を探し出すのは困難 一つの学習ジョブの実行時間は長い 時間とリソースの制限 Hyperparameter 選択の難しさ - Hyperparameter Explorer -

ハイパーパラメータチューニング “Hyperdrive” 分散環境で並列実行することで高速化を実現 ハイパーパラメータの探索 ■メジャーなチューニング手法を提供 Grid Search Random Search Bayesian Optimization ■早期終了条件の指定が可能 ■実行結果の可視化

AI Ethics

「動けばいい」

Bias = 先入観・偏見 全てのデータは 人 によって 作られる

例 : StreetBump smartphone app スマートフォン の GPS “Data” を使って、 道路の異常個所を収集 年収の低い方は ? Bias - ユーザーからのフィードバック収集 http://www.streetbump.org/

Bias - ステレオタイプ

信頼性 安全で信頼できる 透明性 理解できる 包括性 あらゆる人の力となり、人々を結びつける プライバシーと セキュリティ 安全に管理され プライバシーを 最大限尊重する 公平性 全ての人を 公平に扱う THE GOLDEN RULE Microsoft の AI のための倫理的原則 説明責任 システムとしての 説明責任を 果たす

信頼性 安全で信頼できる 透明性 理解できる 包括性 あらゆる人の力となり、人々を結びつける プライバシーと セキュリティ 安全に管理され プライバシーを 最大限尊重する 公平性 全ての人を 公平に扱う THE GOLDEN RULE Microsoft の AI のための倫理的原則 説明責任 システムとしての 説明責任を 果たす

Joy Buolamwini , MIT Dr. Timnit Gebru , Google 性別に関する肌の色の影響

Woman Dark Skin Woman Light Skin Man Dark Skin Man Light Skin 2018 MS Face API Error Rate 20.8% 1.7% 6.0% 0.0% 2019 MS Face API Error Rate 1.5% 0.3% 0.3% 0.0% Buolamwini & Gebru , 2018 Raji & Buolamwini, 2019 リソースの継続的な投資によって改善 Accuracy より E rror Rate に着目 エラーを分解 特性間の交点を確認 Face API

Woman Dark Skin Woman Light Skin Man Dark Skin Man Light Skin 1.52% .34% .33% 0% 304,000 68,000 66,000 公平なのか ? NYC の著名なデパートには 毎年 2,000 万人もの人が来店する 50% ずつの性別と肌の色と仮説する 小売業向けの性別 C lassifier 誤差率が小さくとも、相対的な違いに注目 相対的な差異が重要

NIPS 2017 Keynote: The Trouble with Bias https://youtu.be/fMym_BKWQzk

公平 性 全ての人を公平に扱う 信頼性 信頼できる プライバシ ー とセキュリティ 安全に管理されプライバシーを最大限尊重する 包括性 あらゆる人の力となり、 人々を結びつける 透明性 理解 できる 説明 責任 システムとしての説明責任を果たす Design for AI https://www.microsoft.com/ja-jp/AI/our-approach-to-ai/

The Future Computed : AI とその社会における役割 “ 我々は、 [ テクノロジーが AI からもたらす ] 社会的課題にどのように取り組んでいるかについて、慎重に考える必要があります " - ブラッド スミス Brad Smith, President of Microsoft 責任のある AI の利用

Learn more about our approach at https://www.microsoft.com/AI/our-approach-to-ai Download The Future Computed at aka.ms/ Futurecomputed Check the Responsible AI section at aischool.microsoft.com Get started with homomorphic encryption at ailab.microsoft.com Get started with InterpretML at github.com/Microsoft/interpret Learn more

Responsible AI への 取り組み

Black Box モデルの弊害 モデルの精度とモデルの解釈性はトレードオフになりがち Black Box モデル なぜその予測値になった? モデルの改善方法は? モデル構造が複雑 理解するのが非常に困難 要因探索 、 与信管理など説明責任が伴うビジネスでは ブラックボックスなモデルは使えない ...

実データは複雑 十分に表現力がある(≒複雑な)モデルを使わないと「高い精度」を得られない 複雑なモデルは人間には理解できない なぜトレードオフが存在するのか?

局所的な説明 モデルの入力データに対する予測値を基に、どの特徴量が予測に効いているか (どの変数が重要か)を推定する 予測の根拠となった学習に最も寄与する訓練データを提示する 大域的な説明 「到底理解できない」モデルを説明可能性に優れる モデルで近似して、 近似モデルの説明を 「到底理解できない」モデルの説明とみなす 局所的な説明をデータセット全体について得て、各特徴量の予測への影響を示す分布を得て説明とみなす 「理解できない」モデルをどう説明するか?

モデル解釈のアプローチ方法 解釈可能な モデル Black Box 解釈フレームワーク Data

主要なアルゴリズム 解釈可能な モデル Black Box 解釈フレームワーク 従来の統計的手法 線形回帰 決定木 LIME SHAP Permutation Feature Importance Microsoft Interpret ML Azure ML Interpretability SDK Power BI – Key Influencers アプローチ方法

説明可能 性と性能のトレードオフ https://arxiv.org/pdf/1910.10045.pdf

Taxonomy カテゴリー アプローチ方法 Microsoft 提案方法 解釈可能な モデル 従来の統計解析手法 線形回帰 決定木 一般線形化モデル Power BI – Key Influencers Azure ML service – Visual Interface (Azure ML Studio) Python, R で実装 その他 Microsoft InterpretML 汎用的な 解釈フレームワーク Permutation Feature Importance Partial Dependency Plot LIME SHAP Azure ML Studio – PFI モジュール Azure ML Interpretability SDK Python, R で実装

Model Interpretability SDK LIME や SHAP などのモデル解釈のフレームワークを統合 API でご提供 データ探索 変数の重要度 各 予測値に対する説明 サマリー 要因探索 、 与信管理などの業務ではブラックボックスなモデルは使えない ... https://docs.microsoft.com/en-US/azure/machine-learning/service/machine-learning-interpretability-explainability Model interpretability with Azure Machine Learning service

Microsoft Interpret ML github.com/Microsoft/interpret Unified API Interactive Visualizations 精度が高く、説明力のある Explainable Boosting Machine

fairlearn - 公平性のアセスメントと、調整 ( 緩和 ) のための Open Source Tool 不公平性のアセスメント、監視、調整 ( 緩和 ) と 可視化 Fairness Toolkit (preview) https://github.com/fairlearn/fairlearn

Microsoft Responsible AI Resource Center https://aka.ms/RAIresources Azure Machine Learning https://azure.microsoft.com/en-us/services/machine-learning/ https://docs.microsoft.com/en-us/azure/machine-learning/concept-responsible-ml Responsible Innovation Toolkit https://docs.microsoft.com/azure/architecture/guide/responsible-innovation Responsible ML resources FairLearn https://github.com/fairlearn https://aka.ms//FairLearnWhitepaper https://docs.microsoft.com/azure/machine-learning/concept-fairness-ml InterpretML https://github.com/interpretml https://aka.ms//InterpretMLWhitepaper https://docs.microsoft.com/azure/machine-learning/how-to-machine-learning-interpretability

まとめ

Louis Braille 1809-1852

AI x メガネ 目が悪い人 x メガネ 目が見えない人 x AI メガネ 1284 年

Humanitarian Action AI for AI for Accessibility AI for Earth AI for Good

機械学習・深層学習の実用化を推進 会員数 4,150 名 全国 6 都市で 36 回イベント開催 福岡 大阪 広島 名古屋 東京 札幌 オンライン・オフライン含めた 機械学習教育講座の全国での推進 機械学習 SI エコシステム 日本最大の AI コミュニティ # dllab https://dllab.connpass.com/

AI や 機械学習の最新の トレーニング 概要・基礎・チュートリアル 自分に適した、トレーニングコースの作成 AI Business School Conversational AI AI Services Machine Learning Autonomous System Responsible AI AI School aischool.microsoft.com

Microsoft Learn Step-by-Step Learning Achievements スムーズ な 学習 環境 無料 日本語対応 ブラウザーのみ。ハンズオン環境も含めて ダウンロード可能なサンプルコード Product/Service, 技術レベル , job role, などに応じたガイダンス Videos, チュートリアル , ハンズオン スキルアップを促す ユーザー プロファイル毎に カスタマイズ www.microsoft.com/learn

Azure ML 関連 リソース Open Source Repo Link Azure ML Notebook Examples Azure Machine Learning 公式サンプルコード https://aka.ms/ml-notebooks BERT Large 自然言語モデル BERT のサンプルコード http://aka.ms/azure-bert Microsoft Recommenders レコメンデーション サンプルコード http://aka.ms/recommenders LightGBM LightGBM トップページ https://aka.ms/lightgbm Natural Language Recipies 自然言語 サンプルコード https://aka.ms/nlp-recipes ONNX ONNX  トップページ https://aka.ms/onnx ONNX RT ONNX Runtime トップページ https://aka.ms/onnx-rt Kubeflow & MLOps Kubeflow + Azure ML + DevOps サンプルコード https://aka.ms/kubeflow-and-mlops Azure Open Datasets Azure Open Datasets Web ページ https://aka.ms/azure-open-datasets Azure ML Free Trial Azure フリートライアル https://aka.ms/amlfree Azure ML Docs Azure Machine Learning ドキュメント https://aka.ms/azureml-ja-docs

Invent with purpose.