Episode

第26回（2022/01/17）: MLOpsの事例紹介 - Looking into 2022: Predictions for a New Year in MLOps
- リンク: https://anchor.fm/double-m2/episodes/26-MLOps---Looking-into-2022-Predictions-for-a-New-Year-in-MLOps-e1d0olq

Agenda

Looking into 2022: Predictions for a New Year in MLOpsの紹介
- 今回はasteriamさんの方からMLOpsに関する記事を紹介して貰いました．
- iguazio社によるMLOpsの2022年における展望をまとめた内容になっています．

Contents

Looking into 2022: Predictions for a New Year in MLOps

From AutoML to AutoMLOps

モデル作成だけでなく，MLを組み込んだサービスを構築すること．また，継続的なMLOpsの実践していくこと．それによる最終的なビジネス価値を継続的に生み出していくこと
最近まではMLの学習プロセスを自動化すること，つまりAutoMLに焦点が当てられていたが，MLにおける最も重要な問題は，最適なアルゴリズムやパラメータを見つける方法ではなく，それらのアルゴリズムをビジネスインパクトを持つアプリケーションの一部としてデプロイすること
- 運用システムからのデータ収集
- 学習に必要な特徴量の生成
- 自動化されたモデルの学習とデプロイのワークフローの作成
- モニタリング
感想＆意見
- MLをサービスインするのは結構普通になってきているけど，それをどれだけビジネス価値に結びつけていけるか，それを継続して生むためにMLOpsを実践していくところにより焦点が当てられるようになる感じ．

Feature Store Usage Will Become More Mainstream

Feature Storeとは，特徴量を事前に計算しておき保存しておくためのもの．
モデルの再現性を担保する上でも、学習に使用した特徴量の保存と管理のためにFeature Storeが主に使用される流れ
部署間の特徴量の一般化や個人情報の観点も考慮した管理
データドリフトした時の活用法として

Measuring the Business Impact of AI Projects Will Become the Norm

AIプロジェクトにおけるビジネスインパクトの測定は常識になる
AIアプリケーションのROIは，モデルの性能だけで決まるのではなく，モデルの予測によるビジネス成果で決まる

例えば、ある顧客が解約しそうだと特定した場合、どのようなインセンティブを与えて留まらせるべきか。機械が故障しそうなとき、今すぐ止めるべきか、それとも次のメンテナンス時期を待つべきか？適切なアクションを選択し、そのアクションによるビジネスインパクトとROIを測定することに、より焦点が置かれるでしょう。場合によっては、異なるアクションを並行して試し、どれが最高のビジネス価値をもたらすかを測定します（これをアクションのA/Bテストと呼ぶことができます）。
感想＆意見
- AIアプリケーションなりMLのシステム導入してビジネスインパクトがなかったら，意味がないのでそれを正しく測定するのはその通りだなという印象
- ここは初めに試算して，どれぐらい効果があれば良いのかはビジネスサイドと擦り合わせする必要がある

Real-Time ML Pipelines Will Go Mainstream

「今期は時間がかかりすぎるため，来期／来期に延期する」という意見をよく耳にする．以前までは，リアルタイムのユースケースは明らかに価値があったが，その複雑さと本番までの長い時間から，多くのチームがMLサービス（したがってその影響力）を縮小し，バッチ処理を優先させることを余儀なくされていた．

例えば，下記のような課題においては時間の経過とともに予測の正確さを保つために，リアルタイムのMLパイプラインが必要不可欠になってきている

- 不正取引を阻止することは，過去に起こったことを検出するよりもはるかに多くのお金を節約する
- 顧客がまだ店内にいる間に最近の購入行動に基づく商品レコメンドを行うことは，より多くの買い物客を購買へ促すことになる
- 危険または健康状態の悪化を検出して警告することはより多くの命を救う

適切なタイミングで商品を勧めたり，不正取引を防止したり，1分1秒を争う患者の健康状態の悪化を検知したりするためには，すべてリアルタイムのデータ入力・計算・応答が必要で，企業は現在何百万ものイベントをリアルタイムで処理できるデータパイプラインアーキテクチャを必要としていて，そういった技術も存在しているので，後はそれを受け入れてどう実装していくか
感想＆意見
- リアルタイム処理重要だけど，それを実践するのは難しいなという印象
- モデルの推論速度とか前処理とかしているならその処理速度とかあるし，データを流していくフローもかなりシビアになるので，結構課題がありそう

Wider Adoption of Composable AI Principles

このアプローチで，MLチームは学習からプロダクション導入までの反復タスクをあらかじめ構築されたコンポーネントでパイプラインを構成し自動化する．
データの準備からテスト・デプロイメント・モニタリングまで，MLチームはパイプライン全体でコンポーザビリティを実現する
MLパイプラインの複雑化が進み，MLチームがコラボレーションと再利用を促進する上でコンポーザブルML／AIアーキテクチャへの移行は必然的なステップ
データ／モデルの成果物はパイプラインに沿ってすべて追跡する
感想＆意見
- コードはGithubで管理して，モデルや中間成果物はストレージに保存して管理したり，インフラの構成はTerraform（laC）とかパイプラインをAWSだとAWS SAM（サーバレスなAWSリソースを管理するツール）のようなもので管理したりするのが当たり前になっていくんだろうなという感想
- コンポーネント管理して組み立てるスタイルがベストプラクティス？

Reference

Looking into 2022: Predictions for a New Year in MLOps