2025/09/15時点
| Name | Tomoyuki Sumida |
| GitHub | T-Sumida |
| @sumita_v09 | |
| Qiita | sumita_v09 |
| ui.suto05[at]gmail.com |
機械学習の実装から本番運用までを一気通貫で担い、産業・サービス領域の課題を解くプロダクトに反映する。MLOpsとデータ基盤を軸に、モデルの継続改善と事業インパクトの最大化に貢献する。
- 要件定義段階から多職種(PdM/DS/Infra/Design)と協働し技術方針を設計できるエンジニア
- 技術選定とテクニカルディレクションで開発を推進できる個人貢献者(将来的にTech Leadも視野)
- 産業・サービス業における機械学習活用(生成・画像・信号処理)
- 安定運用と効率化に強く関心。データ収集〜活用のパイプライン最適化
開発(コーディング)、設計、プロジェクト管理、ドキュメント整備、開発プロセス/ポリシー策定、技術調査・選定、システム運用。特にニーズ調査、PoCからの本番化、運用設計に注力。
当面は個人貢献者として成果を積み上げ、並行して異分野の専門性(データ基盤/MLOps)を拡張。中期的にテックリードや小規模チームのマネジメント、事業寄与の高い技術意思決定に関与。
将来性のある領域で、技術的挑戦と健全なワークライフバランスの両立が可能な組織。
- 言語/ランタイム: Python, Rust
- ML: PyTorch, 画像/生成/信号処理, RAG, 評価/監視
- クラウド/基盤: GCP, AWS, Azure, Kubernetes, Terraform, BigQuery
- データ基盤: ログ収集〜ETL/ELT、データ品質管理、ジョブオーケストレーション
- MLOps: 実験管理、モデル登録/デプロイ、監視、継続改善パイプライン
※フロントは補助的に対応可(React等の簡易モック)。主戦場はバックエンド/データ/ML。
(参考)現在の志向外の技術スタック
- Ruby, C, PHP, CakePHP, Spring/SpringBoot, JavaScript系フルスタック(Nuxt/Next/Vue/React/Angular) └ 経験はあるが、業務での優先度は低め
- ネットワーク/インフラ基礎知識
- AWS/GCP設計・運用経験、IaC(Terraform)
- Azure OpenAI Serviceを用いたシステム設計・構築
- RAGベースのチャットシステム設計・構築
- LLMを用いた軽量サービスの試作と検証
- LLMを用いた大規模バッチ処理ワークフロー設計・構築
- 画像認識のPoC→API化→運用
- fastText等によるNLPを用いたWebアプリ設計・開発
- 信号処理×機械学習のリアルタイムアプリ設計・開発
- クラウド上の学習パイプライン設計・運用(データ収集、学習、評価、監視)
- DockerベースのWeb API構築(Flask/FastAPI/Bottle 等)
- ZMQを用いたブラックボードアーキテクチャ設計・開発
- サーバーレス環境でのAPI開発
- 言語: Python / JavaScript(業務経験あり)
- GCP上での軽量データ解析基盤の構築
- 非構造データ(画像等)の解析結果収集ログ基盤の設計・実装
- fluentd, embulk の運用経験
- ウォーターフォール/アジャイルの実務経験
- 要件定義〜テストまでの一連の工程をリード/担当
- ReactでのMLサービス簡易モック作成
- 公開学習済みモデルによるプロトタイピング
- 組み込みLinux(C/C++)での開発経験
- GitHub運用/プロジェクト管理、GitHub ActionsによるCI設計・保守
- 受託における顧客折衝、企画段階からのMLサービス設計
- エンジニア採用対応
正社員として2019年6月~現在の間勤務
-
プロジェクト概要
- イベント会場や書店に設置し、来場者が短時間で「読んだことのない一冊」に出会える体験を提供する書籍推薦エージェントを開発。タッチパネル/タブレット上での選択肢入力と自由入力の会話内容に基づき、5,000冊超のデータベースから最適な一冊を即時提示。
-
担当領域
- PM兼プランナー:1名
- デザイナー:1名
- フロントエンドエンジニア:1名
- 機械学習エンジニア兼バックエンドエンジニア:1名(自分)
- 担当範囲:PoC、モデリング、システム設計・開発、運用
-
取り組み
-
PoCの実施と環境構築
- Streamlit を用い、Cloud Run 上にデモ環境を構築
- チーム全員が容易にアクセスできるようにし、機能検証と共有を効率化
- 結果:確認作業の工数を約50%削減、プロトタイプの検証サイクルを大幅短縮
-
ワークフローの設計と性能評価
- 推薦書籍の選択や推薦文生成を定量・客観的に評価できるワークフローをプランナーと共同設計
- 評価項目の可視化とフィードバック取りまとめを自動化し、チーム内の認識を平準化
-
RAGアーキテクチャの導入と検索機能の実装
- ベクトル検索を含む RAG を採用し、会話内容や選択肢に応じた最適推薦を実装
- 結果:複数人の主観評価で精度を約20%改善。未知の本との出会いを促進
-
ドキュメンテーションの作成
- コンポーネント図、シーケンス図、API仕様書を整備
- 新規メンバーのオンボーディングを容易化し、開発スピードと品質を維持
-
APIの安定性向上
- OpenAI API から Azure OpenAI Service への移行を提案・実施
- 可用性とレスポンスタイムが改善し、システム全体の安定稼働に寄与
-
管理と運用
- 書籍データを Google スプレッドシートから容易に更新できる仕組みを実装
- ログを BigQuery に定期格納・集計し、利用状況と推薦精度をモニタリング
- 分析結果に基づき継続的なチューニングと改善提案を実施し、ユーザー満足度を向上
-
-
工夫した点・成果
-
直感的なUI設計
- Streamlit の特性を活かし、タッチ/タブレット前提の UI/UX を設計
- 「画面がわかりやすくすぐ使えた」との評価を獲得
-
PoCの高速化
- Cloud Run などのクラウド環境を活用し、PoC 構築からデモ実装までのリードタイムを短縮
- 検証のしやすさが向上し、フィードバックサイクルを迅速化
-
デモの即時共有
- 早期公開により、プランナーや他メンバーがリアルタイムで改善点を提案可能に
- UI/機能のアイデアを素早く反映でき、全体の開発スピードが向上
-
-
プロジェクト概要
- 市役所の窓口業務負担を軽減するため、タブレット型のAIエージェントを開発。年度末の混雑緩和を狙い、「結婚手続き」や「窓口案内」などの一般的な質問に、多言語(4か国語)と音声入力で応答。外国人利用者やデジタル機器に不慣れな方でも使いやすいよう、音声認識や地図表示を備えた。
-
チーム・担当
-
PM:1名
-
デザイナー:1名
-
フロントエンドエンジニア:1名
-
iOSエンジニア:1名
-
バックエンド兼AIエンジニア:1名(自分)
-
担当範囲:バックエンドエンジニア兼AIエンジニアとして、PoC〜開発・運用・レポート作成まで一貫して担当。
-
-
取り組み
-
PoCの実施と評価
- Streamlitでテキスト/音声入力に対する回答デモを作成し、正答性を検証
- RAGによる回答と、事前用意の文書検索ベース回答を切り分けてテスト
-
API仕様設計とバックエンド開発
- フロントエンドと疎通するAPIを設計・実装
- 動的多言語化の複雑性を考慮し、初期画面での言語選択フローを導入
-
LLM活用と誤回答(ハルシネーション)対策
- 公共領域での信頼性確保を重視し、まずは文書検索の確実な回答を返す設計
- 信頼度が低い場合は選択肢方式でユーザー確認を挟み、誤案内を抑制
-
運用・モニタリング
- エラー検知時にSlack通知、定期ログレビューを実施
- 会話データをBigQueryに蓄積し、「役に立った/立たなかった」等の評価指標や多言語利用状況を集計
-
評価・レポート作成
- 4か月の検証期間後、使用データに基づくレポートを作成
- 外国語機能の利用率、回答の正確性などを詳細に分析
-
-
工夫した点・成果
-
多言語対応のUX設計
- 動的翻訳ではなく、初期の言語選択フローで操作性と品質を確保
-
ハルシネーション抑制と安全設計
- RAG中心の設計と選択肢確認により、誤回答リスクを低減
-
利用者の高評価
- 体験回数:約2,000回
- 肯定的評価:92%
- 外国人ユーザーからの評価が高く、想定外の言語(ベトナム語)拡充の要望が発生
-
データドリブンな改善提案
- BigQueryの集計結果とユーザーインタビューを踏まえ、機能拡充(多言語対応強化等)の余地を明確化
-
-
プロジェクト概要
- 駅構内のサイネージにおいて、通行者の性別・年齢推定結果に基づきパーソナライズ広告を表示するPoCを開発。駅周辺の商業施設への回遊促進を目的とし、AIカメラによる検知から広告表示までを自動化。
-
担当領域
- 機械学習エンジニアとして参画
- 要件定義から実装までを担当(PoCのため運用は他社が担当)
- チーム構成
- Unityエンジニア:1名
- 機械学習エンジニア:1名
- デザイナー:2名
- プランナー:1名
- PM:1名
-
取り組み
-
既存リソースの再活用とシステム構築
- 社内の既存資産を整理・メンテナンスしてPoCに活用
- ローカルPCで動作可能な実行ファイル(EXE)化を実施し、現地サイネージでの稼働を実現
- 体験者ログを解析し、結果レポートを提出
-
開発体制とフロー
- 開発期間:約3ヶ月
- アジャイルベースで進行し、定期的なエンジニア間ミーティングを設定
- タスク進捗と課題を適宜共有し、短期間でPoCを完了
-
-
工夫した点・成果
-
高速化の取り組み
- トラッキング処理の一部をC言語で実装し、推論速度を最終的に約15%改善
- ローカルPC前提の構成で負荷を抑えつつリアルタイム処理を実現
-
プライバシーへの配慮
- 画像をストレージに保存せずRAM上で処理を完結
- カメラ映像の保存を行わない方針とし、利用者の安心感を確保
-
画像歪みの補正
- カメラをサイネージ横に設置する制約に対し、OpenCVで歪み補正を実施
- 年齢・性別推定の精度維持に寄与
-
チームコミュニケーションの整備
- 定例が未整備だったため、エンジニア間のミーティング機会を新設
- 認識齟齬を低減し、PoCを円滑に推進
-
PoCとしての手応え
- 駅構内の特性上、行動が必ずしも広告視聴に直結しない課題はあるものの、一定の体験者を獲得
- 今後の導入可否や回遊促進施策の追加検証に向けた基盤を構築
-
-
プロジェクト概要
- ユーザーとの会話から推奨アイテムを提示するエージェントシステムを開発。Unityで動作するフロントエンドが音声認識で会話を取得し、API経由でバックエンドへ送信。バックエンドが推奨アイテムを含む返答を生成し、対話を継続する仕組みを構築。
-
チーム・担当
-
PM兼プランナー:1名
-
デザイナー:2名
-
Unityエンジニア:1名
-
エンジニア:1名
-
機械学習兼バックエンドエンジニア:1名(自分)
-
担当範囲:機械学習エンジニア兼バックエンドエンジニアとして、PoC、モデリング、システム設計・開発、運用まで一貫して担当
-
-
取り組み
-
PoCと評価
- gpt-3.5-turbo を用いたアイテム推薦エージェントのデモを作成し、Google Cloud Functions 上にデプロイして社内検証を実施
- 定量評価のため、プランナーと会話ケースを洗い出し、自動テスト基盤を実装
-
設計・開発・ドキュメント整備
- Docker+FastAPI によるモノリシック構成を採用し、ローカル/クラウド双方で稼働
- コンポーネント図、シーケンス図、API仕様書などのドキュメントを整備
- API安定性向上のため OpenAI から Azure OpenAI Service への移行を提案
- 推奨アイテムは Google スプレッドシート連携で管理し、名称等の変更をコード修正なしで反映可能に
-
ログ分析とレポーティング
- イベント出展後、体験者数・体験時間・会話回数などを整形・可視化して役員へ報告
- 会話ログを分析し、ハルシネーション発生頻度や音声認識精度を定量評価し、改善方針をチームへフィードバック
-
-
工夫した点・成果
-
ハルシネーションと逸脱推薦
- プロンプトチューニングの改善サイクルを高速化する仕組みとUIを実装
- LLMの返答と推奨対象アイテムの照合機能を導入し、幻覚率を最終的に3%未満へ低減
-
検索精度の低下(ベクトル検索単独の限界)
- ElasticSearch によるワード検索とベクトル検索のハイブリッド手法を実装
- 会話ケースに対するアイテム検索精度を向上
-
安定性・応答性能
- OpenAI API の遅延や切断を受け、Azure OpenAI Service への移行を提案・実施
- 切断率を0%に低減し、レスポンス速度を約50%改善
-
- プロジェクト概要
- タッチパネルによる選択式の書籍推薦コンテンツへ機械学習を導入し、コンテンツ体験者の位置・表情解析結果・年齢性別解析結果を提供するAPIの開発を行いました。具体的には、エッジ端末上でWebカメラ画角内の人物位置や表情解析の結果などをAPIで提供し、コンテンツのアニメーションや会話遷移に反映しました。
- PRTimes
- 担当領域
- 企画立案・要件定義・モデリング・システム設計・開発、システム運用、データ分析
- やったこと
- 年齢・性別モデルのチューニング
- FastAPIによるMLAPIの設計・開発
- 本番環境を想定したデバッグGUIの開発
- GitHubでの開発管理の導入(他メンバーのサポート)
- コンテンツ開発者との連携・API仕様策定
- 現場でのWebカメラ調整(照明・画角の調整)
- コンテンツの利用頻度などの複数のメトリクスを収集できるような仕組みの導入・開発
- 使用技術
- Python3.8,ONNX,GitHub,Asta,OpenCV,Tensorflow,FastAPI,GCP,LookerStudio
- プロジェクト概要
- 下記LIDARを用いた空間活性度認識エンジンの開発と同様の仕組みを移植し、二条城城内のプロジェクションマッピングしているエリアの人流の活性度を計測するシステムの開発を行った。
- Youtube
- 社内広報
- 担当領域
- 企画立案・要件定義・モデリング・システム設計・開発(移植)
- やったこと
- 活性度推定モデルの再学習
- センサー変更に伴うプログラムの改修
- 本番環境を想定したデバッグツールの開発
- GitHubでの開発管理の導入(他メンバーのサポート)
- コンテンツ開発者との連携・通信仕様策定
- 使用技術
- Python3.8,Tensorflow,hydra,OpenCV,streamlit,scikit-learn,MLFlow,Asta,GitHub,zmq,gRPC
- プロジェクト概要
- 担当領域
- 企画立案・要件定義・モデリング・システム設計・開発
- やったこと
- 受付AIエージェントの要件に特化したモデルのチューニング
- Face Feature Extractionモデルの学習
- 映像・音声を同期的に収集するツールの開発
- GitHubでの開発管理の導入(他メンバーのサポート)
- ブラックボードフレームワークの開発
- 使用技術
- Python3.8,Tensorflow,ONNX,hydra,MLFlow,Asta,GitHub,zmq,OpenCV
- プロジェクト概要
- 既存もしくは新規開発されたインタラクティブコンテンツへ機械学習を導入し、コンテンツ体験者を解析・効果測定するようなAIカメラの開発を行いました。具体的には、エッジ端末上で画角内の人物位置や年齢・性別・滞在時間などを計測してログに保存するようなモデルとシステムの開発を行いました。
- 担当領域
- 企画立案・要件定義・モデリング・システム設計・開発
- やったこと
- 顔画像データ収集ツールの開発
- Tensorflowでの複数種類のモデルの実装・学習
- 学習済みモデルの最適化とONNX化
- GCP上での簡易的なデータ解析基盤開発(プロジェクトによってはネットワークがないため使用しない)
- 使用技術
- Python3.8,Tensorflow,ONNX,hydra,MLFlow,Asta,GitHub,OpenCV,GCP,embulk
- プロジェクト概要
- エンタテインメント・プロジェクションマッピングシステムへ機械学習を導入し、プロジェクションマッピングの表現の多様化に貢献しました。 具体的には、オンプレ上でリアルタイムに入力される音源を楽曲と歌声に分離し、その楽曲音源から5つのジャンル(PopやRockなど)を推論して結果を表現描画システムに送信するといったものです。
- 担当領域
- 要件のヒアリングから機械学習の利活用の提案・PoC・リアルタイムアプリケーションの設計・開発
- やったこと
- Astaを用いてコンポーネント図・シーケンス図・アクティビティ図を作成
- streamlitを使ったマネージャー達への簡易デモの作成
- 商用利用なデータセットでベースラインを構築し、実環境に近いデータセットでチューニングを実施(目標メトリクスを達成)
- Tensorflowを用いたSound Event Detectionモデルの実装・学習
- 使用技術
- Docker,Python3.8,Tensorflow,librosa,hydra,streamlit,MLFlow,Asta,GitHub,OSC
- プロジェクト概要
- 砂浜上でのエンタテインメント・プロジェクションマッピングシステムへ機械学習を導入し、プロジェクションマッピングの表現の多様化に貢献しました。 具体的には、浜辺に複数設置されたLIDARセンサーから送信されるデータを機械学習でリアルタイムに推論し、現在の浜辺の活性情報(「活発に動いている人が多い」や「ゆったり歩いている」など)を表現描画システムに送信するといったものです。
- Youtube
- 担当領域
- 要件のヒアリングから機械学習の利活用の提案・PoC・リアルタイムアプリケーションの設計・開発
- やったこと
- データ収集のための映像・LAIDAR信号を同期して収集するツールの開発
- データ拡張のためにデータセットの分布に似たデータを再現するようなシミュレーターを開発(非常にデータ数が少なかったため)
- Tensorflowを用いたモデルの実装・学習
- ドキュメントの整備(導入マニュアルやエラー時対応マニュアルなど)
- MLOpsの観点で、システム動作中にセンシング値を日付とともに保持する機能の開発
- 使用技術
- Docker,Python3.8,Tensorflow,hydra,OpenCV,streamlit,scikit-learn,MLFlow,Asta,GitHub,OSC,gRPC,ELAN
- プロジェクト概要
- スタイル変換を用いた体験型インタラクティブコンテンツを開発しました。加えて、体験したユーザの性別と年齢を推論するモデルの開発と、それらのユーザー情報と体験時間やアクション回数などを蓄積するログシステムの開発を行いました。 具体的には、機械学習モデルとしてStyle TransferモデルとAge-Gender Estimateモデルを開発し、それらをWeb APIとして実装しました。また、ユーザーの属性や行動を入力とするWeb APIを構築し、内部でセッション時間などを計算・整形・出力するログシステムを実装しました。
- 担当領域
- 企画立案・要件定義・モデリング・システム設計・開発
- やったこと
- 他メンバーへの機械学習利活用情報の共有(イメージしやすいCHIの事例など)
- PyTorchでのリアルタイムスタイルトランスファーの実装・学習
- TensorflowでのAge and Gender Estimateモデルの実装・学習、Tensorflow-Servingを用いたデプロイ
- コンテンツ終了後にログを解析して経営層にレポートを提出
- 使用技術
- Docker,Python3.8,Tensorflow,Tensorflow Serving,PyTorch,OpenCV,MLFlow,Asta,GitHub,FastAPI
-
プロジェクト概要
- ユーザーの口腔状態を判定するWebサービスにおいて、画像認識エンジンを開発。スマートフォンで撮影した口腔写真を、専門家の知見を学習させた複数の認識モデルに入力し、その推論結果をルールベースで統合しておすすめ商品を提示。
-
チーム・担当
- PM:2名
- デザイナー:2名
- フロントエンドエンジニア:1名
- バックエンドエンジニア:1名
- 機械学習エンジニア:2名
- 自分の役割:機械学習エンジニアとして、顧客折衝、PoC、モデリング、システム設計・開発、運用を担当
-
取り組み
-
PoCとモデリング
- 顧客提供の画像・ラベルをJupyterLabで解析し、前処理方針と評価指標を整理
- TensorFlowを用いてモデルを実装し、MLflowで実験管理・モデル登録を実施
- もう1人のMLエンジニアと協議しつつ、前処理、モデル選定、タスク分割を設計
- 事前合意したメトリクスを達成し、評価結果と改善提案を資料化して説明
-
システム設計・開発
- AstaとGoogleスプレッドシートでコンポーネント図、シーケンス図、アクティビティ図、API仕様、テスト設計書を整備
- Flaskで推論用Web APIを実装し、GCP上にデプロイ
- 顧客要望により、スマートフォンから送信される口腔画像をBigQueryへ保存する機能を追加
-
運用・評価
- BigQueryに蓄積した画像に対し顧客側でラベリングを実施、そのデータで現行モデルの性能を定期検証
- レポートを作成してしきい値調整などを協議・反映
- モデル性能検証とレポート作成を自動化するプログラムを開発
-
-
工夫した点
-
タスク分割とアンサンブル
- 複数ラベルを一括推論する単一モデルでは目標値到達が困難と判断し、タスクを分割
- 複数モデルのアンサンブル構成へ切り替え、精度と堅牢性を両立
- モデル選定はKaggleの過去事例・Discussionを調査し、Metric Learningや異常検知の知見を整理
- 論文を参考に必要箇所は独自実装で補完
-
運用しやすさの設計
- 今後の細かな調整を見込み、しきい値などを設定ファイル化してデプロイ不要で変更可能に
- バックエンドエンジニアと連携し、エラーログや推論結果の出力粒度を最適化
-
ナレッジの蓄積と展開
- PoC/実装で得た知見を開発メモとして体系化し、類似案件での立ち上げ時間を短縮
- 不明点は部署横断で有識者に確認し、再現可能な手順に落とし込み
-
正社員として2018年4月~2019年3月
- プロジェクト概要
- 組み込みエンジニアとして、車載プラットフォームの設計・開発に従事していました。
- 担当領域
- 基本設計・詳細設計・実装・単体テスト・結合テスト
- やったこと
- 上位設計書からの担当コンポーネントの設計
- 独自のテストフレームワークを使用した自動テストを構成
- 使用技術
- Docker,C/C++,gcc,make
京都産業大学大学院 先端情報学研究科 先端情報専攻
2018年3月
音響信号処理と機械学習を用いた、浴槽をユーザインタフェース提案研究に従事していました。
浴槽縁を”叩く”場合の叩き方(ノックや爪で叩くなど)をユーザイベントとするためリアルタイムデジタル信号処理と機械学習(NMFやDNN)手法を提案しました。 また、浴槽の叩く位置・叩き方・叩くリズムの3つのイベントを用いたユーザインタフェース・アプリケーションのの構築と、それらのユーザ評価を実施しました。
| Date | Event |
|---|---|
| 2016 | 快適IoT2015 グランプリ受賞 |
| 2016 | 音楽情報処理研究会 査読なし、デモ発表 |
| 2016 | インタラクション2016 査読あり、デモ発表 |
| 2016 | CEDEC2016 査読あり、登壇発表 |
| 2017 | Advances in Computer Entertainment Technology 2016 査読あり、creative showcase |
| 2017 | インタラクション2017 査読あり、登壇発表 |
| 2017 | ISS:Interactive Surface and Spaces 2017 査読あり、登壇発表 |
| 2022 | ヒューマンインタフェース学会論文誌 ジャーナル論文採択 |