データ処理、統計モデリング、業務ロジックのコード化、クラウド運用──
事業の中で繰り返される判断と処理を、再現可能な構造として扱うための技術群。
Technical Focus
データの取得から運用までを支える、主な技術領域。
Data Processing
業務データ、ログ、外部データを対象とするデータ処理基盤。
- SQL による集計・変換処理
- Python / R によるデータ加工
- BigQuery、Redshift などを用いた分析基盤
- バッチ処理、定期実行、ワークフロー化
- データ品質、集計条件、実行条件の明文化
整形、集計、更新、供給までを含む処理設計。
供給先、実行条件、更新条件を含むデータフローの明示。
Statistical Modeling
事業上の問いを対象とする、統計モデル、予測モデル、仮説検証、指標定義の設計。
- 需要予測
- 解約・継続傾向の分析
- 売上・行動データの構造分析
- 因果推論を含む関係構造の推定
- セグメント、スコア、指標の定義
予測値、変数、判断対象、前提条件の関係整理。
結果の解釈条件と、モデル外部の前提構造を含む設計。
Business Logic Codification
判断条件、条件分岐、集計ルールを、コードと設定で扱うためのロジック設計。
- 手作業の集計手順のコード化
- 判断条件や例外条件の明示化
- SQL 実行ルールの定義
- 設定ファイルによる処理条件の管理
- 業務フローの自動化
例外条件、参照条件、適用範囲、処理順序の分解。
再利用できる処理単位としてのコード化と設定化。
Data Systems and Cloud Operations
データ処理、モデル、可視化、通知、監視を継続実行するための運用基盤。
- Google Cloud / AWS を用いた実行環境
- Cloud Run、Cloud Scheduler、Workflows などによる処理実行
- Dataform、BigQuery などによるデータパイプライン
- Tableau、Redash などによる可視化
- GitHub を用いた変更管理
- CI/CD、ログ、通知、運用監視
更新履歴、検証結果、変更履歴を扱う運用設計。
処理結果の参照、確認、再実行を前提とした実行構成。
Technologies
実装に用いる主な言語、基盤、ツール。
Python, R, SQL, BigQuery, Redshift,
Google Cloud, AWS, Dataform, Cloud Run, Workflows, Cloud Scheduler,
Tableau, Redash,
GitHub, CI/CD, Containers
Related Notes
実装時の判断と手順を記録した技術資料。
