ソバリンAIの始まりは「ソバリンデータ」だ
By PLURA
まとめ 1行
AI防衛はデータゲーム です。今失敗の本質は データがなくて と、正解は 防御用データを「生成」する運用転換です。 Webはリクエスト・応答本文、サーバーは監査ポリシーを有効にするで新しいログを作成 AIが働く資料を供給してください。
1) なぜ「ソバリンデータ」が防御の出発点なのか
- AIはデータがなければ無能です。 モデル・プレイブック・妖精レベルのプロンプトも 源ログがなければダンスです。
- 攻撃はAIで高度化されますが、 防御はデータ不在で「異常兆候→ストーリーライン→分離」が続くことはありません。
- ソバリンAIの意味はモデル国産化だけではなく、国内環境/規定/言語/業務の文脈に合った「国産防御データ」の自給です。
2) 今システムが失敗する典型的なパターン(兆候)
- ウェブ本文未収集: URI・状態コードのみあり POST/Response Bodyがない
- ホスト可視性ゼロ: Advanced Audit Policy 非アクティブ、Sysmon/auditd 未構成
- TLS 可視性欠乏: WAF/プロキシ・ALB で 復号化ポイントの本文ロギング部材
- PII(Personally Identifiable Information, 個人識別情報) 懸念で全面非収集: マスキング/トークン化なしで「全く残さない」を選択
- スキーマ不在: フィールド乱立・重複・非定型でAI学習/規則化不可
3) 防御用データは「生成」できる — 原理
- ウェブ: リクエスト(Request) + レスポンス(Response)本文を復号化境界(WAF/リバースプロキシ/アプリGW)でポリシー的に生成
- サーバー/ホスト: 監査ポリシーを「オンにして」 プロセス・ファイル・アカウント・ネットワーク行為を構造化イベントに生成
- プライバシー-セーフパイプライン: PIIマスキング・ハッシュ・トークン化後保存 → AI/検出エンジンがすぐに食べるスキーマで積載
4) Web: 要求・応答本文ログ設計(運営チェックリスト)
目標: ウェブシェルアップロード・経会・RCE・データ流出の証拠とコンテキストを本文で捕捉
4.1どこでキャプチャするか(推奨優先順位)
- WAF/プロキシ/リバースプロキシ(TLS 終点)
- アプリケーションサーバーエージェント(フレームワークミドルウェアフック)
- eBPF/PCAP系列(例外・フォレン食用、基本は非推奨)
4.2 収集ポリシー
- 基本:
POST/PUT/PATCH
リクエスト本文 全量またはサンプル+ルールベース全量 - 高リスクエンドポイント(アップロード・認証・決済・管理者):無条件全量
- 応答(Response):
Content-Type
がtext/*
,application/json|xml
など 意味のある本文 は 要約+専門(条件付) - 大容量バイナリ: ハッシュ(SHA-256)+ヘッダ+前後Nバイト(スライドウィンドウ)保存
4.3 プライバシー・セキュリティ
- サーバー団トークン化・マスキング: カード・住民番号・セッショントークン 正規表現ベースの動的マスキング
- 不可逆ハッシュ(pepperを含む)で識別子依存検出可能に
- DLPルール:「個人情報フィールド送信時の専門保管禁止+要約のみ」選択可能
4.4 推奨スキーマ(要旨)
{
"ts": "2025-09-28T08:15:30.123Z",
"trace_id": "1f3a...e9",
"src_ip": "203.0.113.10",
"dst_host": "app.example.com",
"method": "POST",
"url": "/api/upload",
"status": 200,
"req_hdr": {"ct":"multipart/form-data", "ua":"..."},
"req_body": {"len": 5432, "hash": "sha256:...", "snippet_b64": "..."},
"resp_hdr": {"ct":"application/json"},
"resp_body": {"len": 321, "hash": "sha256:...", "snippet_b64": "..."},
"pii_flags": ["email_masked","card_redacted"],
"waf": {"policy":"post-body-on","action":"allow","signals":["anomaly_upload_ext_dbl"] }
}
4.5 実務のヒント
- ヘッダ・ボディ分離保存 + 共通 trace_id で 分散処理/組換え 容易
- サンプリング→ルール昇格(疑わしい信号時の専門切り替え) 動的制御
- 圧縮(Zstd) + ライフサイクル(ホット7日/ワーム30日/コールド180日)
5)サーバー/ホスト:監査ポリシーでログを生成する(Windows・Linux)
5.1 Windows (Advanced Audit Policy + Sysmon)
目標:実行/権限上昇/アカウント/持続性/ネットワーク/ファイル変調の連鎖証拠
必須監査ポリシー(要旨)
- Account Logon/Logon: 成功・失敗
- Object Access: ファイル/レジストリ(高価値パスのみ)
- Policy Change/Privilege Use/System/DS Access
- Detailed Tracking: Process Creation オン
クイックアプリケーションの例
# Manager PowerShell
auditpol /set /category:"Logon/Logoff" /success:enable /failure:enable
auditpol /set /subcategory:"Process Creation" /success:enable
reg add HKLM\Software\Microsoft\Windows\CurrentVersion\Policies\System\Audit /v ProcessCreationIncludeCmdLine_Enabled /t REG_DWORD /d 1 /f
Sysmonコアイベント
- 1(Process Create)、3(Network Connect)、7(Image Load)、10(Process Access)、
- 11(File Create), 12/13(Registry Add/Set), 15(FileStream),
- 17/18(Pipe Created/Connected), 22(DNS), 23/24(FileDelete/Detected)
推奨:署名/CLM/WDACポリシーとともに「合法実行システム」を指定してノイズ最小化+攻撃面の可視化。
5.2 Linux(auditd+コアトレース)
auditdルール(要旨)
- execve 呼び出し追跡:
-a always,exit -F arch=b64 -S execve -k exec
- uid/gid 変更・setuid:
-S setuid,setreuid,...
- アカウント/グループの変更:
/etc/passwd
,/etc/shadow
,/etc/sudoers
ウォッチ - ウェブルートを書く:
/var/www/**
w 権限監視 - 権限上昇/ネットワーク設定関連syscalls
journald + eBPF補強
- SSH認証イベント、サービス再起動、コアダンプ、疑わしいDNS/出力など検出ルールに直結される項目のみ補強
6) 30・60・90日ロードマップ(現実配布プラン)
D+30 (可視性開通)
- TLS 終了点から POST 本体 キャプチャ開始(高リスクURI全量)
- Windows Process Creation + Sysmon(1/3/10/22) 最小セット
- Linux auditd execve + ウェブルート w ルール適用
- PIIマスキングプロファイル 1次稼働(カード/住民/トークン)
- スキーマ固定 + trace_id 統一
D+60(品質・検出切替)
- 回答本文まとめ/専門保管ルール 精巧化
- MITRE ATT&CKマッピングルールパック(ウェブシェル、権限上昇、C2、データ漏洩)適用
- サンプリング→専門文化切り替えロジック(動的)配布
- 性能ガードレール(QPS上限/ボディサイズ制限/圧縮)
D+90 (AI準備も達成)
- シナリオ型ストーリーライン再構成(ウェブ→ホスト連携)
- LLM 補助 triage アクティブ(プレイブック:隔離/アカウントロック/チケット)
- 品質指標(QoD) KPI 運用(下記参照)
7)品質指標(QoD)&AI準備図指標
- 本文カバレッジ: 高リスクエンドポイントの 全量本文収集率(%)
- エンティティ忠実度:
user/session/file/hash/dns/url
欠落率↓ - 接続性: Web イベント ↔ ホストイベント trace_id 結合率
- 検出性能: MTTD/MTTR、ストーリーライン再構成 完了率
- プライバシー適合性: **非マスキング保存率0%**を維持
8) 法・倫理・プライバシー
- 最小収集 + 目的制限 + 保存サイクル
- 機密情報前面マスキング 基本、フォレンジック必要時 封印型アクセス
- アクセス制御・暗号化・アクセスログ 義務化
9)失敗を呼ぶアンチパターン
- “PII危険だから全く本文を残さない"→検出・フォレンジック不能
- “スキーマなしで打ち込む"→AI不可・性能地獄
- “TLS終端不明確"→本文キャプチャ不可
- “全量無圧縮・無寿命サイクル"→費用爆弾
10)結論 - データを作成するとAI防御が始まります
- ウェブ本文と監査ログは今でも「生成」できる防御資産です。
- 可視性(D+30)→品質(D+60)→AI連携(D+90)に段階的に切り替えを踏んでください。
- ソバリンAIの本当の基盤は、現場で育てたソバリンデータです。
付録 A. 運用チェックリスト(一枚まとめ)
- TLS 出口点の識別および POST/Response ボディーロギング 操作
- PIIマスキング/トークン化ポリシーの適用
- スキーマ確定+ trace_id統一
- Windows Advanced Audit Policy + Sysmon(核心イベント)
- Linux auditd(execve, webroot w) + journald 強化
- ライフサイクル/圧縮およびパフォーマンスガードレール
- MITREルールパック連動およびストーリーライン再構成
- QoD(Quality of Data) KPI 運営 (カバレッジ・接続性・プライバシー)
付録B.(オプション)PLURA-XDRとの接続例
- ウェブ: WAF/プロキシ本体のキャプチャ → Post-body 分析 + MITRE マッピング
- ホスト: Sysmon/auditd → 行為相関 → AI SecOpsエージェントが 分離/アカウントロック/チケットを実行
- TI: 外部TI+内部検出フィードバックでソバリンインテリジェンスを強化