Validation Harness

1. High-Level Overview

Purpose: Drive black-box replay, public dataset, SITL, Jetson, and representative validation through the runtime's public interfaces.

Architectural Pattern: Test harness / scenario runner.

Upstream dependencies: Test data fixtures, public datasets, SITL, Jetson environment.

Downstream consumers: CI/CD pipeline, release evidence review.

Method	Input	Output	Async	Error Types
`run_scenario`	`ScenarioRequest`	`ScenarioReport`	Yes	`FixtureInvalid`, `RuntimeFailed`, `ThresholdFailed`
`validate_fixture`	`FixtureRequest`	`FixtureValidationReport`	No	`FixtureInvalid`

Input DTOs:

ScenarioRequest:
  scenario_id: string
  execution_environment: enum(replay, sitl, jetson, representative)
  fixture_paths: list[string]

Output DTOs:

ScenarioReport:
  scenario_id: string
  result: enum(pass, fail, blocked)
  metrics: object
  artifacts: list[path]
  failure_reason: string optional

Reads versioned fixtures and writes reports. Does not import runtime internals.

State Management: Per-run temporary directories and report aggregation.

Key Dependencies:

Error Handling Strategy:

Known limitations:

Public datasets are not final acceptance evidence unless representative and license-compatible.
Missing synchronized target data remains a final acceptance blocker.

Must be implemented after: public interfaces are defined.

Can be implemented in parallel with: runtime components using mocks/fixtures only after interfaces are stable.

Blocks: CI/release gates.

Log Level	When	Example
ERROR	Runtime/test process fails	`scenario_failed id=... reason=...`
WARN	Fixture blocked	`fixture_blocked missing=...`
INFO	Scenario complete	`scenario_complete id=... result=pass`

Log format: Test report CSV/Markdown plus structured runner logs.

Log storage: test-results/.