🔍 StructEval-T Analyzer

松尾研LLM講義2025 メインコンペ用推論結果分析ツール

inference.json と public_150.json をアップロードすることで、モデル出力の構文的正確性（パース可能性）やエラーパターンを分析できます。

使い方:

public_150.json をアップロード
1つ以上の inference.json をアップロード（複数ファイル対応・実験比較可能）
「分析開始」ボタンをクリック

public_150.json

inference.json（複数可）

注意: このツールは構文的な正確性（パース可能かどうか）のみを検証します。運営側の採点基準である raw_output_metric（特定キーの存在チェック等）は public_150.json から削除されているため、完全なスコア再現はできません。

エラーパターンの凡例:

markdown_block: マークダウンコードブロック（```json 等）の混入
natural_language_prefix: 先頭に自然言語（"Here is..."等）が混入
natural_language_suffix: 末尾に自然言語（"Note:"等）が混入
truncation: 出力の途切れ（閉じ括弧・タグの欠落）
empty_output: 空の出力
wrong_format: 要求と異なるフォーマットの出力
cot_leakage: 思考過程（<think>等）の混入
tool_call_leakage: ツールコール（<tool_call>等）の混入
unknown: 上記に該当しない構文エラー