🔍 StructEval-T Analyzer
松尾研LLM講義2025 メインコンペ用 推論結果分析ツール
inference.json と public_150.json をアップロードすることで、
モデル出力の構文的正確性(パース可能性)やエラーパターンを分析できます。
使い方:
public_150.jsonをアップロード- 1つ以上の
inference.jsonをアップロード(複数ファイル対応・実験比較可能) - 「分析開始」ボタンをクリック
注意: このツールは構文的な正確性(パース可能かどうか)のみを検証します。
運営側の採点基準である raw_output_metric(特定キーの存在チェック等)は
public_150.json から削除されているため、完全なスコア再現はできません。
エラーパターンの凡例:
markdown_block: マークダウンコードブロック(```json 等)の混入natural_language_prefix: 先頭に自然言語("Here is..."等)が混入natural_language_suffix: 末尾に自然言語("Note:"等)が混入truncation: 出力の途切れ(閉じ括弧・タグの欠落)empty_output: 空の出力wrong_format: 要求と異なるフォーマットの出力cot_leakage: 思考過程(<think>等)の混入tool_call_leakage: ツールコール(<tool_call>等)の混入unknown: 上記に該当しない構文エラー