🔍 StructEval-T Analyzer

松尾研LLM講義2025 メインコンペ用 推論結果分析ツール

inference.jsonpublic_150.json をアップロードすることで、 モデル出力の構文的正確性(パース可能性)やエラーパターンを分析できます。

使い方:

  1. public_150.json をアップロード
  2. 1つ以上の inference.json をアップロード(複数ファイル対応・実験比較可能)
  3. 「分析開始」ボタンをクリック

注意: このツールは構文的な正確性(パース可能かどうか)のみを検証します。 運営側の採点基準である raw_output_metric(特定キーの存在チェック等)は public_150.json から削除されているため、完全なスコア再現はできません。

エラーパターンの凡例:

  • markdown_block: マークダウンコードブロック(```json 等)の混入
  • natural_language_prefix: 先頭に自然言語("Here is..."等)が混入
  • natural_language_suffix: 末尾に自然言語("Note:"等)が混入
  • truncation: 出力の途切れ(閉じ括弧・タグの欠落)
  • empty_output: 空の出力
  • wrong_format: 要求と異なるフォーマットの出力
  • cot_leakage: 思考過程(<think>等)の混入
  • tool_call_leakage: ツールコール(<tool_call>等)の混入
  • unknown: 上記に該当しない構文エラー