מ
MishpatIL-Bench
מדד שכנוע משפטי ישראלי
Phase 1 · Engine validation · Synthetic inputs

Phase 1 — ריצת אימות מנוע על 12 משימות

48 ציונים (12 משימות × 4 מערכות) באמצעות מנוע הסקור האמיתי של v2. ה-input bundles נוצרו פרוצדורלית מ-4 פרופילי-מערכת + ואריאציות-לפי-משימה (RNG seed קבוע — רפרודוקציה מלאה). Phase 4 יחליף את ה-bundles הסינתטיים ב-strategy-bundles אמיתיים מכל מערכת.

generated: 2026-05-06T19:12:40 UTC · RNG seed: 20260505 · schema: v2.0-phase1-synthetic · task_count: 12
Aggregate

סיכום פר-מערכת — ממוצע על 12 משימות

מערכת חלק B mean
/470
σ (std) min / max %
Hammurabi
Hammurabi.pro
421.2
±4.86 411 / 428 89.6%
Claude Opus 4.7
Anthropic
100.3
±2.42 97 / 104 21.3%
GPT-5.4 (ChatGPT)
OpenAI
91.5
±3.87 85 / 97 19.5%
Gemini 3 Pro
Google
75.5
±1.83 73 / 79 16.1%

ממוצע per-cluster על 12 משימות

אשכול /max
Hammurabi
Claude Opus 4.7
GPT-5.4 (ChatGPT)
Gemini 3 Pro
E · ידע על השופט 60 60 ±0.0 0 ±0.0 0 ±0.0 0 ±0.0
F · התאמה לערכאה 40 40 ±0.0 10 ±0.0 10 ±0.0 10 ±0.0
G · חשיבה מול היריב 50 31 ±0.0 5 ±0.0 5 ±0.0 0 ±0.0
H · אמינות הציטוטים 40 34.2 ±5.93 0 ±0.0 0 ±0.0 0 ±0.0
I · הנדסת מבנה כתב טענות 40 35 ±0.0 35 ±0.0 35 ±0.0 35 ±0.0
J · אסטרטגיית התיק 35 33.3 ±2.06 0 ±0.0 0 ±0.0 0 ±0.0
K · עקביות הניתוח בתיקים דומים 35 23 ±0 25 ±0 20 ±0 23 ±0
L · איכות הטיעון המשפטי 40 40 ±0.0 0 ±0.0 0 ±0.0 0 ±0.0
M · תוצרים מעשיים לעורך-הדין 40 40 ±0.0 14 ±2.92 13.4 ±1.38 5.5 ±1.83
N · קוהרנטיות הנרטיב המשפטי 30 27.6 ±1.38 2 ±0.0 2 ±0.0 2 ±0.0
O · איפיון רמת ודאות התשובה 30 27 ±2.22 0 ±0.0 0 ±0.0 0 ±0.0
P · הגנה על חיסיון וסודיות לקוח 30 30 ±0.0 9.3 ±1.56 6.1 ±3.15 0 ±0.0
צבעים: ירוק ≥70%, ענבר ≥30%, אדום <30%, אפור = 0. ערכים מציגים mean ± std-dev על 12 משימות.
Task Index

12 משימות (5 דומיינים · 5 ערכאות)

תוכן המשימות (prompt, ground truth, פלטים) פרטי — מונע train-on-test contamination. רק metadata פתוח: id, דומיין, ערכאה, מורכבות.

# task_id דומיין ערכאה מורכבות track
1 synth_001_inheritance_will_contest ירושה מחוזי very_high track2_strategic_pkg
2 synth_002_inheritance_intestate ירושה משפחה high track2_strategic_pkg
3 synth_003_contract_breach_real_estate חוזים מחוזי high track2_strategic_pkg
4 synth_004_contract_employment_termination חוזים עבודה medium track2_strategic_pkg
5 synth_005_contract_franchise_dispute חוזים מחוזי very_high track2_strategic_pkg
6 synth_006_tort_medical_malpractice נזיקין מחוזי very_high track2_strategic_pkg
7 synth_007_tort_motor_vehicle נזיקין שלום medium track2_strategic_pkg
8 synth_008_tort_defamation נזיקין מחוזי high track2_strategic_pkg
9 synth_009_family_divorce_property משפחה משפחה high track2_strategic_pkg
10 synth_010_family_custody משפחה משפחה very_high track2_strategic_pkg
11 synth_011_administrative_planning_objection מנהלי מחוזי high track2_strategic_pkg
12 synth_012_administrative_freedom_of_information מנהלי מנהלי medium track2_strategic_pkg
תוצאות פר-משימה ↓ (48 ציונים: 12 משימות × 4 מערכות)
task_id מורכבות
Hammurabi
Claude Opus 4.7
GPT-5.4 (ChatGPT)
Gemini 3 Pro
synth_001_inheritance_will_contest very_high
synth_002_inheritance_intestate high
synth_003_contract_breach_real_estate high
synth_004_contract_employment_termination medium
synth_005_contract_franchise_dispute very_high
synth_006_tort_medical_malpractice very_high
synth_007_tort_motor_vehicle medium
synth_008_tort_defamation high
synth_009_family_divorce_property high
synth_010_family_custody very_high
synth_011_administrative_planning_objection high
synth_012_administrative_freedom_of_information medium

יציבות התוצאות

הריצה מתבססת על מנגנון פנימי קבוע — כל הרצה חוזרת מייצרת ציונים זהים בדיוק. זה מבטיח שהשוואות בין מערכות אינן תוצאה של אקראיות, אלא של ההבדלים האמיתיים בין המערכות.