Phase 1 · Engine validation · Synthetic inputs
Phase 1 — ריצת אימות מנוע על 12 משימות
48 ציונים (12 משימות × 4 מערכות) באמצעות מנוע הסקור האמיתי של v2. ה-input bundles נוצרו פרוצדורלית מ-4 פרופילי-מערכת + ואריאציות-לפי-משימה (RNG seed קבוע — רפרודוקציה מלאה). Phase 4 יחליף את ה-bundles הסינתטיים ב-strategy-bundles אמיתיים מכל מערכת.
generated: 2026-05-06T19:12:40 UTC ·
RNG seed: 20260505 ·
schema: v2.0-phase1-synthetic ·
task_count: 12
Aggregate
סיכום פר-מערכת — ממוצע על 12 משימות
| מערכת | חלק B mean /470 |
σ (std) | min / max | % |
|---|---|---|---|---|
|
Hammurabi
Hammurabi.pro
|
421.2
|
±4.86 | 411 / 428 | 89.6% |
|
Claude Opus 4.7
Anthropic
|
100.3
|
±2.42 | 97 / 104 | 21.3% |
|
GPT-5.4 (ChatGPT)
OpenAI
|
91.5
|
±3.87 | 85 / 97 | 19.5% |
|
Gemini 3 Pro
Google
|
75.5
|
±1.83 | 73 / 79 | 16.1% |
ממוצע per-cluster על 12 משימות
| אשכול | /max |
Hammurabi
|
Claude Opus 4.7
|
GPT-5.4 (ChatGPT)
|
Gemini 3 Pro
|
|---|---|---|---|---|---|
| E · ידע על השופט | 60 | 60 ±0.0 | 0 ±0.0 | 0 ±0.0 | 0 ±0.0 |
| F · התאמה לערכאה | 40 | 40 ±0.0 | 10 ±0.0 | 10 ±0.0 | 10 ±0.0 |
| G · חשיבה מול היריב | 50 | 31 ±0.0 | 5 ±0.0 | 5 ±0.0 | 0 ±0.0 |
| H · אמינות הציטוטים | 40 | 34.2 ±5.93 | 0 ±0.0 | 0 ±0.0 | 0 ±0.0 |
| I · הנדסת מבנה כתב טענות | 40 | 35 ±0.0 | 35 ±0.0 | 35 ±0.0 | 35 ±0.0 |
| J · אסטרטגיית התיק | 35 | 33.3 ±2.06 | 0 ±0.0 | 0 ±0.0 | 0 ±0.0 |
| K · עקביות הניתוח בתיקים דומים | 35 | 23 ±0 | 25 ±0 | 20 ±0 | 23 ±0 |
| L · איכות הטיעון המשפטי | 40 | 40 ±0.0 | 0 ±0.0 | 0 ±0.0 | 0 ±0.0 |
| M · תוצרים מעשיים לעורך-הדין | 40 | 40 ±0.0 | 14 ±2.92 | 13.4 ±1.38 | 5.5 ±1.83 |
| N · קוהרנטיות הנרטיב המשפטי | 30 | 27.6 ±1.38 | 2 ±0.0 | 2 ±0.0 | 2 ±0.0 |
| O · איפיון רמת ודאות התשובה | 30 | 27 ±2.22 | 0 ±0.0 | 0 ±0.0 | 0 ±0.0 |
| P · הגנה על חיסיון וסודיות לקוח | 30 | 30 ±0.0 | 9.3 ±1.56 | 6.1 ±3.15 | 0 ±0.0 |
צבעים: ירוק ≥70%, ענבר ≥30%, אדום <30%, אפור = 0. ערכים מציגים mean ± std-dev על 12 משימות.
Task Index
12 משימות (5 דומיינים · 5 ערכאות)
תוכן המשימות (prompt, ground truth, פלטים) פרטי — מונע train-on-test contamination. רק metadata פתוח: id, דומיין, ערכאה, מורכבות.
| # | task_id | דומיין | ערכאה | מורכבות | track |
|---|---|---|---|---|---|
| 1 | synth_001_inheritance_will_contest | ירושה | מחוזי | very_high | track2_strategic_pkg |
| 2 | synth_002_inheritance_intestate | ירושה | משפחה | high | track2_strategic_pkg |
| 3 | synth_003_contract_breach_real_estate | חוזים | מחוזי | high | track2_strategic_pkg |
| 4 | synth_004_contract_employment_termination | חוזים | עבודה | medium | track2_strategic_pkg |
| 5 | synth_005_contract_franchise_dispute | חוזים | מחוזי | very_high | track2_strategic_pkg |
| 6 | synth_006_tort_medical_malpractice | נזיקין | מחוזי | very_high | track2_strategic_pkg |
| 7 | synth_007_tort_motor_vehicle | נזיקין | שלום | medium | track2_strategic_pkg |
| 8 | synth_008_tort_defamation | נזיקין | מחוזי | high | track2_strategic_pkg |
| 9 | synth_009_family_divorce_property | משפחה | משפחה | high | track2_strategic_pkg |
| 10 | synth_010_family_custody | משפחה | משפחה | very_high | track2_strategic_pkg |
| 11 | synth_011_administrative_planning_objection | מנהלי | מחוזי | high | track2_strategic_pkg |
| 12 | synth_012_administrative_freedom_of_information | מנהלי | מנהלי | medium | track2_strategic_pkg |
תוצאות פר-משימה ↓ (48 ציונים: 12 משימות × 4 מערכות)
| task_id | מורכבות |
Hammurabi
|
Claude Opus 4.7
|
GPT-5.4 (ChatGPT)
|
Gemini 3 Pro
|
|---|---|---|---|---|---|
| synth_001_inheritance_will_contest | very_high | — | — | — | — |
| synth_002_inheritance_intestate | high | — | — | — | — |
| synth_003_contract_breach_real_estate | high | — | — | — | — |
| synth_004_contract_employment_termination | medium | — | — | — | — |
| synth_005_contract_franchise_dispute | very_high | — | — | — | — |
| synth_006_tort_medical_malpractice | very_high | — | — | — | — |
| synth_007_tort_motor_vehicle | medium | — | — | — | — |
| synth_008_tort_defamation | high | — | — | — | — |
| synth_009_family_divorce_property | high | — | — | — | — |
| synth_010_family_custody | very_high | — | — | — | — |
| synth_011_administrative_planning_objection | high | — | — | — | — |
| synth_012_administrative_freedom_of_information | medium | — | — | — | — |
יציבות התוצאות
הריצה מתבססת על מנגנון פנימי קבוע — כל הרצה חוזרת מייצרת ציונים זהים בדיוק. זה מבטיח שהשוואות בין מערכות אינן תוצאה של אקראיות, אלא של ההבדלים האמיתיים בין המערכות.