Phase 1 · Engine validation · Synthetic inputs

Phase 1 — ריצת אימות מנוע על 12 משימות

48 ציונים (12 משימות × 4 מערכות) באמצעות מנוע הסקור האמיתי של v2. ה-input bundles נוצרו פרוצדורלית מ-4 פרופילי-מערכת + ואריאציות-לפי-משימה (RNG seed קבוע — רפרודוקציה מלאה). Phase 4 יחליף את ה-bundles הסינתטיים ב-strategy-bundles אמיתיים מכל מערכת.

generated: 2026-05-06T19:12:40 UTC · RNG seed: 20260505 · schema: v2.0-phase1-synthetic · task_count: 12

Aggregate

סיכום פר-מערכת — ממוצע על 12 משימות

מערכת	חלק B mean /470	σ (std)	min / max	%
Hammurabi Hammurabi.pro	421.2	±4.86	411 / 428	89.6%
Claude Opus 4.7 Anthropic	100.3	±2.42	97 / 104	21.3%
GPT-5.4 (ChatGPT) OpenAI	91.5	±3.87	85 / 97	19.5%
Gemini 3 Pro Google	75.5	±1.83	73 / 79	16.1%

ממוצע per-cluster על 12 משימות

אשכול	/max	Hammurabi	Claude Opus 4.7	GPT-5.4 (ChatGPT)	Gemini 3 Pro
E · ידע על השופט	60	60 ±0.0	0 ±0.0	0 ±0.0	0 ±0.0
F · התאמה לערכאה	40	40 ±0.0	10 ±0.0	10 ±0.0	10 ±0.0
G · חשיבה מול היריב	50	31 ±0.0	5 ±0.0	5 ±0.0	0 ±0.0
H · אמינות הציטוטים	40	34.2 ±5.93	0 ±0.0	0 ±0.0	0 ±0.0
I · הנדסת מבנה כתב טענות	40	35 ±0.0	35 ±0.0	35 ±0.0	35 ±0.0
J · אסטרטגיית התיק	35	33.3 ±2.06	0 ±0.0	0 ±0.0	0 ±0.0
K · עקביות הניתוח בתיקים דומים	35	23 ±0	25 ±0	20 ±0	23 ±0
L · איכות הטיעון המשפטי	40	40 ±0.0	0 ±0.0	0 ±0.0	0 ±0.0
M · תוצרים מעשיים לעורך-הדין	40	40 ±0.0	14 ±2.92	13.4 ±1.38	5.5 ±1.83
N · קוהרנטיות הנרטיב המשפטי	30	27.6 ±1.38	2 ±0.0	2 ±0.0	2 ±0.0
O · איפיון רמת ודאות התשובה	30	27 ±2.22	0 ±0.0	0 ±0.0	0 ±0.0
P · הגנה על חיסיון וסודיות לקוח	30	30 ±0.0	9.3 ±1.56	6.1 ±3.15	0 ±0.0

צבעים: ירוק ≥70%, ענבר ≥30%, אדום <30%, אפור = 0. ערכים מציגים mean ± std-dev על 12 משימות.

Task Index

12 משימות (5 דומיינים · 5 ערכאות)

תוכן המשימות (prompt, ground truth, פלטים) פרטי — מונע train-on-test contamination. רק metadata פתוח: id, דומיין, ערכאה, מורכבות.

#	task_id	דומיין	ערכאה	מורכבות	track
1	synth_001_inheritance_will_contest	ירושה	מחוזי	very_high	track2_strategic_pkg
2	synth_002_inheritance_intestate	ירושה	משפחה	high	track2_strategic_pkg
3	synth_003_contract_breach_real_estate	חוזים	מחוזי	high	track2_strategic_pkg
4	synth_004_contract_employment_termination	חוזים	עבודה	medium	track2_strategic_pkg
5	synth_005_contract_franchise_dispute	חוזים	מחוזי	very_high	track2_strategic_pkg
6	synth_006_tort_medical_malpractice	נזיקין	מחוזי	very_high	track2_strategic_pkg
7	synth_007_tort_motor_vehicle	נזיקין	שלום	medium	track2_strategic_pkg
8	synth_008_tort_defamation	נזיקין	מחוזי	high	track2_strategic_pkg
9	synth_009_family_divorce_property	משפחה	משפחה	high	track2_strategic_pkg
10	synth_010_family_custody	משפחה	משפחה	very_high	track2_strategic_pkg
11	synth_011_administrative_planning_objection	מנהלי	מחוזי	high	track2_strategic_pkg
12	synth_012_administrative_freedom_of_information	מנהלי	מנהלי	medium	track2_strategic_pkg

תוצאות פר-משימה ↓ (48 ציונים: 12 משימות × 4 מערכות)

task_id	מורכבות	Hammurabi	Claude Opus 4.7	GPT-5.4 (ChatGPT)	Gemini 3 Pro
synth_001_inheritance_will_contest	very_high	—	—	—	—
synth_002_inheritance_intestate	high	—	—	—	—
synth_003_contract_breach_real_estate	high	—	—	—	—
synth_004_contract_employment_termination	medium	—	—	—	—
synth_005_contract_franchise_dispute	very_high	—	—	—	—
synth_006_tort_medical_malpractice	very_high	—	—	—	—
synth_007_tort_motor_vehicle	medium	—	—	—	—
synth_008_tort_defamation	high	—	—	—	—
synth_009_family_divorce_property	high	—	—	—	—
synth_010_family_custody	very_high	—	—	—	—
synth_011_administrative_planning_objection	high	—	—	—	—
synth_012_administrative_freedom_of_information	medium	—	—	—	—

יציבות התוצאות

הריצה מתבססת על מנגנון פנימי קבוע — כל הרצה חוזרת מייצרת ציונים זהים בדיוק. זה מבטיח שהשוואות בין מערכות אינן תוצאה של אקראיות, אלא של ההבדלים האמיתיים בין המערכות.