Cross-Benchmark Comparison

איך מדד שכנוע משפטי מתייחס למדדים הבינלאומיים

שאלה לגיטימית: האם הציון 33/100 במדד שכנוע משפטי ניתן להשוואה ל-90.2 ש-Claude קיבל ב-Harvey BigLaw Bench, או ל-87.4% של Gemini ב-LegalBench? התשובה הקצרה: חלקית. תקציר ארוך:

השוואה אפשרית ✓

שיעור הזיות — אחוז זהה למדידה (Harvey 0.2-1.9%)
אחוז ציטוטים מאומתים — מטריקה אוניברסלית
קיום אלמנטים פרוצדורליים — checklist binary
איכות שפתית — סגנון/טון/פורמט פנימי לתחום

השוואה לא ישירה ✗

ציון מצרפי — 33/100 ≠ 90.2/100 (סקאלות שונות)
תוכן משפטי — common law vs civil law
פורמט ציטוט — Bluebook vs ע"א 1234/56
דרישות פרוצדורליות — F.R.C.P. vs תקסד"א

מיפוי מבני

שני הממדים העליונים שלנו ("Answer Quality" ו-"Source Reliability") נבנו במכוון לחפיפה ישירה עם Harvey BigLaw Bench. כך אפשר להציג מספר אחד שתואם.

ממד מדד שכנוע משפטי	Harvey BigLaw Bench	Stanford LegalBench	Magesh 2024	Vals VLAIR
A · אינטגריטיות ציטוטים (22)	Source Reliability	Rule-Recall + Rule-Application (חלקי)	groundedness — מיפוי 1:1	Citation accuracy (תת-מטריקה)
B · עמידה בתקנות (18)	Motion format compliance	—	—	Document structure
C · סגנון משפטי (12)	Tone/length holistic	Style classification (חלקי)	—	Writing quality
D · איכות טיעון (16)	Issue ID + Argument structure	Issue-Spotting + Rule-Application — חפיפה ישירה	correctness	Reasoning quality
E · התאמה לערכאה (12)	לא נבדק	—	—	—
F · אסטרטגיה (12)	Deal/litigation strategy	—	—	Redlining (חלקי)
G · בטיחות / הזיות (8 + cap)	Hallucination rate (sentences)	Unauthorized-practice checks	correctness × groundedness — בסיס	חסר

מטריקות ניתנות להשוואה ישירה

מטריקות המנורמלות לאחוזים מאפשרות השוואה צולבת. הנה המספרים שלנו ליד הספרות הציבוריות מ-Harvey ו-Magesh:

מערכת	סיכון הזיה (מדד שכנוע משפטי)	Harvey BigLaw (sentences)	Magesh 2024 (Westlaw/Lexis/GPT-4)
Claude Opus	100.0% מהפסיקה (1/1)	0.7% (תוצאת Harvey ב-claude)	17% – 43% בכלים מסחריים שנבחנו (Magesh)
GPT	100.0% מהפסיקה (7/7)	1.3% (תוצאת Harvey ב-ChatGPT)	17% – 43% בכלים מסחריים שנבחנו (Magesh)
Gemini	—	1.9% (תוצאת Harvey ב-Gemini)	17% – 43% בכלים מסחריים שנבחנו (Magesh)

ייחוד · Track 3

ציר שאין לו מקבילה בשום מדד בינלאומי

Harvey, LegalBench, Magesh ו-VLAIR מודדים קיום ציטוטים ואיכות-תשובה. אף אחד מהם אינו מודד את ציר עיגון ברשת הידע (Track 3) — סטטיסטיקה פורנזית פר-ערכאה, רשת תחולת-דינים, וטקטיקות מנצחות מול ערכאה ספציפית. זה דורש קורפוס פסיקה מלא בעברית עם מיליוני נתונים מקושרים — ייחוד מבני של מדד שכנוע משפטי.

ממד Track 3	Harvey	LegalBench	Magesh	VLAIR	מדד שכנוע משפטי
סטטיסטיקה פורנזית פר-ערכאה (שיעור הצלחת טענה)	✗	✗	✗	✗	✓
כיול-פורום לעוצמת טיעון	✗	✗	✗	✗	✓
תמיכת-חוק + גרסה בתוקף	✗	✗	✗	✗	✓
טקטיקות מנצחות מול ערכאה ספציפית	✗	✗	✗	✗	✓

מה אפשר להסיק מהשוואה

אימות הציטוטים כבר רץ מול הקורפוס האמיתי — לא proxy. בדיקת הקיום נעשית מול אינדקס של ~71 אלף פסקי דין מצוטטים, ובדיקת התמיכה מול ~20–40 אלף פסקי דין שטקסטם המלא במאגר. ההזיות שמוצגות בלוח הן הזיות אמת (פסקי דין שאינם קיימים), לא חוסר-התאמה ל-ground-truth של משימה.
שיעורי ההזיה ב-LLM גולמי גבוהים מ-Magesh ו-Harvey כאחד בתחומים נישתיים (מסים, בנייה) — כי שם המודל ממציא פסיקה ספציפית שאינו מכיר. בתחומים מוכרים הוא מדייק. זה מאשש את ממצא Magesh על תלות-תחום.
אין השוואת "ציון יחיד" ל-Harvey. אנו מדווחים מדדים גולמיים נפרדים (אחוז ביסוס, שלמות אסטרטגית), לא ציון מצרפי אחד. אשכולות D/F (איכות-טיעון, אסטרטגי) דורשים מודל-בוחן (LLM-as-judge) שטרם הופעל — ולכן הציון האוטומטי הוא תת-קבוצה. ההשוואה ההוגנת היא אחוז מהמקסימום הזמין, והפער מ-Harvey משקף הבדל מתודולוגי + התאמה לעברית.

מה עוד חסר אצלנו (Phase 3 roadmap)

Lawyer baseline (Vals VLAIR-style) — פאנל של 5-10 עורכי דין רושמים את 20 המסמכים, ציון אנושי לכל cluster.
Inter-rater reliability — Cohen's kappa בין שני מודלי-בוחן (LLM-judges) כשמופעל cluster D/E/F.
Confidence intervals — bootstrap על 20 המשימות לקבלת ±X טווח 95%.
Per-task custom rubric items (Harvey-style) — הנתונים כבר קיימים: כל משימה ב-tasks_private נושאת expected_clusters + weights + הערות-ניקוד ייחודיות. נותר לחבר את ה-scorer שיחיל את המשקלים הפר-משימתיים במקום הרובריקה המשותפת.
Hallucination cap מדורג — כרגע בינארי (50/100 על אסמכתא מומצאת אחת). מתוכנן: 50 לראשונה, 30 לחמישית+, כהמלצת Magesh.

עודכן 2026-06-16: ① אימות-מנוע Phase 1 משולב כעת בדף התוצאות. ② הסקורר Track 3 (עיגון ברשת הידע — ערכאות × דינים × פסיקה) פעיל — ר' מתודולוגיה. ③ ציון הלוח הוא תת-קבוצה אוטומטית הוגנת (A,B,C,E_forum,G ≈ 60/100); D/F דורשים מודל-בוחן (Phase 3).