מ
MishpatIL-Bench
מדד שכנוע משפטי ישראלי
Cross-Benchmark Comparison

איך MishpatIL מתייחס למדדים הבינלאומיים

שאלה לגיטימית: האם הציון 33/100 ב-MishpatIL ניתן להשוואה ל-90.2 ש-Claude קיבל ב-Harvey BigLaw Bench, או ל-87.4% של Gemini ב-LegalBench? התשובה הקצרה: חלקית. תקציר ארוך:

השוואה אפשרית ✓
  • שיעור הזיות — אחוז זהה למדידה (Harvey 0.2-1.9%)
  • אחוז ציטוטים מאומתים — מטריקה אוניברסלית
  • קיום אלמנטים פרוצדורליים — checklist binary
  • איכות שפתית — סגנון/טון/פורמט פנימי לתחום
השוואה לא ישירה ✗
  • ציון מצרפי — 33/100 ≠ 90.2/100 (סקאלות שונות)
  • תוכן משפטי — common law vs civil law
  • פורמט ציטוט — Bluebook vs ע"א 1234/56
  • דרישות פרוצדורליות — F.R.C.P. vs תקסד"א

מיפוי מבני

שני הממדים העליונים שלנו ("Answer Quality" ו-"Source Reliability") נבנו במכוון לחפיפה ישירה עם Harvey BigLaw Bench. כך אפשר להציג מספר אחד שתואם.

ממד MishpatIL Harvey BigLaw Bench Stanford LegalBench Magesh 2024 Vals VLAIR
A · אינטגריטיות ציטוטים (22) Source Reliability Rule-Recall + Rule-Application (חלקי) groundedness — מיפוי 1:1 Citation accuracy (תת-מטריקה)
B · עמידה בתקנות (18) Motion format compliance Document structure
C · סגנון משפטי (12) Tone/length holistic Style classification (חלקי) Writing quality
D · איכות טיעון (16) Issue ID + Argument structure Issue-Spotting + Rule-Application — חפיפה ישירה correctness Reasoning quality
E · התאמה לערכאה (12) לא נבדק
F · אסטרטגיה (12) Deal/litigation strategy Redlining (חלקי)
G · בטיחות / הזיות (8 + cap) Hallucination rate (sentences) Unauthorized-practice checks correctness × groundedness — בסיס חסר

מטריקות ניתנות להשוואה ישירה

מטריקות המנורמלות לאחוזים מאפשרות השוואה צולבת. הנה המספרים שלנו ליד הספרות הציבוריות מ-Harvey ו-Magesh:

מערכת סיכון הזיה (MishpatIL) Harvey BigLaw (sentences) Magesh 2024 (Westlaw/Lexis/GPT-4)
Claude Opus 100.0% מהפסיקה (1/1) 0.7% (תוצאת Harvey ב-claude) 17% – 43% בכלים מסחריים שנבחנו (Magesh)
GPT 100.0% מהפסיקה (7/7) 1.3% (תוצאת Harvey ב-ChatGPT) 17% – 43% בכלים מסחריים שנבחנו (Magesh)
Gemini 1.9% (תוצאת Harvey ב-Gemini) 17% – 43% בכלים מסחריים שנבחנו (Magesh)

מה אפשר להסיק מהשוואה

  1. שיעורי ההזיה שלנו גבוהים יותר מ-Harvey. זה כנראה בגלל ששלנו מבוסס proxy (חיפוש מול ground-truth של המשימה) בעוד Harvey משתמש ב-corpus עם human review. ברגע שנפעיל את ה-corpus_adapter עם תיקיית פסקי דין ממלכתית, המספרים שלנו ירדו ויתחילו להיראות כמו של Harvey.
  2. שיעורי ההזיה שלנו נמוכים יותר מ-Magesh. זה הגיוני — Magesh בדק כלי research שמחזירים תשובה ישירה (גבוה יותר חשוף להזיות), שלנו בודק כלי drafting עם prompt מובנה (נמוך יותר).
  3. הציון 33/100 שלנו אינו "שווה" ל-90.2 של Harvey. שלנו = ~50 נקודות אוטומטיות מתוך 100 (D/E/F דורשות שופט-LLM). Harvey = רובריקה אנושית מלאה. ההשוואה הנכונה היא אחוז של המקסימום הזמין — שלנו ~66%, של Harvey 90% — וזה אכן פער אמיתי שמשקף הבדל מתודולוגי + התאמה לעברית/ישראל.

מה עוד חסר אצלנו (Phase 3 roadmap)