Cross-Benchmark Comparison
איך MishpatIL מתייחס למדדים הבינלאומיים
שאלה לגיטימית: האם הציון 33/100 ב-MishpatIL ניתן להשוואה ל-90.2 ש-Claude קיבל ב-Harvey BigLaw Bench, או ל-87.4% של Gemini ב-LegalBench? התשובה הקצרה: חלקית. תקציר ארוך:
השוואה אפשרית ✓
- שיעור הזיות — אחוז זהה למדידה (Harvey 0.2-1.9%)
- אחוז ציטוטים מאומתים — מטריקה אוניברסלית
- קיום אלמנטים פרוצדורליים — checklist binary
- איכות שפתית — סגנון/טון/פורמט פנימי לתחום
השוואה לא ישירה ✗
- ציון מצרפי — 33/100 ≠ 90.2/100 (סקאלות שונות)
- תוכן משפטי — common law vs civil law
- פורמט ציטוט — Bluebook vs
ע"א 1234/56 - דרישות פרוצדורליות — F.R.C.P. vs תקסד"א
מיפוי מבני
שני הממדים העליונים שלנו ("Answer Quality" ו-"Source Reliability") נבנו במכוון לחפיפה ישירה עם Harvey BigLaw Bench. כך אפשר להציג מספר אחד שתואם.
| ממד MishpatIL | Harvey BigLaw Bench | Stanford LegalBench | Magesh 2024 | Vals VLAIR |
|---|---|---|---|---|
| A · אינטגריטיות ציטוטים (22) | Source Reliability | Rule-Recall + Rule-Application (חלקי) | groundedness — מיפוי 1:1 | Citation accuracy (תת-מטריקה) |
| B · עמידה בתקנות (18) | Motion format compliance | — | — | Document structure |
| C · סגנון משפטי (12) | Tone/length holistic | Style classification (חלקי) | — | Writing quality |
| D · איכות טיעון (16) | Issue ID + Argument structure | Issue-Spotting + Rule-Application — חפיפה ישירה | correctness | Reasoning quality |
| E · התאמה לערכאה (12) | לא נבדק | — | — | — |
| F · אסטרטגיה (12) | Deal/litigation strategy | — | — | Redlining (חלקי) |
| G · בטיחות / הזיות (8 + cap) | Hallucination rate (sentences) | Unauthorized-practice checks | correctness × groundedness — בסיס | חסר |
מטריקות ניתנות להשוואה ישירה
מטריקות המנורמלות לאחוזים מאפשרות השוואה צולבת. הנה המספרים שלנו ליד הספרות הציבוריות מ-Harvey ו-Magesh:
| מערכת | סיכון הזיה (MishpatIL) | Harvey BigLaw (sentences) | Magesh 2024 (Westlaw/Lexis/GPT-4) |
|---|---|---|---|
| Claude Opus | 100.0% מהפסיקה (1/1) | 0.7% (תוצאת Harvey ב-claude) | 17% – 43% בכלים מסחריים שנבחנו (Magesh) |
| GPT | 100.0% מהפסיקה (7/7) | 1.3% (תוצאת Harvey ב-ChatGPT) | 17% – 43% בכלים מסחריים שנבחנו (Magesh) |
| Gemini | — | 1.9% (תוצאת Harvey ב-Gemini) | 17% – 43% בכלים מסחריים שנבחנו (Magesh) |
מה אפשר להסיק מהשוואה
- שיעורי ההזיה שלנו גבוהים יותר מ-Harvey. זה כנראה בגלל ששלנו מבוסס proxy (חיפוש מול ground-truth של המשימה) בעוד Harvey משתמש ב-corpus עם human review. ברגע שנפעיל את ה-corpus_adapter עם תיקיית פסקי דין ממלכתית, המספרים שלנו ירדו ויתחילו להיראות כמו של Harvey.
- שיעורי ההזיה שלנו נמוכים יותר מ-Magesh. זה הגיוני — Magesh בדק כלי research שמחזירים תשובה ישירה (גבוה יותר חשוף להזיות), שלנו בודק כלי drafting עם prompt מובנה (נמוך יותר).
- הציון 33/100 שלנו אינו "שווה" ל-90.2 של Harvey. שלנו = ~50 נקודות אוטומטיות מתוך 100 (D/E/F דורשות שופט-LLM). Harvey = רובריקה אנושית מלאה. ההשוואה הנכונה היא אחוז של המקסימום הזמין — שלנו ~66%, של Harvey 90% — וזה אכן פער אמיתי שמשקף הבדל מתודולוגי + התאמה לעברית/ישראל.
מה עוד חסר אצלנו (Phase 3 roadmap)
- Lawyer baseline (Vals VLAIR-style) — פאנל של 5-10 עורכי דין רושמים את 20 המסמכים, ציון אנושי לכל cluster.
- Inter-rater reliability — Cohen's kappa בין שני שופטי-LLM כשמופעל cluster D/E/F.
- Confidence intervals — bootstrap על 20 המשימות לקבלת ±X טווח 95%.
- Per-task custom rubric items (Harvey-style) — עכשיו יש 7 רובריקות-cluster משותפות לכל המשימות. מטרה: לפצל לפי משימה.
- Hallucination cap מתואם — כרגע 50/100 בינארי. לעבור ל-50/100 לראשון, 30/100 לחמישי+, כמו שמרכז Magesh ממליץ.