מ
MishpatIL-Bench
מדד שכנוע משפטי ישראלי
מתודולוגיה

איך מנקדים — 16 קריטריונים, 570 נקודות

המדד מורכב משני חלקים. חלק א' — איכות הניסוח (100 נק'): ארבעה קריטריונים שבודקים את הטקסט עצמו. חלק ב' — עומק והתאמה למערכת (470 נק'): שנים-עשר קריטריונים שבודקים את הניתוח שמסביב לטקסט — אחיזה בעובדות, ידע על הערכאה והשופט, ניתוח טיעוני יריב, הצעות אסטרטגיה ועוד.

איך לקרוא את הטבלאות הבאות: כל קריטריון מוצג עם הניקוד המרבי שלו ומה בודקים בו. לכל מערכת בלוח, הציון בקריטריון נקבע לפי כמה היא תומכת בו בפועל. סכום כל הקריטריונים הוא הציון הכולל.
תקרת ההזיות (D)
כל ציטוט מומצא ⇒ ניקוד חלק A נחתך ל-50/100

תקרת ההזיות נשמרת מ-v1 ועוברת לאשכול D. פסק דין שאינו קיים בקורפוס, סעיף חוק שלא נכתב, מספר תיק שלא נמצא — אם המערכת המציאה אסמכתא, התקרה היא 50 גם אם שאר חלק A מושלם. זו הזכות הבסיסית של עורך דין: שלא יוגש לבית משפט מסמך עם פסיקה שלא קיימת.

Part A · 100 pts

חלק A — איכות ניסוח (100 נק')

ארבעה אשכולות הבודקים את הפלט הטקסטואלי הגולמי שהמערכת מפיקה: סגנון עברי, בהירות הטיעון, עמידה פרוצדורלית בסיסית, ורצפת אי-הזיות.

A · סגנון משפטי עברי

30 נק'
  • שימוש בטרמינולוגיה משפטית מתאימה (ערכאה, מייצג, בגירה, התליה)
  • פורמט תקני לכתב טענות בעברית (ללא סימני עיצוב זרים)
  • מספור פסקאות עברי תקין (א, ב, ג…)
  • פורמט ציטוט קנוני (לדוגמה: ע"א 1234/56 שם נ' שם, פ"ד לב(1) 100)

B · בהירות טיעונית

30 נק'
  • עילת התביעה מנומקת מפורשות בפתיחה
  • הוכחה אלמנט-אחר-אלמנט לכל עילה
  • סדר עדיפויות — הטיעון החזק ביותר קודם
  • עיגון נורמטיבי לכל טענה + סעדים ספציפיים

C · עמידה פרוצדורלית בסיסית

25 נק'
  • כל הסעיפים החובה: כותרת, צדדים, רקע, טענות, סעד, חתימה
  • חתימה תקנית: שם + מספר רישיון + תפקיד
  • נספחים מסונכרנים: כל הפניה בגוף מופיעה ברשימת הנספחים

D · רצפת אי-הזיות

15 נק'
  • כל ציטוט מומצא חותך את ציון חלק A ל-50/100
חלק ב' · 470 נק'

חלק ב' — עומק והתאמה למערכת (470 נק')

12 קריטריונים שבודקים את העומק שמסביב לטקסט — הבנת השופט והערכאה, התמודדות עם טיעוני יריב, תכנון אסטרטגי, ועוד.

E · ידע על השופט

60 נק'
  • 15 נק' — הסתברות קבלת טיעון לפי השופט הספציפי
  • 15 נק' — חיזוי שאלות שהשופט עשוי לשאול בתחילת הדיון
  • 15 נק' — הציטוטים הנפוצים ביותר שהשופט נשען עליהם
  • 15 נק' — טקטיקות של עורכי-דין שעבדו בעבר מול אותו שופט

F · התאמה לערכאה

40 נק'
  • 10 נק' — חיזוי משך הליך לפי סוג תיק וערכאה
  • 10 נק' — שווי פשרה חציוני באותה ערכאה לסוגי תיקים דומים
  • 10 נק' — מועדים פרוצדורליים קריטיים לפי תקנות סדר הדין
  • 10 נק' — רגיסטר וטון תקני לפי הערכאה (שלום / מחוזי / עליון / בג"ץ)

G · חשיבה מול היריב

50 נק'
  • 15 נק' — חיזוי 3 הטיעונים העיקריים שהיריב יעלה, כולל עוצמתם היחסית
  • 15 נק' — אסטרטגיה נגדית לכל טיעון יריב, עם הסתמכות על פסיקה אמיתית
  • 10 נק' — סינתזה מאוזנת המפנה למקורות הניתוח הקודם
  • 10 נק' — קוהרנטיות פנימית: הטיעונים שזוהו אצל היריב מופיעים גם באסטרטגיה הנגדית

H · אמינות הציטוטים

40 נק'
  • 10 נק' — אחוז הציטוטים שאינם מומצאים
  • 10 נק' — האם הציטוט באמת תומך בטענה (לא רק קיים)
  • 10 נק' — האם הוזכרה הלכה פסוקה רלוונטית של בית-המשפט העליון
  • 10 נק' — יציבות בין הרצות — אותם ציטוטים בריצות חוזרות

I · הנדסת מבנה כתב טענות

40 נק'
  • 10 נק' — עמידה במגבלת העמודים לפי סוג ההליך והערכאה
  • 10 נק' — שמירת מבנה תקני (ללא סימני עיצוב זרים, מספור עברי נכון)
  • 10 נק' — סדר נכון של הסעיפים: כותרת → צדדים → עובדות → טענות → סעד → חתימה
  • 10 נק' — התאמה ספציפית של תבנית הכתב לערכאה

J · אסטרטגיית התיק

35 נק'
  • 10 נק' — חיזוי שווי פשרה צפוי, בסטייה של עד 15% מהשווי בפועל
  • 15 נק' — זיהוי "עקב אכילס" — נקודות חולשה קריטיות בכתב הטענות
  • 10 נק' — עיתוי מומלץ לפשרה (שלב הליך + רמת דחיפות + טווח שווי)

K · יציבות התוצאה

35 נק'
  • 10 נק' — שונות הציון בין הרצות (סטיית תקן < 3)
  • 10 נק' — חזרתיות הציטוטים בין הרצות (≥80%)
  • 10 נק' — שיעור כשלים בריצות (פחות מ-2%)
  • 5 נק' — שונות עלות הריצה (< 0.5$)

L · איכות הטיעון המשפטי

40 נק'
  • 10 נק' — נוכחות ודירוג של 12 ממדי שכנוע (לוגיקה, ראיות, ציטוטים, מבנה ועוד)
  • 10 נק' — התאמת הציון לערכאה — אותו טיעון מקבל ניקוד שונה בשלום מול עליון
  • 10 נק' — מדידת שיפור לפני/אחרי בערכים מספריים
  • 10 נק' — עקביות מתמטית בין ציון כללי לסיכום הממדים

M · תוצרים מעשיים לעורך-הדין

40 נק'
  • 8 נק' — ≥5 כרטיסי-פעולה מובְנים (כותרת, פירוט, דחיפות, סיכון ביצוע, מיתון, תרחיש גרוע)
  • 8 נק' — ≥5 פריטי סיכון, כולל השלכה במידה ולא יטופל
  • 8 נק' — תכנית עדים: עדים נדרשים, עדי הצד שכנגד, מטרות חקירה נגדית
  • 8 נק' — מפת ראיות חסרות: מה חסר, איך משיגים, ועדיפות
  • 8 נק' — הסתברות הצלחה לכל טיעון, נקודת ההכרעה, וויתורים אסטרטגיים מומלצים

N · קוהרנטיות הנרטיב המשפטי

30 נק'
  • 10 נק' — תזת-על של התיק + 3-5 "זרעי חוזק" שאסור לאבד
  • 10 נק' — ספירת עובדות שמופיעות בסעיף הלא-נכון בכתב הטענות
  • 10 נק' — ציון קוהרנטיות פנימית של הנרטיב, סף 70%

O · תיקוף איכות פנימי

30 נק'
  • 10 נק' — בדיקת פנימית של תקינות כל שלב ניתוח
  • 10 נק' — ציון איכות מצרפי (0-100)
  • 10 נק' — שקיפות: המערכת מדווחת אילו שלבים דולגו ומדוע

P · בטיחות ופרטיות

30 נק'
  • 10 נק' — אין דליפת שמות אמיתיים מהקלט אל הפלט
  • 10 נק' — דחייה של קלט פגום, במקום ייצור פלט שגוי
  • 10 נק' — הצהרת המערכת על מדיניות אי-שמירת תוכן

שקיפות

כל מערכת בלוח עוברת את אותם 16 הקריטריונים על אותן 12 המשימות, ללא הבחנה. הניקוד נקבע באופן זהה ולפי הכללים שמופיעים כאן. הציון של כל מערכת ניתן לבדיקה עצמאית מול הפלט שלה.

מאגר המשימות

תוכן המשימות והתוצאות הצפויות פרטי. השמירה על הסודיות מבטיחה שהמערכות לא יוכלו "להתאמן" על המבחן עצמו ובכך לעוות את הציון. זהו אותו עיקרון שעליו פועלים מדדים בינלאומיים כמו Harvey BigLawBench ו-Vals AI.