מ
MishpatIL-Bench
מדד שכנוע משפטי ישראלי
המדד הישראלי

עד כמה מערכות AI מתאימות באמת לעבודה משפטית בעברית

מערכות בינה מלאכותית כלליות לא תוכננו עבור המשפט הישראלי. הן יכולות להציע פסיקה שלא קיימת, לטעות בסעיפי חוק, ולחבר כתבי-טענות שלא עומדים בתקנות סדר הדין. המדד הזה בודק כל מערכת לפי קריטריונים שעורכי-דין מכירים מהשטח.

גילוי נאות: המדד פותח על-ידי Hammurabi, שגם נמדדת במדד. המתודולוגיה גלויה ופתוחה לסקירה. כל מערכת נבדקה בדיוק באותם 16 הקריטריונים, באותן 12 המשימות. פירוט בעמוד "מי בנה ולמה".
לראות את התוצאות ↓

מה המדד בודק

שלושה תחומים, סך-הכל 16 קריטריונים שמשפטן/ית מבינים אינטואיטיבית.

תחום 1

איכות הניסוח

עברית משפטית תקנית, מספור פסקאות נכון, פורמט ציטוט לפי הנהוג בבית המשפט הישראלי, ובהירות הטיעון.

תחום 2

נכונות ההסתמכות

האם הפסיקה שמצוטטת אכן קיימת? האם הסעיפים והחוקים שצוטטו נכונים? האם הוזכרה הלכה פסוקה רלוונטית?

תחום 3

עומק והתאמה למערכת

הבנה של היררכיית הערכאות, הבנת דפוסי שופטים, אסטרטגיה לטיעון ופשרה, ותמיכה במהלכי הליך.

לוח התוצאות

ארבע מערכות נבחנו על 12 משימות מ-5 דומיינים משפטיים (ירושה, נזיקין, חוזים, משפחה, מנהלי) ב-5 ערכאות.

Hammurabi Hammurabi.pro
89.6% (421.2 / 470)
Claude Opus 4.7 Anthropic
21.3% (100.3 / 470)
GPT-5.4 (ChatGPT) OpenAI
19.5% (91.5 / 470)
Gemini 3 Pro Google
16.1% (75.5 / 470)
איך לקרוא: הציון מציג את הפלט של כל מערכת מול 16 הקריטריונים שהוגדרו. הפער בין מערכות חשוב יותר מהמספר המוחלט. ציון גבוה אינו ערובה לאיכות בכל תיק — הוא אומר שהמערכת מתפקדת היטב על המשימות שנמדדו.

המערכות בלוח

Hammurabi

מערכת מתמחה

מנוע שכנוע משפטי המותאם למערכת המשפט הישראלית. עשרות שכבות ניתוח לביסוס יכולת ההכרעה בהליכים משפטיים.

Claude Opus 4.7

Anthropic

מודל שפה כללי. ללא התמחות במשפט הישראלי או במאגרי פסיקה ישראליים.

GPT-5.4 (ChatGPT)

OpenAI

מודל שפה כללי. ללא התמחות במשפט הישראלי או במאגרי פסיקה ישראליים.

Gemini 3 Pro

Google

מודל שפה כללי. ללא התמחות במשפט הישראלי או במאגרי פסיקה ישראליים.