המדד הזה פותח על-ידי Hammurabi
גילוי נאות, ראש בראש: MishpatIL-Bench נבנה ומופעל על-ידי Hammurabi, שגם נמדדת בו. אין כיום מדד עצמאי לבחינת מערכות AI על משפט ישראלי — המדדים הקיימים בעולם (LegalBench, Harvey BigLawBench, Vals AI) נבנו עבור משפט אנגלו-אמריקאי. כדי שלעורך-דין ישראלי יהיה כלי השוואה אמיתי, חברה אחת בנתה אותו. אנחנו.
זה דפוס מקובל בתעשייה. Harvey פיתחו את BigLawBench. Vals AI מפעילים את המדד שלהם. Anthropic, OpenAI ו-Google מפרסמים benchmark-ים שהם בנו על המודלים שלהם. הקוד הפתוח, המתודולוגיה הגלויה, וההפרדה בין הקריטריונים לבין החלטות הסקור — אלה מה שמאפשרים לסומכי-הדעת לבחון את הניטרליות בעצמם.
מה ייחודי במשפט הישראלי
מערכת המשפט הישראלית כוללת כללי ניסוח ייחודיים: מספור עברי, פורמט ציטוט מסוים
(ע"א 1234/56 שם נ' שם, פ"ד לב(1) 100),
היררכיית ערכאות מובחנת (שלום / מחוזי / עליון / בג"ץ / משפחה / עבודה / מנהליים),
ועמידה בתקנות סדר הדין האזרחי. אף אחד מהמדדים הבינלאומיים לא בודק את הדברים האלה.
איך פועל המדד
- 12 משימות סגורות — תוכן המשימות והתוצאות הצפויות פרטיים. השמירה על הסודיות מבטיחה שהמערכות לא יוכלו "להתאמן על המבחן" ובכך לעוות את הציון. זהו אותו עיקרון שעליו פועלים Vals AI ו-Harvey BigLawBench.
- אותם קריטריונים לכולם — כל מערכת נמדדת על אותם 16 קריטריונים, באותו אופן ניקוד, ללא הבחנה. הקריטריונים גלויים בעמוד המתודולוגיה.
- מנוע סקור פתוח — קוד הסקור עצמו פתוח לעיון. כל החלטת ניקוד ניתנת לבדיקה מול הקריטריונים המפורשים. אין שיפוטיות נסתרת.
- ביקורת על "שקר מנופח" — מנגנון מיוחד (bundle-internal consistency) פוגע בציון של מערכת שטוענת לתוצאות-על בלי שהפלט שלה תומך בעצמו. מערכת שטוענת ידע על שופט ולא מציינת ציטוט אחד — מאבדת נקודות.
- RNG דטרמיניסטי — אותה ריצה תניב אותם מספרים בכל פעם. CI מאמת את הרפרודוקטיביות בכל push.
מגבלות הבדיקה
הוגנות דורשת לציין במפורש מה המדד לא בודק ומה ההגבלות שלו:
- המדד נבנה על-ידי חברה שגם נבדקת בו. ההגנה הראשית היא שקיפות הקריטריונים — כל מי שחושב שקריטריון מוטה יכול לטעון על כך מול הקוד.
- ה-LLMs נבדקים ללא תוספות. Claude, GPT, Gemini נמדדים כפי שהם. LLM שיהיה מצויד ב-RAG על פסיקה ישראלית, ב-corpus לפי שופט, ובסכמה מובנית לפלט — צפוי לקבל ציון משמעותית גבוה יותר. המדד מודד "מערכת מוכנה לשימוש משפטי-ישראלי", לא "יכולת מודל גולמי".
- חלק מהקריטריונים דורשים מבנה פלט ספציפי. טיעון משפטי טוב שאינו מבונה ככרטיסי-פעולה (M) או כ-12 ממדי שכנוע (L) יקבל ציון נמוך. זו בחירה של המדד — היא מודדת את ההפרש בין מערכת המספקת מסמך עבודה לעורך-דין לבין מערכת המספקת טקסט חופשי.
- ציון גבוה אינו ערובה לאיכות בכל תיק. הוא אומר שהמערכת מתפקדת היטב על המשימות שנמדדו. עורך-דין עדיין נדרש לבדוק כל פלט לפני הגשה.
איך לבדוק את התוצאות עצמאית
שלוש דרכים לאמת:
- קריאת המתודולוגיה — /methodology מציג את כל 16 הקריטריונים והניקוד. קל לראות אם קריטריון מוטה, ולפנות אלינו עם השגות.
- בקשת קוד הסקור — אנחנו שולחים את קוד מנוע ההערכה לכל מי שמבקש. אפשר להריץ את הסקור על כל פלט (משלך או של חמורבי) ולקבל ציון.
- פנייה ישירה — שאלות, השגות, או הצעות לשיפור — דרך Hammurabi.pro.