מי בנה ולמה

המדד הזה פותח על-ידי Hammurabi

גילוי נאות, ראש בראש: מדד שכנוע משפטי נבנה ומופעל על-ידי Hammurabi, שגם נמדדת בו. אין כיום מדד עצמאי לבחינת מערכות AI על משפט ישראלי — המדדים הקיימים בעולם (LegalBench, Harvey BigLawBench, Vals AI) נבנו עבור משפט אנגלו-אמריקאי. כדי שלעורך-דין ישראלי יהיה כלי השוואה אמיתי, חברה אחת בנתה אותו. אנחנו.

זה דפוס מקובל בתעשייה. Harvey פיתחו את BigLawBench. Vals AI מפעילים את המדד שלהם. Anthropic, OpenAI ו-Google מפרסמים benchmark-ים שהם בנו על המודלים שלהם. הקוד הפתוח, המתודולוגיה הגלויה, וההפרדה בין הקריטריונים לבין החלטות הסקור — אלה מה שמאפשרים לסומכי-הדעת לבחון את הניטרליות בעצמם.

מה ייחודי במשפט הישראלי

מערכת המשפט הישראלית כוללת כללי ניסוח ייחודיים: מספור עברי, פורמט ציטוט מסוים (ע"א 1234/56 שם נ' שם, פ"ד לב(1) 100), היררכיית ערכאות מובחנת (שלום / מחוזי / עליון / בג"ץ / משפחה / עבודה / מנהליים), ועמידה בתקנות סדר הדין האזרחי. אף אחד מהמדדים הבינלאומיים לא בודק את הדברים האלה.

איך פועל המדד

12 משימות סגורות — תוכן המשימות והתוצאות הצפויות פרטיים. השמירה על הסודיות מבטיחה שהמערכות לא יוכלו "להתאמן על המבחן" ובכך לעוות את הציון. זהו אותו עיקרון שעליו פועלים Vals AI ו-Harvey BigLawBench.
אותם קריטריונים לכולם — כל מערכת נמדדת על אותם הקריטריונים (Track 1 + Track 2), באותו אופן ניקוד, ללא הבחנה. הקריטריונים גלויים בעמוד המתודולוגיה.
מנוע סקור פתוח — קוד הסקור עצמו פתוח לעיון. כל החלטת ניקוד ניתנת לבדיקה מול הקריטריונים המפורשים. אין שיפוטיות נסתרת.
ביקורת על "שקר מנופח" — מנגנון מיוחד (bundle-internal consistency) פוגע בציון של מערכת שטוענת לתוצאות-על בלי שהפלט שלה תומך בעצמו. מערכת שטוענת ידע על דפוסי הערכאה ולא מציינת ציטוט אחד — מאבדת נקודות.
RNG דטרמיניסטי — אותה ריצה תניב אותם מספרים בכל פעם. CI מאמת את הרפרודוקטיביות בכל push.

מגבלות הבדיקה

הוגנות דורשת לציין במפורש מה המדד לא בודק ומה ההגבלות שלו:

המדד נבנה על-ידי חברה שגם נבדקת בו. ההגנה הראשית היא שקיפות הקריטריונים — כל מי שחושב שקריטריון מוטה יכול לטעון על כך מול הקוד.
ה-LLMs נבדקים ללא תוספות. Claude, GPT, Gemini נמדדים כפי שהם. LLM שיהיה מצויד ב-RAG על פסיקה ישראלית, ב-corpus סטטיסטי לפי ערכאה, ובסכמה מובנית לפלט — צפוי לקבל ציון משמעותית גבוה יותר. המדד מודד "מערכת מוכנה לשימוש משפטי-ישראלי", לא "יכולת מודל גולמי".
חלק מהקריטריונים דורשים מבנה פלט ספציפי. טיעון משפטי טוב שאינו מבונה ככרטיסי-פעולה (M) או כ-12 ממדי שכנוע (L) יקבל ציון נמוך. זו בחירה של המדד — היא מודדת את ההפרש בין מערכת המספקת מסמך עבודה לעורך-דין לבין מערכת המספקת טקסט חופשי.
ציון גבוה אינו ערובה לאיכות בכל תיק. הוא אומר שהמערכת מתפקדת היטב על המשימות שנמדדו. עורך-דין עדיין נדרש לבדוק כל פלט לפני הגשה.

איך לבדוק את התוצאות עצמאית

שלוש דרכים לאמת:

קריאת המתודולוגיה — /methodology מציג את כל 16 הקריטריונים והניקוד. קל לראות אם קריטריון מוטה, ולפנות אלינו עם השגות.
בקשת קוד הסקור — אנחנו שולחים את קוד מנוע ההערכה לכל מי שמבקש. אפשר להריץ את הסקור על כל פלט (משלך או של חמורבי) ולקבל ציון.
פנייה ישירה — שאלות, השגות, או הצעות לשיפור — דרך Hammurabi.pro.