NLI-Threshold zu konservativ — 27% plausible Mails fallen durch #268

Closed
opened 2026-05-14 22:22:26 +02:00 by admin-mrrm · 0 comments
Owner

Während der Kalibrierungs-Session (60 unique Mails, NLI-Only-Mode) zeigt die Threshold-Analyse, dass 27% der Mails im 0.25-0.30-Band liegen, mit plausiblen Top-Labels (Zahlung, Rechnung, Konto). Mit aktuellem Threshold 0.30 werden diese verworfen.

Beispiel aus dem aktuellen Live-Lauf:

Alle drei wären zutreffend, werden aber unter 0.30 verworfen.

Auswertung:

Score-Range Anteil
≥0.45 (very conf) 5%
0.30–0.45 (hit) 33%
0.25–0.30 (miss) 27%
<0.25 (low) 35%

Fix: NLI_CONFIDENCE_THRESHOLD 0.30 → 0.25 senken. Erhöht Hit-Rate von 38% auf ~65%.

Während der Kalibrierungs-Session (60 unique Mails, NLI-Only-Mode) zeigt die Threshold-Analyse, dass 27% der Mails im 0.25-0.30-Band liegen, mit plausiblen Top-Labels (Zahlung, Rechnung, Konto). Mit aktuellem Threshold 0.30 werden diese verworfen. Beispiel aus dem aktuellen Live-Lauf: - Konto@0.273 (vermutlich Bank-Mail) - Zahlung@0.282 (vermutlich Zahlungsbestätigung) - Rechnung@0.279 (vermutlich Rechnung) Alle drei wären zutreffend, werden aber unter 0.30 verworfen. Auswertung: | Score-Range | Anteil | |---|---| | ≥0.45 (very conf) | 5% | | 0.30–0.45 (hit) | 33% | | 0.25–0.30 (miss) | 27% | | <0.25 (low) | 35% | **Fix:** `NLI_CONFIDENCE_THRESHOLD` 0.30 → 0.25 senken. Erhöht Hit-Rate von 38% auf ~65%.
Sign in to join this conversation.
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
admin-mrrm/mrrmlabapp#268
No description provided.