NLI-Threshold + Hypothese-Template kalibrieren (Folge zu #175) #251
Labels
No labels
app/archiv
app/einkaufslisten
app/imap-client
app/wissensbasis
arch-answered
arch-question
area/api
area/auth
area/infra
area/mobile
area/shared
area/ui
area/web
portfolio-status
prio/high
prio/low
prio/medium
roadmap/public
size/l
size/m
size/s
size/xl
size/xs
status/blocked
status/needs-info
type/bug
type/chore
type/docs
type/feature
type/idea
type/refactor
No milestone
No project
No assignees
1 participant
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference
admin-mrrm/mrrmlabapp#251
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Beobachtung (Stand: 2026-05-14)
Nach dem Fix in #250 läuft der NLI-Forward-Pass auf Mobile sauber durch, aber die Confidence-Scores bleiben durchgehend niedrig (Stichprobe aus dem Live-Reader):
Alle ~10 Aufrufe lagen zwischen 0.17 und 0.29. Der Threshold steht in
apps/mobile/src/services/model-manager.ts:23aufNLI_CONFIDENCE_THRESHOLD = 0.7. Konsequenz: NLI wird zwar gerechnet, aber sein Ergebnis nie verwendet — die ~280 MB ONNX-Modell hängt ohne Nutzen am RAM, jede Mail kostet weiterhin Llama-Latenz.Mögliche Ursachen
"Diese E-Mail handelt von ${label}."(model-manager.ts: NLI-Pfad). Alternativen wie"Die Kategorie dieser E-Mail ist ${label}."oder"Diese E-Mail ist eine ${label}-Mail."liefern in XNLI-Zero-Shot oft deutlich schärfere Verteilungen.cleanSnippet()schneidet auf 500 Zeichen, strippt €/$/£-Beträge und Zahlen — gerade bei Rechnungen verschwindet damit ein klares Klassifikations-Signal.Vorgehen (TDD-iterativ)
cleanSnippetre-evaluieren für Rechnungen — Beträge ggf. doch behalten.Out of Scope (Phase 1 bewusst nicht)
Abhängigkeit
Gehört zu #175 (Phase 1 abgeschlossen mit #250).
Geschlossen nach Kalibrierungs-Session über 36 Mails (PR #252).
Erledigt:
OTTO-Shopaus NLI-Kandidaten (Bias), neue KategorieKonto,Paket→SendungDeferred (eigene Issues falls relevant):
cleanSnippetre-evaluieren (insb. Preise/€-Beträge für Rechnungen)/_debug/nli-log) später wieder entfernen oder dauerhaft hinterNLI_DEBUG_LOG=false