chore(256): NLI-Debug-Analyse-Script #259

Merged
admin-mrrm merged 1 commit from chore/256-nli-analyze-script into main 2026-05-14 17:55:23 +02:00
Owner

Summary

  • Neues Script apps/api/scripts/analyze-nli-debug.ts zur Auswertung von nli-debug.jsonl (oder zwei Files für Δ-Vergleich)
  • Importiert detectTrackingNumber aus @mrrmlab/shared-types, damit Script und Produktion dieselben Tracking-Patterns sehen
  • Simuliert die ganze Pipeline: Tracking-Override → NLI fast path → Verb-Heuristik → Llama-Fallback
  • Erste Auswertung auf Baseline-Log (Pre-#255/#254/#251-Threshold): 43 Zeilen / 35 unique, 0 very-conf, 11 fast-path-hits (31%), 0 Tracking-Overrides (Log entstand vor Feature), 2 verb-flip-bar

Limitation (im Script-Header dokumentiert)

snippetRaw im JSONL ist bereits durch cleanSnippet (max 500 Zeichen) gelaufen, weil mail-batch-categorizer vor suggest() cleant. Die Tracking-Detection sieht also denselben gekürzten Text wie die Produktion — Trackingnummern in langen Body-Footern könnten theoretisch durchrutschen. Eigener Fix wäre Scope-Erweiterung des Hard-Overrides.

Test plan

  • Frisch kalibrieren mit den gemergten Verbesserungen (#251 Thresholds + #254 cleanSnippet + #255 Tracking-Override + Verb-Heuristik)
  • ts-node apps/api/scripts/analyze-nli-debug.ts <alt.jsonl> <neu.jsonl> und Δ-Tabelle prüfen
  • Auf Basis der Zahlen entscheiden ob #253 (Template-A/B) der nächste Schritt ist
## Summary - Neues Script `apps/api/scripts/analyze-nli-debug.ts` zur Auswertung von `nli-debug.jsonl` (oder zwei Files für Δ-Vergleich) - Importiert `detectTrackingNumber` aus `@mrrmlab/shared-types`, damit Script und Produktion dieselben Tracking-Patterns sehen - Simuliert die ganze Pipeline: Tracking-Override → NLI fast path → Verb-Heuristik → Llama-Fallback - Erste Auswertung auf Baseline-Log (Pre-#255/#254/#251-Threshold): 43 Zeilen / 35 unique, 0 very-conf, 11 fast-path-hits (31%), 0 Tracking-Overrides (Log entstand vor Feature), 2 verb-flip-bar ## Limitation (im Script-Header dokumentiert) `snippetRaw` im JSONL ist bereits durch `cleanSnippet` (max 500 Zeichen) gelaufen, weil `mail-batch-categorizer` vor `suggest()` cleant. Die Tracking-Detection sieht also denselben gekürzten Text wie die Produktion — Trackingnummern in langen Body-Footern könnten theoretisch durchrutschen. Eigener Fix wäre Scope-Erweiterung des Hard-Overrides. ## Test plan - [ ] Frisch kalibrieren mit den gemergten Verbesserungen (#251 Thresholds + #254 cleanSnippet + #255 Tracking-Override + Verb-Heuristik) - [ ] `ts-node apps/api/scripts/analyze-nli-debug.ts <alt.jsonl> <neu.jsonl>` und Δ-Tabelle prüfen - [ ] Auf Basis der Zahlen entscheiden ob #253 (Template-A/B) der nächste Schritt ist
chore(256): NLI-Debug-Analyse-Script für Vorher/Nachher-Vergleiche
All checks were successful
continuous-integration/drone/push Build is passing
continuous-integration/drone/pr Build is passing
5ceaea677b
Bewertet eine oder zwei `apps/api/.tmp/nli-debug.jsonl`-Dateien gegen die
aktuelle Pipeline (Tracking-Override → NLI fast path → Verb-Heuristik →
Llama). Importiert `detectTrackingNumber` aus `@mrrmlab/shared-types`,
damit das Script und die Produktion dieselben Patterns sehen.

Wird nach Merge der Threshold-/Override-Änderungen (#251, #254, #255)
gebraucht, um frisch generierte Logs gegen den Baseline-Lauf zu messen
und über #253 (Template-A/B) datenbasiert zu entscheiden.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
Sign in to join this conversation.
No reviewers
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
admin-mrrm/mrrmlabapp!259
No description provided.