NLI-Only Mode (EXPO_PUBLIC_NLI_ONLY) für Kalibrierung — Llama-Fallback abschaltbar #262

Closed
opened 2026-05-14 19:53:26 +02:00 by admin-mrrm · 0 comments
Owner

Problem

Während der NLI-Kalibrierung (#251 ff.) springt bei jedem score < 0.30 der Llama-Fallback an. Auf flakigem Mobile-Netz reißt der 2GB-Download regelmäßig ab (Software caused connection abort / Failed to load model), und der 90s-Timeout in mail-batch-categorizer killt die ganze suggest()-Aufruf — auch wenn NLI vorher erfolgreich gescored und in die Debug-JSONL geloggt hat.

Dazu kommt: für die Kalibrierung brauchen wir Llama nicht. Wir wollen nur saubere NLI-Score-Distributionen sehen.

Fix

Neuer ENV-Flag EXPO_PUBLIC_NLI_ONLY=1 (analog zu EXPO_PUBLIC_NLI_DEBUG_LOG). Wenn gesetzt, gibt mailModelManager.suggest() bei NLI-Uncertain oder NLI-Fehler einfach [] zurück statt nach Llama zu greifen.

Effekt:

  • NLI-Inferenz läuft sauber durch, JSONL füllt sich schnell
  • Uncertain mails kriegen halt keinen Auto-Tag (User taggt manuell oder lässt liegen)
  • Kein 2GB-Download mehr während Kalibrierung

Scope

  • Default verhalten unverändert (Llama-Fallback aktiv) — flag muss explizit gesetzt werden
  • Tracking-Override (#255) und Verb-Heuristik (#255) bleiben unangetastet
  • Mobile-only — der API-Path nutzt eh nur Llama nicht

Tests

  • Vitest in model-manager.spec.ts: bei NLI uncertain + flag → [] zurück, Llama nicht aufgerufen
  • Bei NLI confident + flag → NLI-Tags wie sonst
  • Default (kein flag) → Fallback wie heute
## Problem Während der NLI-Kalibrierung (#251 ff.) springt bei jedem `score < 0.30` der Llama-Fallback an. Auf flakigem Mobile-Netz reißt der 2GB-Download regelmäßig ab (`Software caused connection abort` / `Failed to load model`), und der 90s-Timeout in `mail-batch-categorizer` killt die ganze `suggest()`-Aufruf — auch wenn NLI vorher erfolgreich gescored und in die Debug-JSONL geloggt hat. Dazu kommt: für die Kalibrierung **brauchen wir Llama nicht**. Wir wollen nur saubere NLI-Score-Distributionen sehen. ## Fix Neuer ENV-Flag `EXPO_PUBLIC_NLI_ONLY=1` (analog zu `EXPO_PUBLIC_NLI_DEBUG_LOG`). Wenn gesetzt, gibt `mailModelManager.suggest()` bei NLI-Uncertain oder NLI-Fehler einfach `[]` zurück statt nach Llama zu greifen. Effekt: - NLI-Inferenz läuft sauber durch, JSONL füllt sich schnell - Uncertain mails kriegen halt keinen Auto-Tag (User taggt manuell oder lässt liegen) - Kein 2GB-Download mehr während Kalibrierung ## Scope - Default verhalten unverändert (Llama-Fallback aktiv) — flag muss explizit gesetzt werden - Tracking-Override (#255) und Verb-Heuristik (#255) bleiben unangetastet - Mobile-only — der API-Path nutzt eh nur Llama nicht ## Tests - Vitest in `model-manager.spec.ts`: bei NLI uncertain + flag → `[]` zurück, Llama nicht aufgerufen - Bei NLI confident + flag → NLI-Tags wie sonst - Default (kein flag) → Fallback wie heute
Sign in to join this conversation.
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
admin-mrrm/mrrmlabapp#262
No description provided.