NLI-Only Mode (EXPO_PUBLIC_NLI_ONLY) für Kalibrierung — Llama-Fallback abschaltbar #262

New issue

Closed

opened 2026-05-14 19:53:26 +02:00 by admin-mrrm · 0 comments

admin-mrrm commented

2026-05-14 19:53:26 +02:00

Owner

Problem

Während der NLI-Kalibrierung (#251 ff.) springt bei jedem score < 0.30 der Llama-Fallback an. Auf flakigem Mobile-Netz reißt der 2GB-Download regelmäßig ab (Software caused connection abort / Failed to load model), und der 90s-Timeout in mail-batch-categorizer killt die ganze suggest()-Aufruf — auch wenn NLI vorher erfolgreich gescored und in die Debug-JSONL geloggt hat.

Dazu kommt: für die Kalibrierung brauchen wir Llama nicht. Wir wollen nur saubere NLI-Score-Distributionen sehen.

Fix

Neuer ENV-Flag EXPO_PUBLIC_NLI_ONLY=1 (analog zu EXPO_PUBLIC_NLI_DEBUG_LOG). Wenn gesetzt, gibt mailModelManager.suggest() bei NLI-Uncertain oder NLI-Fehler einfach [] zurück statt nach Llama zu greifen.

Effekt:

NLI-Inferenz läuft sauber durch, JSONL füllt sich schnell
Uncertain mails kriegen halt keinen Auto-Tag (User taggt manuell oder lässt liegen)
Kein 2GB-Download mehr während Kalibrierung

Scope

Default verhalten unverändert (Llama-Fallback aktiv) — flag muss explizit gesetzt werden
Tracking-Override (#255) und Verb-Heuristik (#255) bleiben unangetastet
Mobile-only — der API-Path nutzt eh nur Llama nicht

Tests

Vitest in model-manager.spec.ts: bei NLI uncertain + flag → [] zurück, Llama nicht aufgerufen
Bei NLI confident + flag → NLI-Tags wie sonst
Default (kein flag) → Fallback wie heute

## Problem Während der NLI-Kalibrierung (#251 ff.) springt bei jedem `score < 0.30` der Llama-Fallback an. Auf flakigem Mobile-Netz reißt der 2GB-Download regelmäßig ab (`Software caused connection abort` / `Failed to load model`), und der 90s-Timeout in `mail-batch-categorizer` killt die ganze `suggest()`-Aufruf — auch wenn NLI vorher erfolgreich gescored und in die Debug-JSONL geloggt hat. Dazu kommt: für die Kalibrierung **brauchen wir Llama nicht**. Wir wollen nur saubere NLI-Score-Distributionen sehen. ## Fix Neuer ENV-Flag `EXPO_PUBLIC_NLI_ONLY=1` (analog zu `EXPO_PUBLIC_NLI_DEBUG_LOG`). Wenn gesetzt, gibt `mailModelManager.suggest()` bei NLI-Uncertain oder NLI-Fehler einfach `[]` zurück statt nach Llama zu greifen. Effekt: - NLI-Inferenz läuft sauber durch, JSONL füllt sich schnell - Uncertain mails kriegen halt keinen Auto-Tag (User taggt manuell oder lässt liegen) - Kein 2GB-Download mehr während Kalibrierung ## Scope - Default verhalten unverändert (Llama-Fallback aktiv) — flag muss explizit gesetzt werden - Tracking-Override (#255) und Verb-Heuristik (#255) bleiben unangetastet - Mobile-only — der API-Path nutzt eh nur Llama nicht ## Tests - Vitest in `model-manager.spec.ts`: bei NLI uncertain + flag → `[]` zurück, Llama nicht aufgerufen - Bei NLI confident + flag → NLI-Tags wie sonst - Default (kein flag) → Fallback wie heute