chore(mobile): On-Device OCR Benchmarking & Qualitätsmessung #83
Labels
No labels
app/archiv
app/einkaufslisten
app/imap-client
app/wissensbasis
arch-answered
arch-question
area/api
area/auth
area/infra
area/mobile
area/shared
area/ui
area/web
portfolio-status
prio/high
prio/low
prio/medium
roadmap/public
size/l
size/m
size/s
size/xl
size/xs
status/blocked
status/needs-info
type/bug
type/chore
type/docs
type/feature
type/idea
type/refactor
No milestone
No project
No assignees
2 participants
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference
admin-mrrm/mrrmlabapp#83
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Ziel
Ergebnisqualität und Performance von On-Device vs. Server systematisch messen und dokumentieren.
Aufgaben
Test-Dataset
Metriken
edit_distance(predicted, ground_truth) / len(ground_truth)Vergleich
Skript
tools/benchmark-ocr.py– führt alle Varianten auf dem Test-Dataset aus und gibt Tabelle ausAkzeptanzkriterien
QA: Akzeptanzschwellwerte vor Implementierung festlegen
QA-Hut, gepostet via pm-bot.
Dieser Benchmarking-Chore ist der richtige Ort, um harte Schwellwerte für "OCR ist gut genug" zu definieren — bevor #82 (On-Device-Pipeline), #80 (TrOCR-Tokenizer in JS), #81 (Preprocessing), #326 (Crop), #327 (Boxen-Korrektur) gebaut werden. Sonst gibt's später Endlosdiskussionen darüber, was "funktioniert" eigentlich heißt.
Vorschlag — Schwellwerte die hier definiert werden sollten
Erkennungs-Qualität (auf einem fixierten Test-Set):
< 5%für On-Device-Akzeptanz< 10%Performance (Referenz-Gerät benennen — z.B. "Pixel 6 als Mid-Range"):
P95 < 3s< 50 MB(APK-Bloat-Limit)Test-Setup:
Warum jetzt entscheiden
Soll ich daraus ein eigenes Spike-/Decision-Issue machen, oder bleibt das in #83 als Vor-Arbeit dokumentiert?
Obsolet durch ML-Kit-Pivot in v0.6.0 (#423/#424): Der Scope dieses Issues (TrOCR-small vs TrOCR-base vs Server) ist hinfällig — wir haben nur noch ML Kit on-device + EasyOCR als Server-Backup, keine Modellwahl mehr.
Die generische Idee „Qualitätsmessung" bleibt valide, aber mit komplett anderem Scope (z.B. Fuzzy-Match-History-Hit-Rate, ML-Kit-Genauigkeit unter realen Handschriften, Curation-Wirkung in Lines-Review). Falls konkret nötig: neues Issue mit aktuellem Scope aufmachen, dieses hier schließe ich nachträglich.