[Bug] OCR-Merge: zwei separate Handschrift-Zeilen werden fälschlich zusammengefasst #350
Labels
No labels
app/archiv
app/einkaufslisten
app/imap-client
app/wissensbasis
arch-answered
arch-question
area/api
area/auth
area/infra
area/mobile
area/shared
area/ui
area/web
portfolio-status
prio/high
prio/low
prio/medium
roadmap/public
size/l
size/m
size/s
size/xl
size/xs
status/blocked
status/needs-info
type/bug
type/chore
type/docs
type/feature
type/idea
type/refactor
No milestone
No project
No assignees
1 participant
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference
admin-mrrm/mrrmlabapp#350
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Beobachtung
Nach dem Merge-Fix aus #325 (PR #346) zeigt der Review-Screen für einen handgeschriebenen Einkaufszettel folgendes Verhalten:
Ursache
Die aktuelle Heuristik in
_merge_overlapping_bboxes(apps/ocr/app/ocr.py) prüft:Bei deutscher Handschrift mit Unterlängen (g, p, j) und Oberlängen (E, K, l) überlappen vertikal benachbarte Zeilen oft minimal, ohne semantisch eine Zeile zu sein. Der Streifen-Überlapp reicht aus, um den Threshold zu reißen.
Vorgeschlagener Fix
Umstellung auf Center-Y-Distanz als primäre Metrik:
Damit zählt nicht der Streifen-Überlapp, sondern ob die Mittellinien beider Boxen tatsächlich auf gleicher Höhe liegen. Robuster gegen Ober-/Unterlängen.
Akzeptanzkriterien
apps/ocr/tests/test_ocr.py: zwei Boxen mit kleinem Y-Überlapp aber unterschiedlichen Center-Y bleiben getrenntFixed in #351.