fix(#325): OCR-Zeilen-Merge für übersegmentierte Boxen #346
No reviewers
Labels
No labels
app/archiv
app/einkaufslisten
app/imap-client
app/wissensbasis
arch-answered
arch-question
area/api
area/auth
area/infra
area/mobile
area/shared
area/ui
area/web
portfolio-status
prio/high
prio/low
prio/medium
roadmap/public
size/l
size/m
size/s
size/xl
size/xs
status/blocked
status/needs-info
type/bug
type/chore
type/docs
type/feature
type/idea
type/refactor
No milestone
No project
No assignees
1 participant
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference
admin-mrrm/mrrmlabapp!346
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "fix/325-ocr-line-merge"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Summary
_merge_overlapping_bboxesinapps/ocr/app/ocr.py: clustert EasyOCR-Boxen mit vertikalem Überlapp und joint Text in X-Reihenfolge.extract_text(nach demconf > 0.1-Filter) und indebug_extract(nach_run_easyocr).apps/ocr/tests/test_ocr.pydecken: leere Eingabe, Merge auf gleicher Zeile, getrennte Zeilen, drei Boxen mit Misch-Layout, X-Sortierung, umschließendes Rechteck.Fixt #325.
Hintergrund
CRAFT splittet bei Lücken, Schräglage und Unterlängen aggressiv — handgeschriebene Einkaufszettel landeten dadurch im Review-Screen häufig als 2+ Items pro echter Zeile. Der Merge passiert nach dem Confidence-Filter; bestehender Test
extract_text_filters_low_confidencebleibt grün, weil das Filterverhalten unverändert ist.Default
y_overlap_ratio = 0.4(eher konservativ — falsch-Merges sind schlimmer als gar nicht gemerged). Hardcoded konstante; bei Bedarf nach realen Photos nachziehen.Test plan
pytest apps/ocr/tests/test_ocr.py -vgrün (Drone-CI)