admin-mrrm/mrrmlabapp

Fork

You've already forked mrrmlabapp

Code Issues 15 Pull requests Projects Releases 40 Packages 5 Wiki Activity Actions

feat(ai): P1.1 Embedding-Modell `multilingual-e5-small` on-device integrieren #439

New issue

Closed

opened 2026-06-06 16:28:52 +02:00 by pm-bot · 2 comments

pm-bot commented

2026-06-06 16:28:52 +02:00

Collaborator

Copy link

Phase-1-Sub-Issue zu #122 (Decision Record 2026-06-06).

Ziel

Deutsches/multilinguales Embedding-Modell intfloat/multilingual-e5-small on-device verfügbar machen — Foundation für RAG-Suche und alle nachfolgenden KI-Phasen.

Scope

ONNX-Export des Modells (Q8-quantisiert, ~118 MB) als App-Asset oder Download-on-First-Run.
onnxruntime-react-native (zurückgeholt — siehe Decision 1 in #438) als Inferenz-Runtime.
TypeScript-Service EmbeddingService mit synchroner Inferenz auf Text-Chunk → Float32Array.
E5-spezifisches Input-Formatting: Query-Prefix query: , Passage-Prefix passage: (E5-Konvention).
Performance-Targets: <30 ms pro Text-Chunk auf Mid-Range-Android (Pixel 6 / Galaxy A53 Klasse).
Web-Variante out-of-scope (separates Sub-Epic später).

Akzeptanzkriterien

Modell ist on-device verfügbar (bundled oder downloadable mit Fallback-UX).
EmbeddingService.embed(text, kind: 'query'|'passage'): Float32Array funktional getestet.
Vitest-Suite mit Golden-Set (5-10 deutsche Beispiel-Strings) gegen erwartete Embedding-Cosine-Similarity-Bounds.
Benchmark in einem README: Latenz pro Chunk auf Test-Device dokumentiert.
Bundle-Größen-Auswirkung dokumentiert.

Out-of-Scope

Indexierung in sqlite-vec (P1.2)
Background-Job (P1.4)
UI (P1.5)

Phase-1-Sub-Issue zu #122 (Decision Record 2026-06-06). ## Ziel Deutsches/multilinguales Embedding-Modell `intfloat/multilingual-e5-small` on-device verfügbar machen — Foundation für RAG-Suche und alle nachfolgenden KI-Phasen. ## Scope - ONNX-Export des Modells (Q8-quantisiert, ~118 MB) als App-Asset oder Download-on-First-Run. - `onnxruntime-react-native` (zurückgeholt — siehe Decision 1 in #438) als Inferenz-Runtime. - TypeScript-Service `EmbeddingService` mit synchroner Inferenz auf Text-Chunk → Float32Array. - E5-spezifisches Input-Formatting: Query-Prefix `query: `, Passage-Prefix `passage: ` (E5-Konvention). - Performance-Targets: <30 ms pro Text-Chunk auf Mid-Range-Android (Pixel 6 / Galaxy A53 Klasse). - Web-Variante out-of-scope (separates Sub-Epic später). ## Akzeptanzkriterien - [ ] Modell ist on-device verfügbar (bundled oder downloadable mit Fallback-UX). - [ ] `EmbeddingService.embed(text, kind: 'query'|'passage'): Float32Array` funktional getestet. - [ ] Vitest-Suite mit Golden-Set (5-10 deutsche Beispiel-Strings) gegen erwartete Embedding-Cosine-Similarity-Bounds. - [ ] Benchmark in einem README: Latenz pro Chunk auf Test-Device dokumentiert. - [ ] Bundle-Größen-Auswirkung dokumentiert. ## Out-of-Scope - Indexierung in sqlite-vec (P1.2) - Background-Job (P1.4) - UI (P1.5)

pm-bot added the

labels

2026-06-06 16:28:52 +02:00

pm-bot referenced this issue

2026-06-06 16:29:07 +02:00

[Epic] Persönlicher KI-Assistent — Privacy-First On-Device Architektur #122

pm-bot referenced this issue

2026-06-06 16:37:22 +02:00

[Epic] Persönlicher KI-Assistent — Privacy-First On-Device Architektur #122

pm-bot commented

2026-06-06 16:37:27 +02:00

Author

Collaborator

Copy link

Scope-Korrektur 2026-06-06

Der Original-Scope dieses Tickets war zu groß formuliert — „ONNX-Reintegration" war falsche Annahme. Tatsächliches Bild:

Bestehende Foundation (kann wiederverwendet werden)

onnxruntime-react-native voll integriert, Custom Expo Plugin with-onnxruntime-package aktiv
Hermes-Polyfills für Symbol.for('onnxruntime') und Blob/File in nli-classifier-polyfill.ts
@huggingface/transformers mit env.allowLocalModels=false/env.useFSCache=false-Konfiguration
Pattern für Model-Download + Lifecycle-Management (siehe nli-classifier.ts Klassen-Struktur)
Pattern für ONNX-InferenceSession mit transformers.js-Tokenizer (AutoTokenizer.from_pretrained)

Tatsächlich neuer Scope

Analog zu nli-classifier.ts einen embedding-service.ts anlegen, der:

multilingual-e5-small ONNX-Modell (~118 MB Q8) lädt (Download-on-First-Run, gleiches Pattern wie NLI)
Tokenizer von intfloat/multilingual-e5-small über AutoTokenizer.from_pretrained lädt
embed(text, kind: 'query'|'passage'): Promise<Float32Array> exponiert
E5-spezifisches Input-Prefixing (query: , passage: )
Mean-Pooling über Token-Embeddings + L2-Normalization (E5-Konvention)

Akzeptanzkriterien unverändert

Modell ist on-device verfügbar (Download-on-First-Run gleiches Pattern wie NLI)
EmbeddingService.embed(text, kind) funktional getestet
Vitest-Suite mit Golden-Set (5-10 deutsche Beispiel-Strings) → erwartete Cosine-Similarity-Bounds
Benchmark in einem README: Latenz pro Chunk auf Test-Device
Bundle-Größen-Auswirkung dokumentiert (sollte ~0 sein da Download-on-First-Run)

Effort-Schätzung neu

Deutlich kleiner als ursprünglich beschrieben — ~1-2 Tage statt ~1 Woche, weil das ganze Infrastruktur-Setup (ORT, Polyfills, Plugin, Download-Pattern) bereits steht.

## Scope-Korrektur 2026-06-06 Der Original-Scope dieses Tickets war zu groß formuliert — „ONNX-Reintegration" war falsche Annahme. Tatsächliches Bild: ### Bestehende Foundation (kann wiederverwendet werden) - `onnxruntime-react-native` voll integriert, Custom Expo Plugin `with-onnxruntime-package` aktiv - Hermes-Polyfills für `Symbol.for('onnxruntime')` und Blob/File in `nli-classifier-polyfill.ts` - `@huggingface/transformers` mit `env.allowLocalModels=false`/`env.useFSCache=false`-Konfiguration - Pattern für Model-Download + Lifecycle-Management (siehe `nli-classifier.ts` Klassen-Struktur) - Pattern für ONNX-InferenceSession mit transformers.js-Tokenizer (`AutoTokenizer.from_pretrained`) ### Tatsächlich neuer Scope Analog zu `nli-classifier.ts` einen `embedding-service.ts` anlegen, der: - `multilingual-e5-small` ONNX-Modell (~118 MB Q8) lädt (Download-on-First-Run, gleiches Pattern wie NLI) - Tokenizer von `intfloat/multilingual-e5-small` über `AutoTokenizer.from_pretrained` lädt - `embed(text, kind: 'query'|'passage'): Promise<Float32Array>` exponiert - E5-spezifisches Input-Prefixing (`query: `, `passage: `) - Mean-Pooling über Token-Embeddings + L2-Normalization (E5-Konvention) ### Akzeptanzkriterien unverändert - [ ] Modell ist on-device verfügbar (Download-on-First-Run gleiches Pattern wie NLI) - [ ] `EmbeddingService.embed(text, kind)` funktional getestet - [ ] Vitest-Suite mit Golden-Set (5-10 deutsche Beispiel-Strings) → erwartete Cosine-Similarity-Bounds - [ ] Benchmark in einem README: Latenz pro Chunk auf Test-Device - [ ] Bundle-Größen-Auswirkung dokumentiert (sollte ~0 sein da Download-on-First-Run) ### Effort-Schätzung neu Deutlich kleiner als ursprünglich beschrieben — ~1-2 Tage statt ~1 Woche, weil das ganze Infrastruktur-Setup (ORT, Polyfills, Plugin, Download-Pattern) bereits steht.

admin-mrrm referenced this issue from a commit

2026-06-06 16:41:39 +02:00

feat(mobile): EmbeddingService (multilingual-e5-small ONNX) — P1.1 / #439

pm-bot referenced this issue from a pull request that will close it,

2026-06-06 17:50:44 +02:00

feat(mobile): wire up AI-foundation Phase 1 (#122) #444

admin-mrrm closed this issue

2026-06-06 17:57:24 +02:00

pm-bot commented

2026-06-06 17:57:29 +02:00

Author

Collaborator

Copy link

Implementation komplett — integriert in PR #444 (wireup/ai-foundation-phase1). Device-Pass läuft am übergeordneten Epic #122. Issue wird geschlossen.

Implementation komplett — integriert in PR #444 (`wireup/ai-foundation-phase1`). Device-Pass läuft am übergeordneten Epic #122. Issue wird geschlossen.

pm-bot referenced this issue

2026-06-08 22:42:27 +02:00

Portfolio-Status KW 2026-W23 #436

pm-bot referenced this issue

2026-06-08 22:45:21 +02:00

[Epic] Persönlicher KI-Assistent — Privacy-First On-Device Architektur #122

No Branch/Tag specified

main

chore/roadmap-rc32-done

feat/rc32-fdroid-nightly

feat/rc31-auto-index-on-mutation

feat/rc30-auto-index

chore/roadmap-rc28-done

feat/360-projects-source

chore/roadmap-rc27-done

feat/habits-ui

chore/roadmap-rc26-done

feat/planner-v1-depends-on

chore/roadmap-rc25-done

feat/calendar-settings-ui

chore/roadmap-rc24-done

feat/candidate-mark-done

chore/roadmap-rc23-done

fix/shared-schema-todo

chore/roadmap-rc22-done

chore/release-rc22

feat/todo-candidate-writer

chore/roadmap-rc21-done

chore/roadmap-rc21-json-fix

chore/release-v0.6.6-rc21

feat/day-planner-empty-state-ctas

chore/roadmap-rc17-rc18-done

chore/phase2-smoke-manual-trigger

chore/roadmap-rc19-done

fix/list-screens-scrollable

feat/dev-user-header-env-gate

wireup/ai-foundation-phase1

feat/443-search-ui

feat/442-background-indexer

feat/441-data-source-interface

feat/440-sqlite-vec

feat/439-embedding-service

feat/425-mlkit-image-preview-integration

archive/spike-77-ocr-mobile

fix/gitea-release-shell-scope

feat/396-version-sync

feat/376-e2e-drone-integration

feat/374-e2e-playwright-setup

feat/372-planner-v1

feat/370-calendar-read

feat/368-planner-v0

feat/366-habit-source

feat/178-mail-candidate-writer

feat/253-nli-template-ab

fix/348-settings-nav-hijack-v2

fix/347-web-side-drawer

fix/349-profile-menu-close

feat-297-sender-memory-ui

feat-296-web-classifier-sender-memory

feat/294-sender-label-memory

chore/268-analyze-script-dynamic-labels

fix/268-nli-threshold-025

fix/266-imap-getmessage-timeout

fix-imap-unhandled-error

fix-175-onnxruntime-anchor

fix-175-onnxruntime-mainapp

ci-release-gate-apk

ci-mobile-bundle-check

fix-175-native-startup

fix-175-stub-onnxruntime-web

fix-175-import-meta-hermes

feat-web-parcel-scan-toggle

feat-tracking-manual-sync

fix-track17-carrier-ids

feat-232-mail-scanner

feat-233-trackings-post

feat-aftership-provider

feat-195-loading-skeletons

feat-197-error-boundary

feat-194-toast-system

chore/add-claude-md

155-auth-callback-route

feat/fdroid-deploy

fix/mail-messages-pagination-types

feat/ocr-correction-review

fix/ocr-inference-oom

fix/ocr-oom-and-finetune-training

feat/ocr-easyocr-and-training-data

feat/ocr-image-rotate-preview

feat/mobile-image-picker-57

feat/ocr-parse-image-endpoint

feat/lists-notes-e2e

fix/web-show-auth-error-body

fix/deploy-envfile

fix/deploy-ssh-port

feat/drone-deploy

fix/drone-secret-names

fix/dockerfile-deploy-flag

feat/drone-ci

feat/apps-web

feat/shopping-list-crud

v0.6.7-rc33

v0.6.6-rc32

v0.6.6-rc31

v0.6.6-rc30

v0.6.6-rc29

v0.6.6-rc28

v0.6.6-rc27

v0.6.6-rc26

v0.6.6-rc25

v0.6.6-rc24

v0.6.6-rc23

v0.6.6-rc22

v0.6.6-rc21

v0.6.6-rc20

v0.6.6-rc19

debug-rpi5

v0.6.6-rc18

v0.6.6-rc17

v0.6.6-rc16

v0.6.6-rc15

v0.6.6-rc14

v0.6.6-rc13

v0.6.6-rc12

v0.6.6-rc11

v0.6.6-rc10

v0.6.6-rc9

v0.6.6-rc8

v0.6.6-rc7

v0.6.6-rc6

v0.6.6-rc5

v0.6.6-rc4

v0.6.6-rc3

v0.6.6-rc2

v0.6.6-rc1

v0.6.5

v0.6.4

v0.6.3

v0.6.2

v0.6.1

v0.6.0

v0.5.0

v0.4.6

v0.4.5

v1.0.515

v1.0.468

v1.0.449

v1.0.442

Labels

Clear labels

app/archiv

Document & email archive (Paperless-ngx integration)

arch-question wurde vom Architekten beantwortet und vom PM in Produkt-Entscheidung übersetzt

arch-question

Anfrage an Software-Architekt — Tech-/Architektur-Entscheidung gebraucht (PM hat sie nicht selbst getroffen)

Monorepo / CI / tooling

area/mobile

Expo React Native app

Wöchentlicher CEO-Portfolio-Status

In der public Roadmap der App sichtbar (roadmap.json kuratiert)

More than 3 days — should be split

Open questions before work can continue

type/bug

Something is broken

type/chore

Infra / tooling / maintenance

type/docs

Documentation

type/feature

New user-facing functionality

type/idea

type/refactor

Code refactor without behavior change

No labels

Milestone

Clear milestone

No items

No milestone

Projects

Clear projects

No items

No project

Assignees

Clear assignees

No assignees

1 participant

Notifications

Due date

The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference

admin-mrrm/mrrmlabapp#439

Reference in a new issue

Repository

admin-mrrm/mrrmlabapp

Title

Body

No description provided.

Delete branch "%!s()"

Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?

Rows
Columns

feat(ai): P1.1 Embedding-Modell multilingual-e5-small on-device integrieren #439

Ziel

Scope

Akzeptanzkriterien

Out-of-Scope

Scope-Korrektur 2026-06-06

Bestehende Foundation (kann wiederverwendet werden)

Tatsächlich neuer Scope

Akzeptanzkriterien unverändert

Effort-Schätzung neu

feat(ai): P1.1 Embedding-Modell `multilingual-e5-small` on-device integrieren #439