Szenario B: Beispiel-Skript für Embeddings (Ollama + DuckDB-VSS) als Startvorlage

2026-05-15 14:55:25 +02:00 · 2026-05-15 14:55:25 +02:00 · bd4abfcfd6
commit bd4abfcfd6
parent 11a495d5b1
2 changed files with 154 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -27,6 +27,7 @@ dwh/       Quelldaten für Szenario C (DWH-Verdichtung)
 | `praxis_bergblick_export.xml` | XML mit Namespace | ~232 Patienten + 150 Behandlungen, netto + MwSt |
 | `zielschema.sql` | PostgreSQL-DDL | Verbund-Zielschema |
 | `gold_cluster.csv` | CSV | **Goldstandard:** wahre Cluster-Zuordnungen für Auswertung |
+| `beispiel_embeddings.py` | Python | Startvorlage für Szenario B: Embeddings mit Ollama + DuckDB-VSS berechnen, speichern, Kandidatenpaare ermitteln |

 Volumen: **916 Kunden, 600 Behandlungen, 113 Cluster mit Dubletten**.

--- a/verbund/beispiel_embeddings.py
+++ b/verbund/beispiel_embeddings.py
@ -0,0 +1,153 @@
+#!/usr/bin/env python3
+"""
+Beispiel: Embeddings lokal berechnen und in DuckDB speichern.
+
+Gedacht als Startpunkt für Team B (AI-gestütztes Matching im
+Verbund-Szenario). Zeigt:
+
+  1. Wie pro Kunde ein Kontakt-Embedding mit Ollama erzeugt wird.
+  2. Wie die Vektoren als DuckDB-Spalte FLOAT[768] gespeichert werden.
+  3. Wie über array_cosine_similarity Kandidatenpaare für das
+     anschliessende LLM-Matching ermittelt werden.
+
+Das Skript ist BEWUSST minimal gehalten und reduziert nicht
+auf Produktivqualitaet. Ziel ist eine arbeitsfaehige Vorlage,
+nicht eine fertige Pipeline.
+
+Voraussetzungen:
+
+  pip install duckdb ollama pandas
+  ollama pull nomic-embed-text
+
+Aufruf:
+
+  python beispiel_embeddings.py
+"""
+
+from __future__ import annotations
+
+import time
+from pathlib import Path
+
+import duckdb
+import ollama
+
+HERE = Path(__file__).resolve().parent
+DB = HERE / "embedding_demo.duckdb"
+SCHEMA = "embeddings"
+TABLE = f"{SCHEMA}.kunde_embedding"
+MODEL = "nomic-embed-text"   # 768-dim, ~270 MB lokales Modell
+DIM = 768
+THRESHOLD = 0.75             # Cosine-Similarity-Schwellwert fuer Kandidatenpaare
+
+
+def build_text(row: dict) -> str:
+    """Baut den Eingabetext, aus dem das Embedding berechnet wird.
+
+    Die Reihenfolge der Felder ist wichtig: das Modell gewichtet
+    fruehe Tokens staerker. Name kommt zuerst, dann Adresse, dann
+    Kontaktinformationen.
+    """
+    parts = [
+        (row.get("vorname") or "") + " " + (row.get("nachname") or ""),
+        row.get("strasse") or "",
+        (row.get("plz") or "") + " " + (row.get("ort") or ""),
+        row.get("telefon") or "",
+        row.get("email") or "",
+    ]
+    return " | ".join(p.strip() for p in parts if p and p.strip())
+
+
+def main() -> int:
+    con = duckdb.connect(str(DB))
+
+    # ---- 1. VSS-Extension fuer Vektor-Operationen --------------
+    con.execute("INSTALL vss;")
+    con.execute("LOAD vss;")
+
+    # ---- 2. Schema + Tabelle vorbereiten -----------------------
+    con.execute(f"CREATE SCHEMA IF NOT EXISTS {SCHEMA};")
+    con.execute(f"""
+        CREATE OR REPLACE TABLE {TABLE} (
+            quell_id   VARCHAR,
+            praxis     VARCHAR,
+            text       VARCHAR,
+            embedding  FLOAT[{DIM}]
+        );
+    """)
+
+    # ---- 3. Beispieldaten laden --------------------------------
+    # Wir nehmen die Juckstadt-CSV als Demo. In der echten Pipeline
+    # zieht Team B aus dem final.verbund_kunde (siehe Anhang III).
+    juck_path = HERE / "praxis_juckstadt_kunden.csv"
+    rows = con.execute(f"""
+        SELECT
+            kunden_nr::VARCHAR AS quell_id,
+            'JUCK'             AS praxis,
+            vorname, nachname, strasse, plz, ort, telefon, email
+        FROM read_csv_auto('{juck_path.as_posix()}',
+                           sep=';', header=true, all_varchar=true)
+    """).fetchall()
+
+    print(f"Berechne Embeddings fuer {len(rows)} Kunden ...")
+    t0 = time.time()
+    for r in rows:
+        quell_id, praxis, vor, nach, str_, plz, ort, tel, mail = r
+        text = build_text({
+            "vorname": vor, "nachname": nach, "strasse": str_,
+            "plz": plz, "ort": ort, "telefon": tel, "email": mail,
+        })
+        resp = ollama.embeddings(model=MODEL, prompt=text)
+        con.execute(
+            f"INSERT INTO {TABLE} VALUES (?, ?, ?, ?)",
+            [quell_id, praxis, text, resp["embedding"]],
+        )
+    dt = time.time() - t0
+    print(f"  fertig in {dt:.1f}s "
+          f"({dt / max(len(rows), 1) * 1000:.0f}ms pro Kunde)\n")
+
+    # ---- 4. HNSW-Index fuer schnelle KNN-Suche -----------------
+    con.execute(f"""
+        CREATE INDEX IF NOT EXISTS idx_kunde_emb
+        ON {TABLE}
+        USING HNSW (embedding) WITH (metric = 'cosine');
+    """)
+
+    # ---- 5. Kandidatenpaare ueber Cosine-Similarity ------------
+    paare = con.execute(f"""
+        SELECT a.quell_id AS a_id,
+               b.quell_id AS b_id,
+               a.text AS a_text,
+               b.text AS b_text,
+               round(array_cosine_similarity(a.embedding, b.embedding), 3) AS sim
+        FROM {TABLE} a
+        JOIN {TABLE} b
+          ON a.quell_id < b.quell_id
+        WHERE array_cosine_similarity(a.embedding, b.embedding) >= {THRESHOLD}
+        ORDER BY sim DESC
+        LIMIT 20
+    """).fetchall()
+
+    print(f"Kandidatenpaare (sim >= {THRESHOLD}):\n")
+    for a_id, b_id, a_text, b_text, sim in paare:
+        print(f"  sim={sim:.3f}  {a_id} vs {b_id}")
+        print(f"    A: {a_text}")
+        print(f"    B: {b_text}\n")
+
+    # ---- 6. Modell-Metadaten festhalten (Reproduzierbarkeit) ---
+    con.execute(f"""
+        CREATE OR REPLACE TABLE {SCHEMA}.modell_meta (
+            modell     VARCHAR,
+            dim        INTEGER,
+            erstellt_am TIMESTAMP DEFAULT CURRENT_TIMESTAMP
+        );
+        INSERT INTO {SCHEMA}.modell_meta (modell, dim)
+        VALUES (?, ?);
+    """, [MODEL, DIM])
+
+    print(f"DB: {DB}")
+    return 0
+
+
+if __name__ == "__main__":
+    raise SystemExit(main())