working on ADR0005

2026-03-23 13:17:50 +01:00 · 2026-03-23 13:17:50 +01:00 · b574517340
parent 185ea276b7
commit b574517340
2 changed files with 402 additions and 1 deletions
--- a/research/embeddings/evaluate_embeddings_pipeline.py
+++ b/research/embeddings/evaluate_embeddings_pipeline.py
@ -0,0 +1,400 @@
+"""
+Embedding Evaluation Pipeline
+
+Evaluate embedding models across CodexGlue, CoSQA, and SciFact benchmarks.
+Supports multiple embedding providers via factory methods.
+"""
+
+import json
+from pathlib import Path
+from typing import Any, Dict, List, Union
+
+import numpy as np
+import typer
+from langchain_ollama import OllamaEmbeddings
+from langchain_huggingface import HuggingFaceEmbeddings
+from beir.datasets.data_loader import GenericDataLoader
+from beir.retrieval.evaluation import EvaluateRetrieval
+from beir.retrieval.search.dense import DenseRetrievalExactSearch
+from beir import util
+from datasets import load_dataset
+from src.config import settings
+from src.utils.emb_factory import create_embedding_model
+# Import embedding factory
+project_root = settings.proj_root
+DATASETS_ROOT = project_root / "research" / "embeddings" / "datasets"
+
+app = typer.Typer()
+
+
+class BEIROllamaEmbeddings:
+    """
+    Adapter that makes LangChain's OllamaEmbeddings compatible with BEIR.
+    """
+
+    def __init__(
+        self,
+        base_url: str,
+        model: str,
+        batch_size: int = 64,
+    ) -> None:
+        self.batch_size = batch_size
+        self.embeddings = OllamaEmbeddings(
+            base_url=base_url,
+            model=model,
+        )
+
+    def _batch_embed(self, texts: List[str]) -> np.ndarray:
+        vectors = []
+
+        for i in range(0, len(texts), self.batch_size):
+            batch = texts[i : i + self.batch_size]
+            batch_vectors = self.embeddings.embed_documents(batch)
+            
+            # Handle NaN values by replacing with zeros
+            for vec in batch_vectors:
+                if isinstance(vec, (list, np.ndarray)):
+                    vec_array = np.asarray(vec, dtype=np.float32)
+                    # Replace NaN with zeros
+                    vec_array = np.nan_to_num(vec_array, nan=0.0, posinf=0.0, neginf=0.0)
+                    vectors.append(vec_array)
+                else:
+                    vectors.append(vec)
+
+        return np.asarray(vectors, dtype=np.float32)
+
+    def encode_queries(self, queries: List[str], **kwargs) -> np.ndarray:
+        """
+        BEIR query encoder
+        """
+        # Filter and clean queries - replace empty ones with placeholder
+        cleaned_queries = []
+        for q in queries:
+            if isinstance(q, str):
+                cleaned = q.strip()
+                if not cleaned:
+                    cleaned = "[EMPTY]"
+            else:
+                cleaned = "[INVALID]"
+            cleaned_queries.append(cleaned)
+        
+        return self._batch_embed(cleaned_queries)
+
+    def encode_corpus(
+        self,
+        corpus: Union[List[Dict[str, str]], Dict[str, Dict[str, str]]],
+        **kwargs,
+    ) -> np.ndarray:
+        """
+        BEIR corpus encoder
+        """
+        if isinstance(corpus, dict):
+            corpus = list(corpus.values())
+
+        texts = []
+        for doc in corpus:
+            title = (doc.get("title") or "").strip()
+            text = (doc.get("text") or "").strip()
+
+            # Combine title and text, filtering out empty strings
+            combined = " ".join(filter(None, [title, text]))
+            
+            # Use placeholder if both are empty to avoid NaN embeddings
+            if not combined:
+                combined = "[EMPTY]"
+            
+            texts.append(combined)
+
+        return self._batch_embed(texts)
+
+
+class BEIRHuggingFaceEmbeddings:
+    """
+    Adapter that makes LangChain's HuggingFaceEmbeddings compatible with BEIR.
+    """
+
+    def __init__(self, model: str, batch_size: int = 64) -> None:
+        self.batch_size = batch_size
+        self.embeddings = HuggingFaceEmbeddings(model_name=model)
+
+    def _batch_embed(self, texts: List[str]) -> np.ndarray:
+        vectors = []
+        for i in range(0, len(texts), self.batch_size):
+            batch = texts[i : i + self.batch_size]
+            batch_vectors = self.embeddings.embed_documents(batch)
+            
+            # Handle NaN values
+            for vec in batch_vectors:
+                if isinstance(vec, (list, np.ndarray)):
+                    vec_array = np.asarray(vec, dtype=np.float32)
+                    vec_array = np.nan_to_num(vec_array, nan=0.0, posinf=0.0, neginf=0.0)
+                    vectors.append(vec_array)
+                else:
+                    vectors.append(vec)
+
+        return np.asarray(vectors, dtype=np.float32)
+
+    def encode_queries(self, queries: List[str], **kwargs) -> np.ndarray:
+        """BEIR query encoder"""
+        cleaned_queries = []
+        for q in queries:
+            if isinstance(q, str):
+                cleaned = q.strip()
+                if not cleaned:
+                    cleaned = "[EMPTY]"
+            else:
+                cleaned = "[INVALID]"
+            cleaned_queries.append(cleaned)
+        return self._batch_embed(cleaned_queries)
+
+    def encode_corpus(
+        self,
+        corpus: Union[List[Dict[str, str]], Dict[str, Dict[str, str]]],
+        **kwargs,
+    ) -> np.ndarray:
+        """BEIR corpus encoder"""
+        if isinstance(corpus, dict):
+            corpus = list(corpus.values())
+
+        texts = []
+        for doc in corpus:
+            title = (doc.get("title") or "").strip()
+            text = (doc.get("text") or "").strip()
+            combined = " ".join(filter(None, [title, text]))
+            if not combined:
+                combined = "[EMPTY]"
+            texts.append(combined)
+
+        return self._batch_embed(texts)
+
+
+def load_scifact_dataset() -> tuple[Dict, Dict, Dict]:
+    """Load SciFact benchmark."""
+    DATASETS_ROOT.mkdir(parents=True, exist_ok=True)
+    url = "https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/scifact.zip"
+    data_path = util.download_and_unzip(url, out_dir=str(DATASETS_ROOT))
+    scifact_path = Path(data_path)
+    if scifact_path.name != "scifact":
+        scifact_path = DATASETS_ROOT / "scifact"
+    return GenericDataLoader(str(scifact_path)).load(split="test")
+
+
+def load_cosqa_dataset() -> tuple[Dict, Dict, Dict]:
+    """Load CoSQA benchmark."""
+    data_path = DATASETS_ROOT / "cosqa"
+    (data_path / "qrels").mkdir(parents=True, exist_ok=True)
+
+    # Load from HuggingFace
+    hf_corpus = load_dataset("CoIR-Retrieval/cosqa", "corpus", split="corpus")
+    hf_queries = load_dataset("CoIR-Retrieval/cosqa", "queries", split="queries")
+    hf_qrels = load_dataset("CoIR-Retrieval/cosqa", "default", split="test")
+
+    # Save in BEIR format
+    with open(data_path / "corpus.jsonl", "w") as f:
+        for item in hf_corpus:
+            f.write(
+                json.dumps(
+                    {"_id": str(item["_id"]), "text": item["text"], "title": ""}
+                )
+                + "\n"
+            )
+
+    with open(data_path / "queries.jsonl", "w") as f:
+        for item in hf_queries:
+            f.write(json.dumps({"_id": str(item["_id"]), "text": item["text"]}) + "\n")
+
+    with open(data_path / "qrels" / "test.tsv", "w") as f:
+        f.write("query-id\tcorpus-id\tscore\n")
+        for item in hf_qrels:
+            f.write(f"{item['query-id']}\t{item['corpus-id']}\t{item['score']}\n")
+
+    return GenericDataLoader(str(data_path)).load(split="test")
+
+
+def load_codexglue_dataset() -> tuple[Dict, Dict, Dict]:
+    """Load CodexGlue benchmark."""
+    data_path = DATASETS_ROOT / "codexglue"
+    (data_path / "qrels").mkdir(parents=True, exist_ok=True)
+
+    raw_dataset = load_dataset("google/code_x_glue_tc_nl_code_search_adv", split="test")
+    with open(data_path / "corpus.jsonl", "w") as corpus_file:
+        for i, data in enumerate(raw_dataset):
+            docid = f"doc_{i}"
+            corpus_file.write(
+                json.dumps(
+                    {
+                        "_id": docid,
+                        "title": data.get("func_name", ""),
+                        "text": data["code"],
+                    }
+                )
+                + "\n"
+            )
+
+    with open(data_path / "queries.jsonl", "w") as query_file:
+        for i, data in enumerate(raw_dataset):
+            queryid = f"q_{i}"
+            query_file.write(
+                json.dumps({"_id": queryid, "text": data["docstring"]}) + "\n"
+            )
+
+    with open(data_path / "qrels" / "test.tsv", "w") as qrels_file:
+        qrels_file.write("query-id\tcorpus-id\tscore\n")
+        for i, _ in enumerate(raw_dataset):
+            qrels_file.write(f"q_{i}\tdoc_{i}\t1\n")
+
+    return GenericDataLoader(str(data_path)).load(split="test")
+
+
+BENCHMARK_LOADERS = {
+    "scifact": load_scifact_dataset,
+    "cosqa": load_cosqa_dataset,
+    "codexglue": load_codexglue_dataset,
+}
+
+
+def evaluate_model_on_benchmark(
+    benchmark: str, provider: str, model: str, k_values: List[int] = None
+) -> Dict[str, Any]:
+    """Evaluate a model on a benchmark."""
+    if k_values is None:
+        k_values = [1, 5, 10, 100]
+
+    print(f"  Loading {benchmark.upper()} dataset...")
+    corpus, queries, qrels = BENCHMARK_LOADERS[benchmark]()
+
+    print(f"  Corpus: {len(corpus)}, Queries: {len(queries)}")
+
+    # Select adapter based on provider
+    if provider == "ollama":
+        adapter = BEIROllamaEmbeddings(
+            base_url=settings.ollama_local_url,
+            model=model,
+            batch_size=64
+        )
+    elif provider == "huggingface":
+        adapter = BEIRHuggingFaceEmbeddings(model=model, batch_size=64)
+    else:
+        raise ValueError(f"Unknown provider: {provider}")
+
+    retriever = DenseRetrievalExactSearch(adapter, batch_size=64)
+    evaluator = EvaluateRetrieval(retriever, score_function="cos_sim")
+
+    print(f"  Running retrieval...")
+    results = evaluator.retrieve(corpus, queries)
+
+    print(f"  Computing metrics...")
+    ndcg, _map, recall, precision = evaluator.evaluate(qrels, results, k_values)
+
+    return {"NDCG": ndcg, "MAP": _map, "Recall": recall, "Precision": precision}
+
+
+def parse_model_spec(model_spec: str) -> tuple[str, str]:
+    """
+    Parse model spec. Format: "provider:model_name" (default provider: ollama).
+    Examples: "ollama:qwen3", "openai:text-embedding-3-small", "bge-me3:latest"
+    """
+    if ":" in model_spec:
+        parts = model_spec.split(":", 1)
+        if parts[0].lower() in ["ollama", "openai", "huggingface", "bedrock"]:
+            return parts[0].lower(), parts[1]
+    return "ollama", model_spec
+
+
+def evaluate_models(
+    models: List[str], benchmarks: List[str], output_folder: Path, k_values: List[int]
+) -> None:
+    """Evaluate multiple models on multiple benchmarks."""
+    output_folder.mkdir(parents=True, exist_ok=True)
+    all_results = {}
+
+    for model_spec in models:
+        provider, model_name = parse_model_spec(model_spec)
+        print(f"\n{'='*60}\nModel: {model_name} ({provider})\n{'='*60}")
+
+        model_results = {}
+        for benchmark in benchmarks:
+            if benchmark not in BENCHMARK_LOADERS:
+                print(f"✗ Unknown benchmark: {benchmark}")
+                continue
+
+            print(f"\nEvaluating on {benchmark}...")
+            try:
+                metrics = evaluate_model_on_benchmark(
+                    benchmark, provider, model_name, k_values=k_values
+                )
+                model_results[benchmark] = metrics
+                print(f"✓ Complete")
+            except Exception as e:
+                print(f"✗ Error: {e}")
+                import traceback
+                traceback.print_exc()
+
+        all_results[model_spec] = model_results
+
+    # Save results
+    output_file = output_folder / "results.json"
+    print(f"\n{'='*60}\nSaving to {output_file}")
+    with open(output_file, "w") as f:
+        json.dump(all_results, f, indent=2)
+    print(f"✓ Done")
+
+
+@app.command()
+def main(
+    models: List[str] = typer.Option(
+        None,
+        "--model",
+        "-m",
+        help="Model spec (format: 'provider:model' or just 'model' for Ollama). "
+        "Providers: ollama, huggingface. Can specify multiple times. "
+        "Default: huggingface:sentence-transformers/all-MiniLM-L6-v2",
+    ),
+    benchmarks: List[str] = typer.Option(
+        None,
+        "--benchmark",
+        "-b",
+        help="Benchmark name (scifact, cosqa, codexglue). Default: all three",
+    ),
+    output_folder: Path = typer.Option(
+        Path("research/embedding_eval_results"),
+        "--output",
+        "-o",
+        help="Output folder for results.",
+    ),
+    k_values: str = typer.Option(
+        "1,5,10,100",
+        "--k-values",
+        "-k",
+        help="Comma-separated k values for metrics.",
+    ),
+) -> None:
+    """
+    Evaluate embedding models on CodexGlue, CoSQA, and SciFact benchmarks.
+
+    Examples:
+        # HuggingFace model (no Ollama required)
+        python evaluate_embeddings_pipeline.py
+
+        # Different HuggingFace model
+        python evaluate_embeddings_pipeline.py -m huggingface:sentence-transformers/bge-small-en-v1.5
+
+        # Ollama model
+        python evaluate_embeddings_pipeline.py -m ollama:qwen:embeddings
+
+        # Multiple models and single benchmark
+        python evaluate_embeddings_pipeline.py -m huggingface:all-MiniLM-L6-v2 -m ollama:bge-m3 -b scifact -o ./results
+    """
+    if not models:
+        models = ["huggingface:sentence-transformers/all-MiniLM-L6-v2"]
+
+    if not benchmarks:
+        benchmarks = ["scifact", "cosqa", "codexglue"]
+
+    k_list = [int(k.strip()) for k in k_values.split(",")]
+
+    evaluate_models(models=models, benchmarks=benchmarks, output_folder=output_folder, k_values=k_list)
+
+
+if __name__ == "__main__":
+    app()
--- a/src/config.py
+++ b/src/config.py
@ -2,7 +2,8 @@ from pathlib import Path
 from typing import Optional

 from pydantic_settings import BaseSettings, SettingsConfigDict
-
+from dotenv import load_dotenv
+load_dotenv() 

 class Settings(BaseSettings):
    data_path_: Optional[str] = None