refactor: use monorepo structure

timescale · Oct 9, 2024 · db69e5e · db69e5e
1 parent 57df731
commit db69e5e
Show file tree

Hide file tree

Showing 114 changed files with 3,952 additions and 73 deletions.
diff --git a/Dockerfile b/Dockerfile
@@ -62,6 +62,8 @@ RUN set -eux; \
 ENV PIP_BREAK_SYSTEM_PACKAGES=1
 COPY requirements-test.txt /build/requirements-test.txt
 RUN pip install -r /build/requirements-test.txt
+COPY projects/pgai/requirements.txt /build/requirements-pgai.txt
+RUN pip install -r /build/requirements-pgai.txt
 RUN rm -r /build
 
-WORKDIR /pgai
+WORKDIR /pgai
diff --git a/Makefile b/Makefile
@@ -82,8 +82,12 @@ test-server:
 vectorizer:
 	@./build.py vectorizer
 
+.PHONY: test-vectorizer
+test-vectorizer:
+	@cd projects/pgai && pytest
+
 .PHONY: test
-test:
+test: test-vectorizer
 	@./build.py test
 
 .PHONY: lint-sql
@@ -146,4 +150,3 @@ docker-shell:
 .PHONY: psql-shell
 psql-shell:
 	@docker exec -it -u postgres pgai /bin/bash -c "set -e; if [ -f .env ]; then set -a; source .env; set +a; fi; psql"
-
diff --git a/build.py b/build.py
@@ -1,8 +1,8 @@
 #!/usr/bin/env python3
 import os
 import platform
-import subprocess
 import shutil
+import subprocess
 import sys
 import tempfile
 from pathlib import Path
@@ -69,11 +69,11 @@ def project_dir() -> Path:
 
 
 def sql_dir() -> Path:
-    return project_dir().joinpath("sql").resolve()
+    return src_extension_dir().joinpath("sql").resolve()
 
 
 def src_dir() -> Path:
-    return project_dir().joinpath("src").resolve()
+    return project_dir().joinpath("projects").resolve()
 
 
 def src_extension_dir() -> Path:
@@ -135,7 +135,7 @@ def output_sql_file() -> Path:
 
 
 def tests_dir() -> Path:
-    return project_dir().joinpath("tests")
+    return project_dir().joinpath("projects/extension/tests")
 
 
 def where_am_i() -> str:
@@ -459,7 +459,7 @@ def clean_vectorizer() -> None:
 
 def uninstall_vectorizer() -> None:
     subprocess.run(
-        f'pip3 uninstall -v -y vectorizer',
+        "pip3 uninstall -v -y vectorizer",
         check=True,
         shell=True,
         env=os.environ,
@@ -497,7 +497,7 @@ def clean() -> None:
 
 def test_server() -> None:
     if where_am_i() == "host":
-        cmd = "docker exec -it -w /pgai/tests/vectorizer pgai fastapi dev server.py"
+        cmd = "docker exec -it -w /projects/extension/tests/vectorizer pgai fastapi dev server.py"
         subprocess.run(cmd, shell=True, check=True, env=os.environ, cwd=project_dir())
     else:
         cmd = "fastapi dev server.py"
@@ -583,10 +583,16 @@ def docker_build_vectorizer() -> None:
 
 
 def docker_run() -> None:
+    # Set TESTCONTAINERS_HOST_OVERRIDE when running on MacOS.
+    env_var = ""
+    if platform.system() == "Darwin":
+        env_var = "-e TESTCONTAINERS_HOST_OVERRIDE=host.docker.internal"
     cmd = " ".join(
         [
             "docker run -d --name pgai -p 127.0.0.1:5432:5432 -e POSTGRES_HOST_AUTH_METHOD=trust",
+            "-v /var/run/docker.sock:/var/run/docker.sock",
             f"--mount type=bind,src={project_dir()},dst=/pgai",
+            env_var,  # Include the environment variable if on macOS
             "pgai",
             "-c shared_preload_libraries='timescaledb, pgextwlist'",
             "-c extwlist.extensions='ai,vector'",

diff --git a/src/extension/ai/__init__.py → projects/extension/ai/__init__.py b/src/extension/ai/__init__.py → projects/extension/ai/__init__.py
diff --git a/src/extension/ai/anthropic.py → projects/extension/ai/anthropic.py b/src/extension/ai/anthropic.py → projects/extension/ai/anthropic.py
diff --git a/src/extension/ai/cohere.py → projects/extension/ai/cohere.py b/src/extension/ai/cohere.py → projects/extension/ai/cohere.py
diff --git a/src/extension/ai/ollama.py → projects/extension/ai/ollama.py b/src/extension/ai/ollama.py → projects/extension/ai/ollama.py
diff --git a/src/extension/ai/openai.py → projects/extension/ai/openai.py b/src/extension/ai/openai.py → projects/extension/ai/openai.py
diff --git a/src/extension/ai/vectorizer.py → projects/extension/ai/vectorizer.py b/src/extension/ai/vectorizer.py → projects/extension/ai/vectorizer.py
diff --git a/src/extension/old_requirements.txt → projects/extension/old_requirements.txt b/src/extension/old_requirements.txt → projects/extension/old_requirements.txt
diff --git a/src/extension/pyproject.toml → projects/extension/pyproject.toml b/src/extension/pyproject.toml → projects/extension/pyproject.toml
diff --git a/src/extension/requirements.txt → projects/extension/requirements.txt b/src/extension/requirements.txt → projects/extension/requirements.txt
diff --git a/src/extension/setup.cfg → projects/extension/setup.cfg b/src/extension/setup.cfg → projects/extension/setup.cfg
diff --git a/sql/ai--0.1.0--0.2.0.sql → projects/extension/sql/ai--0.1.0--0.2.0.sql b/sql/ai--0.1.0--0.2.0.sql → projects/extension/sql/ai--0.1.0--0.2.0.sql
diff --git a/sql/ai--0.1.0.sql → projects/extension/sql/ai--0.1.0.sql b/sql/ai--0.1.0.sql → projects/extension/sql/ai--0.1.0.sql
diff --git a/sql/ai--0.2.0--0.3.0.sql → projects/extension/sql/ai--0.2.0--0.3.0.sql b/sql/ai--0.2.0--0.3.0.sql → projects/extension/sql/ai--0.2.0--0.3.0.sql
diff --git a/sql/ai--0.4.0.sql → projects/extension/sql/ai--0.4.0.sql b/sql/ai--0.4.0.sql → projects/extension/sql/ai--0.4.0.sql
diff --git a/sql/ai.control → projects/extension/sql/ai.control b/sql/ai.control → projects/extension/sql/ai.control
diff --git a/sql/head.sql → projects/extension/sql/head.sql b/sql/head.sql → projects/extension/sql/head.sql
diff --git a/sql/idempotent/001-openai.sql → ...s/extension/sql/idempotent/001-openai.sql b/sql/idempotent/001-openai.sql → ...s/extension/sql/idempotent/001-openai.sql
diff --git a/sql/idempotent/002-ollama.sql → ...s/extension/sql/idempotent/002-ollama.sql b/sql/idempotent/002-ollama.sql → ...s/extension/sql/idempotent/002-ollama.sql
diff --git a/sql/idempotent/003-anthropic.sql → ...xtension/sql/idempotent/003-anthropic.sql b/sql/idempotent/003-anthropic.sql → ...xtension/sql/idempotent/003-anthropic.sql
diff --git a/sql/idempotent/004-cohere.sql → ...s/extension/sql/idempotent/004-cohere.sql b/sql/idempotent/004-cohere.sql → ...s/extension/sql/idempotent/004-cohere.sql
diff --git a/sql/idempotent/005-chunking.sql → ...extension/sql/idempotent/005-chunking.sql b/sql/idempotent/005-chunking.sql → ...extension/sql/idempotent/005-chunking.sql
diff --git a/sql/idempotent/006-formatting.sql → ...tension/sql/idempotent/006-formatting.sql b/sql/idempotent/006-formatting.sql → ...tension/sql/idempotent/006-formatting.sql
diff --git a/sql/idempotent/007-scheduling.sql → ...tension/sql/idempotent/007-scheduling.sql b/sql/idempotent/007-scheduling.sql → ...tension/sql/idempotent/007-scheduling.sql
diff --git a/sql/idempotent/008-embedding.sql → ...xtension/sql/idempotent/008-embedding.sql b/sql/idempotent/008-embedding.sql → ...xtension/sql/idempotent/008-embedding.sql
diff --git a/sql/idempotent/009-indexing.sql → ...extension/sql/idempotent/009-indexing.sql b/sql/idempotent/009-indexing.sql → ...extension/sql/idempotent/009-indexing.sql
diff --git a/sql/idempotent/010-processing.sql → ...tension/sql/idempotent/010-processing.sql b/sql/idempotent/010-processing.sql → ...tension/sql/idempotent/010-processing.sql
diff --git a/sql/idempotent/011-vectorizer-int.sql → ...ion/sql/idempotent/011-vectorizer-int.sql b/sql/idempotent/011-vectorizer-int.sql → ...ion/sql/idempotent/011-vectorizer-int.sql
diff --git a/sql/idempotent/012-vectorizer-api.sql → ...ion/sql/idempotent/012-vectorizer-api.sql b/sql/idempotent/012-vectorizer-api.sql → ...ion/sql/idempotent/012-vectorizer-api.sql
diff --git a/sql/idempotent/999-privileges.sql → ...tension/sql/idempotent/999-privileges.sql b/sql/idempotent/999-privileges.sql → ...tension/sql/idempotent/999-privileges.sql
diff --git a/sql/idempotent/README.md → projects/extension/sql/idempotent/README.md b/sql/idempotent/README.md → projects/extension/sql/idempotent/README.md
diff --git a/sql/incremental/001-vectorizer.sql → ...ension/sql/incremental/001-vectorizer.sql b/sql/incremental/001-vectorizer.sql → ...ension/sql/incremental/001-vectorizer.sql
diff --git a/sql/incremental/README.md → projects/extension/sql/incremental/README.md b/sql/incremental/README.md → projects/extension/sql/incremental/README.md
diff --git a/sql/migration.sql → projects/extension/sql/migration.sql b/sql/migration.sql → projects/extension/sql/migration.sql
diff --git a/src/vectorizer/test/__init__.py → projects/extension/tests/__init__.py b/src/vectorizer/test/__init__.py → projects/extension/tests/__init__.py
diff --git a/tests/conftest.py → projects/extension/tests/conftest.py b/tests/conftest.py → projects/extension/tests/conftest.py
@@ -42,16 +42,16 @@ def create_test_db(cur: psycopg.Cursor) -> None:
 @pytest.fixture(scope="session", autouse=True)
 def set_up_test_db() -> None:
     # create a test user and test database owned by the test user
-    with psycopg.connect(f"postgres://[email protected]:5432/postgres", autocommit=True) as con:
+    with psycopg.connect("postgres://[email protected]:5432/postgres", autocommit=True) as con:
         with con.cursor() as cur:
             create_test_user(cur)
             create_test_db(cur)
     # grant some things to the test user in the test database
-    with psycopg.connect(f"postgres://[email protected]:5432/test", autocommit=True) as con:
+    with psycopg.connect("postgres://[email protected]:5432/test", autocommit=True) as con:
         with con.cursor() as cur:
             cur.execute("grant execute on function pg_read_binary_file(text) to test")
             cur.execute("grant pg_read_server_files to test")
     # use the test user to create the extension in the test database
-    with psycopg.connect(f"postgres://[email protected]:5432/test") as con:
+    with psycopg.connect("postgres://[email protected]:5432/test") as con:
         with con.cursor() as cur:
             cur.execute("create extension ai cascade")
diff --git a/tests/__init__.py → ...ects/extension/tests/contents/__init__.py b/tests/__init__.py → ...ects/extension/tests/contents/__init__.py
diff --git a/tests/contents/init.sql → projects/extension/tests/contents/init.sql b/tests/contents/init.sql → projects/extension/tests/contents/init.sql
diff --git a/tests/contents/output.expected → .../extension/tests/contents/output.expected b/tests/contents/output.expected → .../extension/tests/contents/output.expected
diff --git a/tests/contents/test_contents.py → ...extension/tests/contents/test_contents.py b/tests/contents/test_contents.py → ...extension/tests/contents/test_contents.py
diff --git a/tests/contents/__init__.py → .../extension/tests/dump_restore/__init__.py b/tests/contents/__init__.py → .../extension/tests/dump_restore/__init__.py
diff --git a/tests/dump_restore/after.sql → ...ts/extension/tests/dump_restore/after.sql b/tests/dump_restore/after.sql → ...ts/extension/tests/dump_restore/after.sql
diff --git a/tests/dump_restore/init.sql → ...cts/extension/tests/dump_restore/init.sql b/tests/dump_restore/init.sql → ...cts/extension/tests/dump_restore/init.sql
diff --git a/tests/dump_restore/snapshot.sql → ...extension/tests/dump_restore/snapshot.sql b/tests/dump_restore/snapshot.sql → ...extension/tests/dump_restore/snapshot.sql
diff --git a/tests/dump_restore/test_dump_restore.py → ...n/tests/dump_restore/test_dump_restore.py b/tests/dump_restore/test_dump_restore.py → ...n/tests/dump_restore/test_dump_restore.py
@@ -67,7 +67,7 @@ def dump_db() -> None:
 def restore_db() -> None:
     with psycopg.connect(db_url(user=USER, dbname="dst")) as con:
         with con.cursor() as cur:
-            cur.execute(f"create extension ai cascade")
+            cur.execute("create extension ai cascade")
     cmd = " ".join([
         "psql",
         f'''-d "{db_url(USER, "dst")}"''',
@@ -145,4 +145,3 @@ def test_dump_restore():
     assert dst == src
     after_dst()  # make sure we can USE the restored db
     assert count_vectorizers() == 2
-
diff --git a/tests/postgresql-vs-pinecone.jpg → ...xtension/tests/postgresql-vs-pinecone.jpg b/tests/postgresql-vs-pinecone.jpg → ...xtension/tests/postgresql-vs-pinecone.jpg
diff --git a/tests/dump_restore/__init__.py → ...ts/extension/tests/privileges/__init__.py b/tests/dump_restore/__init__.py → ...ts/extension/tests/privileges/__init__.py
diff --git a/tests/privileges/function.expected → ...ension/tests/privileges/function.expected b/tests/privileges/function.expected → ...ension/tests/privileges/function.expected
diff --git a/tests/privileges/function.sql → ...s/extension/tests/privileges/function.sql b/tests/privileges/function.sql → ...s/extension/tests/privileges/function.sql
diff --git a/tests/privileges/init0.sql → ...ects/extension/tests/privileges/init0.sql b/tests/privileges/init0.sql → ...ects/extension/tests/privileges/init0.sql
diff --git a/tests/privileges/init1.sql → ...ects/extension/tests/privileges/init1.sql b/tests/privileges/init1.sql → ...ects/extension/tests/privileges/init1.sql
diff --git a/tests/privileges/jill.sql → projects/extension/tests/privileges/jill.sql b/tests/privileges/jill.sql → projects/extension/tests/privileges/jill.sql
diff --git a/tests/privileges/schema.expected → ...xtension/tests/privileges/schema.expected b/tests/privileges/schema.expected → ...xtension/tests/privileges/schema.expected
diff --git a/tests/privileges/schema.sql → ...cts/extension/tests/privileges/schema.sql b/tests/privileges/schema.sql → ...cts/extension/tests/privileges/schema.sql
diff --git a/tests/privileges/sequence.expected → ...ension/tests/privileges/sequence.expected b/tests/privileges/sequence.expected → ...ension/tests/privileges/sequence.expected
diff --git a/tests/privileges/sequence.sql → ...s/extension/tests/privileges/sequence.sql b/tests/privileges/sequence.sql → ...s/extension/tests/privileges/sequence.sql
diff --git a/tests/privileges/table.expected → ...extension/tests/privileges/table.expected b/tests/privileges/table.expected → ...extension/tests/privileges/table.expected
diff --git a/tests/privileges/table.sql → ...ects/extension/tests/privileges/table.sql b/tests/privileges/table.sql → ...ects/extension/tests/privileges/table.sql
diff --git a/tests/privileges/test_privileges.py → ...nsion/tests/privileges/test_privileges.py b/tests/privileges/test_privileges.py → ...nsion/tests/privileges/test_privileges.py
diff --git a/tests/privileges/view.expected → .../extension/tests/privileges/view.expected b/tests/privileges/view.expected → .../extension/tests/privileges/view.expected
diff --git a/tests/privileges/view.sql → projects/extension/tests/privileges/view.sql b/tests/privileges/view.sql → projects/extension/tests/privileges/view.sql
diff --git a/tests/test_anthropic.py → projects/extension/tests/test_anthropic.py b/tests/test_anthropic.py → projects/extension/tests/test_anthropic.py
diff --git a/tests/test_cohere.py → projects/extension/tests/test_cohere.py b/tests/test_cohere.py → projects/extension/tests/test_cohere.py
diff --git a/tests/test_ollama.py → projects/extension/tests/test_ollama.py b/tests/test_ollama.py → projects/extension/tests/test_ollama.py
diff --git a/tests/test_openai.py → projects/extension/tests/test_openai.py b/tests/test_openai.py → projects/extension/tests/test_openai.py
diff --git a/tests/privileges/__init__.py → ...ts/extension/tests/vectorizer/__init__.py b/tests/privileges/__init__.py → ...ts/extension/tests/vectorizer/__init__.py
diff --git a/tests/vectorizer/server.py → ...ects/extension/tests/vectorizer/server.py b/tests/vectorizer/server.py → ...ects/extension/tests/vectorizer/server.py
diff --git a/tests/vectorizer/test_chunking.py → ...tension/tests/vectorizer/test_chunking.py b/tests/vectorizer/test_chunking.py → ...tension/tests/vectorizer/test_chunking.py
diff --git a/tests/vectorizer/test_embedding.py → ...ension/tests/vectorizer/test_embedding.py b/tests/vectorizer/test_embedding.py → ...ension/tests/vectorizer/test_embedding.py
diff --git a/tests/vectorizer/test_formatting.py → ...nsion/tests/vectorizer/test_formatting.py b/tests/vectorizer/test_formatting.py → ...nsion/tests/vectorizer/test_formatting.py
diff --git a/tests/vectorizer/test_indexing.py → ...tension/tests/vectorizer/test_indexing.py b/tests/vectorizer/test_indexing.py → ...tension/tests/vectorizer/test_indexing.py
diff --git a/tests/vectorizer/test_processing.py → ...nsion/tests/vectorizer/test_processing.py b/tests/vectorizer/test_processing.py → ...nsion/tests/vectorizer/test_processing.py
diff --git a/tests/vectorizer/test_scheduling.py → ...nsion/tests/vectorizer/test_scheduling.py b/tests/vectorizer/test_scheduling.py → ...nsion/tests/vectorizer/test_scheduling.py
diff --git a/tests/vectorizer/test_vectorizer.py → ...nsion/tests/vectorizer/test_vectorizer.py b/tests/vectorizer/test_vectorizer.py → ...nsion/tests/vectorizer/test_vectorizer.py
@@ -1,10 +1,10 @@
+import json
 import os
 import subprocess
-import json
 
 import psycopg
-from psycopg.rows import namedtuple_row
 import pytest
+from psycopg.rows import namedtuple_row
 
 # skip tests in this module if disabled
 enable_vectorizer_tests = os.getenv("ENABLE_VECTORIZER_TESTS")
@@ -249,7 +249,7 @@ def test_vectorizer_timescaledb():
             assert actual == 3
 
             # bob should have select on the source table
-            cur.execute(f"select has_table_privilege('bob', 'website.blog', 'select')")
+            cur.execute("select has_table_privilege('bob', 'website.blog', 'select')")
             actual = cur.fetchone()[0]
             assert actual
 
@@ -375,7 +375,7 @@ def test_vectorizer_timescaledb():
                     cur2.execute("begin transaction")
                     # lock 1 row from the queue
                     cur2.execute(f"select * from {vec.queue_schema}.{vec.queue_table} where title = 'how to grill a steak' for update")
-                    locked = cur2.fetchone()
+                    cur2.fetchone()
                     # check that vectorizer queue depth still gets the correct count
                     cur.execute("select ai.vectorizer_queue_pending(%s)", (vectorizer_id,))
                     actual = cur.fetchone()[0]
@@ -528,7 +528,7 @@ def test_drop_vectorizer():
             assert actual == 0
 
             # does the func that backed the trigger exist? (it should not)
-            cur.execute(f"""
+            cur.execute("""
                 select count(*)
                 from pg_proc
                 where oid = %s
@@ -537,7 +537,7 @@ def test_drop_vectorizer():
             assert actual == 0
 
             # does the timescaledb job exist? (it should not)
-            cur.execute(f"""
+            cur.execute("""
                 select count(*)
                 from timescaledb_information.jobs
                 where job_id = %s
@@ -625,7 +625,7 @@ def index_creation_tester(cur: psycopg.Cursor, vectorizer_id: int) -> None:
     cur.execute(f"insert into {vectorizer.queue_schema}.{vectorizer.queue_table}(id) select generate_series(1, 5)")
 
     # should NOT create index
-    cur.execute(f"""
+    cur.execute("""
         select ai._vectorizer_should_create_vector_index(v)
         from ai.vectorizer v
         where v.id = %s
@@ -650,7 +650,7 @@ def index_creation_tester(cur: psycopg.Cursor, vectorizer_id: int) -> None:
     cur.execute(f"delete from {vectorizer.queue_schema}.{vectorizer.queue_table}")
 
     # SHOULD create index
-    cur.execute(f"""
+    cur.execute("""
         select ai._vectorizer_should_create_vector_index(v)
         from ai.vectorizer v
         where v.id = %s

diff --git a/tests/vectorizer/__init__.py → ...tension/tests/vectorizer_tool/__init__.py b/tests/vectorizer/__init__.py → ...tension/tests/vectorizer_tool/__init__.py
diff --git a/tests/vectorizer_tool/test_cli.py → ...tension/tests/vectorizer_tool/test_cli.py b/tests/vectorizer_tool/test_cli.py → ...tension/tests/vectorizer_tool/test_cli.py
diff --git a/src/vectorizer/.dockerignore → projects/pgai/.dockerignore b/src/vectorizer/.dockerignore → projects/pgai/.dockerignore
diff --git a/src/vectorizer/Dockerfile → projects/pgai/Dockerfile b/src/vectorizer/Dockerfile → projects/pgai/Dockerfile
diff --git a/src/vectorizer/pyproject.toml → projects/pgai/pyproject.toml b/src/vectorizer/pyproject.toml → projects/pgai/pyproject.toml
@@ -3,16 +3,21 @@ requires = ["setuptools"]
 build-backend = "setuptools.build_meta"
 
 [project]
-name = "vectorizer"
+name = "pgai"
 dynamic = ["version", "dependencies"]
 requires-python = ">=3.10"
 
 [tool.setuptools.dynamic]
-version = {attr = "vectorizer.__version__"}
+version = {attr = "pgai.__version__"}
 dependencies = {file = "requirements.txt"}
 
 [tool.setuptools]
-packages = ["vectorizer"]
+packages = ["pgai"]
 
 [project.scripts]
-vectorizer = "vectorizer.cli:run"
+vectorizer = "pgai.cli:run"
+
+[tool.pytest.ini_options]
+addopts = [
+    "--import-mode=importlib",
+]
diff --git a/projects/pgai/pytest.ini b/projects/pgai/pytest.ini
@@ -0,0 +1,2 @@
+[pytest]
+python_files = test_*.py
diff --git a/src/vectorizer/requirements.txt → projects/pgai/requirements.txt b/src/vectorizer/requirements.txt → projects/pgai/requirements.txt
@@ -7,4 +7,5 @@ openai==1.44.0
 python-dotenv==1.0.1
 structlog==24.4.0
 datadog-lambda
-pgvector==0.3.3
+pgvector==0.3.3
+tiktoken==0.7.0
diff --git a/src/vectorizer/setup.cfg → projects/pgai/setup.cfg b/src/vectorizer/setup.cfg → projects/pgai/setup.cfg
@@ -1,12 +1,12 @@
 [metadata]
-name = vectorizer
-version = attr: vectorizer.__version__
+name = pgai
+version = attr: pgai.__version__
 
 [options]
 python_requires = >=3.10
-packages = vectorizer
+packages = pgai
 install_requires = file: requirements.txt
 
 [options.entry_points]
 console_scripts =
-    vectorizer = vectorizer.cli:run
+    vectorizer = pgai.cli:run
diff --git a/tests/vectorizer_tool/__init__.py → projects/pgai/src/__init__.py b/tests/vectorizer_tool/__init__.py → projects/pgai/src/__init__.py
diff --git a/src/vectorizer/vectorizer/__main__.py → projects/pgai/src/__main__.py b/src/vectorizer/vectorizer/__main__.py → projects/pgai/src/__main__.py
diff --git a/src/vectorizer/vectorizer/cli.py → projects/pgai/src/cli.py b/src/vectorizer/vectorizer/cli.py → projects/pgai/src/cli.py
@@ -13,8 +13,8 @@
 from psycopg.rows import dict_row, namedtuple_row
 
 from .__init__ import __version__
-from .secrets import Secrets
-from .vectorizer import Vectorizer, Worker
+from vectorizer.secrets import Secrets
+from vectorizer.vectorizer import Vectorizer, Worker
 
 load_dotenv()
 structlog.configure(wrapper_class=structlog.make_filtering_bound_logger(logging.INFO))

diff --git a/projects/pgai/src/vectorizer/__init__.py b/projects/pgai/src/vectorizer/__init__.py
diff --git a/src/vectorizer/vectorizer/chunking.py → projects/pgai/src/vectorizer/chunking.py b/src/vectorizer/vectorizer/chunking.py → projects/pgai/src/vectorizer/chunking.py
diff --git a/projects/pgai/src/vectorizer/db.py b/projects/pgai/src/vectorizer/db.py
@@ -0,0 +1,15 @@
+from dataclasses import dataclass
+
+
+@dataclass
+class ConnInfo:
+    host: str
+    port: int
+    role: str
+    password: str
+    db_name: str
+    ssl_mode: str = "require"
+
+    @property
+    def url(self) -> str:
+        return f"postgres://{self.role}:{self.password}@{self.host}:{self.port}/{self.db_name}?sslmode={self.ssl_mode}"
diff --git a/src/vectorizer/vectorizer/embeddings.py → projects/pgai/src/vectorizer/embeddings.py b/src/vectorizer/vectorizer/embeddings.py → projects/pgai/src/vectorizer/embeddings.py
diff --git a/src/vectorizer/vectorizer/env.py → projects/pgai/src/vectorizer/env.py b/src/vectorizer/vectorizer/env.py → projects/pgai/src/vectorizer/env.py
diff --git a/src/vectorizer/vectorizer/formatting.py → projects/pgai/src/vectorizer/formatting.py b/src/vectorizer/vectorizer/formatting.py → projects/pgai/src/vectorizer/formatting.py
diff --git a/projects/pgai/src/vectorizer/lambda_handler.py b/projects/pgai/src/vectorizer/lambda_handler.py
@@ -0,0 +1,85 @@
+import asyncio
+import logging
+import os
+from typing import Any
+
+import structlog
+from pydantic import AliasChoices, Field, ValidationError
+from pydantic.dataclasses import dataclass
+
+from . import db
+from .env import get_bool_env
+from .processing import CloudFunctions
+from .secrets import Secrets
+from .vectorizer import Vectorizer, Worker
+
+TIKTOKEN_CACHE_DIR = os.path.join(
+    os.path.dirname(os.path.abspath(__file__)), "tiktoken_cache"
+)
+structlog.configure(wrapper_class=structlog.make_filtering_bound_logger(logging.INFO))
+logger = structlog.get_logger()
+
+
+@dataclass
+class UpdateEmbeddings:
+    db: db.ConnInfo
+    secrets: Secrets
+
+
+@dataclass
+class Event:
+    update_embeddings: UpdateEmbeddings
+    vectorizer: Vectorizer = Field(validation_alias=AliasChoices("payload"))
+
+
+async def run_workers(
+    concurrency: int,
+    conn_info: db.ConnInfo,
+    vectorizer: Vectorizer,
+) -> list[int]:
+    """Runs the embedding tasks and wait for them to finish."""
+    # TODO: handle timeout so that lambdas are not killed by AWS
+    tasks = [
+        asyncio.create_task(Worker(conn_info.url, vectorizer).run())
+        for _ in range(concurrency)
+    ]
+    return await asyncio.gather(*tasks)
+
+
+def set_log_level(cf: CloudFunctions):
+    mapping = logging.getLevelNamesMapping()
+    if cf.log_level != "INFO" and cf.log_level in mapping:
+        structlog.configure(
+            wrapper_class=structlog.make_filtering_bound_logger(mapping[cf.log_level])
+        )
+
+
+def lambda_handler(raw_event: dict[str, Any], _: Any) -> dict[str, int]:
+    """Lambda entry point. Validates the config given via the event, and
+    starts the embedding tasks.
+
+    Args:
+        raw_event (dict): maps to the `Event` dataclass.
+    """
+    try:
+        event = Event(**raw_event)
+    except ValidationError as e:
+        raise e
+
+    # The type error we are ignoring is because there's only one type available
+    # for Config.processing. We keep the check to signal intent, in case we add
+    # other types in the future.
+    if isinstance(event.vectorizer.config.processing, CloudFunctions):  # type: ignore
+        set_log_level(event.vectorizer.config.processing)
+
+    event.vectorizer.config.embedding.set_api_key(event.update_embeddings.secrets)
+
+    os.environ["TIKTOKEN_CACHE_DIR"] = TIKTOKEN_CACHE_DIR
+    results = asyncio.run(
+        run_workers(
+            event.vectorizer.config.processing.concurrency,
+            event.update_embeddings.db,
+            event.vectorizer,
+        )
+    )
+    return {"statusCode": 200, "processed_tasks": sum(results)}
diff --git a/src/vectorizer/vectorizer/processing.py → projects/pgai/src/vectorizer/processing.py b/src/vectorizer/vectorizer/processing.py → projects/pgai/src/vectorizer/processing.py
diff --git a/src/vectorizer/vectorizer/secrets.py → projects/pgai/src/vectorizer/secrets.py b/src/vectorizer/vectorizer/secrets.py → projects/pgai/src/vectorizer/secrets.py