GitHub - imaginix-inc/spider-manager

在 src/spiders.py 下，注册爬虫，按照 ucr 的格式进行注册。

在 src/schools/下创建学校简称对应的文件夹，在里面存放对应学校的爬虫代码。

在 src/models.py 里，新建对应学校课程爬取后储存的表，模仿 ucr，记得继承 BaseDB。

你的代码爬取完成后，应该类似于 ucr.server.main 函数一样，返回一个 List[BaseDB]，并且在返回前，调用 src.process.post_process，进行后处理，进行 embedding 和 id 等添加。

Name		Name	Last commit message	Last commit date
Latest commit History 80 Commits
.idea		.idea
src		src
.env.example		.env.example
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
README.md		README.md
cached_course_numbers_ucsc_2025_winter.pkl		cached_course_numbers_ucsc_2025_winter.pkl
main.py		main.py
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml
res.txt		res.txt

Provide feedback