词库爬虫

用于爬取搜狗、百度、QQ 三大输入法的词库数据。

环境依赖

Python 3.13.5
Scrapy 2.13.3

安装依赖：

pip install -r requirements.txt

使用方式

配置代理池: 创建 dict_spider/.env 文件并设置代理池接口地址，用于轮询获取可用代理IP

PROXY_POOL_URL=https://your-proxy-pool-address/api/get

运行爬虫：

scrapy crawl sogou
scrapy crawl baidu
scrapy crawl qq

输出格式

结果将保存为 .csv 文件，包含以下字段：

字段名	含义
`dict_id`	词条唯一 ID
`dict_pid`	父级词条 ID
`dict_name`	词条名称
`dict_innerid`	内部唯一标识符
`dict_time`	发布时间或更新时间
`dict_downcount`	下载次数或热度指标
`dict_exps`	词条内容示例
`dict_tiers`	词条层级

下载地址

法律声明

本项目仅用于技术学习与研究目的，禁止用于任何违反地区及目标网站法律法规的用途。使用者需自行承担使用本项目带来的全部法律风险。若目标网站对抓取行为有异议，请联系删除相关代码或数据。

许可证

本项目基于 GNU General Public License v3.0 开源发布。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
dict_spider		dict_spider
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
scrapy.iml		scrapy.iml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

词库爬虫

环境依赖

使用方式

输出格式

下载地址

法律声明

许可证

About

Uh oh!

Releases 1

Packages

Languages

License

halifox/dict_spider

Folders and files

Latest commit

History

Repository files navigation

词库爬虫

环境依赖

使用方式

输出格式

下载地址

法律声明

许可证

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages