Skip to content

GarthTB/BCCFreqSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

BCC语料库词频爬虫

语料文件须为UTF-8编码。每行为一个搜索项,理论上搜什么都可以。以搜索到的结果数为词频。软件依赖NET6运行时。

未找到BCC语料库的许可证,慎用!

控制台参数:

  1. 语料文件路径
  2. 并发数(默认为1,建议不超过10)
  3. 网页超时(默认为30秒)

About

BCC语料库的词频爬虫

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages