CodeSearchNet挑战赛是GitHub和Weights&Biases携手推出的一项新赛事,旨在推动语义代码搜索的相关研究。
CodeSearchNet语料库的数据取自GitHub上的开源项目,经过了充分的预处理。
其中包含了约600万种函数,取自Go,Java,JavaScript,PHP,Python和Ruby这六种编程语言的开源代码。 还包含了通过机械抓取、预处理相关函数文档,自动生成的类似查询的自然语言,适用于200万种函数。
| 编程语言 | Go,Java,JavaScript,PHP,Python和Ruby |