维基百科

中文维基百科文本数据获取与预处理

照例,先讲下环境,Mac OSX 10.11.2 ,Python 3.4.3。下载数据方法1:使用官方dump的xml数据最新打包的中文文档下载地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 。方法2:也是官方,结构化数据(json)下载地址是:https: