diffbot

爬虫数据采集技术趋势-智能化解析

用一句话概括爬虫工程师的工作内容,就是We Structure the World's Knowledge。爬虫工作内容互联网作为人类历史最大的知识仓库,是没有充分结构化的。目前互联网仅仅是一些文本等多媒体数据的聚合,内容虽然非常有价值,但是程序是无法使用那些没有结构化的数据。在2006年左右,有专家提出的web3.0,语义互联网,知识共享。虽然现在开放API,SOA概念越