绝对掌控_第十一章数据海洋和爬虫在线无广告版阅读-锦绣文学

别能力，能够辨别某个URL中的内容是否具备相关性，如果不具备那么就跳过，如果具备就将其中的内容复制回来待用。

    这个筛选功能同样需要一大堆的算法来解决，不仅如此，它还需要具备自然语言处理能力，就是说它得具备对语言文字的理解和解析的能力，它得能够识别哪些文字内容是与股票相关的，哪些是无用的。

    仅仅识别文字还是不够的，它还得能够识别其他格式的数据，比如它得能够识别图案，像是股票相关的各种K线图、柱状图之类的，爬虫必须能够将其与风景画或者自拍照区别开。

    除了图片，其他的像是视频、音频、各类数据库之类的，爬虫都需要一一辨别出来，确定是否属于相关内容。

    这里面将会有无数个技术难题需要解决，如果这个工作让莫回一个人来完成，几乎是不可想象的。

！！

绝对掌控 第十一章 数据海洋和爬虫(3/3)

绝对掌控第十一章数据海洋和爬虫(3/3)