百度前端技术学院是一个为大学生创办的免费的前端技术实践、分享、交流平台。由百度校园招聘组、百度校园品牌部、百度前端技术部以及多个百度的前端团队联合创办。学院组织了一批百度在职工程师,精心编写了数十个实践编码任务,将技术知识点系统有机地串联在各个充满趣味与挑战的任务中,同学们通过实际地编码练习来掌握知识,再辅以互相评价、学习笔记等方式,加深对于学习内容的理解。在过去的三年中,百度前端技术学院累积吸引了上万名同学参加,并且有数十名同学在学习后,顺利加入了百度,成为了百度的前端工程师。

网页抓取分析服务系列之一(基础分析)

普通

人数407人在学习该课程,有115人已经完成该课程

时间平均用时3.4

关键词nodejsphantomjs

课程概述

作业提交截止时间:04-24

任务目的

  • 体会数据的封装
  • 快速学习新工具的的能力
  • 熟悉phantomjs的基础用法

任务描述

  • 安装phantomjs2.0,并查看webpage相关的API http://phantomjs.org/api/webpage/。
  • 编写一个task.js脚本,参考官网的includeJs方法,实现根据传入的参数(关键字),抓取百度第一页对应该关键字的搜索结果。
  • 将结果输出为json string回显。
  • 回显的格式为
       {
           code: 1, //返回状态码,1为成功,0为失败
           msg: '抓取成功', //返回的信息
           word: '示例关键字', //抓取的关键字
           time: 2000, //任务的时间
           dataList:[   //抓取结果列表
               {
                   title: 'xx',  //结果条目的标题
                   info: ‘’, //摘要
                   link: ‘’, //链接            
                   pic: '' //缩略图地址
                   }
           ]
       }
    

任务注意事项

  • 多查API,学以致用
  • 对于抓取的异常情况及时捕获并处理
  • 结果中非自然结果的部分抛弃掉(广告、阿拉丁等),提前人工查看一下搜索结果,大多信息格式一致的都是自然结果,观察自然结果的class和相关结构特征。

在线学习资料

学员提交的作业 (-)
学员名称提交时间提交的代码预览效果评价数平均得分操作
课程优秀学习笔记

暂无优秀学习笔记~