考查课 082116415
50人,0864211,1-15单周 理论学时16 实验学时0
上课地点:周一 3-4节 十号教学楼A303
51人,0864212,1-15单周 理论学时16 实验学时0
上课地点:周四 3-4节 十号教学楼A303
本学期的课程围绕python爬虫的相关内容,因此采用以“python爬虫”为主题的大作业作为本学期考核。
大作业分为三个主题,学生任选其一:
主题一:数据采集存储与分析
1.确定一个网站,进行数据的获取,有嵌套数据获取
2.体现友好爬虫设置 最大的爬取次数以及页面停止等待时间
3.有多种反反爬措施的体现 UserAgent proxyip cookie 深入分析请求头的信息
4.把数据写入到mongodb中,参考如下:
http://172.16.16.164:8000/courses/81/assignments/728?module_item_id=3806
5.进行一些分析,结合数据导入与预处理
6.注意代码的可读性
主题二:网站自动化测试
1.确定一个网站,完成自动化操作测试 selenium的使用
2.要求自动化的测试不能低于如下的案例难度,并且有较为实用的
https://blog.csdn.net/m0_38139250/article/details/127701694
3.可以设置浏览器伪装,可以参考:
https://blog.csdn.net/m0_38139250/article/details/134227638
4.实现方向举例,如:csdn自动点赞回复机器人、自动登录校园网、把excel中的数据自动录入某系统等
主题三:三方服务实现
1.进行第3方api的服务调用,如百度API,华为API,
2.或批量分析,如果你的服务是图片识别,可以把一个文件夹下的所有图片都识别出来
3.或嵌入自己的系统 如果你的服务是图片识别,可以把这个功能加到你的系统中
下文以选题一方向要求:
报告内容涵盖:
(1)选题意义
(2)技术实现描述
(3)数据来源分析
(4)数据获取与清洗过程
(5)数据存储过程
(6)数据分析设计与实现
(7)个人总结
下文以选题二方向要求:
报告内容涵盖:
(1)选题意义
(2)技术实现描述
(3)确定目标网站目标网站分析
(4)自动化功能实现
(5)个人总结
下文以选题三方向要求:
报告内容涵盖:
(1)选题意义
(2)技术实现描述
(3)确定调用的三方接口以及接口使用案例分析
(4)批量功能实现或功能嵌入系统实现
(5)效果展示
(6)部署文档
(7)个人总结
(1)正文小四字号,中文为宋体字体,英文数字均为Times New Roman字体。行间距18磅。每个段落首行缩进2字符。
(2)各级标题四号黑体。
(3)每个图要有标号和图名(例:图1 实现数据爬取的程序流程图),标号和图名在图下标识。每个表要有标号和表名(例:表1 Table表结构),标号和表名在表上方标注。
(4)报告页数不能少于12页
第15周为考试审核周,共留两周时间给学生完成。论文的最终评判将参考以下标准进行:
每人上交一份电子档,同时上交一份打印档。
第16周周末把报告打印出来交给学委或班长,然后把报告的电子档和代码达成压缩包发到学习通。