前言
AI编程群聊看不到不少圈友在实践AI爬虫跑完了手册两个实战之后,自己想尝试让AI写个程序跑个爬虫却总是遇到各种报错问题。详细查看了下,大部分都是没找到定位到元素的问题。
作为本期志愿者,我想做一个分享,如何借助AI来爬虫,而不是在Python基础语法当中迷茫找不到方向。我认为用好AI,是可以边学习Python语法边去实践爬虫和RPA的。
需求分析
首先,请使用 ChatGPT4o 或 ChatGPT4,尽量不要使用其他AI工具来提问代码,目前提问代码相关的问题,我个人觉得只有 GPT4 是最准确的。
接下来以爬虫B站视频标题来举例说明。
我们想要去爬一个网站数据,首先要了解这个网站,B站可以不用登录简单浏览。
如果我们想爬取B站AI相关视频前100条内容,那要如何做呢?
我们把PY程序想象为人就行了,我们自己看100数据是不是一直刷?B站的话,还需要翻页。
人:刷B站,点击翻页。PY程序:看代码,点击翻页。
其实是一样的,只是PY程序看的是代码而已,它看的速度也比我们快多了。
实战演示
接下来我以无Python编程基础的方式演示一下如何爬取B站标题数据:
第一步 打开B站搜索AI
第二步 打开开发者模式
右键检查或打开F12,找到最左侧的这个选择元素的按钮(元素检查器),点击一下。然后鼠标移动到第一个视频的标题部分会有绿色背景显示,点击一下。这样我们就看到了相关的源码。有用过八爪鱼或后裔采集器的话,会感觉到这个步骤是类似的。所以也是说,无论用RPA/采集器其实底层原理都是一样的,编写selenium的代码可以理解为就是那个底层技术。
第三步 复制源码
复制元素代码,这里我选择上面那个p进行复制?为什么?你看左边背景显示为视频列表部分,说明视频列表的数据都在这一块代码里面,我们复制这块代码就可以了。当然如果你复制整个页面代码也是可以的。(当然这里把代码直接截图也是可以的,待会发给GPT,只要把这部分代码截取下来就可以了。)
复制的方法:右键代码,复制,复制元素。
第四步 保存源码文件
本站收集的资源仅供内部学习研究软件设计思想和原理使用,学习研究后请自觉删除,请勿传播,因未及时删除所造成的任何后果责任自负。
如果用于其他用途,请购买正版支持作者,谢谢!若您认为「YC396.COM」发布的内容若侵犯到您的权益,请联系站长邮箱:402999666@qq.com 进行删除处理。
本站资源大多存储在云盘,如发现链接失效,请联系我们,我们会第一时间更新。
暂无评论内容