企业信息

    株洲市创翼玖零电子商务职业培训学校

  • 6
  • 公司认证: 营业执照已认证
  • 企业性质:外资企业
    成立时间:
  • 公司地址: 湖南省 株洲 云龙区职教城创新创业指导中心1号楼4楼
  • 姓名: 文老师
  • 认证: 手机未认证 身份证未认证 微信已绑定

    it教育培训:Python爬虫入门2

  • 所属行业:教育 IT培训
  • 发布日期:2021-04-03
  • 阅读量:824
  • 价格:1.00 元/个 起
  • 产品规格:不限
  • 产品数量:1.00 个
  • 包装说明:不限
  • 发货地址:湖南株洲  
  • 关键词:it教育培训

    it教育培训:Python爬虫入门2详细内容

    Python爬虫入门(2):爬虫基础了解


    1. 什么是爬虫


    爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。


    比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的**链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。


    2. 浏览网页的过程


    在用户浏览网页的过程中,我们可能会看到许多好看的图片,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。


    因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。


    3. URL的含义


    URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。


    URL的格式由三部分组成:


    ①**部分是协议(或称为服务方式)。


    ②*二部分是存有该资源的主机IP地址(有时也包括端口号)。


    ③*三部分是主机资源的具体地址,如目录和文件名等。


    爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。


    4. 环境的配置


    学习Python,当然少不了环境的配置,较初我用的是Notepad++,不过发现它的提示功能实在是太弱了,于是,在Windows下我用了 PyCharm,在Linux下我用了Eclipse for Python,另外还有几款比较优秀的IDE,大家可以参考这篇文章 学习Python推荐的IDE 。好的开发工具是前进的推进器,希望大家可以找到适合自己的IDE。



    http://yishangdl1.b2b168.com
    欢迎来到株洲市创翼玖零电子商务职业培训学校网站, 具体地址是湖南省株洲云龙区职教城创新创业指导中心1号楼4楼,联系人是文老师。 主要经营株洲市创翼玖零电子商务职业培训学校主要有株洲淘宝培训、株洲平面设计培训、株洲it教育、株洲软件教育、拼多多培训、株洲办公文秘培训、*教育,单招培训,铁路铁道单招考试培训等。。 单位注册资金单位注册资金人民币 100 万元以下。 我们有优秀的管理和教学团队,办学目标明确,观念**前,优质的服务和产品,不断地受到新老用户及业内人士的肯定和信任。如果您对我公司的服务有兴趣,请在线留言或者来电咨询。