url是什么意思,搜索引擎怎么抓取网页的

SEO基础 思享 2442浏览

url,即统一资源定位符,通过对url的分析,我们可以更好地理解页面抓取过程。今天,小小课堂SEO学网带来的是《页面抓取过程简述》。希望本次的SEO技术培训对大家有所帮助。

seo

一、url是什么意思?

URL,英文全称为“uniform resource locator”,中文译为“统一资源定位符”。

在网站优化中要求每一个页面有且仅有一个唯一的统一资源定位符(URL),但往往很多网站同一页面对应了很多个URL,如果都被搜索引擎收录且未做URL转向,就会产生权重不集中的情况,通常称为URL不规范。

二、url的组成

统一资源定位符(URL),由三部分组成:协议方案、主机名和资源名。

例如:

https:// www.x**.org /11806

其中https为协议方案,www.***.org 为主机名 ,11806为资源,不过这个资源不太明显,一般资源后缀为.html,当然还可以是.pdf、.php、.word等格式。

三、页面抓取过程简述

无论是我们平时用的互联网浏览器,还是网络爬虫,虽然是两种不同的客户端,但获取页面的方式却是相同的。页面抓取过程如下:

① 连接DNS域名系统服务器

客户端都会先连接到DNS域名服务器上,DNS服务器将主机名( www.***.org )转换为IP地址,并反馈给客户端。

PS:本来我们通过111.152 . 151.45 的地址来访问某网站,为了方便记忆和使用,才利用DNS域名系统转换为了 www.***.org 。这也就是DNS域名系统的作用。

② 连接IP地址服务器

该IP服务器下可能会有很多程序(网站),可以通过端口号来做区分,同时每个程序(网站)都会监听端口是否有新的连接请求,HTTP网站默认为80,HTTPS网站默认为443。

不过通常情况下,端口号80和443是默认不出现的。

举例来讲:

https://www.***.org:443/ = https://www.***.org/

http://www.***.org:80/ = http://www.***.org/

③ 建立连接并发送页面请求

客户端与服务器建立连接后,会发送页面请求,通常为get,也可以是post。

get 11806 HTTPS/

获取HTTPS协议下的页面11806 返回给客户端。之后如需继续获取更多页面,则发送其他请求,否则将关闭该连接。

PS:通常情况下 ,/seo/ 可能会更清晰。也就是发送 https://www.***.org/ 下的 seo文件夹下的 的页面请求。

以上就是小小课堂SEO自学网带来的是《页面抓取过程简述》。感谢您的观看。网络营销培训认准小小课堂!SEO培训认准小小课堂!更多seo教程搜索小小课堂。

推荐阅读

网站“抓取诊断”失败的原因!

对于SEO站长,经常会使用百度站长平台的抓取诊断工具,主要作用是以百度蜘蛛的角度去分析网站的内容,判断百度蜘蛛的抓取情况,解决了百度蜘蛛与seo站长们眼中内容是否一致的问题。如果经常出现抓取失败,那会大大的影响网站的正常收录,下面笔者来分析一下百度抓......

什么用的网页设计更容易有排名

第一,网站的目录结构和URL的设计。 对于网站结构SEOer建议是选择扁平化结构,这个结构主要是针对中小型企业网站,对于大中型型网站小编建议采用树形加网状结构更有利于整体网站的布局。无论你选择哪种结构都要记住其目录文件不要超过三层,目录中加关键词,而......

怎么根据网站制定科学的SEO方案

不管是我们为自己的网站做SEO优化,还是做公司网站的SEO优化,又或者是给客户提供SEO服务,优帮云小编都希望大家能在SEO工作开始之前做好一份详细的SEO方案,不要怕费时间,只有有计划地去工作,才能让效率大大地提高,做到事半功倍,如果没有一份良好的......