[[toc]]
HTTP通信过程包括从客户端发往服务器端的请求及从服务器端返回客户端的响应。
HTTP协议交互的信息称为HTTP报文。请求端的HTTP报文叫请求报文,服务端的叫响应报文。HTTP报文是由多行数据构成的字符串文本。
HTTP报文分为报文首部和报文主体两块。
在传输中可以通过编码提升传输速率。通过在传输时编码,能够处理大量的访问请求。但是会消耗更多的CPU等资源。
实体(entity),作为请求或响应的有效载荷数据被传输,其内容由实体首部和实体主体组成。
HTTP报文的主体用于传输请求或者响应的实体主体。
通常,报文主体等于实体主体。只有当传输中进行编码操作时,实体主体内容发送变化,才导致它和报文主体产生差异。
内容编码指明应用在实体内容上的编码格式,并保持实体信息原样压缩。内容编码后的实体由客户端接收并负责解码。
常见的内容编码有以下几种:
- gzip
- compress(UNIX系统的标准压缩)
- deflate(zlib)
- identity(不进行编码)
在HTTP通信过程中,请求的编码实体资源尚未全部传输完成之前,浏览器无法显示请求页面。在传输大容量数据时,通过把数据分割成多块,能够让浏览器逐步显示页面。把实体主体分块的功能称为分块传输编码。
分块传输编码会将实体主体分为多个部分。每一块都会用16进制来标记块大小,最后一块会使用“0(CR+LF)”来标记。
实体主体会由接收的客户端负责解码,恢复到编码前的实体主体。
发送邮件时,可以在邮件中添加多份附件。这是因为采用了MIME(Multipurpose Internet Mail Extensions,多用途因特网邮件扩展)机制,它允许邮件处理文本、图片、视频等多个不同类型的数据。
在MIME扩展中会使用一种称为多部分对象集合(Multipart)的方法,来容纳多份不同类型的数据。
多部分对象集合包含的对象如下:
- multipart/form-data
- multipart/byteranges
在HTTP报文中使用多部分对象集合时,需要在首部字段里加上Content-Type。使用boundary字符串来划分多部分对象集合指明的各类实体。在boundary字符串指定的各个实体的起始行之前插入‘--’标记,而在多部分对象集合对应的字符串的最后插入‘--’标记作为结束。
以前如果下载文件过程中遇到网络中断的情况,就必须重头开始。为了解决上述问题,需要一种可恢复的机制。所谓恢复是指能从之前下载中断处恢复下载。
对一份10000字节大小的资源,如果使用范围请求,可以只请求5000-10000字节内的资源。 执行范围请求时,会用到首部字段Range来指定资源的byte范围:
- 5001~10000字节
Range: bytes=5001-10000
- 从5001字节之后全部的
Range: bytes=5001-
- 从一开始到3000字节和5000-7000字节的多重范围
Range: bytes=0-3000,5000-7000
针对范围请求,响应会返回状态码206 Partial Content的响应报文。对于多重范围的范围请求,响应会在首部字段Content-Type标明multipart/byteranges后返回响应报文。
如果服务器无法响应范围请求,则会返回状态码200 OK和完整的实体内容。
同一个网站可能有多份相同内容的页面。比如英语版和中文版的web页面。
当浏览器的默认语言为英文或中文,访问相同URI的web页面时,则会显示对应的英文或中文web页面。这样的机制称为内容协商(Content Negotiation)
内容协商机制是指客户端和服务端就响应的资源内容进行交涉,然后提供给客户端最为合适的资源。内容协商会以语言、字符集、编码方式等为基准判断响应的资源。
- Accept
- Accept-Charset
- Accept-Encoding
- Accept-Language
- Content-Language
内容协商技术有三种类型:
-
服务器驱动协商
由服务器端进行内容协商。以请求首部字段为参考,在服务器端有服务器端进行内容协商。 -
客户端驱动协商
由客户端进行内容协商的方式。用户从浏览器显示的可选项列表中手动选择。比如按OS的类型或浏览器类型,自动切换为PC版页面或手机版页面。 -
透明协商
是服务器驱动和客户端驱动的结合体,是由服务器端和客户端各自进行内容协商的一种方法。