个性化阅读
专注于IT技术分析

html媒体类型和字符编码参考文档 – HTML教程

上一章HTML教程请查看:html颜色名称参考文档

这里我们主要介绍html的媒体类型和字符编码参考文档。

媒体类型

MIME (Multipurpose Internet Mail Extension,多用途因特网邮件扩展)媒体类型最初是为了使电子邮件可以包含纯文本以外的信息而设计的。MIME媒体类型表示以下内容:

  • 如何将消息的不同部分(如文本和附件)组合到消息中。
  • 指定消息的每个部分的方式。
  • 为传输而对不同的项目进行编码的方式,使得即使是设计为仅使用ASCII文本工作的软件也可以处理消息。

MIME类型不仅仅用于电子邮件,它们已经被Web服务器采用,用来告诉Web浏览器正在向它们发送什么类型的内容,以便它们能够正确地处理这类消息。

MIME内容类型由两部分组成:

  • 一个主要类型
  • 一个子类型

主类型与子类型之间用一个正斜杠字符分隔,例如,text/html用于html。

本章按主要类型组织:

  • 文本text
  • 图像image
  • 多部分multipart
  • 音频audio
  • 视频video
  • 消息message
  • 模型model
  • 应用程序application

例如,text main类型包含纯文本文件的类型,比如−

  • text/plain纯文本文件
  • text/html的html文件
  • 使用富文本格式的文本文件的text/rtf

MIME类型应该由Internet assigned Numbers Authority (IANA)正式指定和列出。

这个列表中的许多流行的MIME类型(所有以“x-”开头的类型)都不是由IANA分配的,也没有正式的状态,你可以在http://www.iana.org/assignments/media-types/上看到官方MIME类型列表,前面带有.vnd的是特定于供应商的。

在指定内容类型字段的MIME类型时,还可以指示所使用文本的字符集。如果没有指定字符集,则默认为US-ASCII。例如−

content-type:text/plain; charset=iso-8859-1

字符编码

字符编码是一种将字节转换为字符的方法,要正确地验证或显示HTML文档,程序必须选择正确的字符编码。

在计算机上最常用的字符集或字符编码是ASCII(美国信息交换标准代码),这可能是电子文本编码中使用最广泛的字符集。

ASCII编码仅支持大小写拉丁字母、数字0-9和一些额外字符,这些字符总共有128个字符。你可以查看一组完整的可打印ASCII字符

然而,许多语言要么使用带重音的拉丁字符,要么使用完全不同的字母,ASCII不处理这些字符。因此,如果你想使用任何非ascii字符,就需要了解字符编码。

国际标准组织创建了一系列的字符集来处理不同的国家字符,对于英语和大多数其他西欧语言的文档,使用了广泛支持的ISO-8859-1编码。

下面是世界各地使用的字符集及其描述。

编码 字符集和解释
1 ISO-8859-1 拉丁字母第1部分 覆盖北美、西欧、拉丁美洲、加勒比海、加拿大、非洲
2 ISO-8859-2 拉丁字母第二部分 覆盖东欧
3 ISO-8859-3 拉丁字母第3部分 包括欧洲东南部,世界语,其他
4 ISO-8859-4 拉丁字母第4部分 覆盖斯堪的纳维亚/波罗的海国家(以及ISO-8859-1中没有的其他国家)
5 ISO-8859-5 拉丁/西里尔字母第5部分
6 ISO-8859-6 拉丁/阿拉伯字母第6部分
7 ISO-8859-7 拉丁/希腊字母第七部分
8 ISO-8859-8 拉丁/希伯来字母第8部分
9 ISO-8859-9 拉丁字母第9部分 与ISO-8859-1相同,只是土耳其字符代替了冰岛字符
10 ISO-8859-10 拉丁拉皮语,北欧语和爱斯基摩语
11 ISO-8859-15 与ISO-8859-1相同,但是增加了更多的字符
12 ISO-2022-JP 拉丁/日语字母第一部分
13 ISO-2022-JP-2 拉丁/日语字母第二部分
14 ISO-2022-KR 拉丁/韩语字母第一部分

Unicode联盟随后成立,以设计一种方法来显示不同语言的所有字符,而不是为不同的语言设置这些不兼容的字符代码。

因此,如果希望创建使用多个字符集中的字符的文档,可以使用单个Unicode字符编码。

因此,Unicode指定了可以以特殊方式处理字符串的编码,以便为它所包含的庞大字符集留出足够的空间,这些被称为UTF8、UTF-16和UTF-32。

编号 字符集和解释
1 UTF-8 一种以8位为单位的Unicode转换格式,即以字节为单位。UTF8中的字符长度可以是1到4字节,因此UTF8的宽度是可变的。
2 UTF-16 一种以16位为单位的Unicode转换格式,也就是说,它是简短的。它可以是1或2短裤长,使UTF16可变宽度。
3 UTF-32 一种以32位为单位的Unicode转换格式,即以long格式出现。它是一种固定宽度的格式,长度总是1。

Unicode字符集的前256个字符对应ISO-8859-1的256个字符。

默认情况下,HTML 4处理器应该支持UTF-8,而XML处理器应该支持UTF-8和UTF-16,因此,所有兼容xhtml的处理器也应该支持UTF-16。

赞(0)
未经允许不得转载:srcmini » html媒体类型和字符编码参考文档 – HTML教程

评论 抢沙发

评论前必须登录!