置顶随笔

[置顶]刨根究底正则表达式之零——前言

摘要: 前言 一、缘起 1. 前面在字符编码系列文章的前言中曾说过,类似于字符编码这样基础、重要、应用广泛而又特别容易让人困惑的主题还有字节序(即大小端表示)、正则表达式以及浮点数实现、日期时间处理等等。其中,字节序、正则表达式跟字符编码的关系非常密切。字符编码以及字节序的问题已经在字符编码系列文章中介绍过阅读全文

posted @ 2017-05-31 22:04 笨笨阿林 阅读(1575) 评论(12) 编辑

[置顶]刨根究底字符编码之零——前言

摘要: 字符编码是计算机世界里最基础、最重要的一个主题之一。在编程实践中,如果不发扬死磕到底的精神将字符编码问题的来龙去脉、前世今生彻底搞清楚,那么它终将会像幽灵一样挥之不去,导致时不时地被各种与字符编码相关的“灵异”事件折磨得死去活来。阅读全文

posted @ 2017-05-20 13:35 笨笨阿林 阅读(180) 评论(4) 编辑

2017年6月9日

刨根究底字符编码之十三——UTF-16编码方式

摘要: UTF-16编码方式 1. UTF-16编码方式源于UCS-2(Universal Character Set coded in 2 octets、2-byte Universal Character Set)。而UCS-2,是早期遗留下来的历史产物。 UCS-2将字符编号(即码点值)直接映射为字符阅读全文

posted @ 2017-06-09 23:11 笨笨阿林 阅读(50) 评论(0) 编辑

2017年6月7日

刨根究底正则表达式之二——正则表达式基础

摘要: 正则表达式基础 一、正则表达式构成 1. 正则表达式中的语法元素,从是否具有特殊含义的角度进行分类,可分为下列两大类、共五种语法元素: 1)不具有特殊含义的语法元素 (1) 字面字符(文本字符):不具有特殊含义的单个字符,代表字符自身(即字符字面值); (2) 普通转义序列:由转义前导符\后跟元字符阅读全文

posted @ 2017-06-07 23:09 笨笨阿林 阅读(209) 评论(0) 编辑

2017年6月6日

刨根究底字符编码之十二——UTF-8究竟是怎么编码的

摘要: UTF-8究竟是怎么编码的 1. UTF-8编码是Unicode字符集的一种编码方式(CEF),其特点是使用变长字节数(即变长码元序列、变宽码元序列)来编码。一般是1到4个字节,当然,也可以更长。 为什么要变长呢?这可以理解为按需分配,比如一个字节足以容纳所有的ASCII字符,那何必补一堆0用更多的阅读全文

posted @ 2017-06-06 22:07 笨笨阿林 阅读(284) 评论(5) 编辑

2017年6月5日

刨根究底正则表达式之一——正则表达式简介

摘要: 声明: 本系列文章的主要参考书有: 《精通正则表达式》英文版及中文版 作者: Jeffrey E·F·Friedl 译者:余晟 电子工业出版社 2012-07 《正则指引》作者:余晟 电子工业出版社 2012-05 《正则表达式必知必会》作者:Ben Forta 译者:杨涛 人民邮电出版社2015-阅读全文

posted @ 2017-06-05 22:44 笨笨阿林 阅读(296) 评论(0) 编辑

2017年6月2日

刨根究底字符编码之十一——UTF-8编码方式与字节序标记

摘要: UTF-8编码方式与字节序标记 一、UTF-8编码方式 1. 接下来将分别介绍Unicode字符集的三种编码方式:UTF-8、UTF-16、UTF-32。这里先介绍应用最为广泛的UTF-8。 为满足基于ASCII、面向字节的字符处理的需要,Unicode标准中定义了UTF-8编码方式。UTF-8应该阅读全文

posted @ 2017-06-02 21:09 笨笨阿林 阅读(171) 评论(0) 编辑

2017年5月31日

刨根究底正则表达式之零——前言

摘要: 前言 一、缘起 1. 前面在字符编码系列文章的前言中曾说过,类似于字符编码这样基础、重要、应用广泛而又特别容易让人困惑的主题还有字节序(即大小端表示)、正则表达式以及浮点数实现、日期时间处理等等。其中,字节序、正则表达式跟字符编码的关系非常密切。字符编码以及字节序的问题已经在字符编码系列文章中介绍过阅读全文

posted @ 2017-05-31 22:04 笨笨阿林 阅读(1575) 评论(12) 编辑

2017年5月30日

刨根究底字符编码之十——Unicode字符集的编码方式以及码点、码元

摘要: Unicode字符集的编码方式以及码点、码元 一、字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用两个或两个以上字节。 比如,汉字“严”的Unicode码(Unicode码点值、Unicode编阅读全文

posted @ 2017-05-30 21:40 笨笨阿林 阅读(98) 评论(0) 编辑

2017年5月29日

刨根究底字符编码之九——字符编码方案的演变与字节序

摘要: 字符编码方案的演变与字节序 一、字符编码方案的演变 1. 前文已经提及,编号字符集CCS(简称字符集)与字符编码方式CEF(简称编码方式)这两个概念,在早期并没有必要严格区分。 在Unicode编码方案出现之前,字符集及其具体的编码方式是绑定耦合在一起的,因此,“字符集”、“编码”或“编码方式”甚至阅读全文

posted @ 2017-05-29 18:13 笨笨阿林 阅读(128) 评论(1) 编辑

2017年5月28日

刨根究底字符编码之八——Unicode编码方案概述

摘要: Unicode编码方案概述 1. 前面讲过,随着计算机发展到世界各地,于是各个国家和地区各自为政,搞出了很多既兼容ASCII但又互相不兼容的各种编码方案。这样一来同一个二进制编码就有可能被解释成不同的字符,导致不同的字符集在交换数据时带来极大的不便。 比如大陆和台湾是只相隔150海里、使用着同一种语阅读全文

posted @ 2017-05-28 12:55 笨笨阿林 阅读(159) 评论(0) 编辑

2017年5月27日

刨根究底字符编码之七——ANSI编码与代码页(Code Page)

摘要: ANSI编码与代码页(Code Page) 一、ANSI编码 1. 如前所述,在全世界所有国家和民族的文字符号统一编码的Unicode编码方案问世之前,各个国家、民族为了用计算机记录并显示自己的字符,都在ASCII编码方案的基础上,设计了各自的编码方案。 比如欧洲先后设计了EASCII和ISO/IE阅读全文

posted @ 2017-05-27 10:34 笨笨阿林 阅读(220) 评论(1) 编辑

导航

公告