置顶随笔

[置顶]有关《刨根究底正则表达式》系列文章的更新说明

摘要: 由于《刨根究底正则表达式》系列文章的后续稿件将被InfoQ采用,根据InfoQ的规定,必须在InfoQ首发后才能在本博客更新,因此,后续文章还需等待一段时间(因为要按InfoQ的要求修改稿件)才能继续在本博客更新。抱歉!阅读全文

posted @ 2017-06-12 21:27 笨笨阿林 阅读(39) 评论(0) 编辑

[置顶]刨根究底正则表达式之零——前言

摘要: 说明: 虽然本系列文章后续会简单介绍正则表达式的一些基础知识,但主要限于本系列文章所想强调的要点,因此本系列文章并不适合用于入门。 若你是对正则表达式没有任何概念的初学者,建议至少先阅读网上备受推崇的《正则表达式30分钟入门教程》,时间允许的话最好再阅读《正则表达式必知必会》(才130多页,写得非常阅读全文

posted @ 2017-05-31 22:04 笨笨阿林 阅读(1922) 评论(12) 编辑

[置顶]刨根究底字符编码之零——前言

摘要: 字符编码是计算机世界里最基础、最重要的一个主题之一。在编程实践中,如果不发扬死磕到底的精神将字符编码问题的来龙去脉、前世今生彻底搞清楚,那么它终将会像幽灵一样挥之不去,导致时不时地被各种与字符编码相关的“灵异”事件折磨得死去活来。阅读全文

posted @ 2017-05-20 13:35 笨笨阿林 阅读(279) 评论(4) 编辑

2017年7月11日

刨根究底字符编码之十四——UTF-16究竟是怎么编码的

摘要: UTF-16究竟是怎么编码的 1. 首先要注意的是,代理Surrogate是专属于UTF-16编码方式的一种机制,UTF-8和UTF-32是不用代理的。 如前文所述,为了让UTF-16能继续编码基本平面后面的增补平面中的码点值,于是扩展了UTF-16编码方式。 具体的扩展方法就是为其增加了代理机制,阅读全文

posted @ 2017-07-11 21:02 笨笨阿林 阅读(185) 评论(0) 编辑

2017年6月12日

有关《刨根究底正则表达式》系列文章的更新说明

摘要: 由于《刨根究底正则表达式》系列文章的后续稿件将被InfoQ采用,根据InfoQ的规定,必须在InfoQ首发后才能在本博客更新,因此,后续文章还需等待一段时间(因为要按InfoQ的要求修改稿件)才能继续在本博客更新。抱歉!阅读全文

posted @ 2017-06-12 21:27 笨笨阿林 阅读(39) 评论(0) 编辑

2017年6月9日

刨根究底字符编码之十三——UTF-16编码方式

摘要: UTF-16编码方式 1. UTF-16编码方式源于UCS-2(Universal Character Set coded in 2 octets、2-byte Universal Character Set)。而UCS-2,是早期遗留下来的历史产物。 UCS-2将字符编号直接映射为字符编码(CEF阅读全文

posted @ 2017-06-09 23:11 笨笨阿林 阅读(229) 评论(0) 编辑

2017年6月7日

刨根究底正则表达式之二——正则表达式基础

摘要: 说明: 虽然本系列文章开篇会简单介绍正则表达式的一些基础知识,但主要限于本系列文章所想强调的要点,因此本系列文章并不适合用于入门。 若你是对正则表达式没有任何概念的初学者,建议至少先阅读网上备受推崇的《正则表达式30分钟入门教程》,时间允许的话最好再阅读《正则表达式必知必会》(才130多页,写得非常阅读全文

posted @ 2017-06-07 23:09 笨笨阿林 阅读(293) 评论(0) 编辑

2017年6月6日

刨根究底字符编码之十二——UTF-8究竟是怎么编码的

摘要: UTF-8究竟是怎么编码的 1. UTF-8编码是Unicode字符集的一种编码方式(CEF),其特点是使用变长字节数(即变长码元序列、变宽码元序列)来编码。一般是1到4个字节,当然,也可以更长。 为什么要变长呢?这可以理解为按需分配,比如一个字节足以容纳所有的ASCII字符,那何必补一堆0用更多的阅读全文

posted @ 2017-06-06 22:07 笨笨阿林 阅读(403) 评论(5) 编辑

2017年6月5日

刨根究底正则表达式之一——正则表达式简介

摘要: 说明: 虽然本系列文章开篇会简单介绍正则表达式的一些基础知识,但主要限于本系列文章所想强调的要点,因此本系列文章并不适合用于入门。 若你是对正则表达式没有任何概念的初学者,建议至少先阅读网上备受推崇的《正则表达式30分钟入门教程》,时间允许的话最好再阅读《正则表达式必知必会》(才130多页,写得非常阅读全文

posted @ 2017-06-05 22:44 笨笨阿林 阅读(427) 评论(0) 编辑

2017年6月2日

刨根究底字符编码之十一——UTF-8编码方式与字节序标记

摘要: UTF-8编码方式与字节序标记 一、UTF-8编码方式 1. 接下来将分别介绍Unicode字符集的三种编码方式:UTF-8、UTF-16、UTF-32。这里先介绍应用最为广泛的UTF-8。 为满足基于ASCII、面向字节的字符处理的需要,Unicode标准中定义了UTF-8编码方式。UTF-8应该阅读全文

posted @ 2017-06-02 21:09 笨笨阿林 阅读(304) 评论(0) 编辑

2017年5月31日

刨根究底正则表达式之零——前言

摘要: 说明: 虽然本系列文章后续会简单介绍正则表达式的一些基础知识,但主要限于本系列文章所想强调的要点,因此本系列文章并不适合用于入门。 若你是对正则表达式没有任何概念的初学者,建议至少先阅读网上备受推崇的《正则表达式30分钟入门教程》,时间允许的话最好再阅读《正则表达式必知必会》(才130多页,写得非常阅读全文

posted @ 2017-05-31 22:04 笨笨阿林 阅读(1922) 评论(12) 编辑

2017年5月30日

刨根究底字符编码之十——Unicode字符集的编码方式以及码点、码元

摘要: Unicode字符集的编码方式以及码点、码元 一、字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用两个或两个以上字节。 比如,汉字“严”的Unicode码(Unicode码点值、Unicode编阅读全文

posted @ 2017-05-30 21:40 笨笨阿林 阅读(206) 评论(0) 编辑

2017年5月29日

刨根究底字符编码之九——字符编码方案的演变与字节序

摘要: 字符编码方案的演变与字节序 一、字符编码方案的演变 1. 前文已经提及,编号字符集CCS(简称字符集)与字符编码方式CEF(简称编码方式)这两个概念,在早期并没有必要严格区分。 在Unicode编码方案出现之前,字符集及其具体的编码方式是绑定耦合在一起的,因此,“字符集”、“编码”或“编码方式”甚至阅读全文

posted @ 2017-05-29 18:13 笨笨阿林 阅读(188) 评论(1) 编辑

导航

公告