摘要: 主要总结一下简单的工具:条件频率分布、正则表达式、词干提取器和归并器。 条件分布频率 《自然语言学习》很多地方都用到了条件分布频率,nltk提供了两种常用的接口: 和 。后面很多都会用到这两种方法,特别是第二个。因为第二个更符合定义,会智能的找到条件。 然后根据绘图的库,可以做出来很漂亮的图形。 简阅读全文
posted @ 2017-06-10 12:56 AsuraDong 阅读(51) 评论(0) 编辑
摘要: 这篇主要记录一下如何实现对数据库的并行运算来节省代码运行时间。语言是Python,其他语言思路一样。 前言 一共23w条数据,是之前通过自然语言分析处理过的数据,附一张截图: 要实现对news主体的读取,并且找到其中含有的股票名称,只要发现,就将这支股票和对应的日期、score写入数据库。 显然,几阅读全文
posted @ 2017-06-09 00:10 AsuraDong 阅读(285) 评论(0) 编辑
摘要: 这是 python3下 的MySQL基本操作。其他类型的数据库用法基本一样。就是库的名字不同。因为python官方很早之前就规定了数据库第三方库的借口,来避免API混乱的情况。 安装与准备 这是python3的库,所以windows下安装不会像python2那样各种奇葩VC错误。是比较方便的傻瓜安装阅读全文
posted @ 2017-06-08 18:57 AsuraDong 阅读(34) 评论(0) 编辑
摘要: [TOC] 语料库基本函数表 | 示例 | 描述 | | | : | |fileids() | 语料库中的文件 | |fileids([categories]) | 对应分类中的语料库文件 | |categories()| 语料库的分类 | |categories([fileids]) | 文件对应阅读全文
posted @ 2017-06-07 21:00 AsuraDong 阅读(17) 评论(0) 编辑
摘要: 英文分词的第三方库NLTK不错,中文分词工具也有很多(盘古分词、Yaha分词、Jieba分词等)。但是从加载自定义字典、多线程、自动匹配新词等方面来看。 大jieba 确实是中文分词中的 战斗机 。 请随意观看表演 "安装" "分词" "自定义词典" "延迟加载" "关键词提取" "词性标注" "词阅读全文
posted @ 2017-05-30 15:06 AsuraDong 阅读(519) 评论(5) 编辑
摘要: 主要总结一下简单的工具:条件频率分布、正则表达式、词干提取器和归并器。 条件分布频率 《自然语言学习》很多地方都用到了条件分布频率,nltk提供了两种常用的接口: 和 。后面很多都会用到这两种方法,特别是第二个。因为第二个更符合定义,会智能的找到条件。 然后根据绘图的库,可以做出来很漂亮的图形。 简阅读全文
posted @ 2017-06-10 12:56 AsuraDong 阅读(51) 评论(0) 编辑
摘要: 类型转化(运算符重载函数) 用转换构造函数可以将一个指定类型的数据转换为类的对象。但是不能反过来将一个类的对象转换为一个其他类型的数据(例如将一个Complex类对象转换成double类型数据)。在C++提供类型转换函数(type conversion function)来解决这个问题。类型转换函数阅读全文
posted @ 2017-06-09 23:55 AsuraDong 阅读(17) 评论(0) 编辑
摘要: 这篇主要记录一下如何实现对数据库的并行运算来节省代码运行时间。语言是Python,其他语言思路一样。 前言 一共23w条数据,是之前通过自然语言分析处理过的数据,附一张截图: 要实现对news主体的读取,并且找到其中含有的股票名称,只要发现,就将这支股票和对应的日期、score写入数据库。 显然,几阅读全文
posted @ 2017-06-09 00:10 AsuraDong 阅读(285) 评论(0) 编辑
摘要: 这是 python3下 的MySQL基本操作。其他类型的数据库用法基本一样。就是库的名字不同。因为python官方很早之前就规定了数据库第三方库的借口,来避免API混乱的情况。 安装与准备 这是python3的库,所以windows下安装不会像python2那样各种奇葩VC错误。是比较方便的傻瓜安装阅读全文
posted @ 2017-06-08 18:57 AsuraDong 阅读(34) 评论(0) 编辑
摘要: [TOC] 语料库基本函数表 | 示例 | 描述 | | | : | |fileids() | 语料库中的文件 | |fileids([categories]) | 对应分类中的语料库文件 | |categories()| 语料库的分类 | |categories([fileids]) | 文件对应阅读全文
posted @ 2017-06-07 21:00 AsuraDong 阅读(17) 评论(0) 编辑
摘要: 目录 [TOC] nltk资料下载 其中, 参数默认是all,可以在脚本里面加上 来进行下载 文本和词汇 首先,通过 引入需要的内置9本书 搜索文本 上下文: ,concordance是一致性的意思。即在Text对象中monstrous出现的上下文 相同上下文单词: ,查找哪些词还有相同的上下文 。阅读全文
posted @ 2017-06-07 16:49 AsuraDong 阅读(116) 评论(2) 编辑
摘要: 早期语言没有c,更不用说java等一些高级语言。那么是怎么描述链表这种实现呢?这次以单链表的模拟为例,深究一下 静态链表 的实现。 静态链表结构 按照之前单链表的性质,我们需要 游标和数据 。当然,每个元素都有下标(类似数组) 游标的含义 静态链表中,首节点和尾结点都没有数据( 数据为空 ) 首节点阅读全文
posted @ 2017-06-06 16:33 AsuraDong 阅读(189) 评论(0) 编辑
摘要: 先接一下上次的笔记,实现对单链表进行删除 思路实现 1. 声明结点p和q 2. 首节点赋值给p,下一个结点赋值给q 3. 循环执行释放p,将q赋值给p的操作(删除第一个结点后,之后的结点就是首节点了,以此类推) 问题 不可以代替循环体吗? 注意 释放了数据域和指针域,所以无法记录下一节点了。 应用 阅读全文
posted @ 2017-06-06 14:45 AsuraDong 阅读(18) 评论(0) 编辑
摘要: 文本特征提取方法研究 引言:转载大神的文章(http://blog.csdn.net/tvetve/article/details/2292111),存一下用于日后查找 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息阅读全文
posted @ 2017-06-03 13:48 AsuraDong 阅读(23) 评论(0) 编辑
摘要: 随意观看 "工具准备" "全角和半角字符" "网页字符实体" "Code实现" "之后..." 工具准备 python3.6 正则表达式(别的语言思路一样,容易借鉴) python正则表达式:flags的应用 这里主要介绍一下 里面的flags用法 | 标识符 | 作用| | | : | |re.I阅读全文
posted @ 2017-06-02 23:17 AsuraDong 阅读(299) 评论(1) 编辑