笔记 文本挖掘

图书情报工作 2012(8) 专题1:作为社会科学研究方法的文本挖掘

  • Feldman, Sanger的文本挖掘定义:“可将文本挖掘大致定义为一个知识密集的过程,在此过程中用户与文档集合通过分析工具进行交互”。
  • 文本挖掘是一个方法群,涉及统计学、自然语言处理、信息抽取、可视化等多项信息技术。

P6 社会科学信息分析中的文本挖掘 by范并思

1.社会科学研究中的信息分析

信息分析的基本目标是通过科学的研究方法从公开信息源中发现有意义的信息。这种方法以前较多地应用于科学技术领域,如今也开始用于社会科学研究。在社会科学研究领域,信息分析方法是一种具有客观、系统和定量特性的研究方法。
两种场合需要采用信息分析方法发现信息源中的有用信息:
  1. 信息生产者在公开信息产品中刻意隐藏了某些有意义的信息
  2. 文献量过大,超出文献利用者解读文献内容的能力
内容分析用于社会科学研究的一般工作流程:
  1. 确定分析问题所需要的信息源
  2. 抽样确定信息源样本
  3. 确定编码标引语词体系,编制编码表
  4. 预编码,测评信度、修订编码表
  5. 对样本编码标引,判断样本文献对于编码表主题的相似度并记录
  6. 统计分析,将编码表数据导入计算机,按事先确定的权重体系进行统计,按某种分析模型进行分析
  7.  分析结果处理,对统计分析结果进行定性分析,得出结论

2.内容分析的优势与局限

内容分析产生于20世纪初,人们对于公开文献的词或句子进行量化处理,通过对量化数据的处理和分析,寻找文献中人们常规阅读难于发现的隐含意义。
  • 优势:内容分析能够将非结构化的媒体内容转化为量化和结构化的内容进行分析
  • 局限性:影响信息分析方法的客观性的因素无法避免
1 抽样调查的人为性
无论抽取所依据的方法多么科学都不可避免地丢失信息
内容分析的对象并非具有同一属性的单元,因此内容分析中的抽样很难遵循统计学中随机抽样原理,而是更多地加入了人为因素。
2 手工标引的低效率
计算机能够辅助标引,可以帮助标引者查找样本文献甚至找到文献中的关键词,但是“阅读——辨别——记录判别结果”的过程无法改变。
3 长期作业或集体作业的信度问题
无论一个人对一批样本长时间进行标引,还是多人对一批样本同时标引,都可能导致标引的不一致问题,影响信息分析方法的信度。
在网络时代,内容分析成本高、效率低的方法论弱点格外突出

3.作为信息分析方法的文本挖掘

网络时代,在社会科学中有望取代内容分析的方法是文本挖掘。
文本挖掘与内容分析一样,是一种系统地、客观地、定量地获取隐性信息的方法。
文本挖掘的其他名称“文本数据挖掘”、“文本知识发现”、“文本分析”
Ah-HweeTan的文本挖掘定义:“文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在的有意义的模式的过程。”

P10 人文社会科学研究中文本挖掘技术应用进展 by 郭金龙 许鑫 陆宇杰

1.信息抽取information extraction应用

信息抽取:从文本对象中抽取预先指定的实体、关系、事件等信息,形成结构化的数据并输入数据库。
  1. 改善信息检索:信息抽取可以帮助用户直接定位所需的信息,无需阅读文档的全部内容
  2. 辅助知识发现:主要作为一种辅助技术,通常需与社会网络分析、聚类分析、可视化等方法相结合,发现文本中隐含的深层知识

2.文本分类应用

指利用计算机自动将一篇文章归档入预先定义的几个类别中的一个或者几个的过程,是典型的有监督(supervised)机器学习应用
一般包括了:
  • 文本的表达
  • 特征选择
  • 分类器的选择与训练
  • 分类结果的评价与反馈
等过程

3.应用:

  1. 基于主题(内容)的分类
  2. 基于情感的分类,又叫情感计算、情感分析、观点挖掘或者文本意见挖掘等,
  3. 基于风格的分类
  4. 基于文章语言特色的分类,主要利用计算机辅助的技术对作者在用词、句式等方面的特点进行定量统计分析
  5. 基于其他特征的分类,文学作品的体裁、语体、感情色彩等
用于文本分类的算法:决策树、朴素贝叶斯(NB)、支持向量机(SVM)、K-近邻等

4.文本聚类应用

文本聚类没有人工预设好的类标签,是典型的无监督(unsupervised)机器学习应用
算法:
  1. G-HAC等算法为代表的层次凝聚法
  2. K-means等算法为代表的平面划分法
应用:
  1. 热点发现
  2. 信息组织与检索
  3. 其他

5.关联规则发掘

关联规则是描述一个事物中某些属性同时出现的规律和模式的分析方法
算法:Apriori
应用:
  1. 检索扩展
  2. 文本聚类
  3. 文本分类

6.模式发现与可视化技术

工具:
  1. FetureLens by Don
  2. POSvis by Vuillemot
  3. Wordle

P18 文本挖掘在人文社会科学研究中的典型应用述评 by 陆宇杰 许鑫 郭金龙

1.文本挖掘应用中的方法

文本挖掘方法分为
  • 初级:词频统计与简单文本分析
  • 高级:篇章分析、情感分析、本体构建、人物关系、可视化网络

2.基于词频统计及简单文本分析的典型案例

1词频统计:
通过统计一定长度的语言材料中每个词出现的次数,使用聚类分析、共词分析、社会网络分析等文本分析方法研究词频统计结果,以描绘词汇规律,发现隐藏在文章中的信息
  1. 《红楼梦》 作者归属判断
  2. 互联网儿童保护计划

3.基于知识发现的文本挖掘案例

1篇章分析方向
篇章分析就是指利用文本挖掘技术对不同学科、不同领域内的文本资料进行挖掘,从而发现新知识的过程
适用领域:政治要闻分析、案情文档分析、哲学文本分析、文学作品分析、历史资料分析、犯罪记录分析等
  1. 通过政治文本分析政府行为
  2. 案例文档中自动寻找匹配判例
  3. 对文章进行情感分析以判别作者情绪
2情感分析方向
包括观点挖掘、态度分析、倾向性分析、评论挖掘、意见挖掘等一系列针对文本中表达出的人的潜在情感的分析过程
适用领域:个性化服务、推荐系统、舆情监督、产品调研
  1. 基于新闻的认同度分析
  2. 文学评论挖掘
  3. 正当立场与意识形态
3本体构建方向
本体提供一套概念、术语和关系来描述某一领域的结构。基于文本挖掘进行自动、半自动的本体构建是未来的趋势
  1. “国共合作”的历史领域本体
  2. InPho哲学本体构建
  3. 法律本体构建的尝试
4人物关系方向
人物关系挖掘是指利用计算机辅助的方法自动从文本中抽取相关人物及人物之间的相互关系并挖掘其结构特征的一类应用研究,主要涉及命名实体识别、关系抽取等技术
  1. 小说人物关系
  2. 政治人物关系
  3. 学习小组任务关系(collaborative learning)
5可视化方向
不仅是一个技术方法,更是一中展现形式,将文本挖掘的过程与可视化的呈现相结合可以更好滴展现研究的进展和结论
  1. 历史地理可视化
  2. 犯罪网络可视化
  3. 文学模式可视化

P26 文本挖掘工具述评 by张雯雯 许鑫

商业文本挖掘工具:

Intelligent Miner for Text(IBM)
Text Miner(SAS)
Text Mining(IBM SPSS)
IDOL Server(Autonomy)
Darwin(Oracle)
SQL Server(Microsoft)
Clear Forest(Thomoson Reuters)
Themescpease(Cartia)
方正智思
TRS文本挖掘软件

开源文本挖掘工具:

Weka 算法全面
LingPipe 专门针对自然语言处理开发的工具包
LIBSVM SVM模式识别与回归的工具包
Rost CM  对中文支持好
单独使用文本发觉方法具有局限性,注重多种文本挖掘技术的结合以及文本挖掘与其他分析方法的结合。

Leave a Reply

Your email address will not be published. Required fields are marked *