笔记 语义网简明教程 第二版 中文版 CH1

前言:
中国的语义网讨论网站:http://bbs.w3china.org
语义网研发的一个首要目标是实现语义可共用性(semantic interoperability),当简单的语法共用性无法实现或难以满足应用需求时,就必须借助语义可共用性。
译者序:
语义网是现实主义与理想主义的奇妙组合。
其现实性主要表现为坚持以“易行性(tractability)”为语义网技术的首要条件,从而确保技术成果计算上的可行性,这与传统人工智能的风格不尽相同。另一方面,它又设立了很高的目标,试图通过网络信息“理解”的机械化而实现网络信息处理的根本性变革,这与万维网及其应用的现行技术路线也不一样。
第1章 语义网概览
1.1 万维网现状
搜索引擎提供的功能更像是信息定位(location finder)而不是信息检索(information retrieval)
搜索引擎的使用也存在一些严重的问题:
  1. 高匹配、低精度。
    主要相关页面与大量低相关或者不相关的页面混排在一起,检索的效果就很差。
  2. 低匹配或无匹配。
    虽然发生的频率不高,但是搜索引擎有的时候确实会出现漏掉了一些重要的相关页面的情况。
  3. 检索结果对词汇高度敏感。
    文档里使用了与检索关键词不一样的术语时,往往不能得到想要的结果。
  4. 检索结果是单一的网页。
    如果所需要的信息分布在不同的文档中,则用户必须给出多个查询来收集相关的页面,然后自己提取这些页面中的相关信息并组织成一个整体。
另外一些问题:
即使搜索是成功的,用户仍必须自己浏览搜索到的文档,从中提取所需的信息,也就是说,对极其耗时的信息检索本身,搜索引擎并没有提供很多支持
现有网络搜索的结果不易直接被其他软件进一步处理,因此搜索引擎的应用往往是孤立的
目前,为网络用户提供更强大支持的主要障碍在于,网上内容的含义不是机器可解读的(machine-accessible)。现在一些工具可以检索文档,分割文档,检查拼写,统计词频,但是一旦牵涉到解释句子含义和提取对用户有用的信息,就能力有限了。
例子:
我是一个计算机科学的教授。
你不妨认为,我是一个计算机科学的教授。
改善现状的两种方法:
  1. 沿用现有表达方式来表达网上内容,并发展基于人工智能和计算机语言学的一些日趋复杂的技术以解决现有难题。
    已经取得了一些进展,但其任务仍然显得过于困难。
  2. 用一种更容易被机器处理(理解)的表示方法来描述网上内容,并采用智能技术来利用这种表示方法所提供的便利。
    即语义网(Semantic Web)运动。
    语义网并不是一种和现有万维网平行的新的全球化信息高速公路,而是将在现有万维网基础上逐渐成长。
相关组织、人物、项目:
  • 万维网联盟(W3C)
  • 李博士 Tim Berners-Lee
  • DAML美国DARPA Agent Markup Language项目
  • 欧盟第六研究框架计划
1.2 从当前万维网到语义网:实例分析
1.2.1 知识管理
现有技术在知识管理方面的局限:
  1. 信息搜索。
    依赖关键词搜索引擎
  2. 信息抽取。
    依赖人工浏览文档,现有智能代理(intelligent agnet)还不能令人满意地完成任务
  3. 信息维护
    存在着术语和不相容性和无法移除过时信息等问题
  4. 信息挖掘
    数据挖掘(data mining)等手段对分布式的、弱结构化的文档集合的新知识的发现是很困难的
  5. 信息视图
    万维网或者企业内部网难以实现对信息的隐藏。
语义网的目的是允许更高级的知识管理系统,使得:
  1. 可以根据含义用概念空间组织知识
  2. 具备相容性检查和新知识提取功能的自动工具支持知识维护
  3. 问答系统取代关键词搜索——用人性化的方式检索、提取和表示所需知识
  4. 支持跨文档的问答功能
  5. 能够规定用户查看信息的指定部分(甚至文档的某些部分)的权限
1.2.2 企业对个人电子商务(万维网用户最主要的商业活动)
通常用户在做决定之前只会访问一个或者少数几个网上商店,为了改善这种情形,以购物机器人的形式出现了一些网上购物工具,这种软件代理(software agent)能够访问多家商店、提取产品和价格信息、汇总市场情况。
这种方法的缺陷是:针对不同的网站需要开发不同的打包程序(?API?)。
有关信息获取的手段利用了特定信息段之间临近关系的假设以进行信息打包(根据price、$和数字三者之间的临近关系把价格信息“打包”)。

  1. 因为假设可能不一定总是正确,所以这种启发方法未必总能奏效。
  2. 而且能够提取的信息是有限的,很多信息的提取可能会受到限制,而这样的信息往往对用户的决策能起到重要的作用。
  3. 编制打包程序是费时的,而且网上商店的设置一旦发生变动,则需要重新编制打包程序
语义网技术支持软件代理对产品信息和服务条款的解读,使得:
  1. 能够真正正确地提取价格和产品信息,并根据用户需求解释配送和隐私保护策略
  2. 能够从其他来源,比如独立的排名机构或客户群体,补充提供网上商店的信誉信息
  3. 不需要低层次的打包程序
  4. 更加高级的购物袋里能够代表购买者的利益与商店代理进行自动协商
1.2.3 企业对企业电子商务(网络技术的最大经济价值体现)
企业间数据交换的传统方式是通过电子数据交换(EDI)途径。缺点在于:
  1. 每一对企业间的数据交换都需要专门编程,开发费用很大。
  2. EDI是一种孤立的技术手段,所交换的数据无法方便地与其他商业应用集成使用。
如今企业关注基于英特网的B2B解决方案,但是没有统一的标准,企业对企业的电子商务模式的发展受到了阻碍:
  1. HTML不包含信息的结构和信息的语义,无法对上述事务提供有效支持。
  2. XML是很大的进展,但是它只适用于事先对词汇表及其含义达成共识的情况
语义网若实现,借助于标准的抽象领域模型(abstract domain model)可以消除术语差异,实现用不同属于书写的文档见的翻译转换(互操作?),从而实现数据交换。
1.2.4 个人代理:未来的展望
语义网代理可以就使用者的问题、要求给出解决方案,而不是简单地就问题、要求进行检索。
1.3语义网技术
1.3.1 显式(explicit)(借助表达式本身直接表示出来(语义)的)的元数据
目前的网络内容更适合人去阅读而不那么适合程序去阅读。
通过语义网途径解决这个问题的办法不是开发更高级的智能代理,而是从网页表示角度入手,如果用更适合的语言取代HTML,用他们编写的网页就可以更好地表达其内容:

  1. 这种网页可以包含格式信息以生成便于人类阅读的文档
  2. 还可以包含描述内容的其他信息
元数据(metadada)指的是“关于数据的数据”,刻画的是数据的含义,也就是语义网中的语义。
XML和RDF是当前(2008)与语义网相关的W3C标准。语义网最大的挑战不在于科学方面,而在于技术是否被普遍接受
1.3.2 本体
本体论(ontology)源于哲学,是形而上学的一个分支,研究存在的本质,即什么是最一般意义上真是存在的,以及如何描述他们。
计算机科学借用了很多其他领域的术语并赋予它们与原有含义大不相同的技术性含义。
T.R.Gruber提出,R.Studer改进了的本体定义一个本体就是一个概念体系(conceptualization)的显式的形式化规范
一般地,一个本体形式地刻画一个论域(domain of discourse) 
一个典型的本体由有限个术语以及它们之间的关系组成。
术语(term)指的是给定论域中的重要概念。
概念间的相互关系有:
  1. 层次
  2. 属性
  3. 值约束
  4. 不相交描述
  5. 对象间逻辑关系的规定
在万维网环境中,本体提供了对给定领域的一种共识,其对于消除术语差别是必要的。
本体支持语义可共用性(semantic interoperability)
同过把两个系统中的术语映射到一个公共本体或者定义本体之间的直接映射,可以消除这些术语差异。
本体可用于:
  1. 网站的组织和导航。
  2. 提高网络搜索的精确度。
  3. 可以利用本体在网络搜索中试探更一般或更特殊的查询。
目前(2008)网络领域中最重要的本体语言有:
XML为结构化文档提供一种表层语法,但没有对这些文档的含义提供语义约束。
XML Schema是一种定义XML文档结构的语言。
RDF是一种描述对象(“资源”)和对象间关系的数据模型,并为这种数据模型提供一个简单的语义,这些数据模型可以用XML语法来表示。
RDF Schema是一种刻画RDF资源的属性和类的词汇描述语言,带有关于这些属性和类的一般—特殊关系的层次结构语言。
OWL是一个丰富的词汇描述语言,可以刻画诸如类间关系、类的基数、相等、更丰富的属性类型、属性的特征和枚举类等。
1.3.3 逻辑
  1. 逻辑提供了表示知识的形式语言
  2. 逻辑提供易于理解的形式语义
    在绝大多数逻辑系统中,句子含义的定义无需涉及对知识的操作。
    陈述性知识,就是指描述什么是成立的而不关心是怎样成立的。
  3. 逻辑可以用来推出被隐式表达的本体知识。
    可以借助自动推理机从给定的知识演绎(推导)出一些结论,从而使隐含的知识外显出来。
    这样做也有助于发现意料之外的关系和不相容性。
    例子:
    prof(X)→aculty(X)
    faculty(X)→staff(X)
    prof(michael)
    可以推导出的结论有:
    faculty(michael)
    staff(michael)
    prof(X)→staff(X)
逻辑比本体更具一般性。只能代理可以用逻辑来做决策和选择行动策略。
逻辑的一个最重要优点是它提供了对结论的解释——推导步骤的序列是可重现的。
解释可以提高用户对语义网代理的信心,对代理之间的互动行为来说也是重要的。
为了使逻辑能够在网上应用,必须使它能够和其他数据一起使用,而且能被机器处理。
目前正在研究如何用网络语言表示逻辑知识和逻辑证明。
最初的工作在XML层展开。
未来,规则和证明需要在RDF和本体语言(OWL)层表示
1.3.4 代理
代理是能够自主地(autonomously)和主动地(proactively)运作的软件。概念来源于面向对象程序设计和基于组件的软件开发。
代理将不会取代语义网上的人类用户,它们的作用是收集和整理信息,为用户提供备选方案。
//(百度地图?智能导航?)
语义网代理会使用到的技术:
  1. 使用元数据从网络资源识别和提取信息
  2. 使用本体辅助网络搜索,解释检索到的信息,并与其他代理进行交流
  3. 用逻辑处理检索到的信息并推导结论
1.3.5 语义网和人工智能的对比
虽然实现语义网所需要的大多数技术建立在人工智能已有工作的基础之上,但是语义网蓝图的实现并不需要人工智能能够达到人类智能的层次。现有人工智能技术就已足以帮助语义网向其蓝图进很大一步了。
如果说人工智能的最终目标是建造出呈现人类或更高级智能的智能代理的话,那么语义网的目标是协助人类用户处理网上的日常事务。
1.4 语义网的逐层递进
语义网的研究要一步一步地推进,每一步都在前一层之上搭建新的一层(layer),小步进步比较容易达成共识。
语义网的本性促使公司和个人用户必须采取行动——开发工具、添加内容和使用这些内容,而不能坐等语义网蓝图的全部实现。
新增一层的原则:
  1. 向下可兼容性
    如:掌握OWL语义的代理要具备足够的能力,以充分利用由RDF和RDF Schema描述的信息
  2. 向上部分可理解性
    如:一个掌握RDF和RDF Schema语义的代理可以部分地解释用OWL表达的知识,而无视RDF和RDF Schema之上的其他成分。
语义网的分层方案——Tim Berners-Lee称之为layer cake
  1. 底层是XML,一种根据用户自定义的词汇表编写结构化网络文档的语言。
  2. RDF如实体—关系模型,是一种基本数据模型,用来编写关于网络对象(资源)的简单陈述句。
    RDF的数据模型并不依赖于XML,虽然RDF有基于XML的词法。
  3. RDF Schema提供将网络对象组织成层次结构的建模原语。
    关键原语是类和属性、子类和子属性的关系、定义域和值域限定等,RDF Schema基于RDF。
  4. RDF Schema可以看作是一种编写本体的初始语言,但是仍然需要更强大的本体语言扩展RDF Schema,以表达网络对象之间更为复杂的关系。
  5. 逻辑层涉及实际的演绎过程、证明的网络语言表示及证明的验证。
  6. 信任层将随着数字签名和其他种类知识的使用而出现,并以其他可信任的代理的推荐或其他机构以及顾客群体的排名和认证为基础。
    信任是一个高层而且至关重要的概念:只有当用户信任它的操作和它所提供信息的质量时,万维网才能发挥它的全部潜力。
小结
  1. 语义网是一个旨在改进万维网现状的运动
  2. 语义网的核心想法是使用机器可处理的网络信息
  3. 语义网的关键技术包括显式的元数据、本体、逻辑和推理以及智能代理
  4. 语义网的研发逐层进行
推荐阅读:

  1. T. Berners-Lee, J.Hendler, and O. Lassila. The Semantic Web
  2. T. Berners-Lee, with M. Fischetti. Weaving the Web.
在线读物
  1. T. Berners-lee. Semantic Web Road Map.
    http://www.w3.org/designissues/semantic.html
  2. T. Berners-Lee. Evolvability.
    http://www.w3.org/designissues/evolution.html
  3. T. Berners-Lee. What the Semantic Web Can Represent.
    http://www.w3.otg/designissues/RDFnot.html
  4. E. Dumbill. The Semantic Web: A Primer.
    http://www.xml.com/pub/a/2000/11/01/semanticweb/
  5. F. van Harmelen and D. Fensel. Practical Knowledge Representation for the Web.
    http://www.cs.vu.nl/~frankh/postscript/IJCAI99-III.html
  6. J. Hendler. Agents and the Semantic Web.
    http://www.cs.umd.edu/users/hendler/agentweb.html
  7. S. Palmer. The Semantic Web, Taking From.
    http://infomesh.net/2001/06/swform
  8. S. Palmer. The Semantic Web, An Introduction.
    http://infomesh.net/2001/swintro/
  9. A. Swartz. The Semantic Web in Breadth.
    http://logicerror.com/semantiWeb-long
  10. R. Jasper and A. Tyler. The Role of Semantics and Inference in the Semanitc Web: A Commercial Challenge. http://www.semanticweb.org/SWWS/program/position/soi-jasper.pdf
课程:
  1. F. van Harmelen et al. Web-Based Knowledge Representation.
    http://www.cs.vu.nl/~matra/wbkr.html
  2. J. Helfin. The Semantic Web.
    http://www.cse.lehigh.edu/~heflin/courses/semweb/
  3. A. Sheth. Semantic Web.
    http://isdis.cs.uga.edu/SemWebCourse/index.html
  4. H. Boley, S. Decker, and M. Sintek. Tutorial on Knowledge Markup Techniques.
    http://www.dfki.uni-kl.de/km/knowmark/
语义网及其相关问题的最新动态:

Leave a Reply

Your email address will not be published. Required fields are marked *