![]() 业内信息数字出版的内容聚合研究2016-01-05 来源:出版发行研究 黄奇奇 颜先卓
摘要:数字出版的显著特征是个性化服务。作为数字出版过程的重要环节,内容聚合根据用户的个性化需求提取和重组知识,以满足个性化定制的要求,具有重要的意义。本文在分析网络环境下影响内容聚合的各种主客观因素的基础上,结合内容聚合实现目标和要求,设计出内容聚合的准则。这样不仅可以提高知识本身、表观和传播的质量,也能为数字出版实现个性化发展奠定基础。 关键词:数字出版 内容聚合 个性化服务 信息经济时代,数字出版资源的开放存取、数字出版平台的跨界运营使出版资源向有相应需求的用户流动和传播成为可能,这是在深度和广度上对出版资源的开发,以期实现数字出版的最终目标——个性化服务。实质上,个性化服务作为数字出版的显著特征之一,主要表现在个性化搜索、个性化呈现和个性化发布等方面。而内容聚合是根据用户的个性化需求提取和重组知识的过程。它一方面解决了学术资源爆炸和网络信息资源过载背景下用户多样化、差异化出版资源需求的问题,另一方面可以使知识脉络和知识结构更加清晰、直观地呈现给用户,为出版物的个性化投送和传播奠定基础,对提高数字出版的个性化服务水平意义重大。但目前,研究者们对数字出版内容聚合的关注较少,因而有必要研究其影响因素、目标、要求和设计准则等相关问题。 本文从数字出版与内容聚合的关系出发,结合不同领域内容聚合的共性和特性,阐述其在数字出版领域的可实现性和重要意义。同时,从数字内容资源网络个性化服务角度分析了内容聚合的主客观影响因素,提出数字出版内容聚合实现方案的基本解决思路,包括聚合的实现目标、实现要求和设计准则,以期提高出版资源的传播质量,为数字出版实现个性化发展奠定基础。 一、数字出版内容聚合 1. 网络环境下的内容聚合 数字出版是依托信息技术和网络环境而发展的出版业态,因而,要解决数字出版个性化服务难题,实现数字资源高效配置的内容聚合首先应将其置身于网络环境中。网络环境下的内容聚合在图书馆领域和内容分发系统中被广泛应用。在图书馆数字化应用中,内容聚合等同于知识重组,即通过分析知识关联进行结构上的重组,如围绕某一主题重新组合相关联知识等,涉及知识标引法、咨询法等相关技术。①在内容分发系统中,内容聚合的目标是准确、及时、快速地抓取用户需要的信息,并完成实时推送的任务,依靠基于XML标准的RSS技术完成。 数字出版领域的内容聚合正处于起步阶段,它既具有上述应用领域内容聚合的共性,也存在着自身的特性。由于数字出版的核心目标是实现出版内容的精度获取,因此数字出版的内容聚合是狭义的知识重组的过程,目的是在尊重知识本身结构性的前提下,使知识逻辑更加清晰。同时,内容聚合是一种资源整合的方式。数字化图书馆与数字出版对资源整合的不同点在于,数字化图书馆是对一手资源进行规范整理,而数字出版是对已经具有逻辑结构的知识进行二次加工,具有结构性、逻辑性、个性化、差异化等特征。 从技术角度看,目前的数字出版技术已经可以实现有效的内容聚合。首先,语义搜索技术的发展,遵循了知识语法原理,能够以树形结构和空间向量表示知识节点和节点之间的关系,从而为聚合中内容的自由提取创造了可能。其次,对选择的语义特征进行降维的向量空间模型法等处理方法,以及STC后缀树算法、基于语义场的算法等资源聚类方法也为内容提取提供了算法上的支持。此外,信息可视化的发展能够支持抽象内容的直观表现,为内容聚合后的内容呈现提供支撑。由此可见,我们在互联网背景下研究数字出版内容聚合在技术方面具有可实现性。 2. 数字出版与内容聚合 网络环境为聚合创造了一系列可实现的条件,研究数字出版领域的内容聚合首先应该明确数字出版与内容聚合的关系。数字出版是先将出版内容数字化和碎片化,再重新组织和聚类的过程。内容聚合是数字出版发展的核心环节,它在保证知识完整性和结构化前提下,能够将碎片化的数字信息重组成有价值的知识内容,是实现数字出版资源优化配置的重要途径。 众所周知,用户个性化的知识需求是数字出版的源动力,而内容聚合恰好可以满足这一需求。一方面,数字内容资源的庞杂无序是数字出版发展的一个重要表征,既包含传统的偏学术类的专业知识,也包含新媒体融合环境下的偏新闻类的专业信息,当知识或信息达到好几个数量级的时候,传统的学科分类法就已经没有了意义,取而代之的内容聚合是一种更加灵活的分类机制,它打破了公认化的分类标准,将简单的知识堆积变得更加有层次,用户甚至可以根据自己的需求手动选择聚合的模式,进而提升了个性化服务的层次。另一方面,未来的知识元必然是多样化的,内容聚合能够为知识提供一种新型的逻辑架构。信息系统在进行垂直向下的语义搜索时,能够依靠内容聚合找到相关知识节点,并逆向提取一定容量的知识信息。内容聚合虽是知识存检的下一环节,但与其具有同等重要的地位。 二、内容聚合的影响因素分析 内容聚合是对网络环境中的出版资源加以归类、序化,形成新的知识包,为提供新的知识服务做好准备。其中,聚合的程度、速度、方式是衡量聚合质量的关键要素。从被影响的方面考虑,反推主观和客观的影响因素,具有一定的合理性(表1)。 1. 客观因素 网络数字出版资源库的各模块功能主要影响内容聚合的程度和速度。(1)知识库的大小代表知识的数量,影响聚合的完整性。而在使用相同搜索引擎的前提下,知识存储、标引得越规范化,内容聚合的速度和质量越高。(2)对用户提问的处理取决于用户自身的专业化搜索水平和计算机系统对其请求进行关键词拆分处理的程度。关键词准确度和相关性越高,计算机就能越快地理解用户的检索意图,内容聚合的速度越快。同时,计算机对关键词拆分精细度也会影响聚合的程度。(3)搜索引擎性能越好,在内容聚合的程度上越具有优越性,且内容聚合的速度越快。 可以说,客观方面的影响因素也是完成内容聚合的条件要素。首先,在异构知识元丰富的条件下研究内容聚合才具有意义。知识元代表不能再细分的知识单元,包括已发表的碎片化知识内容,以及由自媒体发布和传播的知识数据。CNKI在知识元的实践上一直走在前列,具有完备知识体系和规范知识管理的功能。其目标之一是将我国80%的知识资源、国内馆藏的国外知识资源的60%建成数据库,并抽取、提炼其中80%的知识元建成知识元数据库。它的知识网络由知识元库、基本信息库和知识仓库组成,能够实现对数字、图形、表格、学术定义、新概念等知识元的搜索功能。③这为深度聚合创造了条件。其次,搜索引擎语义化、智能化是实现聚合的核心要素。搜索是根据关键词自上而下找到各个节点的过程,而聚合是自下而上选择向量集对应知识库内容的逆向搜索过程,聚合的深度和广度依赖于网络环境下有效的语义推理能力。 2. 主观因素 聚合的出发点和落脚点在于用户,他们的偏好和行为影响着网络环境下数字出版的发展态势,同样他们也是内容聚合中最难以把控的因素,因而内容聚合的模式在一定程度上取决于用户的利益基点。(1)不同用户对内容聚合的方式要求不同,即对内容和形式的要求和偏好都不相同。(2)即使要求相同,用户使用设备能够流畅、完整呈现的文档大小和格式也会有所差异。(3)数字出版运营商或服务提供商希望在控制聚合方式的前提下,尽可能高效地聚合信息资源令用户满意,节约成本以扩大利润空间。 人们的利益基点存在着冲突和偏差,内容聚合在平衡各方利益的前提下,必须具有一定的标准。针对专业领域的数字出版,按照传统的论文、报告、期刊等分类标准已经不能满足知识多元化的需要,因而应该按照知识本身具有的层次性、结构性、逻辑性来分类。这种标准既可以由系统开发者制定,也可以通过训练机器得到,甚至可以在提取出内容后,由用户自己手动添加标签分类,进而逐渐形成一个广泛的较为普遍的分类标准。按照一定标准甄别、筛选和归纳内容,才能使内容聚合得到多方人员的支持和配合。 三、数字出版内容聚合设计 1. 内容聚合的实现目标 内容聚合最终要实现的是个性化定制服务,它不是简单地从知识库中提取内容的过程,而是要综合考虑提取的标准和程度,以及提取之后的简单组织方式。数字出版的用户对出版资源的筛选和要求更为严格和苛刻,而搜索出来的内容可能与用户实际需求存在偏差,此时需要用户手动选择得到实际需求内容,以及根据其他因素选择实际需要打包的内容,即个性化定制的过程。内容聚合是个性化定制的核心。聚合的质量高低不仅体现在知识的数量上,还体现在呈现的逻辑上,可以说聚合的质量影响着个性化定制的质量,聚合的最终目标就是实现出版的个性化。 2. 内容聚合的实现要求 为了实现上述目标,应尽可能多地掌控主观因素需要的客观条件,主要是丰富的知识元、智能的搜索,这也是内容聚合的实现要求。知识元代表着知识的数量和质量,知识元的多元化包括来源渠道的多元化和知识类型的多元化,但是知识来源渠道的广泛并不应该降低知识的表观质量。这里所说的知识元并不是混乱的知识堆积,而是以某一点或某一主题为中心吸引来的碎片化知识或信息,只有在多元化的条件下研究内容聚合才有意义。同时,内容聚合的实现对搜索引擎也有一定的要求。在每次检索的过程中,搜索引擎根据关键词找到最基层的节点,不同情况下采用不同的聚合方式,继而将搜索得到的向量集对应到知识库中查找内容。这一过程要求语义搜索的概念与概念之间的逻辑关系是清晰的,且搜索引擎不再局限于字面上的匹配, 能够在网络环境下进行广泛有效的语义推理,将信息结构化重组后返回。 3. 内容聚合的设计准则 内容聚合由两个关键步骤构成:内容提取和内容呈现。在知识元多样化的前提下可以实现内容的差异化提取,而搜索引擎的智能化、语义化也成为内容呈现的先决条件。从这两个步骤研究内容聚合设计准则具有一定的合理性。 在提取标准的设计方面,就对信息规模化加工和个性化加工的数字出版而言,内容的层次结构从低级到高级可分为句、段、小节、节、章、篇,而设定提取深度为节能够满足规模化和个性化的双重要求。从文章层次结构的角度考虑,只提取包含关键词的句、段落,信息量少且完整度不高。小节是节的下一级单位,小节的内容属于节的内容。小节之间可能是并列、递进等关系,小节与节可能是因果、总分等关系,包含关键词的小节与其他小节的联系较为紧密,因而提取出完整的一节内容,使得内容聚合的准确度较高。假若提取到章或篇,内容量较大,且在空间上距离关键词所在处位置较远,相关性较低,则容易降低内容聚合的准确度。以节为聚合标准在数量和准确度方面都有所保证。从内容聚合的功能要求角度考虑,提取到节对搜索引擎的性能要求适度,引擎优化比较简便,不会造成系统负担过重。由于节的内容适量,在用户的各种终端设备上显示时性价比高,不致造成阅读疲劳、阅读浏览不顺畅等问题。同时,提取到节,是一个较为恰当的聚合方式和程度的控制,在不是特别精细化聚合的情况下能够得到较为准确和完整的聚合内容,这既可使知识资源得到利用,也可赢得较高的用户满意度。 在呈现标准的设计方面,目前,图书馆知识重组的方法可以作为数字出版内容呈现的借鉴标准。其中的主题分类标准将分散在不同类型文献中的关于某一主题的知识内容集合在一起,重新包装形成一个新的知识产品。对于数字出版资源而言,以主题为标准呈现内容,是较为恰当的知识呈现方式。例如输入搜索关键词“电子书”,知识呈现的标准可能是电子书的发展历史、特征、类型、制作过程等。主题标准不同于传统的按文献类型分类,它以一个主题词为核心,围绕主题整理编排内容,使得内容单元的体系和知识框架相对完整,这是深度开发知识资源、增加知识附加值的过程,更是将知识数据化的过程,为内容定价奠定了基础。 SCORM共享内容参考模型是由美国国防部针对数字内容教材制作、开发所拟定的通用规范,它自身就拥有一个“内容聚合模型”,通过重新确认和描述学习内容,能够将学习资源整合成一个课程或课程的一部分,并对学习内容进行规范化的管理操作。④这是数字出版内容聚合可借鉴的比较成熟的标准之一。 四、结语 国外的创业公司Citelighter发布了一个学术研究平台,从一个全新的角度诠释了知识管理,用一个简单的内容重组系统实现了内容聚合。它提供的浏览器插件可以保存用户标注或选定的文段,以便按照用户要求生成一个可读性非常强的文档和参考文献目录。实际上,这是按照内容聚合的工作原理和技术开发的初级阶段。未来的内容聚合应该从更深的层次上改变知识结构,实现在不同环境下增强知识适应性的愿景。 内容聚合是数字出版发展的核心环节,其个性化定制服务的目标正是网络环境下数字出版的显著特征。同时,图书馆领域和多媒体领域的内容聚合为数字出版领域的内容聚合提供了参考标准和技术支持,在分析内容聚合主客观因素的前提下,明确其实现要求,并设计内容提取和呈现的准则,对数字出版内容聚合的发展提出了若干可行性优化和改进方案。在未来数字出版生态演变的背景下,内容聚合的形式、模式和应用扩展,也是值得深入研究的方面。 注释 ①李家清. 知识组织方法及策略研究[J]. 图书情报工作, 2005(5):41-44. ②曹蒙. 学术数据库出版中的用户偏好研究[D]. 武汉:武汉大学,2015. ③高蝴蝶,张志林. 基于知识元的内容组织对数字出版的启示[J]. 北京印刷学院学报,2009(5):33-36. ④万华, 罗刚. 基于国家现代远程教育资源库的资源建设与共享应用研究——SCORM标准内容聚合模型的应用[J]. 现代教育技术,2009(5):91-94. 参考文献 [1]罗紫初,陈小琪, 秦洁雯. 论数字出版信息资源开发利用的意义[J]. 出版科学,2013(3):9-12. [2]方卿,曾元祥,余世英. 数字出版产业链的二元结构分析[J]. 出版科学,2013(3):80-84. [3]李树平. 论图书馆的知识重组与创新[J]. 晋图学刊,2006(1):70-72. [4]李克征. 图书馆知识重组技术方法[J]. 情报杂志,2006(7):51-53. [5]章志成,敖永红. 基于SCORM内容聚合模型的网络课程系统设计与实现[J]. 微型电脑应用,2011(12):47-50,71. [6]谭玲玲,陈振东,曹三省. 基于内容聚合搜索的媒体业务共享平台研究[J]. 中国传媒科技,2008(9):32-34. [7]毕雅娟. 如何对图书馆进行知识重组[J]. 黑龙江科技信息,2008(28):121. [8]赵国林,王可. 知识重组与创新在图书馆中的应用[J]. 图书馆学研究,2007(9):80-81,7. [9]张立,汤雪梅. 数字出版资源平台综述[J]. 现代出版,2012(1):35-39. [10]肖琬蓉,师刚,张龙. 数字资源统一内容管理系统设计与实现[J]. 计算机应用与软件,2010(11):114-116. (作者单位:宁波大红鹰学院) |
国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周
copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持