4.2.1.3数据模型和元数据
数据模型在内容管理系统中非常重要,它们使得关于对象的元数据在数据库系统中得以结构化的表达。本书不涉及对于数据模型的详细讨论,然而在内容管理系统中了解其基本概念和原理是重要的。
数据模型是带有描述数据和操纵它的一组操作的集合的(数学)形式。数据模型已经发展了数年,有很多结构化表示信息的方法。有实体关系模型、网络模型、层级模型、关系模型和面向对象模型。实体关系模型利用实体关系图和概念化的方案自然地对组织进行描述。此时的实体是可标识的对象,它们之间的关系表现在同一模型中的不同实体间的关联上。网络数据模型和实体关系模型相比其所有关系仅限于二进制编码、多对一的关系。在层级模型中实体之间的关系以层级关系来组织。
关系数据模型是面向“值”的。根据关系来定义操作,其结果是产生关系。在关系模型中,操作可以很容易地组合和串联。关系模型中的数学概念是集合理论关系,是关于域列表的笛卡尔乘积的一个子集。
对象在面向对象的模型中是有特定地址的记录。对象可以编入复杂结构并且被定义类别和层级。类型可以有不同特征的子类型。和关系模型相比,面向对象的模型不易组织,这是因为面向对象的模型使用了抽象数据类型,并且不支持对其他操作结果的进一步操作。
评估了表示内容的数据模型的不同的有利方面和不利方面,Stonebraker提出了建议。这个分类用数据复杂度和根据特定任务查询适合的数据模型的相似复杂度作为参考。对于结构简单的数据和简单查询,存储在文件系统中的索引文件被认为是适当的。对于简单查询和复杂数据可以采用面向对象的数据模型。根据这个分类,关系数据模型应用于简单数据结构的复杂查询;而在查询和数据都很复杂时,要应用对象关系数据模型。后者是针对内容的,其结构相对复杂,因为工作流的量很大和需要支持的用例众多,其检索也相对复杂。
然而,除了要选择适合的数据模型和相应的数据库系统,还应考虑其他重要条件,例如,现有的数据库可能需要扩展或者要集成到内容管理系统中去。另外还应考虑现有组织中的专家经验,其中最重要的是备选数据模型方案要能够获取所有相关数据和程序。因此,开发内容管理系统的组织应该考虑到全面的特征、用例、工作流和过程,从而获取相关的元素和属性。另外,实体以及过程之间的关系和链接也应考虑在内。完成这些工作之后(考虑所有的相关实体和关系之后)才可以开发适合的数据模型。
内容管理系统具体的数据模型的核心是具有所有相关特性的内容对象、任务、工作流以及表征实体。数据模型要考虑所有相关对象的元数据。内容对象之间的不同关系和可能出现的互操作都表现在数据模型中。另外,具体组织的工作流步骤和不同用户的角色也应该反映在数据模型中。
4.2.2关于片段的元数据
除了描述对象的元数据,还有描述片段(传统的由时码控制或者由区域参数控制的片断)的元数据。片断描述的优点在于对内容对象进行深度编目的自由度和灵活性很高,它可以对重大事件的详细描述进行编目。另外,它能够支持对于内容对象具体部分的检索,并且能够定位到具体部分。
片段能够表示内容对象的不同逻辑部分。片段可以是根据空间的或者是根据时间的,前者是指内容对象的具体区域或者(如MPEG-4中一样)内容对象的某个具体对象;后者则指时间片段由对象ID和开始以及结束时码(或者开始时码和片段时间长度)为标识。媒体对象的时码以时间线为参考。
时间线可以是片段相关的逻辑构造。素材的物理时间线要联系到文档程序逻辑时间线上。标识任何副本上的具体片段的能力要独立于素材的存储格式以及内容的集成和组合之外。
利用时码进行内容的逻辑分解通常在日志页面进行,它给出了内容条目的图像描述。时码用来定位内容对象时间线上的特定事件。它以自由文本方式或者分类文档和词典方式来详细描述。
添加面向时间注解的有效概念是分层结构。分层结构以在界定整个媒体对象的各个部分分段处添加锚点的方式,来利用媒体对象的时间、空间本质特征,锚点处可以链接到详细的描述。例如,时间层结构应用时间参数(和各自的时间线有关)来指向音频或者视频对象的某个具体部分。然而,和传统的日志记录相反的是每个层可以有具体的主题和描述主旨。单个的描述可以集中在特定概念上,如图像描述、关键字、相似标题文本、出场人物等。每个层都可以根据与层的片段相关的时码来独立分段,这些片断不需要和媒体对象的其他片段或结构(如拍摄结构)相互关联。利用自动分析和特征提取工具,自动检索到的信息可以关联到以时码作为层限定的特定的层,这样就补充了以手动进行的文档编目。因此,利用文档分层法,专家们可以和自动生成的文档联合操作。
在连续媒体中,片段描述和与时间无关的文本信息以及与时间有关的视听信息相联系。一些多媒体内容管理系统联合应用视听信息和文本信息在情节串联图板中产生基于片段的文档。此时,关键帧、层的描述和时码联合产生图像内容的纵览,同时也连接到预览视频的一个副本。这种技术综合了不同媒体类型生成媒体对象的真正多媒体描述。
如关键字、相似标题文本、版权和图像内容描述等元数据,在不同层级被描述,每一层级有完全不同的时间线,只需保证有共同的参考点(即开始点)即可。
在检索过程中,联合的层有时要准确地标识出用户感兴趣的片段。例如,当要查找在特定地点某人在另外一个人在场时所做的发言,用户则可以查找“在场人”的层中参与者的姓名,查找“相关主题”层中引用的原文,查找“地点”层中具体的位置。联合输出的结果将准确指向需要的片段。
同样的方法可以应用于空间层结构。此时图像被分为不同的部分,然后单独描述,这些部分可以是对象或者只是媒体对象的某个区域。
编目和检索上的花费在很大程度上有赖于具体组织中对内容文档采取的策略。如果在文档组织上付出的努力能够让用户更快地找到需要的内容条目或者片段(或者查找全部),那么就可以提高文档的重用性。
4.2.3逻辑内容结构和内容层级
内容对象通常和其他对象以及其他层级的部分有联系,如节目集和节目系列。所以除了表示具体内容对象的元数据以外,这种结构和层级也要反映在内容管理系统中。可以定义以下的层级结构:
·镜头(如传输中的帧序列)。
·节目条目(组成大单元的单个实体,如新闻故事、采访、演出等)。
·节目(由逻辑相关的节目条目组成的节目块,构成相同传输或节目时间表实体)。
·节目集(相同生产的节目组,如电视剧)。
镜头由片段描述,节目条目由相关对象的元数据充分描述,然而节目和节目集需要单独考虑。描述节目的一种方法是利用相关条目的链接和相互关系。但是这样还不够充分,因为有关内容收集的元数据并没有在层级中表示出单个条目的特征,因此在很多情况下节目要以它们自己的方式表示成对象。
层级中不同对象的关系可以用层级树和关系图来表示。关系图用来表示更松散的关系,如关于某个事件或者主题的新闻故事组。从图中可以看到,根据不同的内容结构和组织,对象层级可以有多于两到三层。
开发这些层级关系可以定位检索到层级的具体某一级。例如,如果用户要检索整个节目,但是起始的检索结果是关于节目条目的,那么可以利用层级关系来找到所需结果的对象或者片段。
4.2.4对象引用
对象引用在内容管理系统中有重要地位,因为它们明确标识了内容对象。它们是元数据的一部分,但是将元数据与素材联系起来。除了将内容对象作为一个实体进行标识以外,它们也能够引用到不同的内容组件(如素材对象),将内容对象的不同表示链接起来。另外,它们还可以用于链接相关的内容对象。为了实现内容交换,这些引用要基于特定的标识。它们至少应该在组织中能被单独标识,在组织间也应该能够单独标识。此时就需要全局的、唯一或者注册的标识符。
区别系统内部标识符(如数据库密码)和内容对象的标识符是很重要的。前者只能标识具体系统中的对象,这在内容管理情况下是不够的,因为同一个内容对象在不同系统中会有不同的表示,每个系统注重于不同方面(如财务、知识产权、节目信息等)。由于对象引用表示对象不仅仅是一个具体的实例化,因此它们有更加广泛的应用。
除了特别标识内容对象之外,标识符可以包含关于内容对象来源的附加信息,其所有权、起始信息、注册团体等将被编码在标识符中,并有各种方案可供选择,以下列出一些:
·对象特性标识符,是本地组织内部的特性唯一标识引用。对象特性标识符的概念也可以用于简化遗留系统到内容管理系统的集成。这些标识符不能在定义范围以外通信和使用。
·唯一资料标识符(Unique Material Identifier, UMID),是为了标识素材条目而提出的。UMID由SMPTE定义标准化,其格式允许纯粹基于本地信息自动生成全局唯一标识符。即在该领域记录时就生成UMID。标识的粒度(同一UMID标识了多少视频帧和音频抽样)一方面有赖于预期使用,另一方面有赖于媒体存储元数据的能力。UMID也标识素材条目和节目条目以及相关素材之间的关系。
·唯一节目标识符(Unique Program Identifier, UPID),是为了传统的节目条目和相关版权的声明而提出的。UPID有法律意义,因此最好选择正式的、注册的标识符。例如,在国际标准视听数字注册机构注册的国际标准视听数字(International Standard Audiovisual Number, ISAN),就长时间拥有唯一标识符。在该过程中附加信息集合(如有关注册组织的)也被注册机构记录下来。
其他的参考程序是处理具体方面的问题的,特别是有关时间的,这对注册时间、创作、生产和传输事件是很重要的。例如,和时间相关的参考有:
·时间参考,是一般的结构化时间戳,它用来表示内容对象和真实世界或者媒体流的协调时间之间的关系。
·真实世界时间表述,是需要同步元数据和基于实时事件的素材条目所必需的。例如,当一些素材版本被单独获取的时候,它们能够通过和初始信息相关的获取时间日志而进行同步。因此,特别版本的索引可以利用真实世界时间表示,自动传播到其他所有版本。适合表征真实世界时间的格式,有关于参考时间或者地理时间的时间单元计数的格式或者是日期时间格式。前者通常由计算机操作系统实现,因为其支持时间跨度的简单计算;后者是人们可以阅读的时间和日期格式。
·媒体流时间,是以开始时间(第一帧)为参考点的具体内容对象为参考的相关时间。在得出的时间线中,事件可以以图示形式给出,例如关于时间的内容逻辑描述、时间片段或者组成元数据。如果UMID没有联系到帧,那么媒体流时间在条目中标识剪辑(如为了片段文档)的作用是很重要的。媒体流时间可以被表示为标准SMPTE时码或者帧单元或者样本单元的位移和持续时间。由于时间计算的基础和设备的内部时钟有关,所以,以上两种都不是真正有效时间的表示。这里还没有考虑设备的偏差。如果素材版本没有在有效时间控制下生成,那么描绘同一节目的不同素材版本的时间线是复杂的问题。例如,如果一个素材版本在播出中被记录,它的延续时间有可能和来源节目的时间不同,因为会有商业插入时间和淡入淡出时间等等。
有很多其他的对象引用内容对象的内部标识符。在内容管理系统中很重要的还有媒体定位器,它用来标识给定的条目(素材或者元数据)的位置。在基于IT的系统中,它们可以根据W3C的定义表示为统一资源定位符(Uniform Resource Locators, URL)。当引用到传统媒体时,物理地址必须根据统一语义赋予。在诸如内容管理系统这样的复杂系统中,推荐执行适宜的定位服务,这些服务应能跟踪内容对象从一个地址到另一个地址的移动。
4.3获取和交换元数据
元数据的作用是使得内容可访问、易于查找和可以交换。尽管在某些情况下,元数据包含的很多信息可以独立存在,但总的来说,它是用来支持交互功能和实际媒体或者素材的处理过程的。因此,元数据的综合查找、检索和交换对内容管理系统中的交互作用很重要。
4.3.1元数据的检索和查询
内容管理系统要提供特别的查找功能,以便能够获取与内容管理系统进行互操作的不同数据库和信息系统的信息。大多数用户不能熟练使用数据库也不熟悉数据模型或者内容在数据库中的表达。另一方面,对于专业用户,如存储人员和媒介管理者,他们使用原始的数据库查询能最快得到结果。因此,系统应提供不同的查询元数据的方法。以下介绍几种查询方式:
·全文检索,支持以自然语言检索系统。查找通常经过索引后的文件(有时候是结构化文件)或者使用DBMS的全文检索功能进行。
·检索标签,构成了根据内容进行检索的结构,如根据名称、地点、日期等。这些概念在不同的数据库中标出了相应的属性。如果元数据存储在结构化文档中,标识过的元素也在查找范围内。
·检索片段,只在片段描述中进行查找。如果使用了分层的文档模型,也可以限制在表示具体层的概念中查找(如出现的人物和地点)。
·本地检索,是直接应用于本地数据库的查找,考虑了数据模型、检索语言、数据库的具体限制和功能。
从很多数据库和信息系统中检索数据的操作是普遍的,所以需要支持联合查找和确定结果。如果内容对象归档在多重系统中,那么结果的确定通过ID匹配来进行。结果显示给用户的方式有赖于用户的角色和应用的角色。数据库和全文检索引擎可以用其本地接口进行检索。利用XML消息传递来转换信息是另一种取得该类信息的可行办法。