登陆注册
3289000000018

第18章 内容的表达和元数据(2)

4.2.1.3数据模型和元数据

数据模型在内容管理系统中非常重要,它们使得关于对象的元数据在数据库系统中得以结构化的表达。本书不涉及对于数据模型的详细讨论,然而在内容管理系统中了解其基本概念和原理是重要的。

数据模型是带有描述数据和操纵它的一组操作的集合的(数学)形式。数据模型已经发展了数年,有很多结构化表示信息的方法。有实体关系模型、网络模型、层级模型、关系模型和面向对象模型。实体关系模型利用实体关系图和概念化的方案自然地对组织进行描述。此时的实体是可标识的对象,它们之间的关系表现在同一模型中的不同实体间的关联上。网络数据模型和实体关系模型相比其所有关系仅限于二进制编码、多对一的关系。在层级模型中实体之间的关系以层级关系来组织。

关系数据模型是面向“值”的。根据关系来定义操作,其结果是产生关系。在关系模型中,操作可以很容易地组合和串联。关系模型中的数学概念是集合理论关系,是关于域列表的笛卡尔乘积的一个子集。

对象在面向对象的模型中是有特定地址的记录。对象可以编入复杂结构并且被定义类别和层级。类型可以有不同特征的子类型。和关系模型相比,面向对象的模型不易组织,这是因为面向对象的模型使用了抽象数据类型,并且不支持对其他操作结果的进一步操作。

评估了表示内容的数据模型的不同的有利方面和不利方面,Stonebraker提出了建议。这个分类用数据复杂度和根据特定任务查询适合的数据模型的相似复杂度作为参考。对于结构简单的数据和简单查询,存储在文件系统中的索引文件被认为是适当的。对于简单查询和复杂数据可以采用面向对象的数据模型。根据这个分类,关系数据模型应用于简单数据结构的复杂查询;而在查询和数据都很复杂时,要应用对象关系数据模型。后者是针对内容的,其结构相对复杂,因为工作流的量很大和需要支持的用例众多,其检索也相对复杂。

然而,除了要选择适合的数据模型和相应的数据库系统,还应考虑其他重要条件,例如,现有的数据库可能需要扩展或者要集成到内容管理系统中去。另外还应考虑现有组织中的专家经验,其中最重要的是备选数据模型方案要能够获取所有相关数据和程序。因此,开发内容管理系统的组织应该考虑到全面的特征、用例、工作流和过程,从而获取相关的元素和属性。另外,实体以及过程之间的关系和链接也应考虑在内。完成这些工作之后(考虑所有的相关实体和关系之后)才可以开发适合的数据模型。

内容管理系统具体的数据模型的核心是具有所有相关特性的内容对象、任务、工作流以及表征实体。数据模型要考虑所有相关对象的元数据。内容对象之间的不同关系和可能出现的互操作都表现在数据模型中。另外,具体组织的工作流步骤和不同用户的角色也应该反映在数据模型中。

4.2.2关于片段的元数据

除了描述对象的元数据,还有描述片段(传统的由时码控制或者由区域参数控制的片断)的元数据。片断描述的优点在于对内容对象进行深度编目的自由度和灵活性很高,它可以对重大事件的详细描述进行编目。另外,它能够支持对于内容对象具体部分的检索,并且能够定位到具体部分。

片段能够表示内容对象的不同逻辑部分。片段可以是根据空间的或者是根据时间的,前者是指内容对象的具体区域或者(如MPEG-4中一样)内容对象的某个具体对象;后者则指时间片段由对象ID和开始以及结束时码(或者开始时码和片段时间长度)为标识。媒体对象的时码以时间线为参考。

时间线可以是片段相关的逻辑构造。素材的物理时间线要联系到文档程序逻辑时间线上。标识任何副本上的具体片段的能力要独立于素材的存储格式以及内容的集成和组合之外。

利用时码进行内容的逻辑分解通常在日志页面进行,它给出了内容条目的图像描述。时码用来定位内容对象时间线上的特定事件。它以自由文本方式或者分类文档和词典方式来详细描述。

添加面向时间注解的有效概念是分层结构。分层结构以在界定整个媒体对象的各个部分分段处添加锚点的方式,来利用媒体对象的时间、空间本质特征,锚点处可以链接到详细的描述。例如,时间层结构应用时间参数(和各自的时间线有关)来指向音频或者视频对象的某个具体部分。然而,和传统的日志记录相反的是每个层可以有具体的主题和描述主旨。单个的描述可以集中在特定概念上,如图像描述、关键字、相似标题文本、出场人物等。每个层都可以根据与层的片段相关的时码来独立分段,这些片断不需要和媒体对象的其他片段或结构(如拍摄结构)相互关联。利用自动分析和特征提取工具,自动检索到的信息可以关联到以时码作为层限定的特定的层,这样就补充了以手动进行的文档编目。因此,利用文档分层法,专家们可以和自动生成的文档联合操作。

在连续媒体中,片段描述和与时间无关的文本信息以及与时间有关的视听信息相联系。一些多媒体内容管理系统联合应用视听信息和文本信息在情节串联图板中产生基于片段的文档。此时,关键帧、层的描述和时码联合产生图像内容的纵览,同时也连接到预览视频的一个副本。这种技术综合了不同媒体类型生成媒体对象的真正多媒体描述。

如关键字、相似标题文本、版权和图像内容描述等元数据,在不同层级被描述,每一层级有完全不同的时间线,只需保证有共同的参考点(即开始点)即可。

在检索过程中,联合的层有时要准确地标识出用户感兴趣的片段。例如,当要查找在特定地点某人在另外一个人在场时所做的发言,用户则可以查找“在场人”的层中参与者的姓名,查找“相关主题”层中引用的原文,查找“地点”层中具体的位置。联合输出的结果将准确指向需要的片段。

同样的方法可以应用于空间层结构。此时图像被分为不同的部分,然后单独描述,这些部分可以是对象或者只是媒体对象的某个区域。

编目和检索上的花费在很大程度上有赖于具体组织中对内容文档采取的策略。如果在文档组织上付出的努力能够让用户更快地找到需要的内容条目或者片段(或者查找全部),那么就可以提高文档的重用性。

4.2.3逻辑内容结构和内容层级

内容对象通常和其他对象以及其他层级的部分有联系,如节目集和节目系列。所以除了表示具体内容对象的元数据以外,这种结构和层级也要反映在内容管理系统中。可以定义以下的层级结构:

·镜头(如传输中的帧序列)。

·节目条目(组成大单元的单个实体,如新闻故事、采访、演出等)。

·节目(由逻辑相关的节目条目组成的节目块,构成相同传输或节目时间表实体)。

·节目集(相同生产的节目组,如电视剧)。

镜头由片段描述,节目条目由相关对象的元数据充分描述,然而节目和节目集需要单独考虑。描述节目的一种方法是利用相关条目的链接和相互关系。但是这样还不够充分,因为有关内容收集的元数据并没有在层级中表示出单个条目的特征,因此在很多情况下节目要以它们自己的方式表示成对象。

层级中不同对象的关系可以用层级树和关系图来表示。关系图用来表示更松散的关系,如关于某个事件或者主题的新闻故事组。从图中可以看到,根据不同的内容结构和组织,对象层级可以有多于两到三层。

开发这些层级关系可以定位检索到层级的具体某一级。例如,如果用户要检索整个节目,但是起始的检索结果是关于节目条目的,那么可以利用层级关系来找到所需结果的对象或者片段。

4.2.4对象引用

对象引用在内容管理系统中有重要地位,因为它们明确标识了内容对象。它们是元数据的一部分,但是将元数据与素材联系起来。除了将内容对象作为一个实体进行标识以外,它们也能够引用到不同的内容组件(如素材对象),将内容对象的不同表示链接起来。另外,它们还可以用于链接相关的内容对象。为了实现内容交换,这些引用要基于特定的标识。它们至少应该在组织中能被单独标识,在组织间也应该能够单独标识。此时就需要全局的、唯一或者注册的标识符。

区别系统内部标识符(如数据库密码)和内容对象的标识符是很重要的。前者只能标识具体系统中的对象,这在内容管理情况下是不够的,因为同一个内容对象在不同系统中会有不同的表示,每个系统注重于不同方面(如财务、知识产权、节目信息等)。由于对象引用表示对象不仅仅是一个具体的实例化,因此它们有更加广泛的应用。

除了特别标识内容对象之外,标识符可以包含关于内容对象来源的附加信息,其所有权、起始信息、注册团体等将被编码在标识符中,并有各种方案可供选择,以下列出一些:

·对象特性标识符,是本地组织内部的特性唯一标识引用。对象特性标识符的概念也可以用于简化遗留系统到内容管理系统的集成。这些标识符不能在定义范围以外通信和使用。

·唯一资料标识符(Unique Material Identifier, UMID),是为了标识素材条目而提出的。UMID由SMPTE定义标准化,其格式允许纯粹基于本地信息自动生成全局唯一标识符。即在该领域记录时就生成UMID。标识的粒度(同一UMID标识了多少视频帧和音频抽样)一方面有赖于预期使用,另一方面有赖于媒体存储元数据的能力。UMID也标识素材条目和节目条目以及相关素材之间的关系。

·唯一节目标识符(Unique Program Identifier, UPID),是为了传统的节目条目和相关版权的声明而提出的。UPID有法律意义,因此最好选择正式的、注册的标识符。例如,在国际标准视听数字注册机构注册的国际标准视听数字(International Standard Audiovisual Number, ISAN),就长时间拥有唯一标识符。在该过程中附加信息集合(如有关注册组织的)也被注册机构记录下来。

其他的参考程序是处理具体方面的问题的,特别是有关时间的,这对注册时间、创作、生产和传输事件是很重要的。例如,和时间相关的参考有:

·时间参考,是一般的结构化时间戳,它用来表示内容对象和真实世界或者媒体流的协调时间之间的关系。

·真实世界时间表述,是需要同步元数据和基于实时事件的素材条目所必需的。例如,当一些素材版本被单独获取的时候,它们能够通过和初始信息相关的获取时间日志而进行同步。因此,特别版本的索引可以利用真实世界时间表示,自动传播到其他所有版本。适合表征真实世界时间的格式,有关于参考时间或者地理时间的时间单元计数的格式或者是日期时间格式。前者通常由计算机操作系统实现,因为其支持时间跨度的简单计算;后者是人们可以阅读的时间和日期格式。

·媒体流时间,是以开始时间(第一帧)为参考点的具体内容对象为参考的相关时间。在得出的时间线中,事件可以以图示形式给出,例如关于时间的内容逻辑描述、时间片段或者组成元数据。如果UMID没有联系到帧,那么媒体流时间在条目中标识剪辑(如为了片段文档)的作用是很重要的。媒体流时间可以被表示为标准SMPTE时码或者帧单元或者样本单元的位移和持续时间。由于时间计算的基础和设备的内部时钟有关,所以,以上两种都不是真正有效时间的表示。这里还没有考虑设备的偏差。如果素材版本没有在有效时间控制下生成,那么描绘同一节目的不同素材版本的时间线是复杂的问题。例如,如果一个素材版本在播出中被记录,它的延续时间有可能和来源节目的时间不同,因为会有商业插入时间和淡入淡出时间等等。

有很多其他的对象引用内容对象的内部标识符。在内容管理系统中很重要的还有媒体定位器,它用来标识给定的条目(素材或者元数据)的位置。在基于IT的系统中,它们可以根据W3C的定义表示为统一资源定位符(Uniform Resource Locators, URL)。当引用到传统媒体时,物理地址必须根据统一语义赋予。在诸如内容管理系统这样的复杂系统中,推荐执行适宜的定位服务,这些服务应能跟踪内容对象从一个地址到另一个地址的移动。

4.3获取和交换元数据

元数据的作用是使得内容可访问、易于查找和可以交换。尽管在某些情况下,元数据包含的很多信息可以独立存在,但总的来说,它是用来支持交互功能和实际媒体或者素材的处理过程的。因此,元数据的综合查找、检索和交换对内容管理系统中的交互作用很重要。

4.3.1元数据的检索和查询

内容管理系统要提供特别的查找功能,以便能够获取与内容管理系统进行互操作的不同数据库和信息系统的信息。大多数用户不能熟练使用数据库也不熟悉数据模型或者内容在数据库中的表达。另一方面,对于专业用户,如存储人员和媒介管理者,他们使用原始的数据库查询能最快得到结果。因此,系统应提供不同的查询元数据的方法。以下介绍几种查询方式:

·全文检索,支持以自然语言检索系统。查找通常经过索引后的文件(有时候是结构化文件)或者使用DBMS的全文检索功能进行。

·检索标签,构成了根据内容进行检索的结构,如根据名称、地点、日期等。这些概念在不同的数据库中标出了相应的属性。如果元数据存储在结构化文档中,标识过的元素也在查找范围内。

·检索片段,只在片段描述中进行查找。如果使用了分层的文档模型,也可以限制在表示具体层的概念中查找(如出现的人物和地点)。

·本地检索,是直接应用于本地数据库的查找,考虑了数据模型、检索语言、数据库的具体限制和功能。

从很多数据库和信息系统中检索数据的操作是普遍的,所以需要支持联合查找和确定结果。如果内容对象归档在多重系统中,那么结果的确定通过ID匹配来进行。结果显示给用户的方式有赖于用户的角色和应用的角色。数据库和全文检索引擎可以用其本地接口进行检索。利用XML消息传递来转换信息是另一种取得该类信息的可行办法。

同类推荐
  • 主持人场景应对技巧

    主持人场景应对技巧

    即兴发挥、临场应变是主持人的基本素质要求。在简要介绍了几种临场应变的综合技巧之后,全书从开场导入、话题进行、即兴采访、受众交流、嘉宾把握、困境解围等方面列出了节目主持中可能出现的50种场景,并通过大量实例来说明应对技巧和处理原则。
  • 北大微讲堂导读2

    北大微讲堂导读2

    北大微讲堂是北京大学为学生开设的科普讲座,邀请各学科教授、名家、院士等,讲解内容权威却又通俗易懂。
  • 半世繁华半世劫:宜红旧事

    半世繁华半世劫:宜红旧事

    宜红,中国红茶三大品牌之一,英国女王维多利亚的至爱,占据晚清民初红茶出口的半壁江山。东方茶港汉口,一场围绕宜红的商战正在上演。这是鸦片战争以来的一场特殊战事,洋行连横,华商合纵。国际茶市刀光剑影,波诡云谲。家国情仇,华茶命运,全在一曲宜红挽歌深处……
  • 电视综艺节目编导

    电视综艺节目编导

    本书介绍了电视综艺节目这种观众喜闻乐见,具有较强的视听综合艺术性和广泛群众性的新兴综艺形式。本书从综艺节目的属性和特征到综艺节目文本创作再到综艺节目导演艺术,全面涵盖了电视综艺节目编导的方方面面的知识内容。对于希望从事电视综艺节目编导工作的读者是一本不错的入门教材。
  • 社会理论的核心问题:社会分析中的行动、结构与矛盾

    社会理论的核心问题:社会分析中的行动、结构与矛盾

    《社会理论的核心问题》是当代著名思想家安东尼·吉登斯最重要的一部作品。吉登斯庞大的思想体系主要包括对马克思、涂尔干、韦伯等经典思想家著作的反思,社会学研究方法的重建,现代性理论体系,第三条道路理论等。本书在吉登斯的思想体系中扮演着承前启后的角色。一方面,它秉承了反思三大思想家的理论成果,另一方面又加入了对结构主义思潮的反思,从而对社会学理论传统进行了系统的检视。在此基础上,吉登斯系统提出了其对于社会学研究方法的理解。本书以能动与结构作为两个支点,沿着意识、权力、再生产、制度化和社会变迁等线索,系统建立起吉登斯的“结构化理论”。本书在社会学理论领域具有崇高的地位。它不仅是了解吉登斯社会学理论思想的重要著作,而且是理解20世纪中后期社会学理论发展的基本著作。它将20世纪中期有关能动与结构、个人与社会等社会学基本问题的讨论进一步推向深入。它超越结构主义、功能主义和解释社会学在这些问题上形成的尖锐对立,从实践的角度将它们融合在一起,将社会学理论推进到一个新的阶段。
热门推荐
  • 奉婚无限女人休想逃

    奉婚无限女人休想逃

    "你不要太过分了,苏晓晨!"冷声背后却是宠溺。面对这些也毫不知情的反抗:"切,怪我咯。"一顿白眼与无屑。
  • 追妻无门:女boss不好惹

    追妻无门:女boss不好惹

    青涩蜕变,如今她是能独当一面的女boss,爱了冷泽聿七年,也同样花了七年时间去忘记他。以为是陌路,他突然向他表白,扬言要娶她,她只当他是脑子抽风,他的殷勤她也全都无视。他帮她查她父母的死因,赶走身边情敌,解释当初拒绝她的告别,和故意对她冷漠都是无奈之举。突然爆出她父母的死居然和冷家有丝毫联系,还莫名跳出个公爵未婚夫,扬言要与她履行婚约。峰回路转,破镜还能重圆吗? PS:我又开新文了,每逢假期必书荒,新文《有你的世界遇到爱》,喜欢我的文的朋友可以来看看,这是重生类现言,对这个题材感兴趣的一定要收藏起来。
  • 山河与你皆心上

    山河与你皆心上

    施荨现在是施家唯一一位能够“传宗接代”的后人了,因此,她不得不担负起光耀门楣的伟大任务——当一名将军。然而,到了边关,在大展了宏图,实现了施家的伟大复兴之后,军师却夜晚潜进她的帐篷,低笑道:“将军,您的被子比我暖!!”
  • 恶魔总裁的萝莉娇妻

    恶魔总裁的萝莉娇妻

    没有任何筹码的爱情,只是单纯的爱恋?孙宝恩是否能够得偿所愿?司徒浩明对赵美研说过:“曾经以为失去了你我就会死掉!但是现在我却发现,原来并不是这样,当黑夜向我袭来,当我习惯了哭泣,和想念之后,我变得欲哭无泪,因为得不到,我便欺骗自己,我不喜欢你!我擦干了眼泪,把孤独,藏在深海之中!”当一个你爱的同时又是爱你的人,紧紧牵着你的手时,千万不要轻易的放开,否则你会发现,你曾经轻易放弃的,是再也追不回的美好!豁然回首,你埋葬了最初的美好!
  • 复活

    复活

    每年秋天才是齐阳油田的最好季节,这一点,只有在这个油田呆过的人才深有体会。虽然这里四季分明,可这里的春天总是很短暂,特征也不明显,似乎刚从冬天里走出来,没有过渡就一下子跌进了夏季。夏天热,还时常下暴雨,弄不好就被浇成落汤鸡;冬天,这里风雪很大,特别是风,越是白天越大,刮起来就不想停下,携沙带土,袭击人的头部,这个时候的油田,男女性别不明显,因为他们都要把头包起来,看上去,男女都一样了。只有秋天最好,大荒原这时也变得美丽温柔,一改平时的单调面孔,芦花漫天,亦真亦幻,紫蓿菜姹紫嫣红,使数百里油田有了水墨丹青的韵味。
  • 道士是妖王

    道士是妖王

    每隔500年就会有一次重生,而重生的我会忘却我所知道的一切,我将以最普通的形式过完我的一生,最后重回开始的地方。
  • 欢喜胭脂铺

    欢喜胭脂铺

    天下同萌系列最出人意料的CP,古代调香术以及修容术的顶级揭秘,宫廷八卦、江湖秘闻、战场制敌可谓花样百出。
  • 漠初月

    漠初月

    青葱岁月,契约游戏,善良自信的林雨萱毫无察觉的一步步卷入了蓝漠为她定制的充满荆棘的婚姻中。一向从心所欲的林雨萱对纷繁的世界充满了好奇,才华横溢的她大学还没有毕业,就迫不及待的踏入纷繁的社会。但心无城府,在社会的深潭中举步维艰,伤害重重。蓝漠用深深的爱保护她,为她疗伤,并用自身的能量支持她的事业,让她充分展现才华,得到自我实现,却也一步一步陷入了蓝漠为她编织的网。然而他们来自不同的世界,蓝漠对雨萱的爱和执着,激怒了家长,伤害接踵而来。外表的柔弱掩盖不了内心的坚毅,雨萱毅然决然出走婚姻,也希望走出蓝漠爱的禁锢。自由带给雨萱的还有孤独,孤独中,不觉中收获了逸群张扬的姜云洲执着而炙热的感情,然而这份情感带给姜云洲的是近乎毁灭性的伤害。这让雨萱无所适从,不知所措,满心愧疚。林雨萱对身边人的在意、维护和退让,让蓝漠不能接受。男人强烈的占有欲,有冷漠和狠辣陪伴,绝对的权力,使人畏惧而愤怒,却也将林雨萱越推越远,直至世界的另一面……
  • 沙哑情信

    沙哑情信

    墨尔本的雨季刚刚过去,下城区日常的空气也变得有些骚动起来。路边停靠着一排排的出租车,印度司机们靠在车门上用别人听不懂的英文小声聊着天,顺道打量着路过的漂亮姑娘。萨拉对此深恶痛绝,又毫无办法——她的呢子大衣太短了,完全没法把线条优美的小腿遮住。她必须这样每天穿着短短的制服裙,穿过肮脏的街道去搭公车,然后在喧闹的酒吧街里消磨掉整个夏天。
  • 学霸种子花

    学霸种子花

    青葱岁月,懵懂的少年,美好的爱情,成长的烦恼,学霸的爱情故事。有经历、有痛苦、有理想、有颓废,有崛起!记忆的长廊里,那个最重要的她/他......