米尔曼·帕里口头文学特藏的数字化:成就、挑战及愿景
当前位置: 首页 >  保护论坛 > 
米尔曼·帕里口头文学特藏的数字化:成就、挑战及愿景
来源:民族文学研究     
作者:戴维·埃尔默 译者:李斯颖 巴莫曲布嫫     
创建时间:2018-05-03 17:31:15

内容提要:文章以哈佛大学“米尔曼·帕里口头文学特藏”的历史沿革、主要成就及晚近发展为主线,从以下三个方面讨论了口头史诗传统的数字化建档实践及其在多学科研究领域的潜在应用价值:其一,技术创新与田野作业的问题导向;其二,田野资料的组织管理、数字化进程及在线数据库的创建;其三,方法论的挑战与建设数字语料库的可能途径。

  关键词:米尔曼·帕里口头文学特藏 田野作业 数字化 数据库 语料库

  今天,能以哈佛大学米尔曼·帕里口头文学特藏(以下简称“帕里特藏”)[1]副监理的身分发言荣幸之至。[2] 在过去的十年间,我们一直致力于将米尔曼·帕里(Milman Parry)和阿尔伯特·洛德(Albert Lord)编纂的南斯拉夫史诗庞大档案转化为可公开获取的数字资源。因此,我非常感谢能有这样的机会向大家介绍这项工作。我同样也很感谢能藉此机缘听取诸位尊敬的同行讲述自己的工作,由此我意识到在帕里特藏工作的我们也有很多需要向大家学习的地方。与在座许多人现有的成就和未来的规划相比,我想我们在数字化领域的工作仍有待加强。尽管如此,帕里特藏在许多方面依然堪称是诸多口头传统档案的典型。我希望我们近年来取得的经验对各位的工作有所助益,也希望引起大家的关注。在我发言的总结部分,我还想与大家分享一些想法,以便在帕里特藏与类似档案库的关联中探讨可能途径,让资料搜集和呈现以新的形式开启全新的研究问题。

  一、技术创新与田野作业的问题导向

  在论及将来甚或当下的问题之前,我想先回望一下过去。我认为,帕里特藏的历史提供了一个极好的示例,说明技术创新总是与研究的问题导向密切相关。

  1933年,帕里第一次前往南斯拉夫王国去研究口头史诗传统。甚至在出发之前,帕里就已经意识到,此前几乎所有的调查者皆习惯采用的方法—— 即通过录记(dictation)来搜集资料——无法解答他希望前去调查的基本问题。帕里最主要的兴趣点不是史诗的内容,而在于史诗演述中的创作及其方式。鉴于一首歌的录记与将之作为歌诗来加以演述是两个截然不同的过程,因此对帕里来说,通过录记来搜集资料的作用十分有限。诚然,他确实在田野工作中以录记方式搜集了大量资料,但是其时间、精力及经费投入总是以资料的现场采录为重心。

  1933年夏天,帕里首次开展田野作业,其间他尝试着使用一种叫作“语图”(Parlograph) 的录音装置,即将资料记录在蜡筒上。这种设备有两个主要的限制。首先,其声学麦克风不足以把歌手的声音与古斯莱琴(gusle)的音响隔离开来,而古斯莱琴是歌手们典型的伴奏乐器。帕里曾在报告中述及其录音中充斥着大量不知所云的语词,因而这些录音变得毫无用处。我很遗憾地告诉大家,帕里的这些蜡筒录音都没能保存下来。当时,蜡筒通常都被刮干净之后再次用于记录,如此便可循环使用。我想帕里用来记录的蜡筒也同样如此。其次,这些蜡筒最大的记录容量约为四分钟,这意味着只能用其捕捉一场典型史诗演述的一个小片段。而这些史诗演述可能长达数小时,其中的分段大约为二十至四十分钟。

  当帕里计划在1934年和1935年进行为期更长的考察时,首当其冲考虑的是寻找一种更好的办法去记录史诗歌。通过询问打探他找到了一位在康涅狄格州沃特伯里的音响专业公司工作的工程师,名叫林肯·汤普森(Lincoln Thompson)。汤普森为帕里设计了一种特殊的录音装置。这个设备包括四个主要构件:一个电子麦克风,能够通过定位从其他声响中隔离出歌手的声音;两个刻录器,能够直接往空白铝盘上录音;还有一个增强仪,允许操作者将麦克风的信号从一个录音单元切换到另一个录音单元。新型麦克风使帕里能够轻松地获得易于理解的录音,但汤普森设计中真正的创新是使用了两套平行的录音设备。每一张铝盘的单面音频容量为三分半钟。但是,通过切换录音头,帕里能够不间断地录上好几个小时。在田野中,唯一的限制是机器电池可提供的电量。

  基于自身对力图开展的这项研究及其所需的各种资料的理解,帕里经过考虑对这款设备的委托制作提出了一些具体的要求。然而,至少从一个方面看,这项技术本身造就了一大堆资料,否则帕里便无法将它们搜集到手。但他发现,这些资料对于其工作而言也具有启发意义。每次使用机器时,都必须对其进行校准,因此需要先在一个测试盘上录制。帕里很快便养成了这样的习惯,那就是要求歌手先试唱将要演述的整首歌的开端。当测试完成并进行了校准后,歌手便再次从头开始。通过这种方法,帕里获得了大量被他称之为probe-proba的段落——probe-proba在塞尔维亚—克罗地亚语中意为“测试”——每一段测试都可以与同一位歌手在几分钟后演述的同一段材料的另一版本相比较。换言之,帕里在这种资料中观察到, 即使在歌的开端部分,特色化的措词甚至比其他地方更为固定,但从演述到演述之间,仍存在着大量的变体——这并没有给他带来太大的意外。然而,这些probe(测试)构成了一种实验,允许帕里以一种可控的精确方式来检验程式的多形性(formulaic multiformity)。我认为,这项实验是强加于帕里的,源自其所采用的技术。强调这一点是重要的:至少在这个方面,是技术在引导着帕里的研究,而非其他方式。

  就技术创新与帕里田野工作之间的关系而言,我想再作最后的一点评论。熟悉帕里特藏的在座各位,可能会想起帕里为他发现的最具天赋的歌手所录制的短片,那就是阿夫多·梅杰多维奇(Avdo Međedović)。短片的音轨被录制在帕里的一份铝盘上。现在,视频录制是田野工作的基础环节,也是演述建档的首选方式;但这个短片文件在帕里档案中实属独一无二。这显然是帕里唯一一次使用摄影机的结果。这部影片总是让我觉得有点“怪异”。诚然,考虑到制作影片的成本高,而且在现场拍摄的技术难度很大,合理的解释是:只有在最特殊的情况下,帕里才会使用这种技术。但是,据我所知,在帕里提交给哈佛大学的计划文案中并没有通过胶片来记录史诗演述的明确意图。他的思考牢牢地锁定在音频录制方面。然而,对我而言,帕里的影片后来开始变得更合乎情理了。几年前我才发现,汤普森,也就是为帕里设计录音设备的那位工程师,曾深度参与过制作同声电影的技术开发。我认为,存在一种明显的可能性:汤普森建议帕里使用胶片来记录歌手,并且他主动将这种技术上的可能性融入到自己的设计之中。在这种情形下,帕里田野工作中最具创新性的一个方面——视听记录的创建——不是由他自己的研究项目所驱动的,而是他所依靠的技术和技术专家意见的产物。

  帕里格外成功地将汤普森的录音设备应用于田野现场。他最终录制了3584张双面铝盘,大概有418小时,涉及歌诗、复诵及交谈;其中的273小时呈现为史诗演述。这418个小时由758个单独条目组成,包括独立成篇的歌诗和歌手访谈。这是一大笔资料。但实际上,与帕里通过录记或歌手亲自手写而搜集到的资料量相比,那就是小巫见大巫了。总的说来,帕里搜集到的资料包括12552个单独条目。需要说明的是,在录音资料中,一个条目——我指的是一首单独成篇的歌诗或者一次访谈——有多个档案对象。一个单独的条目通常包括多个录音盘面,在某些案例中甚至超过100个;此外还有能填满若干个笔记本的文本誊录。所有记录的誊写都是由帕里的助手尼古拉·武伊诺维奇(Nokola Vujnovi?)在20世纪30年代完成的。

  二、田野资料的组织管理、数字化进程及在线数据库的创建

  帕里在田野中非凡的产出为如何组织其档案带来了巨大的挑战。尽管帕里在他搜集的资料上做了细致的注解,但这些注释并没有以任何方式转换为该特藏的一个可用的索引。帕里本人始终没能创建这样一个索引:可能大家也知道,1935年,当他从田野现场返回后不久便不幸辞世。身为帕里的学生,阿尔伯特·洛德承担起该特藏的工作,并由他负责将资料转化为一种对研究而言有用的资源。1937年,洛德聘用了一位助手,名叫约翰·哈斯汀(John Hastings);他们利用当时最先进的技术即卡片式目录,来创建帕里特藏的一个综合索引,并于1938年完成。这个卡片式目录,按照歌手、歌诗以及记录的日期来索引全部资料。[3] 在长达近六十年的时间中,哈斯汀的卡片目录是查询特藏内容的首选方式。直到1995年,时任帕里特藏副监理的马修·凯(Matthew Kay)出版《米尔曼·帕里特藏索引》[4] 之后,这种局面才得以改观。事实上,卡片式目录对于研究者来说仍是至关重要的,因为凯的索引只涵盖了史诗以及对史诗歌手的访谈——而这些内容仅占特藏中所有条目总数的10%左右。

  尽管如此,凯迈出了帕里特藏及其组织架构实现现代化的第一步。为便于完成索引的编写,他使用一个名为ProCite的文献管理软件包来建立史诗资料电子数据库。[5] 这个数据库包括卡片目录中的信息,还有从帕里田野笔记中摘引出来的补充信息,后者成为现今帕里特藏在线数据库的基础。有关这个数据库,我稍后再作进一步的讨论。凯还负责帕里特藏首次以电子格式呈现所藏资料的相关工作。洛德的《故事的歌手》(The Singer of Tales)第二版附有一张CD-ROM光碟,里面收录了若干录音、誊写及照片,制作者便是凯。

  然而,凯也意识到,他所使用的CD-ROM技术手段,并不适合长期保存和交付使用。事实上,到了2005年,CD已经无法在当时生产的个人电脑上读取。但那时,帕里特藏已经开始实施一项规模更大的计划,目的在于实现资料的数字化改造、保存、存储和传送。2002年,作为学校图书馆数字化工程的一部分,帕里特藏得到了哈佛大学25万美元的资助。借助于这笔经费,我们启动了一个项目,旨在通过资料的数字化,一方面解决其保存问题,另一方面创建基于Web的数据库,以此作为发现材料的手段并同时提供数字化内容的平台。资料获取或访问曾经是并依然是优先考虑的事项,因为帕里资料的保存非常完好而且稳定;几乎可以肯定的是,其记录格式即便在当前的数字格式过时之后,仍然可以长期使用。

  尽管得到了哈佛大学的慷慨资助,但我们只能对其中的一小部分档案进行数字化处理,这一点我们很早就意识到了。因此,依据洛德的《故事的歌手》一书中引用或述及的歌诗和文本,我们对资料作出了选择。最终,将洛德引证的每一条目和大量的其他文本都进行了数字化,总共约有四百首歌诗及其他文本。这个集成大约纳入了六百三十个铝盘和二十五个卷轴磁带,以及将近一万页手稿或机打文档,呈现了洛德在20世纪50年代的田野工作。

  该项目获得成功的关键在于——我们能够利用哈佛大学的专用 IT 系统来存储和交付数字资料。我们所有的数字资料都以哈佛大学的数字存储库服务(Digital Repository Service)来加以保存;这是一种集中式的存储服务,为条目的存放和长期维护提供了保障。维护则包括在标准更改时创建备份并将数字文件转换为更新的格式。这有一个巨大的好处。因为文件格式的过时不可避免,这是数字档案面临的最大挑战之一。数字对象通过两个平台中的一个来进行传送:文本通过页面传递服务来提供,而音频则通过流媒体传递服务来提供。

  接下来,我想谈谈文件格式问题。就每一个数字化条目而言,我们都创建了一个“归档主文件”和一个“可传送的”文件。归档主文件可以使用未压缩文件格式来捕获:文本图像的TIFF文件和音频的WAV文件;压缩格式则用于可传送的结果:文本的 JPEG文件和流音频的实时音频。此外,由于为每个单独的页面或碟面建立了单个文件,因此必须创建定义这些文件之间关系的元数据文件。我认为,在这种关联中有一个重点:将一个实体档案转化成一个虚拟的电子档案,往往需要档案管理员重新思考一个最基本的档案问题,即究竟什么才是档案对象。档案管理者习惯于应对实体对象,帕里特藏可以并已经按某些方式依据实体对象进行了编目,但有意义的内容单元当然是歌诗。我们的案例正是通过不同介质的许多非连续性实物对象来加以呈现的。数字化——以电子编码1和0——将所有的这些对象降解到单一的介质中,但也须非常仔细地映射这些生成中的数字文件之间的关系。

  现在让我谈谈我们的在线数据库及其创建。该数据库使用的是哈佛大学的第四代专用系统,即“模板化数据库”(Templated Database)系统,或简称TED。TED是一种基于可扩展标记语言(XML)的托管服务,可为需要大量定制的目录提供灵活的平台。[6] 在设计这个数据库时,我们从凯为其ProCite数据库开发的基本数据模式做起。然后,我们对此模式进行了改动,以便在XML环境中使用,这便引入了一系列的修改。尽管TED平台已非常灵活,即便在现有的数据库中也允许对其架构进行修改。但我们在最初设计时就力图做到超前思考。我们在几个领域中有所创建,尽管目前尚未使用,但这种努力在将来或会被证明是有用的。例如,允许我们按照一个给定条目的“文类”“主题”或“语言”来纳入数据。一旦模式就位,我们就可迁移由凯开发的数据库中的内容。这当然须清理一些数据,并将老的数据字段映射到新的数据字段中。TED系统有一个基于Web的界面,用于创建新的数据库记录;我们用这个界面为洛德在1950年和1951年完成的史诗歌搜集创建记录。这些材料没有包括在凯的数据库或索引之中,却构成洛德《故事的歌手》的显著之处,因此被纳入我们的数字化项目。

  到目前为止,我所说的都是在2002年得到哈佛大学校方资助的项目。我很乐意简要地谈谈另一个我们最近刚刚完成的项目;虽然规模小一点,但结果却振奋人心。这个数字化项目涉及750张照片,记录了帕里在20世纪30年代和洛德在20世纪50年代的田野作业。我已经展示了若干照片。大家可以在哈佛大学的“视觉信息访问通道”(Visual Information Access,VIA)目录中找到这个完整的专藏;通过搜寻帕里特藏便能检索整个图片集成。

编辑:杜丽丽