当前位置: 网站首页 > 兰台文苑 > 正文



大数据时代档案馆服务创新研究

点击数:

(作者:李小刚 谢诗艺 程舒  《北京档案》2013年第11期 )

  摘要:大数据为社会各界带来了深远影响,档案馆也不例外。来自多种渠道的大数据为档案馆服务带来了数据安全、数据挖掘处理以及数据表示等挑战;同时大数据也为档案馆的服务带来了机遇。档案馆应抓住这一机遇推动服务创新。

  关键词:大数据档案馆信息服务

 

  一、大数据与档案馆

  ()大数据背景

  20115月,知名咨询公司麦肯锡发布了报告《Big data: The next frontier for innovation, competition, and productivity》,用长达一百多页的篇幅,图文并茂地论述了大数据对全球各个领域带来的影响。《Nature》、《Science》、《纽约时报》、《华尔街日报》等在世界范围内具有重大影响的期刊及媒体对大数据进行了专栏介绍,大数据已成为继Web2.0、云计算之后最受关注的词汇。20123月,美国政府宣布投资2亿美元启动“大数据研究和发展计划(Big Data Research and Development Initiative)”,这不仅将大数据应用于实践当中,还上升到了国家层面。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为,大数据是“未来的新石油”,并将对大数据的研究上升为国家意志,这对未来的科技与经济发展必将带来深远影响[1]

  “大数据”这一概念比较抽象,至今仍未有一个公认的定义,麦肯锡将其定义为“大小超出了典型数据库工具收集、存储、管理和分析能力的数据集。”人们另辟蹊径从它的特征入手试图对其进行深入地理解。目前就它的特征已经基本达成了共识,概括为“3V”。“3V”指的是VolumeVarietyVelocityVolume是指数据量大而且增长迅速;Variety指数据来源广泛、格式繁多,且其中以非结构性数据居多;Velocity指为了应对不断变化的环境对大数据快速地处理。除去“3V”,通常还有“4V”的说法,然而关于第“4V”的含义众说纷纭,有ValueVeracityVitality等,其中以Value较为流行,综合起来的“4V”含义基本指向价值大但密度低这一方向。这些争议不仅可以加深对大数据的辅助理解,还可以促进对大数据进一步的研究。

  ()档案馆大数据的构成

  1.档案馆数据库资源

  在全球数据量突飞猛涨的背景下,档案馆作为大多数信息资源的最终归宿,其存储量也是与日俱增。据统计,2011年,各级国家档案馆馆藏已达3.3亿卷,到2020年,各级国家档案馆馆藏将达到6亿多卷[2]。在档案馆数字化的浪潮中,大量的纸质档案已经被数字化为电子资源,以文本、图片、音频、视频等多种格式存储于档案馆中,这些数据中所蕴含的价值只有被尽快挖掘出来并加以应用才能充分实现它们的价值。因此,这也正好符合大数据的三个基本特征:VolumeVarietyVelocity

  2.档案馆业务流程中产生的数据

  随着经济社会发展需要以及人们档案意识的提高,档案馆查档的人次也在不断增长,涉及到的领域也越来越广泛。用户的查询、浏览数据也是档案馆大数据来源的重要方面,充分挖掘利用这些数据中潜在的价值,可以提高档案馆的服务能力和服务水平。

  3.来源于互联网的数据

  大数据研究最初主要出现在营销等商业领域,研究者从大量非结构性数据中挖掘出有价值的信息用以取得经济效益。据DCCI互联网数据中心在2012726日举办的“Adworld2012互动营销世界”上给出的数据显示:2010年,全球数据量已达1.2ZB1ZB=1024EB1EB相当于10亿GB),到2020年将暴增30倍达35ZB2011年,全球被创建和复制数据总量为1.8ZB2013年,我们生成这样规模的信息量却只需10分钟。而在如此庞大的数据中,只有10%的数据是存储在数据库中的结构化数据,其余的则是由邮件、视频、微博、帖子、页面点击等产生的大量的半结构化数据和非结构化数据[3]。这些来源于社会网络中的数据记录了大量用户信息,档案馆可与相关的部门合作,通过对这些数据的获取和挖掘,可以分析社会的热点、用户的偏好,从而有针对性地提供一些推送服务。

  二、大数据给档案馆服务带来问题与挑战

  ()档案馆大数据安全问题

  安全问题是大数据给档案馆带来的首要挑战。大数据虽然以非结构性数据居多,但是由于其数据量大、信息量多、涉及面广,一旦管理出现问题造成数据泄露,便会引发严重后果。其次,档案馆的大数据中包含着公民隐私以及一些涉密信息,这些数据的使用权限、开放程度如果未能明确化,同样将会给档案馆带来大数据的安全问题。第三,由于这些大数据承载的内容丰富而且价值巨大,难免成为网络攻击的目标。在网络空间中,大数据成为更容易被“发现”的大目标,承载着越来越多的关注度[4]。同时由于数据的大量聚集,一旦受到攻击造成的损失更加严重。

  ()档案馆大数据挖掘处理问题

  在传统的档案馆服务工作当中,档案馆所需要做的只是从馆藏档案中找出用户需要的信息,提供最大限度的利用。但在大数据时代,档案馆的数据处理方式、范围、目的都发生了巨大变化,对大量数据的挖掘与处理将成为档案馆的一项重要工作[5]。传统的数据分析方法如聚类分析、因子分析、社会化网络分析等只针对于结构性数据进行处理,对于大量的非结构性数据却难以挖掘其中的有用信息。因此,综合数学、统计学、计算机智能等多个学科的知识,探索出有效的方法对海量的非结构性数据进行挖掘处理,是大数据时代对档案馆提出的又一项挑战。

  ()档案馆大数据表示问题

  当前物联网、传感网及互联网中的数据正在向着异质、异构、半结构化、非结构化及不可信等方向发展,半结构化和非结构化数据占据了非常大的比例[6]。现有的数据表示方法已经不能或者不能完整、准确的表示这些数据的含义。因此探索出有效的数据表示方式迫在眉睫。另外,作为用户最关心的数据分析结果,如果不能直观明了地表示出来,用户可能难以充分理解其中的含义甚至可能会受到误导。在对数据处理之后如何将结果更精准、直观地表示出来,也是需要关注的一个方面。

  三、大数据给档案馆服务带来机遇

  ()大数据有助于档案馆服务内容的丰富

  大数据为档案馆提供了丰富的数据资源,使得档案馆的服务能力与范围打破了馆藏量限制的瓶颈。上文已经提到,档案馆的大数据除了储藏于档案馆中的信息资源之外,还具有广泛的外延,包括用户在查询利用档案信息资源中产生的数据以及产生于整个互联网当中的数据。这些海量信息为档案馆的服务提供了内在的支持,使其提供的服务内容更加丰富多样。

  ()大数据有助于档案馆服务方式的转变

  档案馆传统的服务都倾向于被动服务,而且服务方式比较简单。最常见的模式就是用户提出查档要求,档案馆查询并提供相关的档案。然而在大数据时代,这已经远远不能满足社会发展的需要,档案馆在保持原有的服务方式之外,还要不断拓展服务。档案馆应立足于大数据,在提高原来服务水平和服务质量的同时,积极主动地向社会发布一些知识成果,提供参考咨询等服务。这就要求档案馆的服务模式和流程发生相应的转变,档案馆基于大数据的服务流程应为:用户提出要求—数据收集—数据分析—提供方案。

  ()大数据为档案馆服务目的的转变提供了新契机

  档案馆的服务产生于其业务基础之上,即服务作为一项业务进行。在这种情况下,服务的目的仅限于本职工作的完成。大数据时代,对档案馆的服务提出了更高的要求,档案馆可以以此为契机转变服务目的,使其落脚于以用户为中心、为用户提供更加优质的服务之上。同时,大数据也为档案馆转变服务目的提供了现实基础,其丰富的数据资源使档案馆为用户提供精准的解答、优质的服务成为可能。

  四、大数据机遇下档案馆服务创新思考

  ()档案馆可以更加精准地定位用户的需求

  档案馆的服务面向整个社会,用户的需求千差万别,而且存在着“碎片化”现象,这对档案馆提出了新的要求。而档案馆要提高自身的服务,仅仅对原有的查档工作抱残守缺是远远不够的。在积极拓展服务、主动向社会提供额外服务的过程中,对用户需求的定位必不可少。只有准确掌握了用户的需求,知道他们需要什么,才能具有针对性的提供相应的服务,满足他们的需要。在这方面,档案馆可以借鉴市场营销中的做法,通过获取丰富的数据,如用户的查询历史记录、社交数据等,对这些数据进一步挖掘和分析,准确地描绘出用户的需求行为。

  ()档案馆可以通过数据分析提供更优质的服务

  面对大数据,档案馆传统的工作环节及其侧重点也需要发生相应的改变。在大数据时代,收集管理等环节必不可少,但还要加入数据分析环节。也就是说档案馆提供给用户的信息并不限于原始的、粗糙的记录,还包括经过深入处理分析之后精细化、准确化的二次信息。随着大数据时代相关业界对大数据的重视及应用,大数据的特性与优势将在日常的生活中凸显出来。通过对这些大量非结构性数据的分析,使得档案馆的服务定量化、精确化,民众的需求也将随着这些个性化、人性化、高满意度的服务出现而对档案馆的服务呈现出明确和迫切的需求。为了适应社会的发展、满足用户的需求,复杂数据的处理也将成为大数据时代档案馆工作的一个重要方面[7]

  ()档案馆可以主动推送服务

  随着社会的发展,档案馆的服务意识和服务理念也发生了改变,它在经济社会发展中扮演的角色也在逐渐地转变。档案馆慢慢地由幕后走向台前,由被索取信息转向主动推送信息,也就是由被动地提供服务转向主动地推送服务。首先,大数据为档案馆主动推送服务提供了内在的动力。在大数据的背景下,档案馆掌握着数量巨大、内容全面的数据,以档案馆为核心形成一个信息高压中心,源源不断地向四周推送信息服务。而以往档案馆仅仅基于数量和内容有限的馆藏量,在快速发展的社会中产生的影响有限,只能被动地接受社会的汲取。其次,与被动地提供服务不同的是,主动推送服务面临着“向谁”“推送什么样的服务”这一难题。如果推送的信息与服务不符合公众的需要,这些信息不但没有实现自身价值,而且还花费了相应的成本。数据挖掘技术对用户的检索行为进行分析,抽取用户的数据信息,形成用户数据库,再根据用户的兴趣和访问规律利用推送技术实现信息的主动推送。信息推送服务变用户定制为主动有目的地推荐,提高了信息服务的主动性,可扩大信息的利用率[8]

  ()档案馆可以提供个性化的服务

  个性化服务的内涵是指以用户的知识结构以及信息需求、心理倾向和行为方式等为依据,向用户提供符合其个性的服务环境,向用户提供信息预订服务,并建立用户个人的信息系统[9]。大数据时代信息受众分类更加明确,很多数据信息服务是根据个人需求量身定做的,目的性更强、定位更准确、效果也更好[10]。大数据给档案馆传统的服务方式带来了新机遇,通过对大数据的收集、挖掘和分析,可以把握社会热点、不同人群的关注点以及学术研究的重点等,借助档案网站、移动终端等多种手段针对不同人群的不同需求推送相应的信息服务。只有立足于其掌握的大数据,面向整个社会,提供经济社会以及科学技术发展所需要的信息服务,档案馆才能拓展自己的服务空间,实现自己的社会价值。

  ()档案馆可以提高服务的智能化程度

  大数据背景下的档案馆服务,对技术将提出更高的要求,服务的智能化程度也将达到一个新的水准[11]。首先,大数据的收集、挖掘、分析本身就是一项智能型的活动。面对海量的、复杂的非结构性数据,单靠人工力量以及单一学科领域的知识是无法对其进行处理的。与之相反,更需要结合数学、统计学、计算机等多学科的知识,采用物联网、传感网、云计算、可信计算和信息物理融合系统等新兴信息技术,对这些高价值而低密度数据进行分析。其次,在大数据的背景下,档案馆需要吸纳高素质、复合型的人才,还要对已有的工作人员进行培训,建设知识型、智慧型档案馆,提高档案馆的服务能力。

  *本文系安徽大学研究生学术创新研究项目“档案馆转型及服务评估方式创新研究”(项目编号:01001770-10117700406)的研究成果之一。

  注释:

  [1]李国杰,程学旗.大数据研究未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012.27(6):647-657.

  [2]杨冬权.关于随馆藏数量增加而相应增加各级国家档案馆人员编制的提案[N].中国档案报,2013-3-7.(1).

      [3]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):37-40.

      [4]冯伟.大数据时代面临的信息安全机遇和挑战[J].中国科技投资,2012(34):49-53.

      [5]杨海燕.大数据时代的图书馆服务浅析[J].图书与情报,2012(4):120-122.

  [6]秦晓珠,李晨晖,麦范金.大数据知识服务的内涵典型特征及概念模型[J].情报资料工作,2013(2):18-22.

      [7]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):37-40.

 

  [8]马仁杰,谢诗艺,李小刚.美国NARA网站的小众化服务特色解析及其启示[J].档案,2012(5):40-43.

      [9]杜成军.大数据时代图书信息服务的创新探讨[J]电子测试,2013(10):157-158.

      [10]刘叶婷,王春晓.“大数据”,新作为大数据时代背景下政府作为模式转变的分析[J].领导科学,2012(3):4-6.

  [11]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.

       作者单位:安徽大学合肥市图书馆