指导单位:北京万方教育管理研究院 万方科技学院
  万方融智—论文发表服务中心 专业 诚信 快捷 稳妥 竭诚为广大读者服务,为学术创新和期刊出版业发展服务 稿件咨询电话:13693011947  
设为首页|收藏本站
首页    合作期刊    范文数据库    最新征稿启示    期刊常识与写作技巧    办理流程    汇款方式    关于我们
 
 
账 号:
密 码:

验证码:
热线电话:010-81545776
咨询电话:13693011947
点击这里给我发消息 点击这里给我发消息
点击这里给我发消息 点击这里给我发消息
投稿邮箱: wfjy2000@163.com
值班编辑:李老师 赵老师
www.wflunwen.com
 CSSCI 期刊
经济管理类   教育类
农林科技类   哲学社会科学类
医药卫生类   政治法学类
 全国中文核心期刊
经济管理类   教育类
农林科技类   哲学社会科学类
医药卫生类   政治法学类
 国家级期刊
国家级期刊    
 省级期刊
省级期刊    
 
 
 
        万方论文网 >> 范文数据库 >>

论文网:大数据时代的图书管理

发布人:万方论文网 浏览 1486 次【字号 】 发布时间:2020年10月10日 打印本页

    
   [内容提要] 2012年3月克林顿联合六个政府部门、承诺投资两亿多美元推动的全美《大数据研究和拓展计划》标志着全球大数据时代的正式到来。中国为了应对回应这一高科技趋势,从2013年1月开始了全新的《宽带中国计划》,本研究就是在上述背景下展开的。本研究首先定义了“大数据”的概念,接着指出了大数据技术对我国图书管理工作的影响。文章认为,SOA中立技术将有效解决图书文献的有效分类问题;hadoop数据流技术能快速解决图书信息资源的整理问题;FortiGate防火墙技术能合理解决图书管理的网络安全问题;data curation技术能合法解决保护个人的隐私、商业秘密和国家机密的问题。
    [关键词] 大数据时代;  图书;  管理 
[作者简介]胥大男(1957—),男,陕西宝鸡人,硕士,西安铁路职业技术学院图书馆研究员,主要研究方向:图书情报与新闻传播;张艳(1976-),女,山东临清人,南开大学马克思主义教育学院博士生,主要从事教育学、新闻学研究。
 
1980年3月,一部预测未来的图书《The Third Wave》由美国纽约双日戴尔出版集团(Doubleday Dell Publishing Group)旗下的班坦图书公司(Bantam Books)在美国和加拿大同时荣誉出版。就出版公司来说,他们做梦也没想到这本书的出版将给公司带来接近580万美元的图书销售利润和接近0.112亿美元的版权销售费;就阿尔文·托夫勒来说,他也没有想到在茶余饭后用消遣时间完成的小册子《第三次浪潮》居然会给他带来几百万美元的版费收入。那么,托夫勒的这本书究竟有多大的魅力一举征服了全世界50多个国家和地区的读者,进而在全世界图书市场上成为年度畅销的榜首呢?英国未来经济学家威廉姆斯·顿给出了巧妙的回答。他说:“托夫勒并没有给现世的读者提供一种可以依靠的恒久理念,但他却对我们的未来做出了最为出色的回应,他提出的‘big data’一词,足以让我的同僚们欣喜若狂。因为我正在进行的数据集成研究正苦于这一瓶颈。”[1]
2009年1月,当互联网技术正以迅猛的势头突飞猛进的时候,在美国和加拿大的30所知名大学里,“big data”这一概念已经悄然出现在云数据集成扩散中心的研究资料里。2010年,一批留学美国的博士在回国的时候,将这一研究信息带回了中国。中国科学院的首席翻译员将“big data”翻译成“大数据”[1]。由是之,大数据一词变频繁出现在中国各大学和研究机构的官方和半官方的文献里。事实上,在美国与“big data”一词同时出现在科技研究文献里的还有“meta digit”和“big hadoop”。[2]语义学家正在对这两个科技创新词汇进行词义学的解读,但到目前为止还没有得出正确的结论。本文不探讨大数据时代怎样到来和是否已经到来的问题,本文主要研究在“big data”可以被翻译成“大数据”内涵的特殊语境里,这一创新性的技术对图书馆管理工作带来的现实和潜在的影响,以期推动科技统计学的前沿进展和后续演进。
一、SOA中立技术能否解决图书文献的有效分类问题
美国国家科学院将“SOA”(Service-Oriented Architecture)定义为一种架构模型和设计方法,指出设定一种“面向服务框架”的目的在于最大限度地重用应用程序中立型的服务以提高IT的适应性和效率。它可以根据需求通过网络对松散耦合的粗粒度应用组件进行分布式部署、组合和使用。哈佛大学计算机智能研究中心的首席顾问温特尔·森认为:“在这一系统中,服务层是SOA的基础,可以直接被调用,从而有效控制系统中与软件代理交互的人为依赖性;接口是采用中立的方式进行定位的,它应该独立于实现服务的硬件平台、操作系统和编程语言。”[3]于此可见,作为大数据支撑技术的SOA技术是一种价值中立技术,它可以摈除平台操作者的价值偏好和兴趣爱好,进而使云计算出的结果具有公平性和准确性。就图书馆发展的历史看,图书的分类是图书管理领域最为重要的工作之一。这一工作的困难就在于专业人力资源的技术制约和海量图书的编码化程式,而要完成这么大的一个工程,单数据计算就显得无能为力,而采用上述网络松散耦合技术就可以有效解决这一问题。通过这一技术所做的图书分类虽然只是在虚拟的数据意义上,但肯定会给读者和知识消费者带来极大的查阅方便,进而也会大大提高知识的共享效用。同时,由于SOA技术强化了服务意识,就使得图书的叠加分类过程变得更加富有人性化。正如W3C专家的铭言:“服务提供者完成一组工作,为服务使用者交付所需的最终结果。最终结果通常会使使用者的状态发生变化,但也可能使提供者的状态改变,或者双方都产生变化。”[4]这种充分考虑了读者动态要求的精细化服务,不仅可以使图书管理者的素质大大提高,而且可以产生更多的边缘耗散技术,进而大大推动图书信息管理技术的转化和升级。当然,这一技术也存在着一些弊端。比如模型操作者的技术条件及跨学科数据处理能力会影响结果的精确性、计算过程的实时有效监控和对边际负效用的即时处理能力会制约效果的存储速度等等。
二、hadoop数据流技术能否解决图书信息资源的快速整理问题
Hadoop是一种高度可扩展的分布式批量处理系统,它的工作原理是通过对大型数据集进行扫描,进而产生研究者所需要的数据结果。Hadoop项目包括三部分:Hadoop Distributed File System(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。[5]Hadoop平台对于操作特大型的数据集,特别是海量图书文献可以说是一个强大的工具。国际学术界为了抽象Hadoop图书编程模型的一些复杂性,已经开发了多个在Hadoop之上运行的应用开发语言。比如基于分布式图书处理的Pig、Hive和Jaql语言。为了延展使用者的范围,环球图书技术集成研究所还规定,除了Java外还能够以其他语言编写map和reduce函数,并称可以为Hadoop Streaming的API调用它们。那么,这一尖端科学技术能否解决图书馆海量资源的整理问题?
传统的文献计量学注重的是对图书数据的有限度计算,这种计量弱化了图书资源的横向比较和纵向衍生。就横向来说,由于不同地区、不同国家、不同研究机构所持有的图书计量标准不同,就使得图书统计行业出现了大量的“数字鸿沟”。这些地域障碍不仅影响到知识消费者资料搜集的有限性和不对称性,而且制约着一个国家或一个地区图书资源交流的及时性和拓展性。从图书计量学的角度看,这是一种地区图书至上主义思想作祟的结果。而hadoop数据流技术则能有力的解决这一技术性的难题。因为hadoop的每个节点都是“运算符”或“适配器”,都能够在某种程度上精确处理流内的数据;各个地区流之间不仅可以相互调用已有的数据,而且可以对以往的数据进行历史性的比较。所以就纵向来说,图书数据流技术也是极为精准和有效的。数据流技术通过对图书元数据数字格式和数据迁移的转换,通过诸如调试和管理图书资源服务器和数据库的应用型技术,通过对图书采购、政策发展和组织结构等内容的数字馆藏管理来规约整个扇区的图书资源的积极整理和有效使用。应该说明的是,hadoop数据流技术在实际操作中也存在一些技术上的制约,比如流运算的扇区分类的标准问题需要国家出台相应的监控措施;流数据的地区调用问题需要各个科技部门的通力合作等等。
三、FortiGate防火墙技术能否解决图书馆管理的网络安全问题
    FortiGate防火墙技术是飞塔公司开发的一种主要针对云程序集成的网络安全防护技术。FortiWeb已经通过全球权威的ICSA认证,可以阻断如跨站脚本、SQL注入、缓冲区溢出、远程文件包含、拒绝服务,cookie中毒、schema中毒、以及其他Web应用攻击的威胁,保证Web应用程序的安全性,同时防止敏感数据库外泄,为图书馆Web应用提供了专业级的应用安全防护。[6]飞塔公司之所以耗费人力和物力去开发这一新型的换代产品,就在于大数据时代对图书管理水平的冲击。事实上,中国的北京大学图书馆一直以来都在使用传统的IPS级防火墙,这一防护技术由于安全定位不同,因而很难对HTTP进行系统识别和完全理解,也就达不到有效的保护Web应用业务安全的目的。
FortiGate防火墙首先提取了100家图书馆分馆的数据,其数据面涵盖了6000多万种资料。内容包括书目数据、收稿、地图、视频和音频等。这些数据将会在CNKI数字公共图书馆中提供下载。北京大学图书馆实验室的副主任称:“每种馆藏均提供了多达66个不同属性的值,并以此来促进世界范围图书目录的开放以及对新型应用性产品的研发。”[7]由此看来,FortiGate防火墙技术不仅能够事先监控来自远程的hacker的攻击,而且可以有效防止任何来自第三方的数据串联。只要是电脑的终端用户,发生了任何基于数据企图的盗窃行为都会在Gate服务器上留下痕迹,都可以顺着HTTP搜寻到操纵者的足迹。但不容否认的是,FortiGate防火墙并没有具备完全云计算的实力,它所做出的监控只是局限于国内,对于国际盗版问题,该系统是无能为力的;同时该系统的数据更新技术尚不完善,相应的即时跟踪能力尚待提高。
四、data curation[2]技术能否有效保护个人的隐私、商业秘密和国家机密问题
data curation(数据监控)是一种基于科研数据和数字监控平台基础上的电子计算机集成技术。它的后台设计具有一定的实时性和准确性。其目的在于防止用户泄露个人的隐私、商业的秘密和国家的机密。[8]目前,国际上普遍采用的是美国国家安全局全球数据采集中心的监控软件。由于美国的技术比较成熟且漏洞较少,所以英联邦国家大多购买了美国的这一技术,并广泛应用于医疗数据、金融数据、军事数据和商业数据的存储和监视领域。但我们讲了,漏洞较少并不是没有漏洞,美国的全球监控丑闻一方面暴露了大数据人才流失的政治后果;另一方面也暴露了美国的全球监控软件存在不可修复的技术漏洞。所以在数据爆炸的时代,必须重新定位data curation软件的开发和使用。
在这一领域,中国科学院已经责成相关的科研院所在规定时间内完成自主cpu的开发和使用。自主知识产权CPU的研发不仅可以解决数据监控领域的国际黑客行为,而且可以大大提升中国的科研实力和核心竞争力。在中国的法治体系中,个人的隐私、商业的秘密和国家的机密是受法律保护的,是不容泄露的。但在云数据的时代,这一问题将会面临严峻的挑战。造成这种状况的原因一则源于数据的价值中立性;二则源于技术的开放性和机密的保护性之间的矛盾。事实上,作为掌握大量个人隐私和资料的图书馆,要为用户提供优质的资源和服务,对从各类渠道、不同领域内摄取到的用户信息,要作为分析读者阅读行为不可避免的工具,而不能私自外泄和传播,否则就会触犯相应的法律和法规,进而受到应有的法律制裁。由此看来,大数据时代已经来了,它必将给图书管理事业的发展带来巨大的冲击。我们所要做的就是做好眼前的工作,积极配合大数据领域的科研进展和辉煌未来,搞好大数据领域的理论研究和实际操作,为中国图书管理事业做出自己应有的贡献。
 
参考文献:
[1]熊金超等.全球迎来大数据时代,数据成为越来越有用资源[EB/OL].2012-11-19.http://news.xinhuanet.com/fortune/2012-11/06/c_113622680.htm.
[2]徐子沛.大数据:正在到来的数据革命以及它如何改变政府、商业与我们的生活.桂林:广西师范大学出版社.2012:40-41.
[3]互联网:大数据时代的特点.[EB/OL].2012-11-18.http://www.ciotimes.com/infrastructure/sjk/64675.html.
[4]光大证券:大数据或成重要投资主线[EB/OL].http://www.cs.com.cn/gppd/07/201201/t20120106_3197683.html.
[5]李奕:计算革命与数据价值.第二届中国计算机技术大会专题报道.中国计算机报.2012-10-15(016).
[6]关志刚编译:大数据最具潜力的三大应用领域[EB/OL].http://www.ctocio.com/bigdata/8293.html.
[7]于良芝.图书馆学导论.北京:科学出版社.2013(17).
[8]张文彦,武瑞原,于洁.z大数据时代的图书馆初探.图书与情报.2012(6):15-20.
,


   
 
 首页 | 关于我们 | 联系我们 | 版权声明 | 办理流程  
 

万方融智论文发表服务中心 版权所有
         智力支持:北京万方融智教育咨询中心          技术支持:北京天合东方网络科技有限公司        投稿邮箱:wfjy2000@163.com     联系电话:010-81545776    稿件查询:15611272168   工作QQ:2545197423(学术部)1511597931(李编辑)1977530847(赵编辑)

Copyright@ 2012 万方融智论文发表服务中心 All Rights Reserved.
网站备案:京ICP备12001766号