Nature:学术研究的文本挖掘时代

2014-02-09 孙学军 科学网

文本挖掘应该是信息领域的高频词汇,但在学术领域,特别作为一种学术辅助工具,并不是那么被学者广发关注。不过最近学术出版领域的大亨爱斯唯尔公司将提供对该公司数据库中论文的文本挖掘服务。这一动作引起《自然》关注,专门发文进行报道。   文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如

文本挖掘应该是信息领域的高频词汇,但在学术领域,特别作为一种学术辅助工具,并不是那么被学者广发关注。不过最近学术出版领域的大亨爱斯唯尔公司将提供对该公司数据库中论文的文本挖掘服务。这一动作引起《自然》关注,专门发文进行报道。
 
文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如 模式识别。人工纯文字挖掘方法最早出现在20世纪80年代中期,最近的技术进步已使这一领域迅速发展。文本挖掘已经成为信息检索、数据挖掘、机器学习、统 计以及计算语言学等学科中的重要领域。由于80%的信息以文本形式来保存,文本挖掘被认为具有较高潜在商业价值。多语种数据挖掘,因为可根据意愿从跨语种 文字挖掘出有用信息,也越来越多引起人们兴趣。
 
学者们准备好你的计算机作好文本挖掘,出版大亨Elsevier将给科学家提供从1100万论文中获许有价值信息的更简单方法。估计其他一些出版机构也会 跟进,这将会降低基于计算机技术的研究技术难度。科学家担心,即使这些出版公司可以提高技术条件,开放更多服务,但文本挖掘可能面临许多法律上的约束。
 
几年前,科学家希望出版公司提供通过软件分析学术论文信息的服务,使用计算机软件从网络在线论文搜索数据时,有学者发现程序容易卡。在申请许可访问这些论 文的过程中,学者们发现自己会陷入和许多机构谈判的泥潭,更要命的是,有的支付注册费也要走程序性步骤。例如,加州大学圣克鲁兹分校计算生物学家Max Haeussler,为制备人类基因组在线地图,需要获得3百万篇论文中DNA数据资料的权限,就前后经过3年多和众多出版社讨论。
 
过去向出版公司申请获得文本挖掘权限,可能会遇到踢皮球的问题。现在Elsevier希望能让这个步骤变的简单方便。根据1月26日费城美国图书馆协会学 术会议上达成的意向,学术机构的学者使用Elsevier在线接口,可批量下载计算机阅读XML格式的文件。Elsevier暂时选择每周1万篇的下载上 限。只要学者或所在研究机构签署一分协议,这些文章就可用于文本挖掘。协议内容包括,学者发表这些论文时必须是非商业目的,只要包含200个字符段,就必 须提供原始出处的链接。从事欧洲脑研究计划的发言人说,他们的学者目前就在这一服务,并对这一政策表示赞赏。
 
加拿大大不列颠大学神经科学家Shreejoy Tripathy去年就从大量论文中获取关于神经细胞生理学的信息。Tripathy认为,文本挖掘对许多学者来说并不非常熟悉,许多学者不一定善于使用 计算机技术。他希望有更简单的技术和途径提供给科学家用于学术研究。随着相关论文发表数量的增加,科学家对这些技术的要求就会增加。
 
许多大型的出版公司都已经准备开展这一服务。也有学者担心,他们认为出版商可能错误地认为所谓文本挖掘不过是阅读权限许可,但计算机阅读需要比人类阅读更高的权限,因为阅读权限决定了挖掘权限。
 
一些国家政府也在考虑这个问题,英国政府计划4月开始开放非商业目的的文本挖掘服务,允许学术机构使用他们购买的各类文本信息。欧盟担心计算机研究壁垒会 阻挡科学创新活动,也将考虑这个问题。英国已经组建了一个委员会,主席是英国加的夫大学的知识产权专家Ian Hargreaves,负责检查文本挖掘和数据挖掘对科学研究的经济学影响,这个委员会2月底将提交最后结论。
 
数据或文本挖掘是信息时代,大数据条件下技术发展的必然趋势,随着文本和各类数据的迅速增加,只有通过计算机技术的配合,才可以全面分析相关数据,整体把握有关领域。我们应该密切关注这一趋势,制定出符合国情的数据和文本挖掘政策和措施。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1879909, encodeId=41ed18e9909f4, content=<a href='/topic/show?id=3b2112532d8' target=_blank style='color:#2F92EE;'>#Nat#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=33, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=12532, encryptionId=3b2112532d8, topicName=Nat)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=2e6f107, createdName=liye789132251, createdTime=Tue Nov 18 22:14:00 CST 2014, time=2014-11-18, status=1, ipAttribution=)]
    2014-11-18 liye789132251

相关资讯

Nature:新科学巨奖,学术界的粗俗暴发户?

近几年,特别是2012年兴起的科学巨奖已经让多名科学家成了百万富翁。现在的问题是,颁发巨额奖金真的是促进学科发展的最好方法吗? 在获得一项奖金金额高达数百万美元的奖项之后,Alexander Polyakov 并没有像人们想象得那么兴奋。 Polyakov 的领奖是这场今年3月在瑞士首都日内瓦举行的颁奖典礼的高潮,在全场短暂的寂静中,这位来自美国普林斯顿大学的物理学家,被宣布获得2013年度

Science:谷歌学术搜索值得信赖吗?

谷歌学术搜索逐渐引起了研究人员的使用兴趣。在过去一年中,Jonathan Eisen 的阅读习惯发生了显著改变。在之前20年的大部分时间里,他主要通过梳理生物学摘要的在线数据库 PubMed 以了解科学文献。不过最近,身为美国加州大学戴维斯分校进化生物学家的 Eisen 不再从中搜寻资料,但却仍能找到与其工作相关的研究。 帮助 Eisen 实现这一效果的图书管理员就是谷歌学术搜索(Goo

2013国内学术丑闻大盘点

学术本来意味着一种高尚的职业,因为在古代先哲眼里,学术本就是求达至善之术。在老百姓眼里学术人也就是一种引导社会大众去求达至善的特别群体。然而,学术在当今社会却以丑闻的形式背离于古人失信于民众。下面为您盘点2013年几个“爆炸性”的学术丑闻,这些复杂事件的真相,也许只有当事人自己最清楚,但是从这些事情中引发的思考与讨论,却是值得我们借鉴的。 张曙光贿选院士案 今年9月份的时候,原铁道部副总工

第三届中国认知障碍学术大会在郑州召开

       2013年5月10-12日,第三届中国认知障碍学术大会在郑州召开。此次大会由中华医学会神经病学分会痴呆与认知障碍学组主办,河南省医学会、首都医科大学宣武医院承办,中国老年保健协会老年痴呆及相关疾病专业委员会(ADC)、中国药理学会抗衰老与老年痴呆专业委员会、中国老年学学会老年医学委员会认知障碍专家委员会协办。     &n

2013年国际及国内**生物类学术期刊盘点

2013 最新 SCI 影响因子(Journal Citation Reports, JRC)已于近期公布,每年的年度 SCI 期刊的最新影响因子会在下一年度6月中旬左右出来。因此 2013 年公布的影响因子是统计的 2012 年度 SCI 期刊分析报告。 影响因子是期刊定量评价的重要工具。自1975年开始,美国科学信息研究所每年都会发布上一年度其所收录期刊的引证报告,将期刊按引证的频次和影

Science:癌症研究,逐渐消失的界限

曾经,生命科学家要想致力于癌症研究,就只有两种职业选择:学术界或是产业界。两个领域独特的核心目标形成了各自的文化氛围,而且拥有着与众不同的研究、信誉和奖励制度管理方式。刚毕业的博士后可能觉得,自己只能二者选其一,但现在出现了一种新的方式。在抗癌战场上,各领域间的多学科合作为科研人员创造了横跨教育界和商界的职业机遇。 癌症研究的发展宗旨主要是为了找到治疗、治愈的方法,但