中文期刊论文数据采集技术探讨

2020.02.27
公司新闻

　　本文为论文分享，仁创编译致力为大家分享更多更好的高质量论文资讯，方便大家学些参考。同时大家也欢迎大家通过转载的方式进行分享，让更多的人能够观看学习，从中获得经验和灵感，小编将为大家提供最新论文资讯。

　　1概述

　　随着学术期刊与学术论文日趋增多，用户在学术期刊中准确快速提取出论文基本信息的需求也日益增强。目前的论文多以图像的形式储存，而文字形式是人们检索论文信息所需要的主要显示类型。而将图像信息转化成文字信息常采用OCR技术。OCR是指通过扫描、拍照等光学输入方式将印刷文字最终转化为可编辑的数字化信息[1]。在OCR识别之前，通常需要对文字版面进行分析。版面分割是对版面内的图像、文本、表格等信息和位置关系所进行的自动分析、识别和理解的过程。最终是将图像分成若干个不相关的区域。由于这关系到文字识别的准确性和正确的数据采集顺序，版面分析在操作过程中是不可或缺的。本项目中选用的是边缘检测版面分析。基于边缘检测的分割方法试图通过检测不同区域的边缘来解决问题,通常不同的区域之间的边缘上灰度值的变化往往比较大,这是边缘检测方法得以实现的主要假设之一。[2]因此，为获得期刊论文基本信息，需要先将通常储存的图像信息依次进行灰度二值化，灰度直方图生成，版面分析，再将得到的结构化图像块转换为文字信息，最后将所得到的基本信息数据呈现给用户。这样便能够更迅捷，更清晰地读取并判断出该论文是否为自己所需求的材料。仅需少量的人工步骤即可实现该效果，因此该方法更能满足用户对于信息检索、判断的需求。

　　2论文基本信息的特征分析

　　2.1页眉的检测

　　页眉是位于文章首页上方，用直线分割的一片区域。一般地，在其中记录了出版时间，出版社名称，版号等信息。但相对于正文信息而言，页眉页脚具有独立性。在基于OCR和版面分析的一些应用中，需将页眉页脚和主体分离并单独处理。根据直线的所在位置和页面的最上端划出页眉范围，将整个版面一分为二。进一步根据灰度直方图分别分割页眉上的信息。

　　2.2论文题目、作者、关键词等的特征分析

　　通常情况下，论文题目位于首页的居中位置，是论文主题内容的体现，与之后的文章内容有明显间隔，字号相对较大，可依据此来进行投影得到论文题目范围之后进行文字识别。论文题目之后是作者，同样借助投影得到行间距，划分区域，进行文字识别，而在论文作者下的单位可以通过单位两边的括号作为特征标识来进行分割与处理。同理，关键词、DOI号等论文信息也可以以此确定其内容。识别后的字符通过ASCALL码值判断可区别其中英文，进而得到结果。

　　3论文信息提取的算法

　　基于对论文所需信息的特征分析，给出整个论文信息提取的算法及流程。

　　3.1论文信息提取的算法流程

　　传入的PDF文件经过版面分析,得到论文有关信息的位置和属性。对有效信息区进行二维坐标下的行投影,确定并统计、提取特征值,再根据统计得来的特征值,进行孤立行分析,并依据判定的孤立行,对文本进行区域的分割,进而得到版面分析的分割结果。[3]根据区域上下边界寻找论文信息有关区域,通过分割线检测及分析区域特征,以此判断文本域为何种论文信息。判别算法流程如图2。

　　3.2图像处理

　　图像处理需先将RGB转灰度，再将图片进行灰度二值化处理。灰度直方图是基于二值化后的图像生成的表示灰度值分布的直方图。将每个像素点按照行或列的形式显示为一张横轴表示灰度值，纵轴为灰度出现次数的图像称为灰度直方图。灰度直方图直观地显示了文字在文章版面内的分布情况，在之后的版面分析中有了最直接的分析依据。

　　3.3投影法判别论文基本信息

　　将论文图像转灰后，灰度级范围为[0,L-1]的数字图像的直方图是离散函数h(rk)=nk，其中rk是第k级灰度值nk是图像中灰度为rk的像素个数。在实践中，经常用乘积MN表示的图像像素的总数除它的每个分量来归一化直方图，通常M和N是图像的行和列的维数。因此，归一化后的直方图由p(rk)=nk/MN给出，其中k=0，1，…，L-1[4]。在得到直方图后，通过投影法得到每个所需区域的行高和行距。在这里举例介绍论文题目、作者、关键词的判别思路。(1)论文题目区域的特征分析：设LineHeight行高，PreSpace为当前块前行距，NextSpace为当前块后行距，isChinese与isEnglish的值可用来判断行内文本是否为纯英文。l单行论文题目判别：通过大量的论文数据可知在得到论文投影数据后，论文题目通常情况下集中出现在都满足以下的条件的块中:据此可以基本得到论文题目数据。l双行论文题目判别：论文题目会占用双行，在这种情况下，不但满足单行论文题目的限制条件，而且通常会有的特征出现，同上处理并与第一行标题合并可以得到双行论文题目数据。得到论文题目文本后，将其在软件界面上进行显示与储存。(2)论文作者、关键词等特征分析：论文作者通常出现在论文题目下方，即满足条件论文作者行为论文题目下的首个中文行，且其字高必小于标题字高,对应作者位置必低于其对应标题位置,论文作者该行的前行距Rect.PreSpace大于通常的行间距。在查找到所需数据后，将其后数据通过OCR识别，并且可以通过isChinese与isEnglish值判断出论文作者的中英文形式，最终可将此块数据归类与储存。同样，关键词等论文数据的所在位置一般固定。通过遍历论文首页投影图像，找到识别主体与论文正文之间的分割线，再查找到其确切位置，进行识别、获取文本即可。

　　4实验结果

　　为了验证该程序的有效性，我们收集大量论文来进行识别实验，结果见表1：本文提出一种分割论文并识别内容的方法，根据论文信息的特征提出了相关内容的约束条件，并通过大量测试验证，该方法可以识别较多格式标准的中文论文，但对于部分排版更加灵活的中英文论文仍无法做到准确识别，此问题还有待后续解决。

　　如果论文成为了您职业学业晋升道路上的拦路虎，请您联系仁创编译，我们会为您提供一站式学术服务解决方案。不管您是有SCI论文翻译、润色，还是其他学术编译需求您都可以放心交给我们。致力于科研一站式服务，包含国内普刊中心发表服务，SCI论文润色、翻译，专利申请，专著出版挂名等等。