急!在线等!若何将扫描的PDF格局文件转换为word文字格局的文件?
急!在线等!若何将扫描的PDF格局文件转换为word文字格局的文件?如今已经测验考试了良多种区别的软件,但是转换后固然都酿成了word文件,但是都是word图片文件,没有用啊!lz必需要word文字文件啊!
用清华OCR文字识别软件也试过了,老是大部门都是乱码,并且lz的文件是中英文比照的,所以英文部门也无法识别,怎么办啊!急!
下面是lz在网上搜到的相关文件转换常识,可是所有的 *** lz都试过了,木有用啊木有用, 请教高手批示,哭... ...
PDF转换word格局的 *** 总结
2009-12-09
《全面接触PDF:更好用的PDF软件汇总》中次要介绍了pdf生成东西,但经常有网友觅觅PDF2doc(pdf转换word)类软件。本文选举Gmail、pdftoword.com、e-PDF To Word Converter等转换 *** 。
0. 阐明
pdf 无法编纂,那不是缺点,而是它的定位。
pdf 固然无法编纂,但能够停止正文。
为什么转换PDF到其他格局?手艺角度,是为了二次编纂和后续操纵;但如许做的时候,请重视版权问题。
必然要转到word格局?纷歧定。假设文档只要文字,则定见转为txt或rtf。假设还有一些不算冗杂的图表、图片,转为htm也是能够承担的。但假设格局冗杂,或者你对 html 不领略,也无妨转为doc格局[1]。
本文以及善用佳软全站的存眷点是“原则、根究 *** 、处理计划”,而不是“软件”。假设念条咒语,或挥几下手就能把pdf转为word,为什么必然要软件呢?
一、选举的PDF转换word计划
1. 莫忘最根本的“复造/粘贴”法
觅觅“高级” *** 之前,无妨先试一下最根本的 *** :翻开PDF文档,复造全文;然后,在Word中粘贴。假设文档格局不冗杂,如许得到的成果就够用了。
2. Gmail、 *** 邮箱中间接查看PDF格局
Gmail很早就处理了PDF查看问题。把PDF做为附件发送至Gmail信箱,在附件一侧,点击“view”或“查看”链接,进进在线PDF阅读器后,点击“纯html”链接,即能够网页格局展现pdf内容。假设你必然需要doc格局,请复造html内容到Word。
而 *** 邮箱中,PDF附件旁边也有类似的“纯文本体例查看”链接,只是比拟Gmail,贫乏文字格局。
别的,那种转换还能破解PDF避免复造内容的限造。
优点:速度快、可信、良多人已经有Gmail信箱(没有?那就注册一个吧);各类语言编码的文字都应该能够转换。
缺点:pdf中的图片好象有问题。
3. 号称最精准的 pdftoword.com 在线转换
PDFtoWord.com 号称是目前最为精准的pdf to word文件转换器,出自闻名的PDF处理计划赐与商NitroPDF。
PDFtoWord.com是在线利用,完全免费,利用便利:
- 拜候pdftoword.com:①上传pdf→②选定格局(doc/rtf)→③输进领受邮箱;
- 进进邮箱:查收转换后的word文档。
Web 2.0 Share的评判:“……Pdftoword 无愧于精准之王,对中文同样转换很好,文字方面不多说了,各人能够本身测试。Pdftoword 在排版方面确实有独到之处,特殊介绍一个细节,Pdftoword 转换后的文档仍以段落为单元,没有良多的换行符,而以前大多转换器都是以行为单元,以致末尾有良多的换行符,你复造粘贴时会有许多费事……”
二、其他软件或在线利用
注:网站已失效。
更多在线PDF转Word利用
电脑玩物曾做过一个 测试 ,比照了4个在线利用。但因为测试的特殊要求——11MB,立刻转换——只要更好一个利用达成了目的。因而,并未对转换量量停止比照。
,转换工做需要列队期待。
,需要期待。
,文件名须为英文。
的版面樣式與文字「根本上」都有胜利轉換,仔細檢查的話會發現在一些特殊格局的处所會漏掉一兩個字沒有轉出來,但這都很好解決,只要本身補上就好”。
共享软件 e-PDF To Word Converter
共享软件 e-PDF To Word Converter(USD 35)在转换PDF到Word类软件中,也属于效果较好的一款。
小寡软件评判:…… e-PDF 能够把 PDF 文件比力完美的转换成 Word 文档,我用104页的 PDF 做了测试,除了少数处所,其余都属于完美转换了……
网上其他介绍:e-PDF To Word Converter 是一款将AdobePDF文档转换成 Word 文档的东西软件,它撑持文字,图像及其它内容的输出。那款软件能够离开 Microsoft Word,Adobe Acrobat 或 Acrobat Reader 独立运行。完美的中文撑持和原始版面转换,根本做到了百分百的原汁原味……目前独一发现的不敷,数字会被转换成全角数字,不晓得可否在word中批量把数字换回半角,别的有些文字大小会小一号。试用了超多的PDF转Word东西了,应该说那个是所见过版面保留更好的了,固然仍是有点缺憾。
MS Office Document Imaging 将PDF转为Word
假设你购置了MS Office的响应套件,则可通过MS Office Document Imaging停止PDF到Word的转换。
Microsoft Office Document Imaging 是MS Office的一款选拆组件,用于印刷文档的图像化扫描存储,并具有OCR功用。因而,也能够先把PDF虚拟打印为 Microsoft Office Document Imaging 格局 (MDI) ;再通过OCR转为可编纂的Word文档。(官方搀扶扶助: 2)
转载一下操做步调:
① 从PDF到MDI:在PDF阅读器中,打印PDF,打印机选“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格局的虚拟打印文件。 (注:假设没有找到“Microsoft Office Document Image Writer”项,利用Office 2003安拆光盘中的“添加/删除组件”更新安拆该组件,选中“Office 东西 Microsoft DRAW转换器”。 )
② 从MDI到Word:Document Imaging 转换为运行“Microsoft Office Document Imaging”,并操纵它来翻开适才保留的MDI文件,抉择“东西→将文本发送到Word”菜单,在弹出的窗口中选中“在输出时连结图片版式稳定”,确认后系统会提醒“必需在施行此操做前从头运行OCR。那可能需要一些时间”,确认即可。
三、结论
偶然有pdf2doc需求的网友,定见先试用在线的Gmail、PDFtoWord。假设量量不克不及称心需求,或转换的数量、速度有更多要求,能够试用/注册 e-PDF To Word Converter 等软件。
但无论哪种 *** ,在动作之前都值得想一下:实有需要从pdf转为word吗?
附录:正文
[1]:早期版本MS Word摘用封锁格局,WPS和OOo通过各类手艺手段才气与之连结尽量兼容,而其他无此实力(经济实力)的软件则不克不及编纂Word。当然,能够用免费的WordViewer查看(应该也能复造到其他法式中吧)。新的MS Office摘取了XML格局,相对开放了一些。所以,也不该该基于过时的理由过于反对doc格局。但无论若何,请有如下意识:除了高贵的MS Office,还有小我免费的WPS(十分玲珑)、开源的OOo、在线的Google Doc;在良多情状下,你只利用了MS Office的3%的功用;良多文档没有需要存为word格局。(感恩danei填补)
附录:文章更新汗青
2010-04-05:更新Gmail、 *** 邮箱的转换阐明。
2009-12-08:更新图片;标示失效内容;更新结论;填补 *** 邮箱。
2009-11-24:更新较多(但尚未完成)
2009-02-26:填补pdftoword.com并做为第2选举。
2008-11-04:初稿。
看看实正的高手是如何把PDF转换word格局的。
起首阐明一下,我是读书狂,我想尽一切 *** 把各类格局的电子书转换为txt.
1.利用adobe acrobat professional翻开pdf文件,另存为网页(不要另存为rtf,如许会打断段落,并且显现良多莫名新颖的文字框),利用frontpage,记事本,IE另存为功用等东西整理并往除源代码中的废代码,最初得到完美的html文档,还有图片,把html转换成doc文档不消我教你吧。
2.第三方的pdf转换软件应属Solid Converter PDF效果更好,以至它的转换速度比adobe acrobat professional还要快,并且撑持批量转换,下载地址
/
/
假设显现错误请移步到那里下载pdf东西包
利用此中的PDF编纂器删除某些特殊的字符。
3.假设pdf内容为图片,利用PDF Image Extraction Wizard提取此中的图片。
好了,以上三种 *** 通食所有类型pdf。
间接用pdf阅读器翻开文件,在形式下面选鼠标选抉择形式,选中文件中需编纂的文字,复造到记事本中,就OK了
若何复造 pdf 文件内容 将pdf转换成word格局
如今网上的许多素材都是以CAJ、PDF等文件格局给予的,此中的文本不克不及被间接编纂。网上给予了许多处置那种情状的软件,但是它们不是效率低,就是只能提取此中部门文本。本文所述操纵微软给予的OCR识别手艺从CAJ、PDF等文件中提取全数文本的 *** ,简便灵敏,效-
如今网上的许多素材都是以CAJ、PDF等文件格局给予的,此中的文本不克不及被间接编纂。网上给予了许多处置那种情状的软件,但是它们不是效率低,就是只能提取此中部门文本。本文所述操纵微软给予的OCR识别手艺从CAJ、PDF等文件中提取全数文本的 *** ,简便灵敏,效率很高。
从区别格局的文件中提取文本前需要做好以下筹办工做,安拆CAJViewer5.5阅读器软件和acrobat 5 专业版阅读器软件安拆Office2003,并完全安拆Of?鄄fice东西Microsoft Office Document Imaging,然后在打印机里面会增加Microsoft Office Document Image Writer打印机。 Microsoft Office Document Image能够十分正确的全文件识别转化中文、英文、表格。
一、CAJ文件的识别
(一)起首,从网上下载CAJ格局的素材文件保留到当地硬盘上。
(二)然后,启动CAJViewer阅读器法式,并在该法式中翻开适才保留的CAJ格局的文件。阅读文件到最初一页后,不要封闭CAJ阅读器法式。
(三)在CAJ阅读器法式窗口中,抉择“文件”→“打印”,并抉择打印机为Microsoft Office Document Image Writer打印机,勾选打印到文件选项和确定打印页数。
(四)保留打印文件(*.prn)到妥当位置。期待打印完成后,Microsoft Office Document Image 主动翻开适才保留的打印文件。
(五)在Microsoft Office Document Image窗口中,抉择“页面”菜单中的“抉择所有页面”菜单项,然后抉择“东西”菜单中的“利用OCR识别文本”提取文本。
(六)抉择“东西”下的 “将文本发送到word”,最初将把整个CAJ文件识别输出到word文件中。
二、PDF文件的识别
(一)以文本形式保留的PDF文件,用acrobat 5 专业版,识别整个文件。间接翻开从网上下载的PDF格局文件另存为RTF文件,或者抉择东西栏上的文字抉择按钮,然后抉择文字区域,然后复造到Word中即可。
(二)以图片形式保留的PDF文件,将PDF文件打印到Microsoft Office Document Image Writer打印机,抉择打印构成的文件的保留位置,然后会主动构成一个MDI文件,而且主动用Microsoft Office Document Image翻开此文件,然后在Microsoft Office Document Im?鄄age中抉择“东西”菜单中的“利用OCR识别文本”,识别完成后,在抉择“东西”下的,“将文本发送到word”,最初将把整个PDF文件识别输出到word文件中。
(三)加密的PDF文件先下载解密软件,解密后在参照上述步调1),2) 停止。
(四)繁体PDF文件用上述步调2)的 *** 识别到word后,用word中的“东西”→“语言”→“中文繁简转换”
三、超星文件的识别
(一)全文件识别打印到Microsoft Office Document Image Writer打印机,然后按上述PDF文件的识别步调中第二点操做,要重视的是,超星打印功用有点区别,因为超星是目次和全文分隔的,所以打印时,需要别离把目次和注释识别到Word中,再合并到一路。打印时要填进打印页码从1到最初一页,不要抉择打印全数。在打印选项中,要将页面比例设成实在大小,而不是整宽。重视识别速度比其他格局要慢良多,请连结耐烦。一般一本200多页的书,识别需要几分钟的时间。
(二)超星文件识别相比照较费事一些,假设还有问题,能够先把超星打印成完全的PDF文件,然后再用上述识别PDF文件的 *** 转成Word。
四、跋文
颠末试验,发现Microsoft Office Document Image 存在一些不不变的问题,如在用CAJ打印到Microsoft Office Document Image Writer时,发现用CAJ5.5版本比力快,而CAJ5.0有时显现假死机。页面展现大时,转化的识别率较高。假设页数多的文件,包罗超星,能够分屡次转化。
因为虚拟打印到Microsoft Office Document Image Writer 比力慢,而且构成的虚拟文件很大,1本200多页的书大约是60M,因而会严酷影响机器的运行速度、C盘和内存空间。定见设置装备摆设好的机器一次转化不要超越200页,设置装备摆设差的不要超越100页,同时打印时在使命栏中会显现打印机图标,能够双击,看到打印使命的进度,禁止误认为死机。转化完成后请删除c:\windows\temp目次下的虚拟打印文件,不然C盘很快会被用光。