Chuyển đổi thành văn bản từ tập tin PDF và Images - Thanh'sBlog - Blog công nghệ, chia sẻ niềm đam mê!

Chuyển đổi thành văn bản từ tập tin PDF và Images Không rõ

14/11/2014 Đăng bởi: Lover Admin , Nhận xét(0) , Đọc(601) Lớn | Vừa | Nhỏ

Bạn có một tài liệu PDF và bạn muốn trích xuất tất cả các văn bản trong đó? Những hình ảnh tập tin của một tài liệu quét và bạn muốn chuyển đổi thành văn bản để có thể chỉnh sửa?

Trong bài viết này, chúng ta sẽ tìm đến những cách khác nhau để có thể chuyển đổi thành văn bản từ tập tin PDF và Images.

Cần lưu ý rằng kết quả khai thác của bạn sẽ thay đổi tùy thuộc vào loại và chất lượng của các văn bản trong file PDF hoặc image. Ngoài ra, kết quả cũng sẽ thay đổi tùy thuộc vào công cụ bạn sử dụng, vì vậy, tốt nhất bạn nên thử càng nhiều các tùy chọn dưới đây để có được kết quả tốt nhất cho mình.

Cách đơn giản nhất và nhanh nhất để bắt đầu là để thử một dịch vụ trích xuất văn bản PDF trực tuyến. Dịch vụ này miễn phí và có thể cung cấp cho bạn chính xác những gì bạn đang tìm kiếm mà không cần phải cài đặt bất cứ điều gì trên máy tính của bạn. Dưới đây là hai dịch vụ được xem là rất tốt cho một kết quả tuyệt vời:

1. ExtractPDF

Highslide JS


ExtractPDF là một công cụ miễn phí để lấy hình ảnh, văn bản và phông chữ ra khỏi một tập tin PDF. Hạn chế duy nhất là kích thước tối đa cho tập tin PDF là 10 MB. Hơi nhỏ; vì vậy nếu bạn có một tập tin lớn hơn, hãy thử một số phương pháp khác bên dưới.

Với ExtractPDF, bạn chọn tập tin của bạn và sau đó nhấp vào nút Send file. Các kết quả thường rất nhanh và bạn sẽ thấy một bản xem trước của văn bản được trích khi bạn click vào tab Text.

Highslide JS


Nó cũng trích xuất được hình ảnh ra khỏi file PDF cho bạn một cách dễ dàng.

Nhìn chung, công cụ trực tuyến này hoạt động khá tốt. Các văn bản được chiết xuất tốt, nhưng đối với một số lý do nó sẽ có một ngắt dòng sau mỗi từ! Đó không phải là một vấn đề lớn cho một tập tin PDF ngắn, nhưng chắc chắn là một vấn đề cho các tập tin với rất nhiều văn bản. Nếu điều đó xảy ra với bạn, hãy thử các công cụ tiếp theo.

2. Online OCR

Online OCR thường có xu hướng làm việc cho các tài liệu đã không chuyển đổi đúng với ExtractPDF, vì vậy nó là một ý tưởng tốt để thử cả hai dịch vụ và xem dịch vụ nào đem đến cho bạn kết quả tốt hơn.

Online OCR cũng có một số tính năng “đẹp” chứng minh được sự hữu ích của nó cho bất cứ một tập tin PDF lớn mà bạn chỉ cần chuyển đổi văn bản trên một vài trang chứ không phải là toàn bộ tài liệu.

Điều đầu tiên để thực hiện trích xuất văn bản với dịch vụ này là bạn phải tạo ra một tài khoản miễn phí. Điều này có phần khó chịu, nhưng nếu bạn không tạo ra tài khoản miễn phí, nó sẽ chuyển một phần tài liệu PDF của bạn chứ không phải là toàn bộ tài liệu. Ngoài ra, khi có được tài khoản, thay vì chỉ tải lên được một tài liệu 5 MB, bạn sẽ tải lên được với 100MB mỗi tập tin cho một tài khoản.

Đầu tiên, chọn một ngôn ngữ và sau đó chọn loại định dạng nào bạn muốn các tập tin chuyển đổi. Bạn có một vài lựa chọn và bạn có thể chọn nhiều hơn một nếu bạn muốn. Với Multipage document - tài liệu nhiều trang - bạn được chọn số trang và sau đó chỉ chọn các trang web mà bạn muốn chuyển đổi. Cuối cùng, bạn chọn tập tin và nhấn Convert !

Highslide JS


Sau khi trích xuất, bạn sẽ được đưa đến phần Documents (nếu bạn đang đăng nhập), nơi bạn sẽ xem có bao nhiêu các trang có sẵn và các liên kết miễn phí để tải về tập tin chuyển đổi của bạn.

Mặc định, dịch vụ chỉ cho phép bạn có được 25 trang miễn phí mỗi ngày, vì vậy nếu bạn cần nhiều hơn thế, bạn sẽ phải hoặc là chờ đợi một chút hoặc mua thêm tính năng với nó.

Online OCR thực hiện khá tốt việc chuyển đổi các file PDF vì nó đã duy trì bố trí thực tế của văn bản. Trong thử nghiệm, một file doc Word có sử dụng bullet, cỡ chữ khác nhau, v.v… và chuyển đổi nó thành một PDF. Sau đó, file PDF này được đưa lên dịch vụ Online OCR để chuyển đổi trở lại định dạng Word và nó đã được khoảng 95% giống như bản gốc. Đó là điều khá ấn tượng.

Thêm vào đó, nếu bạn đang tìm kiếm để chuyển đổi image sang văn bản, Online OCR cũng có thể làm điều đó dễ dàng như chiết xuất văn bản từ tập tin PDF.

3. Free Online OCR

Free Online OCR là dịch vụ rất tốt và rất chính xác khi trích xuất văn bản từ image. Bạn thử lấy một vài hình ảnh từ iPhone của bạn, chẳng hạn hình ảnh về các trang sách, tờ rơi, v.v… và chắc chắn bạn sẽ rất ngạc nhiên khi nó đã chuyển đổi các file image thành văn bản.

Highslide JS


Chọn tập tin của bạn và sau đó nhấp vào nút Upload. Trên màn hình tiếp theo, có một vài lựa chọn và một bản xem trước của hình ảnh. Bạn có thể cắt bớt nếu bạn không muốn OCR thực hiện với toàn bộ. Sau đó, nhấp vào nút OCR và văn bản chuyển đổi của bạn sẽ xuất hiện dưới image preview. Nó cũng không có bất kỳ hạn chế, đó thực sự là tốt đẹp.
Phần mềm offline

Ngoài các dịch vụ trực tuyến ở trên, có hai phần mềm miễn phí chuyển đổi PDF nếu bạn muốn có phần mềm chạy cục bộ trên máy tính của bạn để thực hiện việc chuyển đổi khi bạn không online.

Tuy nhiên, chất lượng chuyển đổi từ các chương trình phần mềm miễn phí là không tốt hơn so với các dịch vụ online.

1. A-PDF Text Extractor

A-PDF Text Extractor là phần mềm miễn phí thực hiện khá tốt công việc chiết xuất văn bản từ tập tin PDF. Sau khi tải về và cài đặt nó, nhấp vào nút Open để chọn file PDF của bạn. Sau đó nhấp vào Extract text để bắt đầu quá trình.

Highslide JS


Nó sẽ hỏi bạn một vị trí để lưu trữ các tập tin văn bản đầu ra và sau đó nó sẽ bắt đầu trích xuất.

Bạn cũng có thể bấm vào nút Option , cho phép bạn lựa chọn chỉ có một số trang cần trích xuất và các loại trích xuất. Lựa chọn thứ hai là thú vị bởi vì nó chiết xuất từ các văn bản trong bố trí khác nhau và nó có giá trị khi đem đến cho bạn kết quả tốt nhất.

2. PDF2Text Pilot

PDF2Text Pilot làm một công việc chiết xuất văn bản được xem là OK. Nó không có bất kỳ tùy chọn; bạn chỉ cần thêm các tập tin hoặc thư mục, chuyển đổi. Nó làm việc tốt trên một số file PDF, nhưng đối với phần lớn, đã có nhiều vấn đề không chuẩn xác.

Highslide JS


Chỉ cần nhấp vào Add Files và sau đó bấm Convert. Sau khi chuyển đổi hoàn tất, bấm vào Browse để mở tập tin.

Cuối cùng, không thể không nói đến Adobe Acrobat. Bạn sẽ có được kết quả tốt hơn nhiều khi sử dụng ứng dụng này cho việc trích xuất văn bản. Acrobat rõ ràng là không miễn phí, nhưng nó có các tùy chọn chuyển đổi PDF sang Word, Excel và định dạng HTML. Nó cũng khá tốt khi duy trì được cấu trúc của tài liệu gốc và chuyển đổi văn bản phức tạp. Bạn có thể xem và tải về Acrobat ở bài viết sau:  http://goo.gl/CyqdGx

Người dùng tìm kiếm: cong cu chuyen doi van ban tu hinh anh, chuyen hinh anh thanh text, convert image thanh van ban, chuyen doi van ban tu pdf thanh van ban, convert pdf to word, convert image to word, convert image to word online, bien hinh anh thanh word.

Theo TGTH



Nhấn Like và +1 nếu thấy bài viết có ý nghĩa!

  • Đăng lên ZingMe
  • Đăng Lên Facebook
  • Đăng Lên Twitter
  • LinkedIn
  • Đăng lên ZingMe
  • Đăng Lên Google Buzz
  • Đăng Lên FriendFeed
  • Đăng Lên Reddit
  • Đăng Lên MySpace
  • Đăng Lên Yahoo! Bookmarks
  • Đăng Lên Digg
  • Đăng Lên Yahoo Buzz
  • Đăng Lên Baidu
Đăng bình luận lên Facebook của bạn:
Khuyến cáo: Không hổ trợ comment bằng facebook nhé!


Sửa lần cuối bởi Lover Admin Sửa vào 14/11/2014 20:31
Tags: , , , , , , , , , ,
Viết nhận xét

Tên gọi

Facebook của bạn

Email

You can also login with your OpenID:
HTML code BBcode Mặt cười Ẩn giấu Hãy nhớ [Đăng nhập] [Đăng ký. ]
               
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot

Bạn muốn hình đại diện hiển thị ngay bên cạnh lời bình luận của bạn không?
Hãy tham gia vào Gravatar và thiết lập hình đại diện hoàn toàn miễn phí!
Gravatar là gì? Avatar hình đại diện toàn cầu, bạn đã có avatar chưa? click đăng ký ngay!
TÌNH HÌNH WEBSITE

Thống kê Online trên website.

Hiện có 147 người đang online
(1 thành viên và 146 khách)
dongduoc.net

Tổng quan tình hình trên ThanhBlog.InFo

Thống kê đến thời điểm hiện tại số lượt khách ghé thăm blog là: 3590300
Số người đã ghé thăm blog trong ngày là: 1306
Số bài viết: 6753 Số comment hiện tại là: 2843 Số trích dẫn 1
Số thành viên đã đăng ký là: 24120
Nào cùng nâng ly chào mừng bạn linhtranthitruc đến với ThanhBlog. Chúc các bạn có những giây phút bổ ích và hạnh phúc !