Hướng dẫn cách nhận diện chữ từ file pdf, ảnh, hình scan, nhận diện kí tự từ file hình hoặc các file không thể copy được. Ngày nào đó bạn nhận được một mớ tài liệu dày với các file pdf scan, hay những hình ảnh tài liệu, hay những file pdf không thể copy được, cũng chẳng thành vấn đề nếu bạn chỉ có một vài câu cần copy nhưng sẽ vô cùng cực khổ nếu bạn cần chép đoạn tài liệu dài đến vài hoặc vài chục trang. Ngồi và gõ lại chắc ….chớt.
Thật may là chúng ta có những phát minh thuật toán nhận diện kí tự được gọi là “Nhận dạng kí tự quang học”, tiếng Anh là Optical Character Recognition, viết tắt là OCR, hiện nay thuật toán đang được nghiên cứu là (Intelligent Character Recognition – Nhận dạng Ký tự Thông minh ICR). Các bạn có thể tham khảo tại đây
Khoan dài dòng về mấy cái thuật toán phức tạp, hiện nay có khá nhiều phần mềm nhận diện như Nitro PDF, ABBYY hoặc Việt Nam chúng ta cũng có dự án VietOCR do Google tài trợ để phát triển. Tuy nhiên, nổi tiếng nhất phải kể đến phần mềm ABBYY. Chính vì vậy ở đây chúng ta sẽ sử dụng phần mềm nổi tiếng ABBYY để nhận diện kí tự. Cá nhân mình thấy phần mềm hoạt động rất hiệu quả và tỉ lệ nhận diện chính xác rất cao, đặc biệt là hỗ trợ nhận dạng chữ Tiếng Việt rất tốt. Tuy nhiên đây là phần mềm có bản quyền nên các bạn có thể dùng thử bằng cách tải về và cài đặt tại đây . Phần mềm có thể xuất ra nhiều định dạng phổ biến như Word, Excel, Power Point ….
Bước 1: Mở chương trình lên sau đó mở file PDF hoặc các file ảnh (Nếu bạn chạy bản dùng thử thì click vào Run Program khi khởi động)
Sau khi mở thì chương trình sẽ quét và tự động nhận dạng các chữ cho bạn. Tùy vào số trang và độ khó của tài liệu và cấu hình máy tính của bạn mà thời gian nhận diện sẽ khác, nhưng chúng cũng mất khá nhiều thời gian, nếu bạn chỉ muốn dùng 1 vài trang hoặc một đoạn thì mình khuyên các bạn nên cắt những trang cần nhận diện bằng phương pháp: Cách cắt file pdf bằng Foxit Reader, Acrobat PDF
Thường thì với 10 trang và cấu hình máy tương đối sẽ mất khoảng 1p.
Bước 2: Sau khi hệ thống nhận diện xong để dễ dàng sử dụng thì chúng ta nên xuất ra định dạng file chúng ta muốn, để copy thuận tiện thì nên xuất ra file .doc (Microsoft Word Document)
Bằng cách nhấn File > Save Document As > Microsoft Word Document
Bước 3. Chọn vị trí lưu và nhấn Save
Nếu bạn dùng bản dùng thử thì nhấn tiếp Continute
Sau khi đã lưu thì chương trình Microsoft Word sẽ tự động bật và file sẽ được mở ra cho các bạn dùng.
Lưu ý: Tùy vào độ “xấu, nát” của tài liệu bạn mà phần mềm sẽ nhận diện tương đối, nếu ảnh scan rõ nét, hình rõ hay file pdf đẹp thì nhận diện có thể chính xác tới 99%, các bạn nên kiểm tra kĩ lại các chữ trước khi copy nó để dùng vào cái khác vì có thể có lỗi chính tả hoặc nhận diện sai nhé !
Chúc các bạn thành công !!
thubv.com
Thật may là chúng ta có những phát minh thuật toán nhận diện kí tự được gọi là “Nhận dạng kí tự quang học”, tiếng Anh là Optical Character Recognition, viết tắt là OCR, hiện nay thuật toán đang được nghiên cứu là (Intelligent Character Recognition – Nhận dạng Ký tự Thông minh ICR). Các bạn có thể tham khảo tại đây
Khoan dài dòng về mấy cái thuật toán phức tạp, hiện nay có khá nhiều phần mềm nhận diện như Nitro PDF, ABBYY hoặc Việt Nam chúng ta cũng có dự án VietOCR do Google tài trợ để phát triển. Tuy nhiên, nổi tiếng nhất phải kể đến phần mềm ABBYY. Chính vì vậy ở đây chúng ta sẽ sử dụng phần mềm nổi tiếng ABBYY để nhận diện kí tự. Cá nhân mình thấy phần mềm hoạt động rất hiệu quả và tỉ lệ nhận diện chính xác rất cao, đặc biệt là hỗ trợ nhận dạng chữ Tiếng Việt rất tốt. Tuy nhiên đây là phần mềm có bản quyền nên các bạn có thể dùng thử bằng cách tải về và cài đặt tại đây . Phần mềm có thể xuất ra nhiều định dạng phổ biến như Word, Excel, Power Point ….
Nhận diện chữ từ file pdf, ảnh, hình scan như thế nào
Xem video cách làm:Bước 1: Mở chương trình lên sau đó mở file PDF hoặc các file ảnh (Nếu bạn chạy bản dùng thử thì click vào Run Program khi khởi động)
Sau khi mở thì chương trình sẽ quét và tự động nhận dạng các chữ cho bạn. Tùy vào số trang và độ khó của tài liệu và cấu hình máy tính của bạn mà thời gian nhận diện sẽ khác, nhưng chúng cũng mất khá nhiều thời gian, nếu bạn chỉ muốn dùng 1 vài trang hoặc một đoạn thì mình khuyên các bạn nên cắt những trang cần nhận diện bằng phương pháp: Cách cắt file pdf bằng Foxit Reader, Acrobat PDF
Thường thì với 10 trang và cấu hình máy tương đối sẽ mất khoảng 1p.
Bước 2: Sau khi hệ thống nhận diện xong để dễ dàng sử dụng thì chúng ta nên xuất ra định dạng file chúng ta muốn, để copy thuận tiện thì nên xuất ra file .doc (Microsoft Word Document)
Bằng cách nhấn File > Save Document As > Microsoft Word Document
Bước 3. Chọn vị trí lưu và nhấn Save
Nếu bạn dùng bản dùng thử thì nhấn tiếp Continute
Sau khi đã lưu thì chương trình Microsoft Word sẽ tự động bật và file sẽ được mở ra cho các bạn dùng.
Lưu ý: Tùy vào độ “xấu, nát” của tài liệu bạn mà phần mềm sẽ nhận diện tương đối, nếu ảnh scan rõ nét, hình rõ hay file pdf đẹp thì nhận diện có thể chính xác tới 99%, các bạn nên kiểm tra kĩ lại các chữ trước khi copy nó để dùng vào cái khác vì có thể có lỗi chính tả hoặc nhận diện sai nhé !
Chúc các bạn thành công !!
thubv.com