Sử dụng phần mềm scan tailor trong xử lý tài liệu số hóa sau scan

E-mail Print

1. Giới thiệu

Phần mềm Scan Tailor, được phát triển bởi một lập trình viên tên là Joseph Artsimovich, đây là phần mềm miễn phí theo giấy phép GPL phiên bản 3, hỗ trợ các hệ điều hành Windows và Linux. Scan Tailor được phát triển từ cuối năm 2007 đến nay đã qua nhiều phiên bản khác nhau, và dần hoàn thiện trở thành một phần mềm mạnh mẽ trợ giúp đắc lực cho việc số hóa tài liệu thư viện, và cho cả mục đích cá nhân.

Đây là phần mềm xử lý tài liệu số hóa có khả năng xử lý tài liệu số hóa dạng ảnh sau khi scan rất hay, đáp ứng tốt các yêu cầu xử lý số hóa trong thư viện, trợ giúp các công việc mà trước đây thực hiện khá khó khăn hoặc có thể mất nhiều tiền để mua các phần mềm thương mại như: tách đôi trang (nếu scan ở dạng 2 trang một), xoay thẳng ảnh, cắt bỏ viền, định dạng lại khổ sách…

Tuy nhiên, phần mềm này chỉ xử lý tài liệu số hóa dạng ảnh, sau khi xử lý cũng sẽ xuất ra dạng ảnh mà không nhận dạng ký tự quang học (OCR), nhưng bạn hoàn toàn có thể sử dụng kết quả sau khi xử lý với phần mềm Scan Tailor để đưa vào các phần mềm nhận dạng ký tự quang học để nhận dạng, vì chương trình đã loại bỏ nhiễu, giúp quá trình nhận dạng được hoàn thiện hơn.

2. Một số điểm cần lưu ý trước khi thực hiện

Để công tác xử lý tài liệu số hóa sau khi scan bằng phần mềm Scan Tailor được hiệu quả, cần lưu ý một số điểm sau:

- Quét ảnh bằng chế độ grayscale, hoặc màu, không quét ảnh bằng chế độ đen - trắng.

- Quét ảnh bằng độ phân giải 300dpi trở lên, tốt nhất nên quét ảnh ở độ phân giải 600dpi. Tuyệt đối không quét ảnh ở độ phân giải dưới 300dpi.

- Nên lưu ảnh quét bằng định dạng file TIFF để việc xử lý đạt chất lượng tốt hơn, có thể chấp nhận ảnh JPEG, nhưng để ở chất lượng cao nhất có thể.

3. Cài đặt

- Bước 1: Tải phần mềm Scan Tailor phiên bản mới nhất tại địa chỉ: http://scantailor.sourceforge.net, lưu ý phiên bản dùng cho Hệ điều hành Windows 32bit và 64bit.

- Bước 2: Tìm đến đường dẫn lưu phần mềm, nhấn đúp chuột để kích hoạt cài đặt

- Bước 3: Lần lượt chấp nhận và thực hiện các bước như sau: chọn I Agree / Install / đợi cho chương trình cài đặt thực hiện xong, nhấn chọn tiếp Close để hoàn tất quá trình cài đặt

4. Nhập tài liệu

- Bước 1: Khởi động chương trình

- Bước 2: Chọn New Project

- Bước 3: Trong mục Input Directory, nhấn

chọn Browse, tìm đến đường dẫn lưu thư mục

cần xử lý, nhấn chọn tiếp Sellect Folder.

- Bước 4: Trong mục Output Directory, mặc định chương trình sẽ tạo thêm thư mục OUT và lưu các file đã xử lý vào đó, bên trong thư mục cần xử lý, nếu muốn lưu ở vị trí khác nhấn chọn Browse và xác định vị trí cần lưu.

- Bước 5: Chọn Sellect All

- Bước 6: Nhấn chọn OK

5. Các bước xử lý

Để chu trình xử lý đạt hiệu quả cao nhất, cần thực hiện lần lượt qua các bước sau đây:

Bước 1: Fix Orientation - Điều chỉnh lại hướng trang

alt

Đây là bước kiểm tra ảnh cần xử lý sau khi Import vào chương trình, bởi trong quá trình quét ảnh, có thể có những trang bị lộn ngược, hoặc ảnh không đúng với chiều đọc thông thường.

Trong bước này, người xử lý cần kiểm tra từ đầu đến cuối tất cả các trang để đảm bảo rằng không trang nào bị lộn ngược hoặc xoay ngang/dọc không đúng với chiều đọc trang sách thông thường, và việc kiểm soát này phải kiểm soát bằng mắt thường, do chương trình không tự động hiểu được đâu là trang không đúng.

Để thực hiện việc điều hướng lại trang, có thể chọn từng trang một và nhấn chọn các biểu tượng trong phần Rotate cho đúng yêu cầu của mình, có thể chọn nhiều ảnh cùng một lúc bằng cách nhấn giữ phím Ctrl + trang cần chọn.

Vì đây là bước kiểm soát tốn khá nhiều thời gian, do vậy ngay trong quá trình quét ảnh, hoặc sau quá trình quét ảnh cần kiểm soát chặt chẽ việc này thì khi đưa vào chương trình Scan Tailor có thể bỏ qua bước này và thực hiện ngay bước tiếp theo là bước Split Pages

Bước 2: Split Pages - Tách trang

alt

Đây là một tính năng rất hay của chương trình, Scan Tailor tự động xác định được trang đôi hay trang đơn, và có khả năng nhận dạng rất tốt đường viền phân trang, tính năng này đã khắc phục được tình trạng cắt trang thủ công trước đây, điều này thường chỉ có ở những phần mềm thương mại khá đắt tiền mới có.

Đây là tính năng hoàn toàn tự động, cắt một lượt tất cả các trang, tuy nhiên, đối với các tài liệu phức tạp, có nhiều khung, bảng hoặc trang đặc biệt… thì cần kiểm tra và điều chỉnh lại các trang đó bằng tay, dù vậy công việc này cũng khá dễ dàng, nhanh chóng.

Bước 3: Deskew - Chỉnh nghiêng

alt

Deskew - Chỉnh thẳng ảnh, là một trong những khâu khá quan trọng trong công tác số hóa, xử lý tài liệu số hóa, bước này sẽ xử lý những trang bị nghiêng trong quá trình scan.

Hiện nay các phần mềm đi kèm các máy scan hiện đại, hoặc các máy scan dạng robot cũng đã có hỗ trợ tính năng này ngay trong quá trình scan/chụp ảnh. Tuy nhiên nếu phần mềm máy scan của bạn không hỗ trợ hoặc bạn chụp ảnh bằng kỹ thuật số thông thường thì việc thực hiện tính năng này là hết sức cần thiết.

Ở công đoạn này, bạn có thể ra lệnh cho máy thực hiện tự động cho tất cả các trang, tuy nhiên, nếu máy chỉnh chưa thẳng, bạn hoàn toàn có thể điều chỉnh bằng tay, rất trực quan và dễ dàng bằng cách bấm và giữ trái chuột vào một trong hai điểm đánh dấu vòng tròn phân giữa trang xoay theo ý bạn.

Bước 4: Select Content - Chọn vùng nội dung

alt

Một trong những tính năng quan trọng và cực kỳ hiệu quả của Scan Tailor là tự động nhận dạng được vùng nội dung của trang sách, tính năng này giúp nhận diện, gợi ý vùng nội dung sẽ được lấy, hỗ trợ phần xác định lề, tái tạo lại trang ở phần sau. Vùng được gợi ý này thường có màu xanh để phân biệt với vùng lề, thường là màu trắng hoặc khác với màu chữ.

Như đã nói ở trên, công việc này là hoàn toàn tự động cho tất cả các trang, tuy nhiên nếu máy không nhận dạng đúng vùng nội dung, bạn hoàn toàn có thể điều chỉnh lại bằng cách đưa con trỏ chuột vào đường biên của vùng màu xanh, khi con trỏ chuột xuất hiện mũi tên hai chiều, nhấn giữ trái chuột và kéo đến vị trí cần lấy.

Trong một số trường hợp, chương trình có thể nhận sai vùng nội dung, bạn có thể xóa bỏ vùng đó bằng cách nhấn chuột phải vào vùng đó và chọn Remove Content Box.

Bước 5: Margins - Chỉnh lề

alt

alt

Ở khâu này, bạn cần xác định lề trên/ dưới/ trái/ phải cần lấy bằng cách điều chỉnh thông số margins, vùng sẽ được thêm vào khi quá trình Output thực hiện (sản phẩm đầu ra).

Cũng giống như Select Content phần lề được đánh dấu bằng màu xanh. Đây là tính năng rất hay, cho phép bạn tái tạo lại trang theo yêu cầu của bạn. Tính năng này hiệu quả hơn, nếu bạn xuất dữ liệu ra theo chế độ đen-trắng (black and white).

• Lề cứng: Là khoảng giữa hai vùng có đường viền vạch liền, đường viền này sẽ cố định giữ nguyên khi trang được xuất ra.

• Lề mềm: Là khoảng giữa hai vùng có đường viền liền nhau và đường viền vạch đứt, đường viền này sẽ được thêm vào trang khi được xuất ra.

Bước 6: Output - Xuất dữ liệu đầu ra

alt

Công đoạn cuối cùng là Xuất dữ liệu đầu ra, chất lượng của giai đoạn này phụ thuộc vào các công đoạn trước đó, khẳng định đầu ra có phù hợp với yêu cầu của bạn hay không.

Kết quả của công đoạn này được xuất hiện ngay trên màn hình hiển thị khung giữa chương trình, đồng thời nó được lưu ngay vào máy tính của bạn trong thư mục OUT là thư mục con của thư mục chứa tệp bạn đã scan.

Không giống như các công đoạn khác, công đoạn này yêu cầu bạn phải thực hiện hoàn chỉnh từ trang đầu đến trang cuối khâu "Lựa chọn nội dung - Select Content" và khâu "Căn lề - Margins". Điều này đảm bảo tính đồng nhất trên tất cả các trang trong một cuốn sách.

Trong công đoạn này bạn cần xác định chế độ (mode) đầu ra cho sản phẩm cuối cùng của mình, mặc định chương trình để chế độ Đen-Trắng (Black and White), bạn có thể chuyển chế độ Màu/Xám (Color/Grayscale) hoặc chế độ Hỗn hợp (Mixed) nếu muốn.

• Chế độ Đen-Trắng: Nếu cuốn sách hoặc trang sách của bạn không chứa ảnh, đồ thị, đồ họa, hình vẽ có phân biệt màu sắc, bạn nên chọn đầu ra cho sản phẩm của mình là Đen-Trắng.

• Chế độ Màu/Xám: Nếu yêu cầu của bạn bắt buộc phải ở chế độ Màu hoặc Xám thì lựa chọn này phù hợp với bạn, tuy nhiên trong quá trình điều chỉnh lề (margins), bạn phải quyết định chính xác lề mềm và lề cứng. Theo kinh nghiệm của tác giả, bạn không nên chọn lề mềm trong trường hợp này vì lề mềm sẽ thêm vào trang một vùng mà vùng đó là màu trắng, do vậy trang sẽ không đẹp và có thể bạn phải mất công cắt bỏ nó.

• Chế độ hỗn hợp: Trong trường hợp nếu trang sách của bạn có chứa ảnh, đồ họa, hình vẽ… mà bạn cần giữ các dạng đó nguyên bản là chế độ màu hoặc xám, còn lại dạng chữ là chế độ đen-trắng, thì bạn chọn chế độ này. Đây là tính năng rất hay và hiệu quả.

Về độ phân giải, mặc định chương trình là 600dpi, nhưng tùy theo yêu cầu, bạn có thể thay đổi.

6. Các vấn đề cần lưu ý

- Tất cả các bước đều có thể làm hàng loạt (batch processing) mà bạn không phải làm bằng tay từng trang một. Để kích hoạt tính năng hàng loạt, bạn kích chọn biểu tượng bên cạnh mỗi bước, sau khi kích chọn, bạn hãy đợi cho đến khi chương trình hoàn thành thì chuyển sang các bước tiếp theo.

- Chương trình chỉ xuất dữ liệu ra theo định dạng tiff, ở các chế độ: Đen-Trắng (black and white) nén với chuẩn TifG4Fax, còn đối với chế độ Màu/Xám (Color/Gray) và Mixed nén với chuẩn LZW, cả hai chuẩn G4Fax và LZW đều là chuẩn nén không giảm chất lượng. Từ định dạng tiff này, bạn có thể chuyển đổi sang PDF, tạo ebook một cách dễ dàng, nhanh chóng.

- Phần lớn các công đoạn bạn có thể sử dụng tính năng áp dụng cho toàn bộ các trang hoặc chỉ riêng trang bạn đang chọn bằng các lựa chọn Ấn định - Apply to…. (Chỉ trang này - This page only hoặc Toàn bộ các trang - All pages)

7. Kết luận

Qua nhiều năm sử dụng từ năm 2007 đến nay, ngay khi phần mềm mới ra đời, cộng với việc thử nghiệm và sử dụng nhiều phần mềm miễn phí hoặc thương mại, tác giả đánh giá đây là phần mềm miễn phí tốt nhất, phù hợp nhất trong việc xử lý ảnh số sau scan, đáp ứng đầy đủ các yêu cầu cần có trong một phần mềm duy nhất, điều mà trước đây cần nhiều phần mềm khác nhau để xử lý cho từng công đoạn. Đối với các đơn vị, cá nhân không có nhiều kinh phí chỉ cần sử dụng các máy scan thông thường, hoặc máy ảnh kỹ thuật số là đã có thể số hóa tài liệu, đáp ứng nhu cầu một cách hợp lý nhất.

_________

ThS. Lê Đức Thắng

Thư viện Quốc gia Việt Nam

Nguồn: Tạp chí Thư viện Việt Nam. - 2013. - Số 4. - Tr. 37-40.


Đọc thêm cùng chuyên mục: