Text Mining Tool

Biến hóa định dạng file văn bản PDF
Để trích xuất hay sao chép nội dung từ file định dạng pdf, bạn sẽ cần phải nhờ đến các công cụ chuyên dụng,nhưng phần lớn trong số chúng lại là các tiện ích có thu phí và thường rất phức tạp. Tuy nhiên, với Text-Mining-Tool, mọi chuyện lại đơn giản hơn rất nhiều.
Thông thường, các file định dạng PDF sẽ không cho phép bạn chỉnh sửa hay trích dẫn cũng như sao chép nội dung trong file. Do đó, trong trường hợp bạn cần trích xuất 1 đoạn nội dung trong file hay chuyển đổi file sang các định dạng văn bản khác như .doc,. txt hay rtf… thì Text-Mining-Tool sẽ là lựa chọn thích hợp.


Text-Mining-Tool là tiện ích miễn phí, cho phép bạn xem và trích xuất nội dung từ các file văn bản như pdf, doc, rtf.. mà không yêu cầu cài đặt bất kỳ chương trình đọc file nào. Bạn có thể download chương trình tại đây (sau khi giải nén, bạn kích hoạt file TextMiningTool.exe để sử dụng ngay mà không cần cài đặt). Chương trình yêu cầu máy tính của bạn phải có .NET Framework 2.0, download tại đây.

Chương trình có giao diện đơn giản và rất dễ sử dụng. Tại giao diện chính, kích vào Open, chọn file mà bạn muốn chuyển đọc hay trích xuất nội dung. Bây giờ, cửa sổ chính của chương trình sẽ hiển thị toàn bộ nội dung của file mà bạn đã chọn.

 
Để trích xuất 1 đoạn nội dung, bạn bôi đen đoạn nội dung đó, nhấn tổ hợp phím Ctrl - C để copy vào clipboard, mở chương trình soạn thảo bất kỳ và nhấn Ctrl - V để dán đoạn nội dung vừa sao chép. Trong trường hợp muốn copy toàn bộ nội dung của file được mở, bạn click vào nút ClipBoard trên thanh menu rồi mở chương trình soạn thảo văn bản để dán toàn bộ nội dung vừa sao chép.

Ngoài ra, nếu muốn chuyển đổi file sang 1 định dạng mới, bạn click vào nút Save trên thanh Menu. Cửa sổ lưu file hiện ra, bạn đặt tên file mới vào mục File name kèm theo phần mở rộng của định dạng file. Chẳng hạn bạn muốn chuyển đổi 1 file pdf sang file văn bản của Microsft Word, bạn click Open để chọn file pdf, click Save và đặt tên file kèm theo .doc tại mục File name.


Chúng ta có thể dễ dàng nhận ra điểm hạn chế của chương trình ở đây đó là không cho phép bạn chọn định dạng văn bản sẵn có lúc save mà phải tự mình chọn định dạng tương ứng. Điều này sẽ hơi khó khăn cho những ai không nắm rõ về các định dạng file. Ngoài ra, 1 điểm hạn chế nữa của chương trình đó là không thể hiển thị các hình ảnh có trong nội dung của văn bản, bất kể là văn bản với định dạng file nào.

Tuy nhiên, cần phải thừa nhận rằng chương trình này đơn giản và rất dễ sử dụng. Hy vọng với sự giúp đỡ của Text-Mining-Tool, bạn sẽ không còn phải gặp khó khăn khi cần trích xuất nội dung từ những văn bản định dạng pdf. Ngoài ra, chương trình còn giúp bạn dễ dàng đọc file mà không cần phải cài đặt thêm bất kỳ chương trình đọc file nào khác.

(Dân Trí)

9 comments: