Trích đoạn đối thoại dưới dạng văn bản thuần từ file phụ đề WebVTT - bản ghi sạch, không có dấu thời gian, không có siêu dữ liệu.
Các file WebVTT thường xuất trực tiếp từ phụ đề tự động của YouTube, tải xuống từ streaming, hoặc công cụ video web. Chúng phù hợp cho phát lại nhưng lộn xộn khi đọc: một header WEBVTT, các khối NOTE tùy chọn, định nghĩa STYLE, mô tả vùng và các định danh cho từng cue đều làm rối phần lời thoại thực tế. Trang này loại bỏ tất cả chúng và chỉ giữ lại từ ngữ.
Chúng tôi phân tích VTT, loại bỏ các phần header / NOTE / STYLE / REGION, sau đó duyệt từng cue và bỏ các dòng dấu thời gian. Phần còn lại là lời thoại, được giữ theo thứ tự cue. Tiện cho các quy trình tóm tắt bằng AI, bản nháp transcript cho blog, và nhập vào công cụ viết kịch bản hoặc ghi chú. Mọi thứ chạy trong trình duyệt của bạn; không có VTT nào được tải lên.
WebVTT (.vtt) là định dạng phụ đề hiện đại được sử dụng bởi video HTML5, YouTube và các nền tảng streaming. Hỗ trợ styling, regions và metadata mà SRT không thể mang.
Một tệp văn bản thuần UTF-8 không có định dạng. Mở được trong mọi trình soạn thảo trên mọi thiết bị. Hoàn hảo để đưa vào các công cụ khác, tìm kiếm bằng grep và đưa vào các LLM.
Kéo một VTT vào bộ chuyển đổi phía trên, hoặc nhấp vào ô để chọn một tệp từ thiết bị của bạn.
Chúng tôi đã chọn trước TXT làm định dạng xuất. Thay đổi nó từ menu thả xuống nếu bạn muốn mục tiêu khác.
Nhấp vào Chuyển đổi và chờ thanh tiến trình kết thúc. Tải xuống TXT khi nó sẵn sàng.
Loại bỏ số hiệu cue và dấu thời gian khỏi tệp SRT để chỉ lấy phần đối thoại dưới dạng văn bản thuần - hoàn hảo cho bản chép lời.
Chuyển phụ đề WebVTT sang SRT - định dạng mà mọi trình phát và trình chỉnh sửa video trên hành tinh này đều hiểu.
Trích xuất văn bản thuần từ PDF ngay trong trình duyệt của bạn - lý tưởng cho việc tìm kiếm, trích dẫn, hoặc đưa vào các công cụ AI. Không cần tải lên.