আপনার ব্রাউজারে একটি PDF থেকে সাধারণ টেক্সট বের করুন - অনুসন্ধান, উদ্ধৃতি বা AI টুলে পাঠানোর জন্য উপযুক্ত. কোনো আপলোড নয়.
এক বা একাধিক ড্রপ করুন - সব TXT-এ রূপান্তরিত হবে। প্রতি-সারি অগ্রগতি, ব্যাচ রূপান্তর, জিপ ডাউনলোড।
যখন আপনি লেআউট নয়, কেবল শব্দগুলো চান তখন PDF থেকে TXT-এ যাওয়া আপনার জন্য উপযুক্ত. গবেষকরা যারা পেপার থেকে উদ্ধৃতি নেন, ছাত্রছাত্রীরা যারা পাঠ্যপুস্তক থেকে নোট প্রস্তুত করেন, বা যে কেউ একটি বড় PDF ChatGPT বা সার্চ ইনডেক্সে দিচ্ছে — তাদের সবারই শুধু টেক্সটই দরকার. ম্যানুয়ালি এটা বের করার মানে পৃষ্ঠা ও পৃষ্ঠা কপি-পেস্ট করা; এটি এক ক্লিকে করে দেয়.
এক্সট্র্যাকশনটি লোকালি Mozilla's PDF.js ইঞ্জিনের মাধ্যমে চলে: আমরা প্রতিটি পৃষ্ঠার টেক্সট লেয়ারটি (ওই একইটি যা আপনার PDF ভিউয়ার সিলেক্ট-এন্ড-কপি করার জন্য ব্যবহার করে) পড়ি এবং পেজ ব্রেকসহ একত্র করি. যেসব PDF তাদের কনটেন্ট স্ক্যান করা ছবিরূপে সংরক্ষণ করে সেগুলো থেকে টেক্সট পাওয়া যাবে না - সেগুলোর জন্য OCR দরকার, যা একটি আলাদা ওয়ার্কফ্লো. সবকিছুই আপনার ব্রাউজারে ঘটে; কোনো PDF আপলোড করা হয় না.
২০২৫ সালের বড় ব্যবহারের ক্ষেত্র হল এআই ইনপুট প্রস্তুতি। এলএলএমগুলি পাঠ্য সংক্ষিপ্তকরণে চমৎকার কিন্তু কাঁচা পিডিএফগুলিতে আটকে যায় (তাদের প্রথমে ফাইল ফর্ম্যাট ডিকোড করতে হয়, যা প্রায়শই ভুল তথ্য দেয় বা বিষয়বস্তু বাদ দেয়)। প্লেইন টেক্সটে প্রি-এক্সট্র্যাক্ট করলে মডেলটি পৃষ্ঠার শব্দগুলি ঠিক যে ক্রমে প্রদর্শিত হয় সেই ক্রমে পায়, যা নাটকীয়ভাবে উন্নত সারাংশ, প্রশ্নোত্তর এবং বিশ্লেষণ তৈরি করে। আপনি যদি নিয়মিতভাবে ChatGPT বা Claude-কে গবেষণা পত্র, আইনি নথি বা আর্থিক ফাইল জমা দেন, তাহলে এটি সবচেয়ে পরিষ্কার পাইপলাইন।
একাডেমিক এবং আইনি কর্মপ্রবাহ হল অন্য প্রধান ক্ষেত্র। গবেষকরা অনুচ্ছেদ উদ্ধৃত করে গবেষণাপত্র উল্লেখ করেন; সবচেয়ে সহজ পথ হল "টেক্সটে এক্সট্র্যাক্ট করুন, কীওয়ার্ডের জন্য grep করুন, আশেপাশের অনুচ্ছেদ কপি করুন"। প্যারালেগাল এবং আইনজীবীরা চুক্তি এবং কেস ফাইলের জন্য একই রকম কিছু করেন। টেক্সট-এক্সট্র্যাকশন ধাপ ফরম্যাটিং এবং লেআউট গোলমাল সরিয়ে দেয় যাতে প্লেইন-টেক্সট টুল (grep, ripgrep, একটি এডিটরের ফাইন্ড ফিচার) তাদের উদ্দেশ্য অনুযায়ী কাজ করে।
কী ভালোভাবে এক্সট্র্যাক্ট হবে না সে সম্পর্কে একটি নোট: স্ক্যান করা ডকুমেন্ট (শুধু টেক্সটের ছবি - OCR প্রয়োজন), কপি-সুরক্ষিত PDF (বিরল কিন্তু বিদ্যমান - কিছু প্রকাশক "নো কপি" PDF পাঠান), এম্বেডেড ফন্ট সহ PDF যা কাস্টম গ্লিফ ম্যাপিং ব্যবহার করে (কিছু এশীয়-ভাষার PDF, কিছু গণিত-ভারী একাডেমিক PDF - দৃশ্যমান টেক্সট স্ট্যান্ডার্ড ইউনিকোডে ফিরে ম্যাপ করে না)। ভোক্তা এবং ব্যবসায়িক PDF গুলিতে সাফল্যের হার প্রায় 100%; একাডেমিক এবং সরকারি PDF গুলিতে এটি প্রায় 95%। চেষ্টা করে দেখুন - সবচেয়ে খারাপ ক্ষেত্রে খালি আউটপুট, কোনো ক্ষতি নেই।
LLM গুলি কাঁচা PDF আপলোডের চেয়ে প্লেইন টেক্সট অনেক ভালোভাবে হ্যান্ডেল করে। প্রথমে এক্সট্র্যাক্ট করুন, তারপর টেক্সটটি একটি চ্যাটে পেস্ট করুন বা সারসংক্ষেপ, প্রশ্ন-উত্তর বা বিশ্লেষণের জন্য API এর মাধ্যমে পাঠান।
গবেষকরা কীওয়ার্ডের জন্য নিষ্কাশিত টেক্সট grep করেন, তারপর আশেপাশের অনুচ্ছেদটি উদ্ধৃতি হিসাবে কপি করেন। একটি PDF রিডার পৃষ্ঠা ধরে ধরে স্ক্রল করার চেয়ে দ্রুত।
প্যারালেগালরা দীর্ঘ চুক্তি জুড়ে নির্দিষ্ট ধারা বা সংখ্যা অনুসন্ধান করে। প্লেইন টেক্সট গ্রেপেবল; PDF খুব কমই হয়।
Elasticsearch, Algolia, এবং Postgres ফুল-টেক্সট সার্চ সবই প্লেইন টেক্সট ব্যবহার করে। একবার এক্সট্র্যাক্ট করুন, চিরতরে ইনডেক্স করুন।
ডকুমেন্টগুলিতে ফাইন-টিউন করা ML পাইপলাইনগুলির জন্য কাঁচা টেক্সট প্রয়োজন। ভিজ্যুয়াল স্টাইলিং সরিয়ে দিন যাতে মডেলটি কেবল শব্দগুলি দেখতে পায়।
কিছু স্ক্রিন রিডার PDF এর সাথে সংগ্রাম করে কিন্তু প্লেইন টেক্সট বা HTML মসৃণভাবে পরিচালনা করে। প্রথমে এক্সট্র্যাক্ট করুন, তারপর পড়ার জন্য পুনরায় স্টাইল করুন।
PDF হচ্ছে সার্বজনীন ডকুমেন্ট ফরম্যাট - প্রতিটি ডিভাইসে একই দেখায়, নির্ভরযোগ্যভাবে প্রিন্ট হয়, এবং লেআউট স্থিতিশীল রেখে ইমেজ শেয়ার করার প্রচলিত উপায়।
কোনও ফরম্যাটিং নেই এমন একটি সাধারণ UTF-8 টেক্সট ফাইল। প্রতিটি ডিভাইসের প্রতিটি এডিটরে খুলে। অন্যান্য টুলে পাইপ করার, grep-যোগ্য সার্চ, এবং LLM-এ খাওয়ানোর জন্য উপযুক্ত।
উপরের কনভার্টারের উপর একটি PDF টেনে আনুন, অথবা আপনার ডিভাইস থেকে একটি পছন্দ করতে বক্সটিতে ক্লিক করুন.
আমরা আউটপুট ফরম্যাট হিসেবে TXT পূর্বনির্ধারিত করেছি. যদি আপনি ভিন্ন লক্ষ্য চান তবে ড্রপডাউন থেকে এটি পরিবর্তন করুন.
Convert এ ক্লিক করুন এবং প্রগ্রেস বার শেষ হওয়া পর্যন্ত অপেক্ষা করুন। TXT যখন প্রস্তুত হবে তখন তা ডাউনলোড করুন।
একটি PDF-কে JPG ছবিতে রূপান্তর করুন - প্রতি পৃষ্ঠার জন্য একটি ছবি, বহু-পৃষ্ঠার PDF--এর জন্য ZIP-এ প্যাকেজ করা।
PDF পেজগুলোকে লসলেস PNG ছবিতে রেন্ডার করুন - ডায়াগ্রাম, স্লাইড, বা স্ক্রিনশট-স্টাইল পেজ শেয়ার করার জন্য উপযুক্ত.
একটি সাধারণ টেক্সট ফাইলকে সেকেন্ডের মধ্যে প্রিন্টযোগ্য PDF-এ রূপান্তর করুন - বিনামূল্যে, শুধুই ব্রাউজারে, সাইনআপের প্রয়োজন নেই।