এটি কি স্ক্যান করা PDF-গুলোর উপর কাজ করে?

না। স্ক্যান করা PDF-গুলো টেক্সটের ইমেজ; নিজে টেক্সট নয়, তাই PDF.js-এর কাছে বের করার মতো কিছু থাকে না। প্রথমে এগুলো একটি OCR টুলে চালান, তারপর ফিরে আসুন।

টেক্সট কি সঠিকভাবে পড়ার ক্রমে থাকবে?

বেশিরভাগ ক্ষেত্রে হ্যাঁ - আমরা আইটেমগুলোকে Y অবস্থান অনুযায়ী সাজাই, তাই পাতার উপরের লাইনেরা প্রথম আসে। বহু-কলাম লেআউট কখনও কখনও মিশে যেতে পারে, বিশেষত জটিল ম্যাগাজিন-স্টাইল PDF-গুলিতে।

পৃষ্ঠা-বিরতিগুলো কি সংরক্ষিত থাকে?

প্রতিটি পৃষ্ঠার লেখা "--- page break ---" মার্কার দ্বারা আলাদা করা থাকে যাতে আপনি আউটপুট সহজেই ভাগ বা খণ্ডন করে দেখতে পারেন.

টেবিলগুলো কি পাঠযোগ্য থাকবে?

কোষগুলো টেক্সট হিসেবে বের করা হয় কিন্তু স্পেসিং পরিবর্তিত হতে পারে। টেবিলাকৃত ডেটার জন্য, ডেস্কটপ টুল দিয়ে PDF কে Excel-এ এক্সপোর্ট করলে কলামগুলো পরিষ্কার হবে।

PDF কি কোথাও আপলোড করা হয়েছে?

না। এক্সট্র্যাকশন সম্পূর্ণরূপে আপনার ব্রাউজারে চলে। PDF কখনই আপনার ডিভাইস ছাড়া যায় না।

আমি কি বলতে পারি আমার PDF স্ক্যান করা হয়েছে নাকি টেক্সট-নেটিভ?

এটি যেকোনো ভিউয়ারে খুলুন এবং আপনার মাউস দিয়ে একটি বাক্য নির্বাচন করার চেষ্টা করুন। যদি নির্বাচন শব্দগুলি ধরে, তবে এটি টেক্সট-নেটিভ এবং এই টুলটি কাজ করে। যদি এটি একটি ছবির চারপাশে একটি আয়তক্ষেত্র ধরে, তবে এটি স্ক্যান করা হয়েছে এবং আপনার প্রথমে OCR প্রয়োজন।

আউটপুট কোন ক্যারেক্টার এনকোডিং ব্যবহার করে?

UTF-8। বিশেষ অক্ষর, অ্যাকসেন্ট এবং অ-ল্যাটিন স্ক্রিপ্টগুলি সঠিকভাবে আসে যদি পিডিএফ-এর টেক্সট লেয়ার সুগঠিত হয়।

হেডার, ফুটার এবং পৃষ্ঠা নম্বর অন্তর্ভুক্ত করা হয়েছে কি?

হ্যাঁ - আমরা টেক্সট লেয়ারে চলমান হেডার এবং ফুটার সহ সবকিছু বের করি। প্রয়োজনে পরে আপনার এডিটরে সেগুলি পরিষ্কার করুন।

এটি কি বহু-কলামের একাডেমিক পেপারগুলি পরিচালনা করে?

বেশিরভাগ ক্ষেত্রে। আমরা উল্লম্ব অবস্থান অনুসারে টেক্সট সাজাই, যা পরিষ্কার দুই-কলামের পেপারগুলির জন্য কাজ করে। জটিল লেআউটগুলি (সাইডবার, কলআউট বক্স, বডি টেক্সটের সাথে চিত্র ক্যাপশন) এলোমেলো টেক্সট তৈরি করতে পারে।

এটি একটি PDF রিডার থেকে কপি-পেস্ট করার সাথে কীভাবে তুলনা করা হয়?

একই অন্তর্নিহিত প্রক্রিয়া (PDF টেক্সট লেয়ার), কিন্তু এই পৃষ্ঠাটি পৃষ্ঠা ধরে ধরে না করে এক ক্লিকে বহু-পৃষ্ঠা নিষ্কাশন পরিচালনা করে। আউটপুটে স্পষ্ট পৃষ্ঠা-ব্রেক মার্কারও থাকে যা আপনার রিডার দেখায় না।

Subformer

সাইন ইন

বিনামূল্যে · সাইনআপ নেই · আপনার ব্রাউজারে চলে

PDF

TXT

PDF থেকে TXT রূপান্তরকারী

আপনার ব্রাউজারে একটি PDF থেকে সাধারণ টেক্সট বের করুন - অনুসন্ধান, উদ্ধৃতি বা AI টুলে পাঠানোর জন্য উপযুক্ত. কোনো আপলোড নয়.

এক বা একাধিক ড্রপ করুন - সব TXT-এ রূপান্তরিত হবে। প্রতি-সারি অগ্রগতি, ব্যাচ রূপান্তর, জিপ ডাউনলোড।

কেন PDF থেকে TXT এ রূপান্তর করবেন?

যখন আপনি লেআউট নয়, কেবল শব্দগুলো চান তখন PDF থেকে TXT-এ যাওয়া আপনার জন্য উপযুক্ত. গবেষকরা যারা পেপার থেকে উদ্ধৃতি নেন, ছাত্রছাত্রীরা যারা পাঠ্যপুস্তক থেকে নোট প্রস্তুত করেন, বা যে কেউ একটি বড় PDF ChatGPT বা সার্চ ইনডেক্সে দিচ্ছে — তাদের সবারই শুধু টেক্সটই দরকার. ম্যানুয়ালি এটা বের করার মানে পৃষ্ঠা ও পৃষ্ঠা কপি-পেস্ট করা; এটি এক ক্লিকে করে দেয়.

এক্সট্র্যাকশনটি লোকালি Mozilla's PDF.js ইঞ্জিনের মাধ্যমে চলে: আমরা প্রতিটি পৃষ্ঠার টেক্সট লেয়ারটি (ওই একইটি যা আপনার PDF ভিউয়ার সিলেক্ট-এন্ড-কপি করার জন্য ব্যবহার করে) পড়ি এবং পেজ ব্রেকসহ একত্র করি. যেসব PDF তাদের কনটেন্ট স্ক্যান করা ছবিরূপে সংরক্ষণ করে সেগুলো থেকে টেক্সট পাওয়া যাবে না - সেগুলোর জন্য OCR দরকার, যা একটি আলাদা ওয়ার্কফ্লো. সবকিছুই আপনার ব্রাউজারে ঘটে; কোনো PDF আপলোড করা হয় না.

২০২৫ সালের বড় ব্যবহারের ক্ষেত্র হল এআই ইনপুট প্রস্তুতি। এলএলএমগুলি পাঠ্য সংক্ষিপ্তকরণে চমৎকার কিন্তু কাঁচা পিডিএফগুলিতে আটকে যায় (তাদের প্রথমে ফাইল ফর্ম্যাট ডিকোড করতে হয়, যা প্রায়শই ভুল তথ্য দেয় বা বিষয়বস্তু বাদ দেয়)। প্লেইন টেক্সটে প্রি-এক্সট্র্যাক্ট করলে মডেলটি পৃষ্ঠার শব্দগুলি ঠিক যে ক্রমে প্রদর্শিত হয় সেই ক্রমে পায়, যা নাটকীয়ভাবে উন্নত সারাংশ, প্রশ্নোত্তর এবং বিশ্লেষণ তৈরি করে। আপনি যদি নিয়মিতভাবে ChatGPT বা Claude-কে গবেষণা পত্র, আইনি নথি বা আর্থিক ফাইল জমা দেন, তাহলে এটি সবচেয়ে পরিষ্কার পাইপলাইন।

একাডেমিক এবং আইনি কর্মপ্রবাহ হল অন্য প্রধান ক্ষেত্র। গবেষকরা অনুচ্ছেদ উদ্ধৃত করে গবেষণাপত্র উল্লেখ করেন; সবচেয়ে সহজ পথ হল "টেক্সটে এক্সট্র্যাক্ট করুন, কীওয়ার্ডের জন্য grep করুন, আশেপাশের অনুচ্ছেদ কপি করুন"। প্যারালেগাল এবং আইনজীবীরা চুক্তি এবং কেস ফাইলের জন্য একই রকম কিছু করেন। টেক্সট-এক্সট্র্যাকশন ধাপ ফরম্যাটিং এবং লেআউট গোলমাল সরিয়ে দেয় যাতে প্লেইন-টেক্সট টুল (grep, ripgrep, একটি এডিটরের ফাইন্ড ফিচার) তাদের উদ্দেশ্য অনুযায়ী কাজ করে।

কী ভালোভাবে এক্সট্র্যাক্ট হবে না সে সম্পর্কে একটি নোট: স্ক্যান করা ডকুমেন্ট (শুধু টেক্সটের ছবি - OCR প্রয়োজন), কপি-সুরক্ষিত PDF (বিরল কিন্তু বিদ্যমান - কিছু প্রকাশক "নো কপি" PDF পাঠান), এম্বেডেড ফন্ট সহ PDF যা কাস্টম গ্লিফ ম্যাপিং ব্যবহার করে (কিছু এশীয়-ভাষার PDF, কিছু গণিত-ভারী একাডেমিক PDF - দৃশ্যমান টেক্সট স্ট্যান্ডার্ড ইউনিকোডে ফিরে ম্যাপ করে না)। ভোক্তা এবং ব্যবসায়িক PDF গুলিতে সাফল্যের হার প্রায় 100%; একাডেমিক এবং সরকারি PDF গুলিতে এটি প্রায় 95%। চেষ্টা করে দেখুন - সবচেয়ে খারাপ ক্ষেত্রে খালি আউটপুট, কোনো ক্ষতি নেই।

সাধারণ PDF থেকে TXT ব্যবহারের ক্ষেত্র

ChatGPT বা Claude-কে PDF সরবরাহ করা
LLM গুলি কাঁচা PDF আপলোডের চেয়ে প্লেইন টেক্সট অনেক ভালোভাবে হ্যান্ডেল করে। প্রথমে এক্সট্র্যাক্ট করুন, তারপর টেক্সটটি একটি চ্যাটে পেস্ট করুন বা সারসংক্ষেপ, প্রশ্ন-উত্তর বা বিশ্লেষণের জন্য API এর মাধ্যমে পাঠান।
একাডেমিক উদ্ধৃতি সংগ্রহ
গবেষকরা কীওয়ার্ডের জন্য নিষ্কাশিত টেক্সট grep করেন, তারপর আশেপাশের অনুচ্ছেদটি উদ্ধৃতি হিসাবে কপি করেন। একটি PDF রিডার পৃষ্ঠা ধরে ধরে স্ক্রল করার চেয়ে দ্রুত।
আইনি চুক্তি পর্যালোচনা
প্যারালেগালরা দীর্ঘ চুক্তি জুড়ে নির্দিষ্ট ধারা বা সংখ্যা অনুসন্ধান করে। প্লেইন টেক্সট গ্রেপেবল; PDF খুব কমই হয়।
একটি সার্চ সিস্টেমে PDF ইনডেক্স করা
Elasticsearch, Algolia, এবং Postgres ফুল-টেক্সট সার্চ সবই প্লেইন টেক্সট ব্যবহার করে। একবার এক্সট্র্যাক্ট করুন, চিরতরে ইনডেক্স করুন।
প্রশিক্ষণ ডেটাসেট তৈরি করা
ডকুমেন্টগুলিতে ফাইন-টিউন করা ML পাইপলাইনগুলির জন্য কাঁচা টেক্সট প্রয়োজন। ভিজ্যুয়াল স্টাইলিং সরিয়ে দিন যাতে মডেলটি কেবল শব্দগুলি দেখতে পায়।
অ্যাক্সেসিবিলিটি পুনরায় ফরম্যাটিং
কিছু স্ক্রিন রিডার PDF এর সাথে সংগ্রাম করে কিন্তু প্লেইন টেক্সট বা HTML মসৃণভাবে পরিচালনা করে। প্রথমে এক্সট্র্যাক্ট করুন, তারপর পড়ার জন্য পুনরায় স্টাইল করুন।

PDF

PDF সম্পর্কে

PDF হচ্ছে সার্বজনীন ডকুমেন্ট ফরম্যাট - প্রতিটি ডিভাইসে একই দেখায়, নির্ভরযোগ্যভাবে প্রিন্ট হয়, এবং লেআউট স্থিতিশীল রেখে ইমেজ শেয়ার করার প্রচলিত উপায়।

TXT

TXT সম্পর্কে

কোনও ফরম্যাটিং নেই এমন একটি সাধারণ UTF-8 টেক্সট ফাইল। প্রতিটি ডিভাইসের প্রতিটি এডিটরে খুলে। অন্যান্য টুলে পাইপ করার, grep-যোগ্য সার্চ, এবং LLM-এ খাওয়ানোর জন্য উপযুক্ত।

কিভাবে PDF থেকে TXT এ রূপান্তর করবেন

01
আপনার PDF ফাইলটি ছেড়ে দিন
উপরের কনভার্টারের উপর একটি PDF টেনে আনুন, অথবা আপনার ডিভাইস থেকে একটি পছন্দ করতে বক্সটিতে ক্লিক করুন.
02
TXT ইতিমধ্যেই নির্বাচিত
আমরা আউটপুট ফরম্যাট হিসেবে TXT পূর্বনির্ধারিত করেছি. যদি আপনি ভিন্ন লক্ষ্য চান তবে ড্রপডাউন থেকে এটি পরিবর্তন করুন.
03
রূপান্তর করে ডাউনলোড
Convert এ ক্লিক করুন এবং প্রগ্রেস বার শেষ হওয়া পর্যন্ত অপেক্ষা করুন। TXT যখন প্রস্তুত হবে তখন তা ডাউনলোড করুন।

PDF থেকে TXT প্রশ্নোত্তর

সমস্ত ফরম্যাট দেখুন →

PDF থেকে TXT রূপান্তরকারী

কেন PDF থেকে TXT এ রূপান্তর করবেন?

সাধারণ PDF থেকে TXT ব্যবহারের ক্ষেত্র

ChatGPT বা Claude-কে PDF সরবরাহ করা

একাডেমিক উদ্ধৃতি সংগ্রহ

আইনি চুক্তি পর্যালোচনা

একটি সার্চ সিস্টেমে PDF ইনডেক্স করা

প্রশিক্ষণ ডেটাসেট তৈরি করা

অ্যাক্সেসিবিলিটি পুনরায় ফরম্যাটিং

PDF সম্পর্কে

TXT সম্পর্কে

কিভাবে PDF থেকে TXT এ রূপান্তর করবেন

আপনার PDF ফাইলটি ছেড়ে দিন

TXT ইতিমধ্যেই নির্বাচিত

রূপান্তর করে ডাউনলোড

PDF থেকে TXT প্রশ্নোত্তর

PDF থেকে JPG রূপান্তরকারী

PDF থেকে PNG রূপান্তরকারী

TXT থেকে PDF রূপান্তরকারী

কেন PDF থেকে TXT এ রূপান্তর করবেন?

সাধারণ PDF থেকে TXT ব্যবহারের ক্ষেত্র

ChatGPT বা Claude-কে PDF সরবরাহ করা

একাডেমিক উদ্ধৃতি সংগ্রহ

আইনি চুক্তি পর্যালোচনা

একটি সার্চ সিস্টেমে PDF ইনডেক্স করা

প্রশিক্ষণ ডেটাসেট তৈরি করা

অ্যাক্সেসিবিলিটি পুনরায় ফরম্যাটিং

PDF সম্পর্কে

TXT সম্পর্কে

কিভাবে PDF থেকে TXT এ রূপান্তর করবেন

আপনার PDF ফাইলটি ছেড়ে দিন

TXT ইতিমধ্যেই নির্বাচিত

রূপান্তর করে ডাউনলোড

PDF থেকে TXT প্রশ্নোত্তর

এটি কি স্ক্যান করা PDF-গুলোর উপর কাজ করে?

টেক্সট কি সঠিকভাবে পড়ার ক্রমে থাকবে?

পৃষ্ঠা-বিরতিগুলো কি সংরক্ষিত থাকে?

টেবিলগুলো কি পাঠযোগ্য থাকবে?

PDF কি কোথাও আপলোড করা হয়েছে?

আমি কি বলতে পারি আমার PDF স্ক্যান করা হয়েছে নাকি টেক্সট-নেটিভ?

আউটপুট কোন ক্যারেক্টার এনকোডিং ব্যবহার করে?

হেডার, ফুটার এবং পৃষ্ঠা নম্বর অন্তর্ভুক্ত করা হয়েছে কি?

এটি কি বহু-কলামের একাডেমিক পেপারগুলি পরিচালনা করে?

এটি একটি PDF রিডার থেকে কপি-পেস্ট করার সাথে কীভাবে তুলনা করা হয়?

সম্পর্কিত রূপান্তর

PDF থেকে JPG রূপান্তরকারী

PDF থেকে PNG রূপান্তরকারী

TXT থেকে PDF রূপান্তরকারী