CUDA কোর এবং টেনসর কোরের মধ্যে পার্থক্য কি? (ব্যাখ্যা করা) – সমস্ত পার্থক্য

01-08-202301-08-2023 Mary Davis

সুচিপত্র

CUDA এবং Tensor cores হল Nvidia নামক একটি কোম্পানির দ্বারা তৈরি পণ্য। তাহলে CUDA কোর এবং টেনসর কোর কি? CUDA মানে কম্পিউট ইউনিফাইড ডিভাইস আর্কিটেকচার। CUDA কোরগুলি আপনার GPU, স্মার্টফোন এবং এমনকি আপনার গাড়িতে উপস্থিত রয়েছে, যেমনটি Nvidia বিকাশকারীরা বলে।

CUDA কোর হল একটি সমান্তরাল কম্পিউটিং প্ল্যাটফর্ম এবং অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (API) যা সফ্টওয়্যারকে সাধারণ-উদ্দেশ্য প্রক্রিয়াকরণের জন্য নির্দিষ্ট ধরনের গ্রাফিক্স প্রসেসিং ইউনিট (GPUs) ব্যবহার করতে সক্ষম করে।

যেহেতু টেনসর কোর যা এনভিডিয়া দ্বারাও তৈরি করা হয়েছে, সেগুলিও জিপিইউতে ব্যবহার করা হয়৷ টেনসর কোরগুলি মিশ্র-নির্ভুলতা কম্পিউটিং সক্ষম করে, নির্ভুলতা বজায় রেখে থ্রুপুট বাড়ানোর জন্য গতিশীলভাবে গণনাকে অভিযোজিত করে।

সাধারণ কথায়, নির্দিষ্ট গণনা করার জন্য এই কোরগুলি আপনার পিসিতে থাকা GPU-গুলির একটি গুরুত্বপূর্ণ অংশ। CUDA কোর দুটি সংখ্যাকে গুণ করতে এবং তাদের অন্য সংখ্যায় যোগ করতে ব্যবহৃত হয়।

যেহেতু টেনসর কোর একই কিন্তু 4×4 ম্যাট্রিক্স সহ। এই গণনাগুলি মূলত আপনার জন্য দ্রুত গ্রাফিক্স রেন্ডার করছে।

CUDA কি?

সংক্ষিপ্ত CUDA-তে কম্পিউট ইউনিফাইড ডিভাইস আর্কিটেকচার যা 23 জুন, 2007 এ প্রকাশিত Nvidia দ্বারা তৈরি, একটি সমান্তরাল কম্পিউটিং প্ল্যাটফর্ম এবং অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (API)।

আরো দেখুন: ঢেউ খেলানো চুল এবং কোঁকড়া চুলের মধ্যে পার্থক্য কী? - সমস্ত পার্থক্য

এটি সাধারণ-উদ্দেশ্য প্রক্রিয়াকরণের জন্য নির্দিষ্ট ধরণের গ্রাফিক্স প্রসেসিং ইউনিট (GPUs) ব্যবহার করতে সফ্টওয়্যারকে সক্ষম করে, একটি পদ্ধতি যা সাধারণ-উদ্দেশ্য কম্পিউটিং নামে পরিচিতGPUs (GPU)।

CUDA হল একটি সফ্টওয়্যার স্তর যা GPU-এর ভার্চুয়াল নির্দেশ সেটে সরাসরি অ্যাক্সেস প্রদান করে এবং কম্পিউট কার্নেলগুলি সম্পাদনের জন্য সমান্তরাল কম্পিউটেশনাল উপাদানগুলি প্রদান করে৷ C, C++, এবং Fortran সহ বিভিন্ন প্রোগ্রামিং ভাষার সাথে কাজ করার জন্য CUDA তৈরি করা হয়েছিল।

বিভিন্ন প্রোগ্রামিং ভাষার সাথে কাজ করার ক্ষমতা সমান্তরাল প্রোগ্রামিং বিশেষজ্ঞদের জন্য GPU সংস্থানগুলি ব্যবহার করা সহজ করে তোলে যদি আমরা এটিকে পূর্বের API যেমন Direct3D বা OpenGL থেকে আলাদা করি, যার জন্য আপনাকে আরও উন্নত হতে হবে গ্রাফিকাল প্রোগ্রামিং দক্ষতা বেস.

CUDA সহ GPU প্রোগ্রামিং ফ্রেমওয়ার্ককেও সমর্থন করে, যেমন OpenMP, OpenACC, OpenCL, এবং এছাড়াও HIP যা এই ধরনের কোড CUDA-তে কম্পাইল করতে পারে। CUDA-এর জন্য ব্যবহৃত প্রথম নামটি ছিল Compute Uniified Device Architecture-এর সংক্ষিপ্ত রূপ। যাইহোক, Nvidia পরে সাধারণত ব্যবহৃত সংক্ষিপ্ত নামটি বাদ দেয়।

একটি শক্তিশালী এনভিডিয়া গ্রাফিক্স কার্ড GTX 1080 Ti

CUDA সম্পর্কে আরও

একটি বিশেষ কম্পিউটার প্রসেসর হিসাবে, গ্রাফিক্স প্রসেসিং ইউনিট (GPU) বাস্তবের চাহিদা পূরণ করে -সময়, কম্পিউট-ইনটেনসিভ 3D গ্রাফিক্স ওয়ার্কলোড৷

প্রায় 2012 GPU গুলি বিকশিত হয়েছে এবং বড় ব্লকগুলির জন্য কার্যকর ডেটা প্রক্রিয়াকরণ সক্ষম করে অত্যন্ত সমান্তরাল মাল্টি-কোর সিস্টেমে পরিণত হয়েছে৷

সমান্তরালে ডেটার বিশাল ব্লক প্রক্রিয়াকরণ করার সময়, এই নকশাটি অ্যালগরিদমের জন্য সাধারণ-উদ্দেশ্য কেন্দ্রীয় প্রক্রিয়াকরণ ইউনিট (CPUs) থেকে উচ্চতর, যেমন:

ক্রিপ্টোগ্রাফিক হ্যাশফাংশন
মেশিন লার্নিং
আণবিক গতিবিদ্যা সিমুলেশন
পদার্থবিদ্যা ইঞ্জিন
অ্যালগরিদম সাজান

এখন CUDA আর্কিটেকচারের ব্যবহার এবং ভবিষ্যতে

3D গ্রাফিক্সের ত্বরান্বিত রেন্ডারিং
ভিডিও ফাইল ফরম্যাটের ত্বরিত আন্তঃরূপান্তর
দ্রুত এনক্রিপশন, ডিক্রিপশন এবং কম্প্রেশন
বায়োইনফরমেটিক্স, যেমন, NGS DNA সিকোয়েন্সিং BarraCUDA
ডিস্ট্রিবিউটেড ক্যালকুলেশন, যেমন প্রোটিনের নেটিভ কনফর্মেশনের ভবিষ্যদ্বাণী
মেডিকেল অ্যানালাইসিস সিমুলেশন, উদাহরণস্বরূপ, ভার্চুয়াল রিয়েলিটি সিটি এবং এমআরআই স্ক্যান ইমেজের উপর ভিত্তি করে
শারীরিক সিমুলেশন, বিশেষ করে তরল গতিবিদ্যায়
মেশিন লার্নিং সমস্যায় নিউরাল নেটওয়ার্ক প্রশিক্ষণ
ফেস রিকগনিশন
ডিস্ট্রিবিউটেড কম্পিউটিং প্রকল্প, যেমন [ইমেল সুরক্ষিত] এবং অন্যান্য প্রকল্প ব্যবহার করে BOINC
আণবিক গতিবিদ্যা
মাইনিং ক্রিপ্টোকারেন্সি
মোশন থেকে গঠন (SfM) সফ্টওয়্যার

একটি টেনসর কোর কী?

টেনসর কোর নামক বিশেষায়িত কোর মিশ্র-নির্ভুল প্রশিক্ষণের অনুমতি দেয়। এই বিশেষায়িত কোরের প্রাথমিক প্রজন্ম এটি একটি ফিউজড মাল্টিপ্লাই-অ্যাড অ্যালগরিদম দিয়ে করে। এটি একটি 4 x 4 FP16 বা FP32 ম্যাট্রিক্সে দুটি 4 x 4 FP16 ম্যাট্রিক্সকে গুণ করা এবং যোগ করা সম্ভব করে।

চূড়ান্ত ফলাফল FP32 হবে শুধুমাত্র সামান্য সূক্ষ্মতা সহ, মিশ্র নির্ভুলতা কম্পিউটিং যেমন মনোনীত করা হয়েছে যদিওইনপুট ম্যাট্রিক্স কম-নির্ভুলতা FP16 হতে পারে।

অভ্যাসে, এটি মডেলের চূড়ান্ত কার্যকারিতার উপর সামান্য প্রভাব ফেলে গণনার গতি বাড়িয়ে দেয়। এই ক্ষমতাটি পরবর্তী মাইক্রোআর্কিটেকচার দ্বারা আরও কম সুনির্দিষ্ট কম্পিউটার সংখ্যা উপস্থাপনে প্রসারিত করা হয়েছে।

V100 থেকে ভোল্টা মাইক্রোআর্কিটেকচারের সাথে প্রথম প্রজন্মের প্রবর্তন করা হয়েছিল, প্রতিটি প্রজন্মের সাথে নতুন GPU মাইক্রোআর্কিটেকচারের সাথে গণনার জন্য আরও কম্পিউটার নম্বর নির্ভুল ফর্ম্যাট উপলব্ধ করা হয়েছিল।

নিম্নলিখিত বিভাগে প্রতিটি মাইক্রোআর্কিটেকচার জেনারেশনের সাথে টেনসর কোরের ক্ষমতা এবং কার্যকারিতা কীভাবে পরিবর্তিত এবং উন্নত হয়েছে সে সম্পর্কে আমরা আলোচনা করব।

টাইটান ভি দ্বারা তৈরি একটি গ্রাফিলি রেন্ডার করা ছবি

টেনসর কোর কীভাবে কাজ করে?

প্রথম প্রজন্ম:

ভোল্টা GPU মাইক্রোআর্কিটেকচার টেনসর কোরের প্রথম প্রজন্মের সাথে অন্তর্ভুক্ত ছিল। এই কোরগুলি মিশ্র নির্ভুলতা এবং FP16 নম্বর বিন্যাসের সাথে প্রশিক্ষণ দেওয়া সম্ভব করেছে।

আরো দেখুন: 34D, 34B এবং 34C কাপ- পার্থক্য কি? - সমস্ত পার্থক্য

এটি নির্দিষ্ট GPU-এর জন্য teraFLOP থ্রুপুটে 12x পর্যন্ত বৃদ্ধি পেতে পারে। শীর্ষ-স্তরের V100-এর 640 কোর পূর্ববর্তী প্রজন্মের Pascal GPU-এর তুলনায় কর্মক্ষমতা গতিতে 5x বৃদ্ধি দেয়।

দ্বিতীয় প্রজন্ম:

টুরিং জিপিইউ প্রবর্তনের সাথে সাথে, টেনসর কোরের দ্বিতীয় প্রজন্মের প্রবর্তন করা হয়। Int8, Int4, এবং Int1 সমর্থিত টেনসর কোর নির্ভুলতার তালিকায় যোগ করা হয়েছিল, যা ছিলপূর্বে FP16 এ সীমাবদ্ধ।

মিশ্র নির্ভুল প্রশিক্ষণ পদ্ধতির কারণে, GPU-এর কর্মক্ষমতা থ্রুপুট Pascal GPU-এর তুলনায় 32 গুণ পর্যন্ত বৃদ্ধি পেয়েছে।

তৃতীয় প্রজন্ম:

এম্পিয়ার জিপিইউ-তে স্থাপত্য FP64, TF32, এবং bfloat16 নির্ভুলতার জন্য সমর্থন যোগ করে ভোল্টা এবং টুরিং মাইক্রোআর্কিটেকচারের আগের অগ্রগতিতে প্রসারিত হয়।

ডিপ লার্নিং ট্রেনিং এবং ইনফারেন্স ক্রিয়াকলাপগুলি এই অতিরিক্ত নির্ভুল ফর্ম্যাটগুলির দ্বারা অনেক বেশি ত্বরান্বিত হয়। উদাহরণ স্বরূপ, TF32 ফরম্যাট FP32 এর মতই কাজ করে যখন কোনো কোড পরিবর্তন না করে 20x পর্যন্ত গতির গ্যারান্টি দেয়।

তারপর, কোডের মাত্র কয়েকটি লাইনের সাথে, স্বয়ংক্রিয় মিশ্র নির্ভুলতা বাস্তবায়ন প্রশিক্ষণের গতি বাড়িয়ে দেবে অতিরিক্ত 2x।

তৃতীয় প্রজন্মের NVLink অতি দ্রুত মাল্টি-জিপিইউ ইন্টারঅ্যাকশন, তৃতীয় প্রজন্মের রে ট্রেসিং কোর এবং স্পার্স ম্যাট্রিক্স গণিতের সাথে বিশেষীকরণ সক্ষম করার জন্য অ্যাম্পিয়ার মাইক্রোআর্কিটেকচারের অতিরিক্ত দিক ।

চতুর্থ প্রজন্ম:

হপার মাইক্রোআর্কিটেকচার-ভিত্তিক চতুর্থ প্রজন্মের টেনসর কোরের ভবিষ্যৎ প্রকাশের পরিকল্পনা করা হয়েছে। পরবর্তী H100-এ চতুর্থ প্রজন্মের টেনসর কোর।

যা মার্চ 2022-এ প্রকাশিত হবে বলে আশা করা হচ্ছে, FP8 নির্ভুল ফর্ম্যাটগুলি পরিচালনা করতে সক্ষম হবে এবং NVIDIA-এর মতে, বিশাল ভাষা মডেলগুলিকে "আশ্চর্যজনক 30X দ্বারা ত্বরান্বিত করবে" আগের প্রজন্মের চেয়ে।”

একটি RTX গ্রাফিক্স কার্ডগ্রাফিক্স খুব দ্রুত রেন্ডার করার জন্য ব্যবহৃত হয় কারণ এতে টেনসর কোর রয়েছে।

CUDA কোর এবং টেনসর কোরের মধ্যে পার্থক্য

টেনসর কোর বর্তমানে টাইটান V এবং টেসলা V100 এর মধ্যে সীমাবদ্ধ। উভয় GPU-তে 5120 CUDA কোরের সর্বোচ্চ ক্ষমতা রয়েছে একটি একক নির্ভুলতা মাল্টিপ্লাই-অ্যাকমুলেট অপারেশন (উদাহরণস্বরূপ, fp32: x += y * z) প্রতি GPU ঘড়িতে (যেমন Tesla V100 PCIe ফ্রিকোয়েন্সি হল 1.38Gz)।

প্রতিটি টেনসর কোর ছোট ম্যাট্রিসের জন্য 4×4 ছোট ম্যাট্রিসে কাজ করে। একটি জিপিইউ ঘড়ি প্রতি, প্রতিটি টেনসর কোর একটি ম্যাট্রিক্স মাল্টিপ্লাই-একমুলেট অপারেশন সম্পূর্ণ করতে পারে।

এটি দুটি 4×4 FP16 ম্যাট্রিক্সকে গুণ করে এবং 4×4 FP32 ম্যাট্রিক্স যোগ করে যার ফলে সঞ্চয়কারী (এটি একটি fp32 4×4 ম্যাট্রিক্সও)।

যেহেতু ইনপুট ম্যাট্রিক্স fp16 এবং গুণের ফলাফল এবং সঞ্চয়ক fp32, অ্যালগরিদম মিশ্র নির্ভুলতা হিসাবে পরিচিত।

সঠিক শব্দটি সম্ভবত "4×4 ম্যাট্রিক্স কোর" হতে পারে, কিন্তু NVIDIA মার্কেটিং টিম "টেনসর কোর" ব্যবহার করতে বেছে নিয়েছে।

> VRAM GeForce GTX 1660 Ti 1536 6GB GeForce GTX 1660 সুপার 1408 6GB GeForce GTX 1660 1408 6GB GeForce GTX 1650 Super 1408 4GB GeForce GTX 1650 1024 এবং896 4GB GeForce GTX 1060 3GB 1280 4GB GeForce GTX 1650 1280 3GB GeForce GTX 1060 6GB 768 6GB GeForce GTX 1050 Ti (3GB) 768 4GB GeForce GTX 1050 (2GB)<22 640 3GB GeForce GTX 960 1024 2GB GeForce GTX 950 786 2GB GeForce GTX 780 Ti 2880 2GB GeForce GTX 780 2304 3GB GeForce GTX 750 Ti 640 2 GB GeForce GTX 750 512 1GB বা 2 GB <23

জিপিইউ যেগুলিতে CUDA কোর রয়েছে

উপসংহার

CUDA এবং টেনসর কোরগুলি হল পণ্য, উভয়ই এনভিডিয়া নামক একটি কোম্পানি দ্বারা তৈরি। CUDA মানে কম্পিউট ইউনিফাইড ডিভাইস আর্কিটেকচার। এই CUDA কোরগুলি আপনার GPU, স্মার্টফোন এবং এমনকি আপনার গাড়িতেও রয়েছে৷
যেহেতু টেনসর কোর, যা এনভিডিয়া দ্বারাও তৈরি করা হয়েছে, এছাড়াও জিপিইউতে ব্যবহার করা হয়। "টেনসর কোর" নামক বিশেষায়িত কোরগুলি মিশ্র-নির্ভুল প্রশিক্ষণের অনুমতি দেয়। টেনসর কোর-এর প্রথম প্রজন্ম মিশ্র নির্ভুলতা এবং FP16 নম্বর বিন্যাসে প্রশিক্ষণ দেওয়া সম্ভব করেছে।
এটি নির্দিষ্ট GPU-এর জন্য teraFLOP থ্রুপুটে 12x পর্যন্ত বুস্ট করতে পারে। Int8, Int4, এবং Int1 সমর্থিত টেনসর কোর নির্ভুলতার তালিকায় যোগ করা হয়েছে।
মিশ্র কারণেনির্ভুল প্রশিক্ষণ পদ্ধতি, GPU এর কর্মক্ষমতা 32 গুণ পর্যন্ত বৃদ্ধি করা হয়েছে। হপার মাইক্রোআর্কিটেকচার-ভিত্তিক চতুর্থ প্রজন্মের টেনসর কোরের ভবিষ্যত প্রকাশের পরিকল্পনা করা হয়েছে।

#SNIGCONSULTANCY