CUDA কোর এবং টেনসর কোরের মধ্যে পার্থক্য কি? (ব্যাখ্যা করা) – সমস্ত পার্থক্য
সুচিপত্র
CUDA এবং Tensor cores হল Nvidia নামক একটি কোম্পানির দ্বারা তৈরি পণ্য। তাহলে CUDA কোর এবং টেনসর কোর কি? CUDA মানে কম্পিউট ইউনিফাইড ডিভাইস আর্কিটেকচার। CUDA কোরগুলি আপনার GPU, স্মার্টফোন এবং এমনকি আপনার গাড়িতে উপস্থিত রয়েছে, যেমনটি Nvidia বিকাশকারীরা বলে।
CUDA কোর হল একটি সমান্তরাল কম্পিউটিং প্ল্যাটফর্ম এবং অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (API) যা সফ্টওয়্যারকে সাধারণ-উদ্দেশ্য প্রক্রিয়াকরণের জন্য নির্দিষ্ট ধরনের গ্রাফিক্স প্রসেসিং ইউনিট (GPUs) ব্যবহার করতে সক্ষম করে।
যেহেতু টেনসর কোর যা এনভিডিয়া দ্বারাও তৈরি করা হয়েছে, সেগুলিও জিপিইউতে ব্যবহার করা হয়৷ টেনসর কোরগুলি মিশ্র-নির্ভুলতা কম্পিউটিং সক্ষম করে, নির্ভুলতা বজায় রেখে থ্রুপুট বাড়ানোর জন্য গতিশীলভাবে গণনাকে অভিযোজিত করে।
সাধারণ কথায়, নির্দিষ্ট গণনা করার জন্য এই কোরগুলি আপনার পিসিতে থাকা GPU-গুলির একটি গুরুত্বপূর্ণ অংশ। CUDA কোর দুটি সংখ্যাকে গুণ করতে এবং তাদের অন্য সংখ্যায় যোগ করতে ব্যবহৃত হয়।
যেহেতু টেনসর কোর একই কিন্তু 4×4 ম্যাট্রিক্স সহ। এই গণনাগুলি মূলত আপনার জন্য দ্রুত গ্রাফিক্স রেন্ডার করছে।
CUDA কি?
সংক্ষিপ্ত CUDA-তে কম্পিউট ইউনিফাইড ডিভাইস আর্কিটেকচার যা 23 জুন, 2007 এ প্রকাশিত Nvidia দ্বারা তৈরি, একটি সমান্তরাল কম্পিউটিং প্ল্যাটফর্ম এবং অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (API)।
আরো দেখুন: ঢেউ খেলানো চুল এবং কোঁকড়া চুলের মধ্যে পার্থক্য কী? - সমস্ত পার্থক্যএটি সাধারণ-উদ্দেশ্য প্রক্রিয়াকরণের জন্য নির্দিষ্ট ধরণের গ্রাফিক্স প্রসেসিং ইউনিট (GPUs) ব্যবহার করতে সফ্টওয়্যারকে সক্ষম করে, একটি পদ্ধতি যা সাধারণ-উদ্দেশ্য কম্পিউটিং নামে পরিচিতGPUs (GPU)।
CUDA হল একটি সফ্টওয়্যার স্তর যা GPU-এর ভার্চুয়াল নির্দেশ সেটে সরাসরি অ্যাক্সেস প্রদান করে এবং কম্পিউট কার্নেলগুলি সম্পাদনের জন্য সমান্তরাল কম্পিউটেশনাল উপাদানগুলি প্রদান করে৷ C, C++, এবং Fortran সহ বিভিন্ন প্রোগ্রামিং ভাষার সাথে কাজ করার জন্য CUDA তৈরি করা হয়েছিল।
বিভিন্ন প্রোগ্রামিং ভাষার সাথে কাজ করার ক্ষমতা সমান্তরাল প্রোগ্রামিং বিশেষজ্ঞদের জন্য GPU সংস্থানগুলি ব্যবহার করা সহজ করে তোলে যদি আমরা এটিকে পূর্বের API যেমন Direct3D বা OpenGL থেকে আলাদা করি, যার জন্য আপনাকে আরও উন্নত হতে হবে গ্রাফিকাল প্রোগ্রামিং দক্ষতা বেস.
CUDA সহ GPU প্রোগ্রামিং ফ্রেমওয়ার্ককেও সমর্থন করে, যেমন OpenMP, OpenACC, OpenCL, এবং এছাড়াও HIP যা এই ধরনের কোড CUDA-তে কম্পাইল করতে পারে। CUDA-এর জন্য ব্যবহৃত প্রথম নামটি ছিল Compute Uniified Device Architecture-এর সংক্ষিপ্ত রূপ। যাইহোক, Nvidia পরে সাধারণত ব্যবহৃত সংক্ষিপ্ত নামটি বাদ দেয়।
একটি শক্তিশালী এনভিডিয়া গ্রাফিক্স কার্ড GTX 1080 Ti
CUDA সম্পর্কে আরও
একটি বিশেষ কম্পিউটার প্রসেসর হিসাবে, গ্রাফিক্স প্রসেসিং ইউনিট (GPU) বাস্তবের চাহিদা পূরণ করে -সময়, কম্পিউট-ইনটেনসিভ 3D গ্রাফিক্স ওয়ার্কলোড৷
প্রায় 2012 GPU গুলি বিকশিত হয়েছে এবং বড় ব্লকগুলির জন্য কার্যকর ডেটা প্রক্রিয়াকরণ সক্ষম করে অত্যন্ত সমান্তরাল মাল্টি-কোর সিস্টেমে পরিণত হয়েছে৷
সমান্তরালে ডেটার বিশাল ব্লক প্রক্রিয়াকরণ করার সময়, এই নকশাটি অ্যালগরিদমের জন্য সাধারণ-উদ্দেশ্য কেন্দ্রীয় প্রক্রিয়াকরণ ইউনিট (CPUs) থেকে উচ্চতর, যেমন:
- ক্রিপ্টোগ্রাফিক হ্যাশফাংশন
- মেশিন লার্নিং
- আণবিক গতিবিদ্যা সিমুলেশন
- পদার্থবিদ্যা ইঞ্জিন
- অ্যালগরিদম সাজান
এখন CUDA আর্কিটেকচারের ব্যবহার এবং ভবিষ্যতে
- 3D গ্রাফিক্সের ত্বরান্বিত রেন্ডারিং
- ভিডিও ফাইল ফরম্যাটের ত্বরিত আন্তঃরূপান্তর
- দ্রুত এনক্রিপশন, ডিক্রিপশন এবং কম্প্রেশন
- বায়োইনফরমেটিক্স, যেমন, NGS DNA সিকোয়েন্সিং BarraCUDA
- ডিস্ট্রিবিউটেড ক্যালকুলেশন, যেমন প্রোটিনের নেটিভ কনফর্মেশনের ভবিষ্যদ্বাণী
- মেডিকেল অ্যানালাইসিস সিমুলেশন, উদাহরণস্বরূপ, ভার্চুয়াল রিয়েলিটি সিটি এবং এমআরআই স্ক্যান ইমেজের উপর ভিত্তি করে
- শারীরিক সিমুলেশন, বিশেষ করে তরল গতিবিদ্যায়
- মেশিন লার্নিং সমস্যায় নিউরাল নেটওয়ার্ক প্রশিক্ষণ
- ফেস রিকগনিশন
- ডিস্ট্রিবিউটেড কম্পিউটিং প্রকল্প, যেমন [ইমেল সুরক্ষিত] এবং অন্যান্য প্রকল্প ব্যবহার করে BOINC
- আণবিক গতিবিদ্যা
- মাইনিং ক্রিপ্টোকারেন্সি
- মোশন থেকে গঠন (SfM) সফ্টওয়্যার
একটি টেনসর কোর কী?
টেনসর কোর নামক বিশেষায়িত কোর মিশ্র-নির্ভুল প্রশিক্ষণের অনুমতি দেয়। এই বিশেষায়িত কোরের প্রাথমিক প্রজন্ম এটি একটি ফিউজড মাল্টিপ্লাই-অ্যাড অ্যালগরিদম দিয়ে করে। এটি একটি 4 x 4 FP16 বা FP32 ম্যাট্রিক্সে দুটি 4 x 4 FP16 ম্যাট্রিক্সকে গুণ করা এবং যোগ করা সম্ভব করে।
চূড়ান্ত ফলাফল FP32 হবে শুধুমাত্র সামান্য সূক্ষ্মতা সহ, মিশ্র নির্ভুলতা কম্পিউটিং যেমন মনোনীত করা হয়েছে যদিওইনপুট ম্যাট্রিক্স কম-নির্ভুলতা FP16 হতে পারে।
অভ্যাসে, এটি মডেলের চূড়ান্ত কার্যকারিতার উপর সামান্য প্রভাব ফেলে গণনার গতি বাড়িয়ে দেয়। এই ক্ষমতাটি পরবর্তী মাইক্রোআর্কিটেকচার দ্বারা আরও কম সুনির্দিষ্ট কম্পিউটার সংখ্যা উপস্থাপনে প্রসারিত করা হয়েছে।
V100 থেকে ভোল্টা মাইক্রোআর্কিটেকচারের সাথে প্রথম প্রজন্মের প্রবর্তন করা হয়েছিল, প্রতিটি প্রজন্মের সাথে নতুন GPU মাইক্রোআর্কিটেকচারের সাথে গণনার জন্য আরও কম্পিউটার নম্বর নির্ভুল ফর্ম্যাট উপলব্ধ করা হয়েছিল।
নিম্নলিখিত বিভাগে প্রতিটি মাইক্রোআর্কিটেকচার জেনারেশনের সাথে টেনসর কোরের ক্ষমতা এবং কার্যকারিতা কীভাবে পরিবর্তিত এবং উন্নত হয়েছে সে সম্পর্কে আমরা আলোচনা করব।
টাইটান ভি দ্বারা তৈরি একটি গ্রাফিলি রেন্ডার করা ছবি
টেনসর কোর কীভাবে কাজ করে?
প্রথম প্রজন্ম:
ভোল্টা GPU মাইক্রোআর্কিটেকচার টেনসর কোরের প্রথম প্রজন্মের সাথে অন্তর্ভুক্ত ছিল। এই কোরগুলি মিশ্র নির্ভুলতা এবং FP16 নম্বর বিন্যাসের সাথে প্রশিক্ষণ দেওয়া সম্ভব করেছে।
আরো দেখুন: 34D, 34B এবং 34C কাপ- পার্থক্য কি? - সমস্ত পার্থক্যএটি নির্দিষ্ট GPU-এর জন্য teraFLOP থ্রুপুটে 12x পর্যন্ত বৃদ্ধি পেতে পারে। শীর্ষ-স্তরের V100-এর 640 কোর পূর্ববর্তী প্রজন্মের Pascal GPU-এর তুলনায় কর্মক্ষমতা গতিতে 5x বৃদ্ধি দেয়।
দ্বিতীয় প্রজন্ম:
টুরিং জিপিইউ প্রবর্তনের সাথে সাথে, টেনসর কোরের দ্বিতীয় প্রজন্মের প্রবর্তন করা হয়। Int8, Int4, এবং Int1 সমর্থিত টেনসর কোর নির্ভুলতার তালিকায় যোগ করা হয়েছিল, যা ছিলপূর্বে FP16 এ সীমাবদ্ধ।
মিশ্র নির্ভুল প্রশিক্ষণ পদ্ধতির কারণে, GPU-এর কর্মক্ষমতা থ্রুপুট Pascal GPU-এর তুলনায় 32 গুণ পর্যন্ত বৃদ্ধি পেয়েছে।
তৃতীয় প্রজন্ম:
এম্পিয়ার জিপিইউ-তে স্থাপত্য FP64, TF32, এবং bfloat16 নির্ভুলতার জন্য সমর্থন যোগ করে ভোল্টা এবং টুরিং মাইক্রোআর্কিটেকচারের আগের অগ্রগতিতে প্রসারিত হয়।
ডিপ লার্নিং ট্রেনিং এবং ইনফারেন্স ক্রিয়াকলাপগুলি এই অতিরিক্ত নির্ভুল ফর্ম্যাটগুলির দ্বারা অনেক বেশি ত্বরান্বিত হয়। উদাহরণ স্বরূপ, TF32 ফরম্যাট FP32 এর মতই কাজ করে যখন কোনো কোড পরিবর্তন না করে 20x পর্যন্ত গতির গ্যারান্টি দেয়।
তারপর, কোডের মাত্র কয়েকটি লাইনের সাথে, স্বয়ংক্রিয় মিশ্র নির্ভুলতা বাস্তবায়ন প্রশিক্ষণের গতি বাড়িয়ে দেবে অতিরিক্ত 2x।
তৃতীয় প্রজন্মের NVLink অতি দ্রুত মাল্টি-জিপিইউ ইন্টারঅ্যাকশন, তৃতীয় প্রজন্মের রে ট্রেসিং কোর এবং স্পার্স ম্যাট্রিক্স গণিতের সাথে বিশেষীকরণ সক্ষম করার জন্য অ্যাম্পিয়ার মাইক্রোআর্কিটেকচারের অতিরিক্ত দিক ।
চতুর্থ প্রজন্ম:
হপার মাইক্রোআর্কিটেকচার-ভিত্তিক চতুর্থ প্রজন্মের টেনসর কোরের ভবিষ্যৎ প্রকাশের পরিকল্পনা করা হয়েছে। পরবর্তী H100-এ চতুর্থ প্রজন্মের টেনসর কোর।
যা মার্চ 2022-এ প্রকাশিত হবে বলে আশা করা হচ্ছে, FP8 নির্ভুল ফর্ম্যাটগুলি পরিচালনা করতে সক্ষম হবে এবং NVIDIA-এর মতে, বিশাল ভাষা মডেলগুলিকে "আশ্চর্যজনক 30X দ্বারা ত্বরান্বিত করবে" আগের প্রজন্মের চেয়ে।”
একটি RTX গ্রাফিক্স কার্ডগ্রাফিক্স খুব দ্রুত রেন্ডার করার জন্য ব্যবহৃত হয় কারণ এতে টেনসর কোর রয়েছে।
CUDA কোর এবং টেনসর কোরের মধ্যে পার্থক্য
টেনসর কোর বর্তমানে টাইটান V এবং টেসলা V100 এর মধ্যে সীমাবদ্ধ। উভয় GPU-তে 5120 CUDA কোরের সর্বোচ্চ ক্ষমতা রয়েছে একটি একক নির্ভুলতা মাল্টিপ্লাই-অ্যাকমুলেট অপারেশন (উদাহরণস্বরূপ, fp32: x += y * z) প্রতি GPU ঘড়িতে (যেমন Tesla V100 PCIe ফ্রিকোয়েন্সি হল 1.38Gz)।
প্রতিটি টেনসর কোর ছোট ম্যাট্রিসের জন্য 4×4 ছোট ম্যাট্রিসে কাজ করে। একটি জিপিইউ ঘড়ি প্রতি, প্রতিটি টেনসর কোর একটি ম্যাট্রিক্স মাল্টিপ্লাই-একমুলেট অপারেশন সম্পূর্ণ করতে পারে।
এটি দুটি 4×4 FP16 ম্যাট্রিক্সকে গুণ করে এবং 4×4 FP32 ম্যাট্রিক্স যোগ করে যার ফলে সঞ্চয়কারী (এটি একটি fp32 4×4 ম্যাট্রিক্সও)।
যেহেতু ইনপুট ম্যাট্রিক্স fp16 এবং গুণের ফলাফল এবং সঞ্চয়ক fp32, অ্যালগরিদম মিশ্র নির্ভুলতা হিসাবে পরিচিত।
সঠিক শব্দটি সম্ভবত "4×4 ম্যাট্রিক্স কোর" হতে পারে, কিন্তু NVIDIA মার্কেটিং টিম "টেনসর কোর" ব্যবহার করতে বেছে নিয়েছে।
>জিপিইউ যেগুলিতে CUDA কোর রয়েছে
উপসংহার
- CUDA এবং টেনসর কোরগুলি হল পণ্য, উভয়ই এনভিডিয়া নামক একটি কোম্পানি দ্বারা তৈরি। CUDA মানে কম্পিউট ইউনিফাইড ডিভাইস আর্কিটেকচার। এই CUDA কোরগুলি আপনার GPU, স্মার্টফোন এবং এমনকি আপনার গাড়িতেও রয়েছে৷
- যেহেতু টেনসর কোর, যা এনভিডিয়া দ্বারাও তৈরি করা হয়েছে, এছাড়াও জিপিইউতে ব্যবহার করা হয়। "টেনসর কোর" নামক বিশেষায়িত কোরগুলি মিশ্র-নির্ভুল প্রশিক্ষণের অনুমতি দেয়। টেনসর কোর-এর প্রথম প্রজন্ম মিশ্র নির্ভুলতা এবং FP16 নম্বর বিন্যাসে প্রশিক্ষণ দেওয়া সম্ভব করেছে।
- এটি নির্দিষ্ট GPU-এর জন্য teraFLOP থ্রুপুটে 12x পর্যন্ত বুস্ট করতে পারে। Int8, Int4, এবং Int1 সমর্থিত টেনসর কোর নির্ভুলতার তালিকায় যোগ করা হয়েছে।
- মিশ্র কারণেনির্ভুল প্রশিক্ষণ পদ্ধতি, GPU এর কর্মক্ষমতা 32 গুণ পর্যন্ত বৃদ্ধি করা হয়েছে। হপার মাইক্রোআর্কিটেকচার-ভিত্তিক চতুর্থ প্রজন্মের টেনসর কোরের ভবিষ্যত প্রকাশের পরিকল্পনা করা হয়েছে।