পয়েন্টএআর: মোবাইল অগমেন্টেড রিয়েলিটির জন্য দক্ষ আলোক অনুমান

1. ভূমিকা

এই গবেষণাপত্রটি অভ্যন্তরীণ পরিবেশে মোবাইল অগমেন্টেড রিয়েলিটি (এআর)-এর জন্য আলোক অনুমানের গুরুত্বপূর্ণ চ্যালেঞ্জটি সমাধান করে। ভার্চুয়াল বস্তুর বাস্তবসম্মত রেন্ডারিংয়ের জন্য দৃশ্যের আলোকসজ্জার সঠিক জ্ঞান প্রয়োজন, যা সাধারণত ৩৬০° প্যানোরামিক ক্যামেরা ব্যবহার করে ধারণ করা হয়—এমন হার্ডওয়্যার সাধারণ স্মার্টফোনে পাওয়া যায় না। মূল সমস্যা হল মোবাইল ক্যামেরা দ্বারা ধারণকৃত একটি একক, সীমিত দৃশ্যক্ষেত্র (এফওভি) আরজিবি-ডি চিত্র থেকে একটি লক্ষ্য অবস্থানে (যেখানে একটি ভার্চুয়াল বস্তু স্থাপন করা হবে) আলোকসজ্জা অনুমান করা। বিদ্যমান শিক্ষণ-ভিত্তিক পদ্ধতিগুলি প্রায়শই মোবাইলে স্থাপনের জন্য গণনাগতভাবে খুব ভারী হয়ে থাকে। পয়েন্টএআর একটি দক্ষ পাইপলাইন হিসাবে প্রস্তাবিত হয়েছে যা সমস্যাটিকে একটি জ্যামিতি-সচেতন দৃশ্য রূপান্তর এবং একটি হালকা-ওজনের পয়েন্ট-ক্লাউড-ভিত্তিক শিক্ষণ মডেলে বিভক্ত করে, যা সর্বোচ্চ স্তরের নির্ভুলতা অর্জন করে একাধিক গুণ কম সম্পদ ব্যবহারের মাধ্যমে।

2. পদ্ধতি

পয়েন্টএআর পাইপলাইনটি দক্ষতা এবং মোবাইল সামঞ্জস্যের জন্য ডিজাইন করা হয়েছে। এটি একটি একক আরজিবি-ডি চিত্র এবং একটি ২ডি লক্ষ্য অবস্থানকে ইনপুট হিসাবে গ্রহণ করে এবং সেই লক্ষ্যে আলোকসজ্জা উপস্থাপনকারী ২য়-ক্রম গোলকীয় হারমনিক্স (এসএইচ) সহগ আউটপুট দেয়।

2.1. সমস্যা প্রণয়ন ও পাইপলাইন সংক্ষিপ্ত বিবরণ

একটি মোবাইল ক্যামেরা থেকে একটি আরজিবি-ডি ফ্রেম $I$ এবং $I$-এর মধ্যে একটি ২ডি পিক্সেল স্থানাঙ্ক $p$ দেওয়া হলে, যা ৩ডি স্থানে কাঙ্ক্ষিত রেন্ডারিং অবস্থানের সাথে মিলে যায়, লক্ষ্য হল ২য়-ক্রম গোলকীয় হারমনিক্স সহগের একটি ভেক্টর $L \in \mathbb{R}^{27}$ (আরজিবি চ্যানেল প্রতি ৯টি সহগ) ভবিষ্যদ্বাণী করা। পাইপলাইন প্রথমে গভীরতার তথ্য ব্যবহার করে একটি জ্যামিতি-সচেতন দৃশ্য রূপান্তর সম্পাদন করে, ইনপুটটিকে লক্ষ্য দৃষ্টিকোণে রূপান্তরিত করে। রূপান্তরিত ডেটা তারপর চূড়ান্ত এসএইচ সহগগুলি ভবিষ্যদ্বাণী করার জন্য একটি পয়েন্ট-ক্লাউড-ভিত্তিক নিউরাল নেটওয়ার্ক দ্বারা প্রক্রিয়াজাত হয়।

2.2. জ্যামিতি-সচেতন দৃশ্য রূপান্তর

একটি গভীর নেটওয়ার্কের উপর স্থানিক সম্পর্কগুলি অন্তর্নিহিতভাবে শেখার জন্য নির্ভর করার পরিবর্তে, পয়েন্টএআর একটি গাণিতিক মডেল ব্যবহার করে দৃষ্টিকোণ পরিবর্তন স্পষ্টভাবে পরিচালনা করে। ক্যামেরার অন্তর্নিহিত প্যারামিটার এবং গভীরতার মানচিত্র ব্যবহার করে, সিস্টেমটি আরজিবি-ডি চিত্রটিকে ক্যামেরার সাপেক্ষে একটি ৩ডি পয়েন্ট ক্লাউডে ব্যাক-প্রজেক্ট করে। এটি তারপর এই পয়েন্ট ক্লাউডটিকে লক্ষ্য রেন্ডারিং অবস্থানে স্থাপিত একটি ভার্চুয়াল ক্যামেরার উপর পুনরায় প্রজেক্ট করে। এই ধাপটি প্যারালাক্স এবং অক্লুজনকে দক্ষতার সাথে বিবেচনা করে, পরবর্তী শিক্ষণ পর্যায়ের জন্য একটি জ্যামিতিগতভাবে সঠিক ইনপুট প্রদান করে, যা ক্লাসিক কম্পিউটার ভিশন এবং রিয়েল-টাইম এসএইচ আলোকসজ্জায় ব্যবহৃত মন্টে কার্লো ইন্টিগ্রেশনের নীতিগুলি দ্বারা অনুপ্রাণিত।

2.3. পয়েন্ট-ক্লাউড ভিত্তিক শিক্ষণ

মূল শিক্ষণ মডিউল সরাসরি রূপান্তরিত পয়েন্ট ক্লাউডের উপর কাজ করে, ঘন পিক্সেলের উপর নয়। এই নকশাটি এই সত্য দ্বারা অনুপ্রাণিত যে আলোকসজ্জা হল দৃশ্যের জ্যামিতি এবং পৃষ্ঠ প্রতিফলনের একটি ফাংশন। একটি স্পার্স পয়েন্ট ক্লাউড প্রক্রিয়াকরণ একটি ঘন চিত্র প্রক্রিয়াকরণের চেয়ে স্বাভাবিকভাবেই বেশি দক্ষ। নেটওয়ার্কটি দৃশ্যমান দৃশ্য থেকে আলোক সংকেত (রঙ, স্থানীয় পয়েন্ট প্রতিবেশ থেকে অনুমিত পৃষ্ঠ স্বাভাবিক) সংগ্রহ করে সম্পূর্ণ গোলকীয় আলোকসজ্জা অনুমান করতে শেখে। চিত্র-ভিত্তিক সিএনএনগুলির তুলনায় এই পদ্ধতিটি প্যারামিটার সংখ্যা এবং গণনাগত লোড উল্লেখযোগ্যভাবে হ্রাস করে।

মূল অন্তর্দৃষ্টি

বিভাজনই মূল: জ্যামিতিক রূপান্তরকে আলোক অনুমান থেকে পৃথক করা শিক্ষণ কাজটিকে সরল করে।
দক্ষতার জন্য পয়েন্ট ক্লাউড: এই ৩ডি-সচেতন কাজের জন্য ২ডি চিত্রের পরিবর্তে ৩ডি পয়েন্ট থেকে সরাসরি শিক্ষণ করা সম্পদের দিক থেকে বেশি দক্ষ।
মোবাইল-প্রথম নকশা: প্রতিটি উপাদান ডিভাইসে বিলম্ব এবং শক্তি খরচ মাথায় রেখে বেছে নেওয়া হয়েছে।

3. প্রযুক্তিগত বিবরণ

3.1. গোলকীয় হারমনিক্স উপস্থাপনা

আলোকসজ্জা ২য়-ক্রম গোলকীয় হারমনিক্স (এসএইচ) ব্যবহার করে উপস্থাপিত হয়। এসএইচ জটিল আলোক পরিবেশের একটি সংক্ষিপ্ত, নিম্ন-ফ্রিকোয়েন্সি আনুমানিকতা প্রদান করে, যা রিয়েল-টাইম রেন্ডারিংয়ের জন্য উপযুক্ত। স্বাভাবিক $\mathbf{n}$ সহ একটি পৃষ্ঠ বিন্দুতে বিকিরণ $E(\mathbf{n})$ হিসাবে গণনা করা হয়: $$E(\mathbf{n}) = \sum_{l=0}^{2} \sum_{m=-l}^{l} L_l^m \, Y_l^m(\mathbf{n})$$ যেখানে $L_l^m$ হল ভবিষ্যদ্বাণীকৃত এসএইচ সহগ (আরজিবির জন্য ২৭টি মান) এবং $Y_l^m$ হল এসএইচ ভিত্তি ফাংশন। এই উপস্থাপনা গেম ইঞ্জিন এবং এআরকিট ও এআরকোরের মতো এআর ফ্রেমওয়ার্কগুলিতে ব্যাপকভাবে ব্যবহৃত হয়।

3.2. নেটওয়ার্ক আর্কিটেকচার

শিক্ষণ মডেলটি হল একটি হালকা-ওজনের নিউরাল নেটওয়ার্ক যা রূপান্তরিত পয়েন্ট ক্লাউডের উপর কাজ করে। এটি সম্ভবত আনঅর্ডার্ড পয়েন্ট সেট থেকে ক্রম-অপরিবর্তনশীল বৈশিষ্ট্য নিষ্কাশনের জন্য পয়েন্টনেট বা তার বৈকল্পিকগুলির অনুরূপ স্তর ব্যবহার করে। নেটওয়ার্কটি $N$ পয়েন্ট (প্রতিটিতে এক্সওয়াইজেড স্থানাঙ্ক এবং আরজিবি রঙ) ইনপুট হিসাবে গ্রহণ করে, প্রতি-পয়েন্ট বৈশিষ্ট্য নিষ্কাশন করে, সেগুলিকে একটি গ্লোবাল বৈশিষ্ট্য ভেক্টরে একত্রিত করে এবং শেষ পর্যন্ত সম্পূর্ণ সংযুক্ত স্তরগুলি ব্যবহার করে ২৭টি এসএইচ সহগ রিগ্রেস করে। সঠিক আর্কিটেকচারটি ন্যূনতম এফএলওপিএস এবং মেমরি ফুটপ্রিন্টের জন্য অপ্টিমাইজ করা হয়েছে।

4. পরীক্ষা ও ফলাফল

4.1. পরিমাণগত মূল্যায়ন

গবেষণাপত্রটি গার্ডনার এট আল. [১২] এবং গ্যারন এট আল. [১৩]-এর মতো সর্বোচ্চ স্তরের পদ্ধতির বিরুদ্ধে পয়েন্টএআর মূল্যায়ন করে। প্রাথমিক মেট্রিক হল ভবিষ্যদ্বাণীকৃত এসএইচ সহগ বা একটি উদ্ভূত রেন্ডারিং ত্রুটি (যেমন, রেন্ডার করা চিত্রের গড় বর্গ ত্রুটি)। পয়েন্টএআর তার সরল আর্কিটেকচার সত্ত্বেও কম অনুমান ত্রুটি অর্জন করে বলে জানানো হয়েছে। এটি তার সমস্যা বিভাজন এবং পয়েন্ট-ক্লাউড উপস্থাপনার কার্যকারিতা প্রদর্শন করে।

কর্মক্ষমতা লাভ

~১৫-২০%

পূর্ববর্তী সর্বোচ্চ স্তরের তুলনায় কম অনুমান ত্রুটি

সম্পদ হ্রাস

১০x

কম গণনাগত জটিলতা

মডেল আকার

< ৫MB

মোবাইল-নির্দিষ্ট ডিএনএনগুলির সাথে তুলনীয়

4.2. গুণগত মূল্যায়ন ও রেন্ডারিং

গুণগত ফলাফল, যেমন পিডিএফ-এর চিত্র ১-এ দেখানো হয়েছে, ভবিষ্যদ্বাণীকৃত এসএইচ সহগ ব্যবহার করে ভার্চুয়াল বস্তু (যেমন, স্ট্যানফোর্ড বানি) রেন্ডারিং জড়িত। সারি ১ পয়েন্টএআর-এর ভবিষ্যদ্বাণী দ্বারা আলোকিত বানিগুলি দেখায়, যখন সারি ২ গ্রাউন্ড ট্রুথ রেন্ডারিং দেখায়। চাক্ষুষ তুলনা প্রদর্শন করে যে পয়েন্টএআর বাস্তবসম্মত ছায়া, উপযুক্ত শেডিং এবং সামঞ্জস্যপূর্ণ উপাদান চেহারা তৈরি করে, যা স্থানিকভাবে পরিবর্তনশীল আলোকসজ্জার অবস্থায় গ্রাউন্ড ট্রুথের সাথে ঘনিষ্ঠভাবে মেলে। এটি এআর অ্যাপ্লিকেশনে ব্যবহারকারীর নিমজ্জনের জন্য অত্যন্ত গুরুত্বপূর্ণ।

4.3. সম্পদ দক্ষতা বিশ্লেষণ

একটি গুরুত্বপূর্ণ অবদান হল গণনাগত জটিলতা (এফএলওপিএস), মেমরি ফুটপ্রিন্ট এবং ইনফারেন্স সময়ের বিশ্লেষণ। গবেষণাপত্রটি প্রদর্শন করে যে পয়েন্টএআর-এর সঙ এট আল. [২৫]-এর মতো প্রতিদ্বন্দ্বী পদ্ধতির তুলনায় একাধিক গুণ কম সম্পদের প্রয়োজন। এর জটিলতা বলা হয় চিত্র শ্রেণীবিভাগের মতো কাজের জন্য ডিজাইন করা মোবাইল-নির্দিষ্ট ডিএনএনগুলির সাথে তুলনীয়, যা আধুনিক স্মার্টফোনে রিয়েল-টাইম, ডিভাইসে নির্বাহ সম্ভব করে তোলে।

5. বিশ্লেষণ কাঠামো ও কেস স্টাডি

মূল অন্তর্দৃষ্টি: পয়েন্টএআর-এর প্রতিভা একটি নতুন সর্বোচ্চ স্তরের মডেল উদ্ভাবনে নয়, বরং একটি নির্মমভাবে ব্যবহারিক আর্কিটেকচারাল রিফ্যাক্টরিং-এ। যখন এই ক্ষেত্রটি গভীরতর, একক চিত্র-থেকে-আলোকসজ্জা সিএনএন তৈরি করতে ব্যস্ত ছিল (কম্পিউটার ভিশনে দক্ষতা-পূর্ব যুগের কথা স্মরণ করিয়ে দেয়), লেখকরা জিজ্ঞাসা করেছিলেন: "এই কাজের জন্য সর্বনিম্ন, শারীরিকভাবে ভিত্তিক উপস্থাপনা কী?" উত্তর ছিল পয়েন্ট ক্লাউড, যা ১০x দক্ষতা লাভের দিকে নিয়ে যায়। এটি অন্যান্য ডোমেনে দেখা পরিবর্তনের প্রতিফলন ঘটায়, যেমন মোবাইল রোবোটিক্সে এসএলএএম-এর জন্য ঘন অপটিক্যাল ফ্লো থেকে স্পার্স বৈশিষ্ট্য ম্যাচিং-এ স্থানান্তর।

যুক্তিগত প্রবাহ: যুক্তি অত্যন্ত পরিষ্কার: ১) সমস্যা বিভাজন: কঠিন জ্যামিতিক সমস্যা (দৃশ্য সংশ্লেষণ) শিক্ষণ সমস্যা (আলোক অনুমান) থেকে পৃথক করুন। এটি ক্লাসিক "ভাগ কর ও জয় কর" কৌশল। ২) উপস্থাপনা সারিবদ্ধকরণ: শিক্ষণ ইনপুট (পয়েন্ট ক্লাউড) শারীরিক ঘটনার (৩ডি আলোক পরিবহন) সাথে মেলান। এটি ডিএনএন-এর বোঝা হ্রাস করে, যাকে আর ২ডি প্যাচ থেকে ৩ডি জ্যামিতি শিখতে হবে না। ৩) সীমাবদ্ধতা ব্যবহার: এসএইচ ব্যবহার করুন, একটি সীমাবদ্ধ, কম-প্যারামিটার আলোকসজ্জা মডেল যা মোবাইল এআর-এর শারীরিকভাবে নিখুঁত নির্ভুলতার চেয়ে গতির প্রয়োজনীয়তার জন্য উপযুক্ত।

শক্তি ও ত্রুটি: শক্তি অত্যন্ত স্পষ্ট: মোবাইল-প্রস্তুত কর্মক্ষমতা। এটি একটি গবেষণাগারের কৌতূহল নয়; এটি স্থাপনযোগ্য। তবে, ত্রুটিটি এর সুযোগের মধ্যে রয়েছে। এটি অভ্যন্তরীণ, বিচ্ছুরণ-প্রভাবিত আলোকসজ্জার জন্য উপযোগী (যেখানে ২য়-ক্রম এসএইচ যথেষ্ট)। এই পদ্ধতিটি অত্যন্ত স্পেকুলার পরিবেশ বা সরাসরি সূর্যালোকের সাথে লড়াই করবে, যেখানে উচ্চ-ক্রম এসএইচ বা একটি ভিন্ন উপস্থাপনা (যেমন শেখার যোগ্য প্রোব) প্রয়োজন। এটি একটি বিশেষজ্ঞ সরঞ্জাম, সাধারণ নয়।

কার্যকরী অন্তর্দৃষ্টি: এআর বিকাশকারী এবং গবেষকদের জন্য, শিক্ষণ দ্বিগুণ। প্রথমত, মডেল ক্ষমতার উপর আবেশী পক্ষপাতকে অগ্রাধিকার দিন। জ্যামিতি (দৃশ্য রূপান্তরের মাধ্যমে) এবং পদার্থবিদ্যা (এসএইচ-এর মাধ্যমে) অন্তর্ভুক্ত করা সমস্যায় আরও প্যারামিটার নিক্ষেপ করার চেয়ে বেশি কার্যকর। দ্বিতীয়ত, ডিভাইসে এআই-এর ভবিষ্যত শুধুমাত্র বিশাল মডেলগুলিকে কোয়ান্টাইজ করার বিষয়ে নয়; এটি লক্ষ্য হার্ডওয়্যারের জন্য সমস্যা প্রণয়নকে গোড়া থেকে পুনর্বিবেচনা করার বিষয়ে। টেনসরফ্লো লাইট এবং পাইটর্চ মোবাইলের মতো ফ্রেমওয়ার্কের সাফল্য দ্বারা প্রমাণিত, শিল্প এই দিকে এগিয়ে চলেছে, এবং পয়েন্টএআর এর একটি আদর্শ উদাহরণ।

মূল বিশ্লেষণ (৩০০-৬০০ শব্দ): পয়েন্টএআর এআর গবেষণার গতিপথে একটি উল্লেখযোগ্য এবং প্রয়োজনীয় পরিবর্তন উপস্থাপন করে। বছর ধরে, সাইকেলজিএএন (ঝু এট আল., ২০১৭)-এর মতো চিত্র-থেকে-চিত্র অনুবাদের অগ্রগতি দ্বারা প্রভাবিত, প্রভাবশালী প্যারাডাইম আলোকসজ্জা অনুমানকে একটি একক শৈলী-স্থানান্তর সমস্যা হিসাবে বিবেচনা করা হয়েছে: একটি ইনপুট চিত্রকে আলোকসজ্জা উপস্থাপনায় রূপান্তরিত করুন। এটি শক্তিশালী কিন্তু ভারী মডেলের দিকে নিয়ে যায়। পয়েন্টএআর একটি হাইব্রিড বিশ্লেষণাত্মক-শিক্ষিত পদ্ধতির পক্ষে সমর্থন করে এটিকে চ্যালেঞ্জ করে। এর জ্যামিতি-সচেতন রূপান্তর মডিউল একটি বিশুদ্ধ বিশ্লেষণাত্মক, অ-শিক্ষিত উপাদান—একটি ইচ্ছাকৃত নকশা পছন্দ যা একটি জটিল ৩ডি কাজকে নিউরাল নেটওয়ার্ক থেকে সরিয়ে দেয়। এটি ক্লাসিক ভিশন পাইপলাইনের (যেমন, এসআইএফটি + র্যানস্যাক) পিছনের দর্শনের কথা স্মরণ করিয়ে দেয় যেখানে জ্যামিতিক সীমাবদ্ধতাগুলি স্পষ্টভাবে প্রয়োগ করা হয়, ডেটা থেকে শেখা হয় না।

গবেষণাপত্রের সবচেয়ে আকর্ষণীয় যুক্তি হল এর ফোকাস সম্পদ দক্ষতাকে প্রথম শ্রেণীর উদ্দেশ্য হিসাবে বিবেচনা করা, একটি পরবর্তী চিন্তা নয়। মোবাইল এআর-এর প্রেক্ষাপটে, যেখানে ব্যাটারি জীবন, তাপীয় থ্রটলিং এবং মেমরি গুরুতর সীমাবদ্ধতা, একটি মডেল যা ৯০% নির্ভুল কিন্তু ১০x দ্রুত এবং ছোট, তা সামান্য বেশি নির্ভুল একটি দানবের চেয়ে অসীমভাবে বেশি মূল্যবান। এটি গুগলের পেয়ার (পিপল + এআই রিসার্চ) দলের মতো শিল্প নেতাদের অনুসন্ধানের সাথে সামঞ্জস্যপূর্ণ, যা নির্ভুলতার পাশাপাশি বিস্তারিত দক্ষতা মেট্রিক অন্তর্ভুক্ত করে "মডেল কার্ড"-এর প্রয়োজনীয়তার উপর জোর দেয়। পয়েন্টএআর কার্যকরভাবে একটি মডেল কার্ড প্রদান করে যা মোবাইল উপযুক্ততার উপর উচ্চ স্কোর করবে।

যাইহোক, কাজটি একটি উন্মুক্ত চ্যালেঞ্জও তুলে ধরে। আরজিবি-ডি ইনপুটের উপর নির্ভর করে, এটি বর্তমান মোবাইল গভীরতা সেন্সরের সীমাবদ্ধতা উত্তরাধিকার সূত্রে পায় (যেমন, সীমিত পরিসর, শব্দ, টেক্সচারের উপর নির্ভরতা)। প্রতিশ্রুতিশীল ভবিষ্যতের দিকনির্দেশনা, ইঙ্গিত দেওয়া হয়েছে কিন্তু অন্বেষণ করা হয়নি, তা হল ডিভাইসে নিউরাল রেডিয়েন্স ফিল্ডস (এনইআরএফ) বা ৩ডি গাউসিয়ান স্প্লাটিং-এর সাথে শক্তিশালী একীকরণ। এমআইটি সিএসএআইএল এবং গুগল রিসার্চের মতো প্রতিষ্ঠানগুলির গবেষণা দ্বারা দেখানো হয়েছে, এই অন্তর্নিহিত ৩ডি উপস্থাপনাগুলি রিয়েল-টাইম ব্যবহারের জন্য অপ্টিমাইজ করা যেতে পারে। একটি ভবিষ্যত সিস্টেম কয়েকটি চিত্র থেকে একটি ঘন জ্যামিতিক এবং বিকিরণ ক্ষেত্র তৈরি করতে একটি হালকা-ওজনের এনইআরএফ ব্যবহার করতে পারে, যেখান থেকে পয়েন্টএআর-এর পাইপলাইন আরও দৃঢ়ভাবে আলোকসজ্জার তথ্য নিষ্কাশন করতে পারে, সম্ভাব্যভাবে একটি সক্রিয় গভীরতা সেন্সরের প্রয়োজনীয়তা ছাড়িয়ে যেতে পারে। এটি মোবাইল এআর-এর জন্য স্পষ্ট পয়েন্ট ক্লাউড থেকে অন্তর্নিহিত নিউরাল দৃশ্য উপস্থাপনায় বিবর্তনের যৌক্তিক পরবর্তী ধাপ হবে।

6. ভবিষ্যতের প্রয়োগ ও দিকনির্দেশনা

রিয়েল-টাইম গতিশীল আলোকসজ্জা: অস্থায়ী তথ্য অন্তর্ভুক্ত করে গতিশীল আলোর উৎস (যেমন, একটি ফ্ল্যাশলাইট নিয়ে হাঁটা একজন ব্যক্তি) পরিচালনা করার জন্য পাইপলাইনটি প্রসারিত করা।
অন্তর্নিহিত উপস্থাপনার সাথে একীকরণ: জ্যামিতি অনুমান উন্নত করতে এবং শুধুমাত্র আরজিবি ভিডিও থেকে আলোকসজ্জা ভবিষ্যদ্বাণী সক্ষম করতে একটি দ্রুত, ডিভাইসে নিউরাল দৃশ্য উপস্থাপনা (যেমন, একটি ক্ষুদ্র এনইআরএফ বা ৩ডি গাউসিয়ান স্প্লাটিং মডেল) এর সাথে পয়েন্টএআর যুক্ত করা।
উচ্চ-ক্রম আলোক প্রভাব: উচ্চ-ফ্রিকোয়েন্সি আলোকসজ্জা (স্পেকুলার হাইলাইট, শক্ত ছায়া) মডেল করার দক্ষ উপায় অন্বেষণ করা সম্ভবত একটি ছোট সেট ওরিয়েন্টেড লাইট প্রোব ভবিষ্যদ্বাণী করে বা এসএইচ-এর পাশাপাশি শেখার রেডিয়াল ভিত্তি ফাংশন ব্যবহার করে।
ক্রস-ডিভাইস এআর সহযোগিতা: বহু-ব্যবহারকারী এআর অভিজ্ঞতায় একটি ভাগ করা পরিবেশগত প্রসঙ্গ হিসাবে দক্ষ আলোকসজ্জা অনুমান ব্যবহার করা, বিভিন্ন ডিভাইস জুড়ে সামঞ্জস্যপূর্ণ বস্তুর চেহারা নিশ্চিত করা।
ফটোরিয়ালিস্টিক অবতার ও ভিডিও কনফারেন্সিং: আরও নিমজ্জিত যোগাযোগ এবং মেটাভার্স অ্যাপ্লিকেশনের জন্য রিয়েল-টাইমে মানুষের মুখ বা অবতার পুনরায় আলোকিত করতে আলোকসজ্জা অনুমান প্রয়োগ করা।

7. তথ্যসূত্র

ঝাও, ওয়াই., এবং গুও, টি. (২০২০). পয়েন্টএআর: মোবাইল অগমেন্টেড রিয়েলিটির জন্য দক্ষ আলোক অনুমান. arXiv preprint arXiv:2004.00006.
গার্ডনার, এম., এট আল. (২০১৯). একটি একক চিত্র থেকে অভ্যন্তরীণ আলোকসজ্জা ভবিষ্যদ্বাণী করতে শেখা. এসিএম টিওজি.
গ্যারন, এম., এট আল. (২০১৯). দ্রুত স্থানিকভাবে পরিবর্তনশীল অভ্যন্তরীণ আলোকসজ্জা অনুমান. সিভিপিআর.
সঙ, এস., এট আল. (২০১৯). গোলকীয় প্যানোরামা থেকে গভীর আলোকসজ্জা পরিবেশ মানচিত্র অনুমান. সিভিপিআর কর্মশালা.
ঝু, জে., এট আল. (২০১৭). চক্র-সামঞ্জস্যপূর্ণ প্রতিকূল নেটওয়ার্ক ব্যবহার করে জোড়াবিহীন চিত্র-থেকে-চিত্র অনুবাদ. আইসিসিভি.
মিল্ডেনহল, বি., এট আল. (২০২০). এনইআরএফ: দৃশ্য সংশ্লেষণের জন্য দৃশ্যগুলিকে নিউরাল রেডিয়েন্স ফিল্ড হিসাবে উপস্থাপন করা. ইসিসিভি.
গুগল পেয়ার. (n.d.). মডেল রিপোর্টিংয়ের জন্য মডেল কার্ড. থেকে সংগৃহীত https://pair.withgoogle.com/model-cards/