مدل جدید هوش مصنوعی از تنها یک عکس دنیای سه‌بعدی می‌سازد

تنسنت با رونمایی از «هون‌یوان‌وویجر» امکان بازسازی ویدئویی صحنه‌های سه‌بعدی از یک تصویر ثابت را فراهم کرد.

به گزارش تابش کوثر، شرکت چینی تنسنت از یک مدل تازه هوش مصنوعی با نام هون‌یوان‌وویجر رونمایی کرد. این مدل می‌تواند تنها با دریافت یک عکس، ویدئویی کوتاه با عمق و سازگاری فضایی تولید کند که قابلیت بازسازی سه‌بعدی دارد.

مدل هون‌یوان‌وویجر قادر است از یک تصویر ثابت، ویدئوهای کوتاه متشکل از ۴۹ فریم (حدود دو ثانیه) بسازد. این ویدئوها به گونه‌ای طراحی شده‌اند که حرکت دوربین در یک فضای سه‌بعدی واقعی را شبیه‌سازی کنند. کاربران می‌توانند مسیر حرکت دوربین را تعیین کنند و مدل بر اساس داده‌های تصویری و نقشه عمق، صحنه‌های مجازی را بازسازی کند.

این فناوری در واقع مدل سه‌بعدی واقعی تولید نمی‌کند، اما با ایجاد ویدئو همراه با داده‌های عمیق، امکان ساخت ابرنقاط سه‌بعدی و بازسازی بعدی را فراهم می‌کند.

به گفته تنسنت، برای آموزش این مدل بیش از صد هزار کلیپ ویدئویی از صحنه‌های واقعی و شبیه‌سازی‌شده با موتور آنریل انجین استفاده شده است. این روش به سیستم امکان می‌دهد حرکت‌های دوربین در محیط‌های سه‌بعدی را تقلید کند.

در گزارش فنی تنسنت آمده است که این مدل از دو بخش اصلی تشکیل شده است که شامل تولید همزمان تصویر رنگی و داده‌های عمق و استفاده از سازوکاری به نام کش دنیایی می‌شود. این سازوکار مجموعه‌ای از نقاط سه‌بعدی استخراج‌شده از فریم‌های قبلی را ذخیره می‌کند و هنگام تولید فریم‌های جدید، آن‌ها را به تصویر دوبعدی بازمی‌تاباند تا هماهنگی حفظ شود.

در آزمون ورلداسکور که توسط دانشگاه استنفورد طراحی شده، هون‌یوان‌وویجر امتیاز کلی ۷۷.۶۲ را به دست آورده و عملکردی بهتر از مدل‌های رقیب مانند واندرورلد و کاگ‌ویدئو داشته است. این مدل در شاخص‌های کنترل اجسام، ثبات سبک و کیفیت بصری نتیجه مطلوبی داشته اما در کنترل حرکت دوربین پس از واندرورلد در جایگاه دوم قرار گرفته است.

با این حال، استفاده از این فناوری نیازمند توان پردازشی بالاست. تنسنت اعلام کرده اجرای مدل در وضوح ۵۴۰ پیکسل به حداقل ۶۰ گیگابایت حافظه پردازنده گرافیکی نیاز دارد و برای نتایج بهتر ۸۰ گیگابایت توصیه می‌شود. همچنین این مدل با بهره‌گیری از چند پردازنده گرافیکی می‌تواند سرعت پردازش را چند برابر افزایش دهد.

تنسنت تأکید کرده است که به‌کارگیری این مدل در اتحادیه اروپا، بریتانیا و کره‌جنوبی ممنوع است و پروژه‌هایی با بیش از صد میلیون کاربر فعال ماهانه نیازمند دریافت مجوز جداگانه خواهند بود.

مدل تازه بخشی از اکوسیستم هون‌یوان تنسنت است که شامل ابزارهای دیگری برای تولید سه‌بعدی از متن و ساخت ویدئو نیز می‌شود. کارشناسان می‌گویند این فناوری گامی مهم در بازسازی صحنه‌های سه‌بعدی و تولید محتوای ویدئویی است، اما هنوز تا ایجاد دنیای تعاملی و بلادرنگ فاصله دارد.

م/۱۱۰*

کد خبر 142159

برچسب‌ها

نظر شما

شما در حال پاسخ به نظر «» هستید.
captcha