به گزارش تابش کوثر، شرکت چینی تنسنت از یک مدل تازه هوش مصنوعی با نام هونیوانوویجر رونمایی کرد. این مدل میتواند تنها با دریافت یک عکس، ویدئویی کوتاه با عمق و سازگاری فضایی تولید کند که قابلیت بازسازی سهبعدی دارد.
مدل هونیوانوویجر قادر است از یک تصویر ثابت، ویدئوهای کوتاه متشکل از ۴۹ فریم (حدود دو ثانیه) بسازد. این ویدئوها به گونهای طراحی شدهاند که حرکت دوربین در یک فضای سهبعدی واقعی را شبیهسازی کنند. کاربران میتوانند مسیر حرکت دوربین را تعیین کنند و مدل بر اساس دادههای تصویری و نقشه عمق، صحنههای مجازی را بازسازی کند.
این فناوری در واقع مدل سهبعدی واقعی تولید نمیکند، اما با ایجاد ویدئو همراه با دادههای عمیق، امکان ساخت ابرنقاط سهبعدی و بازسازی بعدی را فراهم میکند.
به گفته تنسنت، برای آموزش این مدل بیش از صد هزار کلیپ ویدئویی از صحنههای واقعی و شبیهسازیشده با موتور آنریل انجین استفاده شده است. این روش به سیستم امکان میدهد حرکتهای دوربین در محیطهای سهبعدی را تقلید کند.
در گزارش فنی تنسنت آمده است که این مدل از دو بخش اصلی تشکیل شده است که شامل تولید همزمان تصویر رنگی و دادههای عمق و استفاده از سازوکاری به نام کش دنیایی میشود. این سازوکار مجموعهای از نقاط سهبعدی استخراجشده از فریمهای قبلی را ذخیره میکند و هنگام تولید فریمهای جدید، آنها را به تصویر دوبعدی بازمیتاباند تا هماهنگی حفظ شود.
در آزمون ورلداسکور که توسط دانشگاه استنفورد طراحی شده، هونیوانوویجر امتیاز کلی ۷۷.۶۲ را به دست آورده و عملکردی بهتر از مدلهای رقیب مانند واندرورلد و کاگویدئو داشته است. این مدل در شاخصهای کنترل اجسام، ثبات سبک و کیفیت بصری نتیجه مطلوبی داشته اما در کنترل حرکت دوربین پس از واندرورلد در جایگاه دوم قرار گرفته است.
با این حال، استفاده از این فناوری نیازمند توان پردازشی بالاست. تنسنت اعلام کرده اجرای مدل در وضوح ۵۴۰ پیکسل به حداقل ۶۰ گیگابایت حافظه پردازنده گرافیکی نیاز دارد و برای نتایج بهتر ۸۰ گیگابایت توصیه میشود. همچنین این مدل با بهرهگیری از چند پردازنده گرافیکی میتواند سرعت پردازش را چند برابر افزایش دهد.
تنسنت تأکید کرده است که بهکارگیری این مدل در اتحادیه اروپا، بریتانیا و کرهجنوبی ممنوع است و پروژههایی با بیش از صد میلیون کاربر فعال ماهانه نیازمند دریافت مجوز جداگانه خواهند بود.
مدل تازه بخشی از اکوسیستم هونیوان تنسنت است که شامل ابزارهای دیگری برای تولید سهبعدی از متن و ساخت ویدئو نیز میشود. کارشناسان میگویند این فناوری گامی مهم در بازسازی صحنههای سهبعدی و تولید محتوای ویدئویی است، اما هنوز تا ایجاد دنیای تعاملی و بلادرنگ فاصله دارد.
م/۱۱۰*
نظر شما