يوضح خط أنابيب O3D-SIM لـ VLN. يستخرج معلومات المثيل الدلالي مفتوح المجموعة (الأقنعة، ميزات CLIP/DINO) من صور RGB-Dيوضح خط أنابيب O3D-SIM لـ VLN. يستخرج معلومات المثيل الدلالي مفتوح المجموعة (الأقنعة، ميزات CLIP/DINO) من صور RGB-D

استخراج الدلالات المعنوية: ميزات CLIP وDINO لرسم الخرائط ثلاثية الأبعاد

2025/12/11 03:00

نبذة مختصرة و1 مقدمة

  1. الأعمال ذات الصلة

    2.1. التنقل بالرؤية واللغة

    2.2. فهم المشهد الدلالي وتجزئة الكائنات

    2.3. إعادة بناء المشهد ثلاثي الأبعاد

  2. المنهجية

    3.1. جمع البيانات

    3.2. المعلومات الدلالية مفتوحة المجموعة من الصور

    3.3. إنشاء التمثيل ثلاثي الأبعاد مفتوح المجموعة

    3.4. التنقل الموجه باللغة

  3. التجارب

    4.1. التقييم الكمي

    4.2. النتائج النوعية

  4. الخاتمة والعمل المستقبلي، وبيان الإفصاح، والمراجع

3. المنهجية

في هذا القسم، نناقش مسار عمل طريقة التنقل بالرؤية واللغة (VLN) التي تستخدم O3D-SIM. نبدأ بنظرة عامة على مسار العمل المقترح ثم نقدم تحليلاً متعمقاً لخطواته المكونة. تتضمن المرحلة الأولية من منهجيتنا جمع البيانات، التي تتكون من مجموعة من صور RGB-D ومعلمات الكاميرا الخارجية والداخلية، والتي يتم توضيحها أولاً. بعد ذلك، ننتقل إلى إنشاء خريطة الكائنات الدلالية ثلاثية الأبعاد مفتوحة المجموعة. تنقسم هذه العملية إلى مرحلتين رئيسيتين: في البداية، نستخرج معلومات الكائنات الدلالية مفتوحة المجموعة من الصور؛ بعد ذلك، نستخدم المعلومات المفتوحة المجمعة لتنظيم السحابة النقطية ثلاثية الأبعاد في خريطة كائنات دلالية ثلاثية الأبعاد مفتوحة المجموعة. يركز الجزء الأخير من مناقشتنا على وحدة VLN، حيث نتحدث عن تنفيذها ووظائفها.

\ يتم توضيح مسار عمل إنشاء O3D-SIM في الشكل 2. الخطوة الأولى من إنشاء O3D-SIM، المقدمة في القسم 3.2، هي استخراج معلومات الكائنات الدلالية مفتوحة المجموعة من تسلسل RGB للصور المدخلة. تتضمن هذه المعلومات، لكل كائن، معلومات القناع والميزات الدلالية الممثلة بميزات تضمين CLIP [9] و DINO [10]. الخطوة الثانية، المقدمة في القسم 3.3، تستخدم معلومات الكائنات الدلالية مفتوحة المجموعة هذه لتجميع السحابة النقطية ثلاثية الأبعاد المدخلة في خريطة كائنات دلالية ثلاثية الأبعاد مفتوحة المجموعة، انظر الشكلين 2 و 3. يتم تحسين العملية بشكل تدريجي من خلال تطبيق تسلسل صور RGB-D بمرور الوقت.

\

:::info المؤلفون:

(1) لاكش نانواني، المعهد الدولي لتكنولوجيا المعلومات، حيدر آباد، الهند؛ ساهم هذا المؤلف بشكل متساوٍ في هذا العمل؛

(2) كوماراديتيا جوبتا، المعهد الدولي لتكنولوجيا المعلومات، حيدر آباد، الهند؛

(3) أديتيا ماثور، المعهد الدولي لتكنولوجيا المعلومات، حيدر آباد، الهند؛ ساهم هذا المؤلف بشكل متساوٍ في هذا العمل؛

(4) سوايام أغراوال، المعهد الدولي لتكنولوجيا المعلومات، حيدر آباد، الهند؛

(5) أ.هـ. عبد الحافظ، جامعة حسن كاليونجو، شاهينبي، غازي عنتاب، تركيا؛

(6) ك. مادهافا كريشنا، المعهد الدولي لتكنولوجيا المعلومات، حيدر آباد، الهند.

:::


:::info هذه الورقة متاحة على arxiv تحت رخصة CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

إخلاء مسؤولية: المقالات المُعاد نشرها على هذا الموقع مستقاة من منصات عامة، وهي مُقدمة لأغراض إعلامية فقط. لا تُظهِر بالضرورة آراء MEXC. جميع الحقوق محفوظة لمؤلفيها الأصليين. إذا كنت تعتقد أن أي محتوى ينتهك حقوق جهات خارجية، يُرجى التواصل عبر البريد الإلكتروني service@support.mexc.com لإزالته. لا تقدم MEXC أي ضمانات بشأن دقة المحتوى أو اكتماله أو حداثته، وليست مسؤولة عن أي إجراءات تُتخذ بناءً على المعلومات المُقدمة. لا يُمثل المحتوى نصيحة مالية أو قانونية أو مهنية أخرى، ولا يُعتبر توصية أو تأييدًا من MEXC.