Attention is All You Need

جزئیات مقاله

Attention is All You Need

مشخصات مقاله

  • نویسنده مقاله: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
  • نام دانشگاه یا موسسه: Google Research و Google Brain؛ Aidan N. Gomez از دانشگاه تورنتو
  • تاریخ انتشار: ۱۲ ژوئن ۲۰۱۷
  • DOI یا لینک مقاله اصلی: https://arxiv.org/abs/1706.03762
  • نوع مقاله: پژوهشی (Research Paper)
  • موضوع مقاله: معرفی معماری Transformer بر پایه مکانیزم توجه (Attention)
  • تعداد صفحات: ۱۵ صفحه
  • رتبه علمی ژورنال: ارائه‌شده در کنفرانس معتبر NIPS 2017
  • زبان مقاله: انگلیسی

خلاصه:

مدل‌های تبدیل توالی (Sequence Transduction) غالب بر اساس شبکه‌های عصبی بازگشتی (Recurrent Neural Networks) یا کانولوشنی (Convolutional Neural Networks) پیچیده هستند که شامل یک انکودر (Encoder) و یک دیکودر (Decoder) می‌باشند. بهترین مدل‌های عملکردی همچنین انکودر (Encoder) و دیکودر (Decoder) را از طریق مکانیزم توجه (Attention) به یکدیگر متصل می‌کنند. ما یک معماری شبکه جدید و ساده به نام ترنسفورمر (Transformer) پیشنهاد می‌کنیم که به طور کامل بر مکانیزم‌های توجه (Attention) استوار است و استفاده از بازگشت (Recurrence) و کانولوشن (Convolution) را به طور کامل کنار می‌گذارد. آزمایش‌ها بر روی دو وظیفه ترجمه ماشینی نشان می‌دهند که این مدل‌ها از نظر کیفیت برتر هستند، در حالی که موازی‌سازی (Parallelization) بیشتری دارند و نیازمند زمان آموزشی به مراتب کمتری هستند.

مدل ما امتیاز 28.4 بلو (BLEU) را در وظیفه ترجمه انگلیسی به آلمانی WMT 2014 کسب می‌کند که بیش از 2 امتیاز بلو (BLEU) بهبود نسبت به بهترین نتایج موجود، از جمله ترکیب مدل‌ها (Ensembles)، دارد. در وظیفه ترجمه انگلیسی به فرانسوی WMT 2014، مدل ما یک رکورد جدید با امتیاز بلو (BLEU) معادل 41.8 را پس از 3.5 روز آموزش با استفاده از هشت جی‌پی‌یو (GPU) ثبت می‌کند، که کسری از هزینه‌های آموزشی بهترین مدل‌های موجود در ادبیات علمی است. ما نشان می‌دهیم که ترنسفورمر (Transformer) به خوبی برای وظایف دیگر نیز تعمیم می‌یابد، چرا که با موفقیت برای تجزیه ساختاری زبان انگلیسی (English Constituency Parsing) با داده‌های آموزشی بزرگ و محدود به کار گرفته شده است.

توضیح عبارات:

  1. Sequence Transduction:
    فرآیند تبدیل یک توالی ورودی به یک توالی خروجی، که در کاربردهایی مانند ترجمه ماشینی و مدل‌سازی زبان استفاده می‌شود.
  2. Recurrent Neural Networks (RNNs):
    نوعی شبکه عصبی که برای داده‌های ترتیبی و توالی‌ها طراحی شده است و حالت‌های قبلی را در زمان پردازش داده‌های جدید در نظر می‌گیرد.
    اطلاعات بیشتر در مقاله Wikipedia.
  3. Convolutional Neural Networks (CNNs):
    نوعی شبکه عصبی که به طور گسترده برای پردازش داده‌های تصویری و استخراج ویژگی‌های فضایی از تصاویر استفاده می‌شود.
    اطلاعات بیشتر در مقاله Wikipedia.
  4. Encoder:
    بخشی از معماری مدل‌های تبدیل توالی که ورودی را دریافت کرده و آن را به یک نمایش فشرده تبدیل می‌کند.
  5. Decoder:
    بخشی از معماری مدل که نمایش فشرده تولیدشده توسط انکودر را به خروجی نهایی تبدیل می‌کند.
  6. Attention Mechanisms:
    مکانیزمی که به مدل‌ها امکان می‌دهد وزن بیشتری به قسمت‌های مهم ورودی اختصاص دهند و وابستگی‌های طولانی‌مدت را بهتر مدیریت کنند.
    اطلاعات بیشتر در مقاله Attention در Deep Learning.
  7. Recurrence:
    مفهومی در شبکه‌های بازگشتی که به مدل اجازه می‌دهد از حالت‌های قبلی برای پردازش حالت فعلی استفاده کند.
    اطلاعات بیشتر در مقاله Wikipedia.
  8. Convolution:
    عملیات ریاضی که در شبکه‌های عصبی کانولوشنی برای استخراج ویژگی‌های محلی از ورودی استفاده می‌شود.
    اطلاعات بیشتر در مقاله Wikipedia.
  9. Parallelization:
    فرایند تقسیم وظایف به واحدهای کوچکتر برای اجرای همزمان آن‌ها و افزایش کارایی.
    اطلاعات بیشتر در مقاله Wikipedia.
  10. BLEU:
    معیاری برای ارزیابی کیفیت ترجمه ماشینی که شباهت خروجی مدل را با ترجمه انسانی مقایسه می‌کند.
    اطلاعات بیشتر در مقاله Wikipedia.
  11. GPU:
    واحد پردازش گرافیکی که برای پردازش موازی در یادگیری ماشین و به‌ویژه در آموزش مدل‌های عمیق استفاده می‌شود.
    اطلاعات بیشتر در مقاله Wikipedia.
  12. English Constituency Parsing:
    فرآیندی برای تجزیه یک جمله به اجزای نحوی آن، مانند گروه‌های اسمی و فعلی، در زبان‌شناسی محاسباتی.

مقدمه:

شبکه‌های عصبی بازگشتی (Recurrent Neural Networks) و به ویژه شبکه‌ حافظه کوتاه‌مدت طولانی (Long Short-Term Memory (LSTM)) و شبکه‌های بازگشتی گیتی‌ (Gated Recurrent Neural Networks)، به عنوان روش‌های پیشرفته در مدل‌سازی توالی (Sequence Modeling) و مسائل تبدیل توالی (Sequence Transduction) شناخته شده‌اند. این روش‌ها در کاربردهایی مانند مدل‌سازی زبان (Language Modeling) و ترجمه ماشینی (Machine Translation) جایگاه ویژه‌ای دارند. تلاش‌های بسیاری برای گسترش مرزهای مدل‌های بازگشتی زبان و معماری‌های انکودر-دیکودر (Encoder-Decoder Architectures) انجام شده است.

مدل‌های بازگشتی معمولاً محاسبات را بر اساس موقعیت سمبل‌های توالی ورودی و خروجی (Symbol Positions of Input and Output Sequences) تقسیم می‌کنند. هم‌ترازی موقعیت‌ها با مراحل در زمان محاسبات، یک توالی از حالت‌های پنهان (Hidden States)

ht

تولید می‌کند که به صورت تابعی از حالت پنهان قبلی

ht1h_{t-1}

و ورودی موقعیت t تعریف می‌شود. این طبیعت دنباله‌ای، به طور ذاتی امکان موازی‌سازی (Parallelization) در نمونه‌های آموزشی را محدود می‌کند. این محدودیت در توالی‌های طولانی‌تر مهم‌تر می‌شود، زیرا محدودیت‌های حافظه، دسته‌بندی نمونه‌ها در فرآیند آموزش را کاهش می‌دهند. تحقیقات اخیر بهبودهای قابل‌توجهی در بهره‌وری محاسباتی (Computational Efficiency) از طریق ترفندهای تجزیه (Factorization Tricks) و محاسبات شرطی (Conditional Computation) به دست آورده‌اند، که در بهبود عملکرد مدل در این شرایط نیز مؤثر بوده است. با این حال، محدودیت اساسی محاسبات دنباله‌ای همچنان پابرجاست.

مکانیزم‌های توجه (Attention Mechanisms) به بخشی جدایی‌ناپذیر از مدل‌های پیشرفته در مدل‌سازی توالی و مسائل تبدیل توالی تبدیل شده‌اند. این مکانیزم‌ها به مدل‌سازی وابستگی‌ها بدون توجه به فاصله آن‌ها در توالی‌های ورودی یا خروجی کمک می‌کنند. با این وجود، در بیشتر موارد، این مکانیزم‌های توجه همراه با شبکه‌های بازگشتی (Recurrent Networks) استفاده می‌شوند.

در این تحقیق، ما مدل ترنسفورمر (Transformer) را پیشنهاد می‌کنیم. این معماری، استفاده از بازگشت (Recurrence) را کنار گذاشته و به طور کامل به مکانیزم‌های توجه (Attention Mechanisms) برای مدل‌سازی وابستگی‌ها بین ورودی و خروجی متکی است. ترنسفورمر امکان موازی‌سازی قابل‌توجهی را فراهم می‌کند و می‌تواند به سطح پیشرفته جدیدی در کیفیت ترجمه دست یابد، حتی با آموزشی کمتر از ۱۲ ساعت بر روی هشت کارت گرافیک P100 (P100 GPUs).

توضیح عبارات:

  1. Hidden States:
    نمایش فشرده‌ای از اطلاعات ورودی که در هر مرحله توسط شبکه‌های بازگشتی نگهداری و به مراحل بعدی منتقل می‌شود.
  2. Factorization Tricks:
    روش‌هایی برای ساده‌سازی محاسبات ریاضی که باعث بهبود کارایی در مدل‌های یادگیری ماشین می‌شود.
  3. Conditional Computation:
    تکنیکی که در آن فقط بخش‌هایی از مدل فعال می‌شوند که برای پردازش یک نمونه خاص مورد نیاز هستند، به منظور افزایش بهره‌وری.