Attention is All You Need

جزئیات مقاله

Attention is All You Need

مشخصات مقاله

  • نویسنده مقاله: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
  • نام دانشگاه یا موسسه: Google Brain و Google Research
  • تاریخ انتشار: ژوئن 2017
  • DOI یا لینک مقاله اصلی: https://arxiv.org/abs/1706.03762
  • نوع مقاله: پژوهشی
  • موضوع مقاله: معرفی معماری Transformer برای پردازش زبان طبیعی (NLP)
  • تعداد صفحات: 15 صفحه
  • رتبه علمی ژورنال: کنفرانس NIPS (NeurIPS) 2017، یکی از معتبرترین کنفرانس‌های هوش مصنوعی
  • زبان مقاله: انگلیسی

پیش‌زمینه: چرا این مقاله مهم است؟

پیش از معرفی معماری Transformer، مدل‌های مرسوم برای پردازش زبان طبیعی (مانند RNN و LSTM) برای یادگیری وابستگی‌های بلندمدت در داده‌های متنی دچار مشکل بودند. همچنین، این مدل‌ها نیاز به پردازش ترتیبی داشتند، که آموزش و اجرا را زمان‌بر و محاسباتی گران می‌کرد. مقاله “Attention is All You Need” این مشکلات را با معرفی مکانیزمی که کاملاً بر توجه (Attention) متکی است و امکان پردازش موازی داده‌ها را فراهم می‌کند، حل کرد.


جزئیات معماری Transformer

معماری Transformer از دو بخش اصلی تشکیل شده است:

  1. Encoder
    وظیفه استخراج ویژگی‌های معنایی از ورودی را بر عهده دارد.
  2. Decoder
    وظیفه تولید خروجی با استفاده از ویژگی‌های معنایی استخراج شده توسط Encoder را دارد.

هر کدام از این دو بخش شامل چندین لایه تکرارشونده است که به طور خاص طراحی شده‌اند تا ویژگی‌های پیچیده‌تر و عمیق‌تری از داده‌ها را یاد بگیرند.


اجزای کلیدی در Transformer

  1. Self-Attention Mechanism (توجه به خود):
    • ایده اصلی این مکانیزم این است که هر کلمه (یا توکن) در ورودی می‌تواند به کلمات دیگر در همان ورودی توجه کند.
    • این کار با استفاده از سه ماتریس اصلی انجام می‌شود:
      • Query (Q): نمایشی از توکن فعلی.
      • Key (K): نمایشی از تمامی توکن‌ها که مشخص می‌کند کدام توکن‌ها مرتبط هستند.
      • Value (V): اطلاعات مرتبط برای هر توکن.
      1. Multi-Head Attention (توجه چندسری):
        • برای استخراج ویژگی‌های متنوع از داده‌ها، از چندین مکانیزم توجه به صورت موازی استفاده می‌شود.
        • هر Head مستقل از دیگران کار می‌کند و سپس نتایج آنها ترکیب می‌شود.
      2. Feed-Forward Layers:
        • لایه‌های کاملاً متصل (Fully Connected) که پس از لایه توجه قرار می‌گیرند و ویژگی‌های استخراج‌شده را به نمایش‌های پیچیده‌تر تبدیل می‌کنند.
      3. Normalization (لایه نرمال‌سازی):
        • هر لایه در Encoder و Decoder پس از اعمال مکانیزم توجه یا لایه Feed-Forward، توسط Layer Normalization تنظیم می‌شود تا سرعت همگرایی مدل افزایش یابد.
      4. Positional Encoding:
        • برخلاف RNNها، مدل Transformer ترتیب ورودی‌ها را به طور طبیعی یاد نمی‌گیرد.
        • برای اضافه کردن اطلاعات ترتیبی به داده‌ها، Positional Encoding به بردارهای ورودی اضافه می‌شود. این بردارها از توابع سینوسی و کسینوسی با فرکانس‌های مختلف محاسبه می‌شوند.

      ساختار Encoder و Decoder

      Encoder:

      • شامل 6 لایه است.
      • هر لایه دارای دو زیرجزء اصلی است:
        1. Multi-Head Attention
        2. Feed-Forward Network
      • ورودی اولیه به Encoder توکن‌های کدگذاری شده به همراه Positional Encoding است.

      Decoder:

      • شامل 6 لایه است.
      • علاوه بر اجزای موجود در Encoder، یک Masked Multi-Head Attention اضافه شده است.
        • این مکانیزم تضمین می‌کند که در هنگام تولید خروجی، تنها از کلمات قبلی استفاده شود (برای حفظ ترتیب در تولید متن).

      مهم‌ترین ویژگی‌ها و مزایای معماری Transformer

      1. حذف واحدهای بازگشتی:
        برخلاف RNN و LSTM، این مدل نیازی به پردازش ترتیبی ندارد و به طور کامل از محاسبات موازی استفاده می‌کند.
      2. کارایی بالا در مقیاس بزرگ:
        توانایی پردازش موازی به معنای آموزش سریع‌تر و کارآمدتر است.
      3. توجه پویا:
        مکانیزم Attention وابستگی‌های طولانی‌مدت و کوتاه‌مدت را به طور همزمان مدل می‌کند.
      4. انعطاف‌پذیری بالا:
        این معماری برای وظایف مختلف NLP مانند ترجمه ماشینی، خلاصه‌سازی متن، پاسخ به سوال، و غیره بهینه شده است.
      5. نتایج بهتر از RNN و LSTM:
        این مدل در بسیاری از وظایف NLP عملکرد بهتری نسبت به معماری‌های قدیمی‌تر نشان داد.

      کاربردها و نتایج تجربی مقاله

      • مقاله عملکرد Transformer را در ترجمه ماشینی ارزیابی کرد (به طور خاص، مجموعه داده WMT 2014 English-to-German Translation).
      • مدل Transformer به طور قابل توجهی بهتر از مدل‌های مبتنی بر RNN و LSTM عمل کرد.
      • این معماری به دلیل توانایی در پردازش موازی و استفاده بهینه از داده‌ها، سرعت آموزش بسیار بالاتری نسبت به معماری‌های قبلی دارد.

      نتیجه‌گیری مقاله

      • Transformer انقلابی در یادگیری عمیق ایجاد کرد و جایگزین مدل‌های قدیمی‌تر در پردازش زبان طبیعی شد.
      • این معماری پایه و اساس مدل‌های پیشرفته‌ای مانند BERT، GPT، T5، RoBERTa و دیگر مدل‌های زبان بزرگ را تشکیل داد.
      • ایده استفاده از Self-Attention و Multi-Head Attention همچنان یکی از ایده‌های کلیدی در مدل‌های جدیدتر است.