جزئیات مقاله
Attention is All You Need
مشخصات مقاله
- نویسنده مقاله: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
- نام دانشگاه یا موسسه: Google Brain و Google Research
- تاریخ انتشار: ژوئن 2017
- DOI یا لینک مقاله اصلی: https://arxiv.org/abs/1706.03762
- نوع مقاله: پژوهشی
- موضوع مقاله: معرفی معماری Transformer برای پردازش زبان طبیعی (NLP)
- تعداد صفحات: 15 صفحه
- رتبه علمی ژورنال: کنفرانس NIPS (NeurIPS) 2017، یکی از معتبرترین کنفرانسهای هوش مصنوعی
- زبان مقاله: انگلیسی
پیشزمینه: چرا این مقاله مهم است؟
پیش از معرفی معماری Transformer، مدلهای مرسوم برای پردازش زبان طبیعی (مانند RNN و LSTM) برای یادگیری وابستگیهای بلندمدت در دادههای متنی دچار مشکل بودند. همچنین، این مدلها نیاز به پردازش ترتیبی داشتند، که آموزش و اجرا را زمانبر و محاسباتی گران میکرد. مقاله “Attention is All You Need” این مشکلات را با معرفی مکانیزمی که کاملاً بر توجه (Attention) متکی است و امکان پردازش موازی دادهها را فراهم میکند، حل کرد.
جزئیات معماری Transformer
معماری Transformer از دو بخش اصلی تشکیل شده است:
- Encoder
وظیفه استخراج ویژگیهای معنایی از ورودی را بر عهده دارد.
- Decoder
وظیفه تولید خروجی با استفاده از ویژگیهای معنایی استخراج شده توسط Encoder را دارد.
هر کدام از این دو بخش شامل چندین لایه تکرارشونده است که به طور خاص طراحی شدهاند تا ویژگیهای پیچیدهتر و عمیقتری از دادهها را یاد بگیرند.
اجزای کلیدی در Transformer
- Self-Attention Mechanism (توجه به خود):
- ایده اصلی این مکانیزم این است که هر کلمه (یا توکن) در ورودی میتواند به کلمات دیگر در همان ورودی توجه کند.
- این کار با استفاده از سه ماتریس اصلی انجام میشود:
- Query (Q): نمایشی از توکن فعلی.
- Key (K): نمایشی از تمامی توکنها که مشخص میکند کدام توکنها مرتبط هستند.
- Value (V): اطلاعات مرتبط برای هر توکن.
-
-
- Multi-Head Attention (توجه چندسری):
- برای استخراج ویژگیهای متنوع از دادهها، از چندین مکانیزم توجه به صورت موازی استفاده میشود.
- هر Head مستقل از دیگران کار میکند و سپس نتایج آنها ترکیب میشود.
- Feed-Forward Layers:
- لایههای کاملاً متصل (Fully Connected) که پس از لایه توجه قرار میگیرند و ویژگیهای استخراجشده را به نمایشهای پیچیدهتر تبدیل میکنند.
- Normalization (لایه نرمالسازی):
- هر لایه در Encoder و Decoder پس از اعمال مکانیزم توجه یا لایه Feed-Forward، توسط Layer Normalization تنظیم میشود تا سرعت همگرایی مدل افزایش یابد.
- Positional Encoding:
- برخلاف RNNها، مدل Transformer ترتیب ورودیها را به طور طبیعی یاد نمیگیرد.
- برای اضافه کردن اطلاعات ترتیبی به دادهها، Positional Encoding به بردارهای ورودی اضافه میشود. این بردارها از توابع سینوسی و کسینوسی با فرکانسهای مختلف محاسبه میشوند.
ساختار Encoder و Decoder
Encoder:
- شامل 6 لایه است.
- هر لایه دارای دو زیرجزء اصلی است:
- Multi-Head Attention
- Feed-Forward Network
- ورودی اولیه به Encoder توکنهای کدگذاری شده به همراه Positional Encoding است.
Decoder:
- شامل 6 لایه است.
- علاوه بر اجزای موجود در Encoder، یک Masked Multi-Head Attention اضافه شده است.
- این مکانیزم تضمین میکند که در هنگام تولید خروجی، تنها از کلمات قبلی استفاده شود (برای حفظ ترتیب در تولید متن).
مهمترین ویژگیها و مزایای معماری Transformer
- حذف واحدهای بازگشتی:
برخلاف RNN و LSTM، این مدل نیازی به پردازش ترتیبی ندارد و به طور کامل از محاسبات موازی استفاده میکند.
- کارایی بالا در مقیاس بزرگ:
توانایی پردازش موازی به معنای آموزش سریعتر و کارآمدتر است.
- توجه پویا:
مکانیزم Attention وابستگیهای طولانیمدت و کوتاهمدت را به طور همزمان مدل میکند.
- انعطافپذیری بالا:
این معماری برای وظایف مختلف NLP مانند ترجمه ماشینی، خلاصهسازی متن، پاسخ به سوال، و غیره بهینه شده است.
- نتایج بهتر از RNN و LSTM:
این مدل در بسیاری از وظایف NLP عملکرد بهتری نسبت به معماریهای قدیمیتر نشان داد.
کاربردها و نتایج تجربی مقاله
- مقاله عملکرد Transformer را در ترجمه ماشینی ارزیابی کرد (به طور خاص، مجموعه داده WMT 2014 English-to-German Translation).
- مدل Transformer به طور قابل توجهی بهتر از مدلهای مبتنی بر RNN و LSTM عمل کرد.
- این معماری به دلیل توانایی در پردازش موازی و استفاده بهینه از دادهها، سرعت آموزش بسیار بالاتری نسبت به معماریهای قبلی دارد.
نتیجهگیری مقاله
- Transformer انقلابی در یادگیری عمیق ایجاد کرد و جایگزین مدلهای قدیمیتر در پردازش زبان طبیعی شد.
- این معماری پایه و اساس مدلهای پیشرفتهای مانند BERT، GPT، T5، RoBERTa و دیگر مدلهای زبان بزرگ را تشکیل داد.
- ایده استفاده از Self-Attention و Multi-Head Attention همچنان یکی از ایدههای کلیدی در مدلهای جدیدتر است.