جزئیات مقاله
مدلهای تبدیل توالی (Sequence Transduction) غالب بر اساس شبکههای عصبی بازگشتی (Recurrent Neural Networks) یا کانولوشنی (Convolutional Neural Networks) پیچیده هستند که شامل یک انکودر (Encoder) و یک دیکودر (Decoder) میباشند. بهترین مدلهای عملکردی همچنین انکودر (Encoder) و دیکودر (Decoder) را از طریق مکانیزم توجه (Attention) به یکدیگر متصل میکنند. ما یک معماری شبکه جدید و ساده به نام ترنسفورمر (Transformer) پیشنهاد میکنیم که به طور کامل بر مکانیزمهای توجه (Attention) استوار است و استفاده از بازگشت (Recurrence) و کانولوشن (Convolution) را به طور کامل کنار میگذارد. آزمایشها بر روی دو وظیفه ترجمه ماشینی نشان میدهند که این مدلها از نظر کیفیت برتر هستند، در حالی که موازیسازی (Parallelization) بیشتری دارند و نیازمند زمان آموزشی به مراتب کمتری هستند.
مدل ما امتیاز 28.4 بلو (BLEU) را در وظیفه ترجمه انگلیسی به آلمانی WMT 2014 کسب میکند که بیش از 2 امتیاز بلو (BLEU) بهبود نسبت به بهترین نتایج موجود، از جمله ترکیب مدلها (Ensembles)، دارد. در وظیفه ترجمه انگلیسی به فرانسوی WMT 2014، مدل ما یک رکورد جدید با امتیاز بلو (BLEU) معادل 41.8 را پس از 3.5 روز آموزش با استفاده از هشت جیپییو (GPU) ثبت میکند، که کسری از هزینههای آموزشی بهترین مدلهای موجود در ادبیات علمی است. ما نشان میدهیم که ترنسفورمر (Transformer) به خوبی برای وظایف دیگر نیز تعمیم مییابد، چرا که با موفقیت برای تجزیه ساختاری زبان انگلیسی (English Constituency Parsing) با دادههای آموزشی بزرگ و محدود به کار گرفته شده است.
شبکههای عصبی بازگشتی (Recurrent Neural Networks) و به ویژه شبکه حافظه کوتاهمدت طولانی (Long Short-Term Memory (LSTM)) و شبکههای بازگشتی گیتی (Gated Recurrent Neural Networks)، به عنوان روشهای پیشرفته در مدلسازی توالی (Sequence Modeling) و مسائل تبدیل توالی (Sequence Transduction) شناخته شدهاند. این روشها در کاربردهایی مانند مدلسازی زبان (Language Modeling) و ترجمه ماشینی (Machine Translation) جایگاه ویژهای دارند. تلاشهای بسیاری برای گسترش مرزهای مدلهای بازگشتی زبان و معماریهای انکودر-دیکودر (Encoder-Decoder Architectures) انجام شده است.
مدلهای بازگشتی معمولاً محاسبات را بر اساس موقعیت سمبلهای توالی ورودی و خروجی (Symbol Positions of Input and Output Sequences) تقسیم میکنند. همترازی موقعیتها با مراحل در زمان محاسبات، یک توالی از حالتهای پنهان (Hidden States)
تولید میکند که به صورت تابعی از حالت پنهان قبلی
و ورودی موقعیت t تعریف میشود. این طبیعت دنبالهای، به طور ذاتی امکان موازیسازی (Parallelization) در نمونههای آموزشی را محدود میکند. این محدودیت در توالیهای طولانیتر مهمتر میشود، زیرا محدودیتهای حافظه، دستهبندی نمونهها در فرآیند آموزش را کاهش میدهند. تحقیقات اخیر بهبودهای قابلتوجهی در بهرهوری محاسباتی (Computational Efficiency) از طریق ترفندهای تجزیه (Factorization Tricks) و محاسبات شرطی (Conditional Computation) به دست آوردهاند، که در بهبود عملکرد مدل در این شرایط نیز مؤثر بوده است. با این حال، محدودیت اساسی محاسبات دنبالهای همچنان پابرجاست.
مکانیزمهای توجه (Attention Mechanisms) به بخشی جداییناپذیر از مدلهای پیشرفته در مدلسازی توالی و مسائل تبدیل توالی تبدیل شدهاند. این مکانیزمها به مدلسازی وابستگیها بدون توجه به فاصله آنها در توالیهای ورودی یا خروجی کمک میکنند. با این وجود، در بیشتر موارد، این مکانیزمهای توجه همراه با شبکههای بازگشتی (Recurrent Networks) استفاده میشوند.
در این تحقیق، ما مدل ترنسفورمر (Transformer) را پیشنهاد میکنیم. این معماری، استفاده از بازگشت (Recurrence) را کنار گذاشته و به طور کامل به مکانیزمهای توجه (Attention Mechanisms) برای مدلسازی وابستگیها بین ورودی و خروجی متکی است. ترنسفورمر امکان موازیسازی قابلتوجهی را فراهم میکند و میتواند به سطح پیشرفته جدیدی در کیفیت ترجمه دست یابد، حتی با آموزشی کمتر از ۱۲ ساعت بر روی هشت کارت گرافیک P100 (P100 GPUs).