نحوه آموزش یک مدل MT5 برای ترجمه با ترانسفورماتورهای ساده

ساخت وبلاگ

مدل MT5 بیش از صد زبان مختلف از قبل آموزش داده شده است. بیایید ببینیم که چگونه می توانیم از این امر برای آموزش یک مدل ترجمه دو زبانه برای یک زبان کم منبع استفاده کنیم-Sinhalese.

MT5 یک مدل ترانسفورماتور چند زبانه است که از قبل در یک مجموعه داده (MC4) حاوی متن از 101 زبان مختلف آموزش داده شده است. معماری مدل MT5 (بر اساس T5) برای پشتیبانی از هر کار پردازش زبان طبیعی (طبقه بندی ، NER ، پاسخ به سؤال و غیره) با تغییر دادن وظیفه مورد نیاز به عنوان یک کار توالی به توالی طراحی شده است.

به عبارت دیگر - متن وارد می شود و متن بیرون می آید. به عنوان مثال ، در یک کار طبقه بندی ، ورودی به مدل می تواند توالی متن باشد که باید طبقه بندی شود و خروجی از مدل برچسب کلاس برای دنباله خواهد بود. برای ترجمه ، این حتی مستقیم تر به جلو است. متنی که وارد می شود به یک زبان است و متنی که به وجود می آید به دیگری است.

با توجه به قابلیت های چند زبانه MT5 و مناسب بودن قالب دنباله به توالی برای ترجمه زبان ، بگذارید ببینیم چگونه می توانیم یک مدل MT5 را برای ترجمه ماشین تنظیم کنیم. برای این مقاله ، ما یک مدل ترجمه را برای ترجمه بین Sinhalese (زبان مادری من!) و انگلیسی آموزش خواهیم داد. آموزش مدل های ترجمه خوب برای زبانهای کم منبع مانند Sinhalese به دلیل خوب بودن منابع (داده های آموزش) بسیار چالش برانگیز است. امیدوارم که پیش از این چند زبانه در یک مجموعه داده عظیم (که شامل Sinhalese است ، گرچه تعداد زیادی از آن نیست) به مدل MT5 کمک می کند تا داده های آموزش ناکافی را به شکل توالی مستقیم سیناله-انگلیسی (و برعکس) جبران کند.

ما برای آموزش مدل MT5 از کتابخانه ساده ترانسفورماتور (ساخته شده بر روی کتابخانه ترانسفورماتور Huggingface) استفاده خواهیم کرد. داده های آموزش و آزمایش از چالش ترجمه Tatoeba به دست می آید. نمودارها و نمودارها از وزنه ها و تعصبات تولید می شوند ، که به صورت بومی در ترانسفورماتورهای ساده برای ردیابی آزمایش و بهینه سازی هایپرپارامتر پشتیبانی می شوند.

توجه: می توانید تمام کد موجود در این مقاله را در فهرست/T5/MT5_Translation (LINK) از ترانسفورماتورهای ساده Github Repo پیدا کنید.

طرح کلی

  1. نصب ترانسفورماتورهای ساده
  2. بارگیری مجموعه داده برای ترجمه
  3. آموزش مدل
  4. ارزیابی مدل - محاسبه نمره BLEU
  5. بسته شدن

برپایی

می توانید به روزترین دستورالعمل نصب را در مستندات ساده ترانسفورماتور پیدا کنید.

1. مدیر بسته Anaconda یا Miniconda را از اینجا نصب کنید.

2. یک محیط مجازی جدید ایجاد کرده و بسته ها را نصب کنید.

3. در صورت استفاده از CUDA:

4- ترانسفورماتورهای ساده را نصب کنید.

تهیه داده ها

آموزش و آزمایش را می توان از صفحه داده چالش ترجمه Tatoeba بدست آورد. شما همچنین مجموعه داده هایی را برای کل زبانهای دیگر در آنجا پیدا خواهید کرد (از جمله سیندارین ، زبانی که توسط الف ها در ارباب حلقه ها صحبت می شود).

اگر می خواهید یک مدل ترجمه را برای یک زبان دیگر آموزش دهید ، می توانید به جای Sinhalese ، مجموعه داده را برای آن زبان بارگیری کنید. تمام مراحل دیگر این مقاله برای هر مجموعه داده زبان اعمال می شود.

اگر برای جستجوی مجموعه داده خیلی تنبل هستید ، پیوند مستقیم در اینجا وجود دارد. آموزش تحلیل گری...

ما را در سایت آموزش تحلیل گری دنبال می کنید

برچسب : نویسنده : ملیکا زارعی بازدید : 71 تاريخ : پنجشنبه 14 ارديبهشت 1402 ساعت: 21:09