سؤالات متداول چگونه می توانم یک مدل رگرسیون را وقتی برخی از متغیرها تغییر می کنند ، تفسیر کنم؟

ساخت وبلاگ

در این صفحه ، ما در مورد نحوه تفسیر یک مدل رگرسیون هنگامی که برخی از متغیرهای موجود در مدل تبدیل شده اند ، بحث خواهیم کرد. داده های مثال را می توان در اینجا بارگیری کرد (پرونده در قالب . csv است). متغیرهای موجود در مجموعه داده ها شامل نمرات نوشتن ، خواندن و ریاضی ( ( textbf ) ، ( textbf ) و ( textbf )) ، ورود به سیستم تبدیل شده (lgwrite) و نمرات ریاضی تبدیل شده (log) است. lgmath) و ( textbf ). برای این مثالها ، ما از ورود به سیستم طبیعی (LN) گرفته ایم. تمام نمونه ها در Stata انجام می شود ، اما می توان آنها را به راحتی در هر بسته آماری تولید کرد. در مثالهای زیر از متغیر ( textBF ) یا نسخه تبدیل شده آن به عنوان متغیر نتیجه استفاده می شود. نمونه ها برای اهداف مصور استفاده می شوند و در نظر گرفته نشده اند تا حس اساسی داشته باشند. در اینجا یک جدول از انواع مختلف وسایل برای متغیر ( textbf ) آورده شده است.

متغیر نتیجه تغییر یافته است

خیلی اوقات ، یک رابطه خطی بین یک متغیر نتیجه تبدیل شده به log و گروهی از متغیرهای پیش بینی کننده فرض می شود. از نظر ریاضی ، رابطه از معادله پیروی می کند

شروع log (y_i) = beta_0 + beta_1 x_ + cdots + beta_k x_ + e_i ، end

جایی که (y ) متغیر نتیجه است و (x_1 ، cdots ، x_k ) متغیرهای پیش بینی کننده هستند. به عبارت دیگر ، ما فرض می کنیم که ( log (y)- mathbf^t boldsymbol beta ) به طور معمول توزیع می شود ، (یا (y ) در تمام متغیرها مشروط است). از آنجا که این فقط یک رگرسیون حداقل مربعات معمولی است ، ما به راحتی می توانیم ضریب رگرسیون را تفسیر کنیم ، بگوییم ( beta_1 ) ، به عنوان تغییر مورد انتظار در ورود به سیستم (y ) با توجه به افزایش یک واحدی در (x_1) نگه داشتن تمام متغیرهای دیگر با هر مقدار ثابت ، با فرض اینکه (x_1 ) فقط به عنوان یک اثر اصلی وارد مدل می شود. اما اگر بخواهیم بدانیم چه اتفاقی برای متغیر نتیجه (y ) برای افزایش یک واحدی در (x_1 ) چه اتفاقی می افتد؟روش طبیعی برای انجام این کار تفسیر ضرایب رگرسیون بازده ، ( exp ( beta) ) است ، زیرا نمایندگی معکوس عملکرد لگاریتم است.

بیایید با مدل فقط رهگیری شروع کنیم.

می توانیم بگوییم که (3. 95 ) میانگین مورد انتظار بی قید و شرط از ورود به سیستم ( textbf ) است. بنابراین مقدار نمایانگر ( exp (3. 948347) = 51. 85 ) است. این میانگین هندسی ( textbf ) است. تأکید در اینجا این است که به جای میانگین حسابی ، میانگین هندسی است. رگرسیون OLS از متغیر اصلی (y ) برای برآورد میانگین حساب مورد انتظار استفاده می شود و رگرسیون OLS از متغیر نتیجه تبدیل شده log ، تخمین میانگین هندسی مورد انتظار متغیر اصلی است.

حال بیایید به یک مدل با یک متغیر پیش بینی باینری منتقل شویم.

( شروع log ( textbf) & = beta_0 + beta_1 times textbf \ & = 3. 89 + . 10 times textbf. end )

قبل از غواصی در تفسیر این پارامترها ، اجازه دهید وسایل متغیر وابسته ما ، ( textbf ) را بر اساس جنسیت بدست آوریم.

اکنون می توانیم تخمین پارامتر را به وسیله هندسی برای دو گروه نقشه برداری کنیم. رهگیری (3. 89 ) ورود به سیستم هندسی ( textbf ) است که ( textbf = 0 ) ، یعنی برای مردان. بنابراین ، مقدار نماینده آن میانگین هندسی برای گروه مرد است: ( exp (3. 892) = 49. 01 ). در مورد ضریب ( textbf ) چه می توانیم بگوییم؟در مقیاس ورود به سیستم ، این تفاوت در وسایل هندسی مورد انتظار از ورود به سیستم ( textbf ) بین دانش آموزان دختر و دانش آموزان پسر است. در مقیاس اصلی متغیر ( textbf ) ، این نسبت میانگین هندسی ( textbf ) برای دانش آموزان دختر بیش از میانگین هندسی ( textbf ) برای دانش آموزان پسر ، ( ( ( textbf ) است. EXP (. 1032614) = 54. 34383 / 49. 01222 = 1. 11 ). از نظر درصد تغییر ، می توانیم بگوییم که تغییر از دانش آموزان پسر به دانش آموزان دختر ، انتظار داریم شاهد افزایش (11 ٪) در میانگین هندسی نمرات نوشتن باشد.

آخر ، بیایید به یک مدل با متغیرهای پیش بینی کننده چندگانه نگاه کنیم.

( شروع log ( textbf) & = beta_0 + beta_1 times textbf + beta_2 times textbf + beta_3 timebf & = 3. 135 + . 115 times textbf + . 00666 بار textbf + . 0077 times textbf. end )

ضریب نمایانگر ( exp ( beta_1) ) برای ( textbf ) نسبت میانگین هندسی مورد انتظار برای گروه دانش آموزان دختر نسبت به میانگین هندسی مورد انتظار برای گروه دانش آموزان پسر ، هنگامی که ( textbf ) و ( textbf ) با مقداری ثابت نگهداری می شوند. البته وسیله هندسی مورد انتظار برای گروه دانش آموزان دختر و دختر برای مقادیر مختلف ( textbf ) و ( textbf ) متفاوت خواهد بود. با این حال ، نسبت آنها ثابت است: ( Exp ( Beta_1) ). در مثال ما ، ( exp ( beta_1) = exp (. 114718) تقریبا 1. 12 ). می توان گفت که نمرات نوشتن برای دانش آموزان دختر برای دانش آموزان پسر (12 ٪ ) بالاتر خواهد بود. برای متغیر ( textbf ) ، می توانیم بگوییم که برای افزایش یک واحدی در ( textbf ) ، انتظار داریم شاهد افزایش (0. 7 ٪ ) در نمره نوشتن باشد ، زیرا ( (EXP (. 0066305) = 1. 006653 تقریبا 1. 007 ). برای افزایش ده واحدی در ( textbf ) ، ما انتظار داریم که شاهد افزایش (6. 9 ٪ ) در نمره نوشتن باشد ، زیرا ( exp (. 0066305 بارها 10) = 1. 0685526 تقریبی 1. 069 ).

هنگامی که متغیرهای پیش بینی کننده محور و مداوم باشند ، این رهگیری کمتر جالب می شود. در این مدل خاص ، رهگیری میانگین مورد انتظار برای ( log ( textbf) ) برای مردان ( ( textbf = 0 )) است که ( textbf ) و ( textbf ) برابر هستندبه صفر

به طور خلاصه ، هنگامی که متغیر نتیجه تغییر می یابد ، طبیعی است که ضرایب رگرسیون نمایه را تفسیر کنید. این مقادیر با تغییر در نسبت میانگین هندسی مورد انتظار متغیر نتیجه اصلی مطابقت دارد.

برخی از متغیرهای پیش بینی کننده (نه همه) تغییر یافته اند

گاهی اوقات ، ما همچنین برخی از متغیرهای پیش بینی کننده تغییر می کنند. در این بخش ، ما به نمونه ای می پردازیم که برخی از متغیرهای پیش بینی کننده به صورت ورود به سیستم تغییر می کنند ، اما متغیر نتیجه در مقیاس اصلی آن است.

در معادله نوشته شده است ، ما داریم

TextBf + 20. 941 Times log ( textbf) + 16. 852 times log ( textbf). end )

از آنجا که این یک رگرسیون OLS است ، تفسیر ضرایب رگرسیون برای متغیرهای غیر تغییر یافته از رگرسیون OLS بدون هیچگونه متغیر تبدیل شده بدون تغییر است. به عنوان مثال ، میانگین تفاوت مورد انتظار در نمرات نوشتن بین دانش آموزان زن و مرد در حدود (5. 4 ) امتیاز است که متغیرهای پیش بینی کننده دیگر را ثابت نگه می دارد. از طرف دیگر ، به دلیل تغییر ورود به سیستم ، اثرات تخمین زده شده ( textbf ) و ( textbf ) دیگر خطی نیستند ، حتی اگر اثر ( log ( textbf) ) و ( log ( textbf) ) خطی هستند. طرح زیر منحنی مقادیر پیش بینی شده را در برابر نمرات خواندن برای گروه دانش آموزان دختر که نمره ریاضی را ثابت نگه می دارند ، نشان می دهد.

چگونه ضریب (16. 852 ) را برای متغیر ورود به سیستم نمره خواندن تفسیر کنیم؟بیایید دو مقدار از نمره خواندن ، (R_1 ) و (R_2 ) بگیریم. میانگین تفاوت مورد انتظار در نمره نوشتن در (r_1 ) و (r_2 ) ، نگه داشتن متغیرهای پیش بینی دیگر ، ( textbf (r_2) - textbf (r_1) = beta_3 بار [ log ( log ( log ( beta_3)r_2) - log (r_1)] = beta_3 بارها [ log (r_2 / r_1)] ). این بدان معنی است که تا زمانی که درصد افزایش در ( textbf ) (متغیر پیش بینی کننده) ثابت باشد ، بدون توجه به اینکه نمره خواندن پایه در کجا است ، در نمره نوشتن همان تفاوت را خواهیم دید. به عنوان مثال ، می توانیم بگوییم که برای افزایش (10 ٪ ) در نمره خواندن ، تفاوت در میانگین نمرات نوشتن مورد انتظار همیشه ( beta_3 times log (1. 10) = 16. 85218 بار log (log (log) خواهد بود (1. 1) تقریبا 1. 61 ).

با یادآوری گسترش تیلور عملکرد (f (x) = log (1 + x) ) در اطراف (x_0 = 0 ) ، ما ( log (1 + x) = x + mathcal (x^2) ). بنابراین ، برای یک تغییر کوچک در متغیر پیش بینی کننده می توانیم با ضرب ضریب با تغییر در متغیر پیش بینی کننده ، تفاوت در میانگین متغیر وابسته را تقریب دهیم. در مثال ما می توانیم بگوییم که برای افزایش (1 ٪ ) نمره خواندن ، تفاوت در میانگین نمرات نوشتن مورد انتظار تقریباً خواهد بود ( Beta_3 برابر 0. 01 = 16. 85218 برابر 0. 01 = . 1685218 ). اگر از log استفاده کنیم ، مقدار دقیق ( beta_3 times log (1. 01) = 16. 85218 بار log (1. 01) = . 1676848 ) خواهد بود.

هم متغیر نتیجه و هم برخی از متغیرهای پیش بینی کننده تغییر می کنند

چه اتفاقی می افتد که هم متغیر نتیجه و هم متغیرهای پیش بینی کننده وارد شوند؟ما می توانیم دو موقعیت قبلی را که قبلاً شرح داده شده بود با یک ترکیب کنیم. در اینجا نمونه ای از چنین مدلی آورده شده است.

به عنوان یک معادله نوشته شده است ، می توانیم مدل را شرح دهیم:

( شروع log ( textbf) & = beta_0 + beta_1 times textbf + beta_2 times log ( textbf) + beta_3 times textbf \ & = 1. 928101 + . 114239 times times TextBF + . 4085369 Times log ( textbf) + . 0066086 times textbf. end )

برای متغیرهایی که تبدیل نشده اند ، مانند ( textbf ) ، ضریب نمایانگر آن نسبت میانگین هندسی برای زن به میانگین هندسی برای گروه دانش آموزان پسر است. به عنوان مثال ، به عنوان مثال ، می توان گفت که افزایش انتظار می رود میانگین هندسی از گروه دانشجویی مرد به گروه دانشجویی زن در حدود (12 ٪ ) باشد که متغیرهای دیگر را ثابت نگه می دارد ، زیرا ( exp (. 1142399) تقریباً 1. 12 ). برای نمره خواندن ، می توانیم بگوییم که برای افزایش یک واحدی در نمره خواندن ، انتظار داریم حدود (0. 7 ٪) افزایش در میانگین هندسی نمره نوشتن را مشاهده کنیم ، زیرا ( exp (. 0066086) =1. 007 ).

اکنون ، بیایید روی تأثیر ( textbf ) تمرکز کنیم. دو مقدار از ( textbf ) ، (m_1 ) و (m_2 ) را بگیرید و متغیرهای پیش بینی کننده دیگر را در هر مقدار ثابت نگه دارید. معادله بالا بازده

( شروع log ( textbf (m_2)) - log ( textbf (m_1)) = beta_2 times [ log (m_2) - log (m_1)] end )

می توان آن را به ( log [ textbf (m_2)/ textbf (m_1)) = beta_2 بارها [ log (m_2/m_1)] ) ساده کرد ،

این به ما می گوید که تا زمانی که نسبت دو نمره ریاضی ، (M_2/M_1 ) یکسان باقی بماند ، نسبت مورد انتظار متغیر نتیجه ، ( textbf ) ، یکسان است. به عنوان مثال ، می توانیم بگوییم که برای هر (10 ٪ ) در نمره ( textbf ) افزایش می یابد ، نسبت مورد انتظار نمره نوشتن ((1. 10) ^ = (1. 10) ^ . 4085369 = 1. 0397057 خواهد بود.)به عبارت دیگر ، ما انتظار داریم که وقتی نمره ریاضی با (10 ٪ ) افزایش یابد ، نمره نوشتن افزایش می یابد.

در اینجا همچنین می توانیم از یک روش تقریبی استفاده کنیم. از آنجا که ، ((1 + x) ^ a تقریبا 1 + ax ) برای مقدار کمی از (| a | x ) ، بنابراین برای یک تغییر کوچک در متغیر پیش بینی کننده می توانیم نسبت مورد انتظار از موارد را تقریب دهیممتغیر وابسته با ضرب ضریب با نسبت تغییر در متغیر پیش بینی کننده. به عنوان مثال ، می توانیم بگوییم که برای هر (1 ٪ ) در نمره ( textbf ) افزایش می یابد ، نسبت مورد انتظار نمره نوشتن تقریباً (1 + . 01 بار = 1 + . 01 بار است.. 4085369 = 1. 004085 ). مقدار دقیق ((1. 01) ^ = (1. 01) ^ . 4085369 = 1. 004073 ) خواهد بود.

آموزش تحلیل گری...
ما را در سایت آموزش تحلیل گری دنبال می کنید

برچسب : نویسنده : ملیکا زارعی بازدید : 55 تاريخ : پنجشنبه 14 ارديبهشت 1402 ساعت: 21:17