تحلیل رگرسیون و ضریب همبستگی


در صورتی که نمودار مانده ها در مقابل متغیر پاسخ روند غیر خطی داشته باشد معمولا متغیری به مدل اضافه می شود و یا تبدیلی روی داده ها اعمال می شود. (تبدیل توان دوم یا لگاریتم)

نحوه انجام تحلیل همبستگی پیرسون در spss

یکی دیگر از تحلیل‌های آماری بسیار مهم نرم افزار spss تحلیل همبستگی پیرسون می‌باشد. تحلیل همبستگی پیرسون جهت بررسی ارتباط دو متغیر با مقیاس فاصله‌ای استفاده می‌شود و در علوم انسانی و پزشکی کاربرد بسیار زیادی دارد. تحلیل همبستگی پیرسون را می‌توان پیشامد برخی تحلیل‌های دیگر مانند تحلیل رگرسیون محسوب نمود زیرا قبل از انجام تحلیل رگرسیون معمولاً ماتریس همبستگی بین متغیرها محاسبه می‌شود تا مشخص گردد آیا بین متغیرها اصلاً رابطه‌ای وجود دارد یا خیر. بعد از مشخص شدن رابطه بین متغیرهاست که انجام تحلیل رگرسیون برای پیش‌بینی معنی پیدا می‌کند. در زیر قصد آن داریم تا به صورت کامل و مرحله به مرحله نحوه انجام تحلیل همبستگی پیرسون در spss را ذکر کنیم.

کار را با ذکر مثالی شروع می‌کنیم: محققی قصد دارد به بررسی رابطه همبستگی دو متغیر امیدواری و خوش بینی بر روی یک نمونه‌ای بپردازد.

مرحله اول: بعد از جمع‌آوری داده‌ها و وارد کردن آنها به نرم افزار spps کار تحلیل داده را اینگونه شروع کنید؛ به نرم افزار spss رفته و دستور زیرا اجرا کنید:

1

با اجرای دستور فوق پنجره‌ای به شکل زیر باز می‌شود. این پنجره دارای دو کادر می‌باشد که کادر سمت چپ را شمار ۱ و کادر سمت راست (Variable) را کادر شماره ۲ نامگذاری می‌کنیم.

نحوه انجام تحلیل همبستگی پیرسون در spss

نحوه انجام تحلیل همبستگی پیرسون در spss

مرحله دوم: متغیرهای مورد نظر خود را از کادر ۱ وارد کادر ۲ نمایید. اگر سوالات دو پرسشنامه را وارد نموده‌اید تحلیل رگرسیون و ضریب همبستگی و نمی‌دانید چگونه نمره کل هریک از پرسشنامه‌ها را در spss چگونه محاسبه نمایید به یکی دیگر از آموزشهای ما که در این لینک آمده مراجعه نمایید. بعد از محاسبه نمره کل دو پرسشنامه صرفا نمرات کل را وارد کادر نمایید و در پایان از قسمت پایین کادر ۱ و ۲ آزمون پیرسون (Pearson) را انتخاب نمایید. سایر گزینه‌ها آزمون کندال و اسپیرمن هستند که آزمون‌‎های جداگانه‌ای می‌باشند و به تحلیل پیرسون ربطی ندارند. بعد از انجام عملیات فوق نهایتاً می‌بایست پنجره‌ای به شکل زیر پدید آید:

admin-ajax.php

نحوه انجام تحلیل همبستگی پیرسون در spss

بعد از پدیدار شدن این پنجره، دکمه OK را فشار دهید تا این تحلیل انجام شود. بعد از انجام این کار خروجی‌ها به شکل زیر ظاهر می‌شوند:

نحوه انجام تحلیل همبستگی پیرسون در spss

همانگونه که مشاهده می‌کنید ماتریس همبستگی برای این دو متغیر ارایه شده است. با توجه به شکل فوق، میزان r همبستگی بین دو متغیر امید و خوش‌بینی برابر با ۰/۷۵ به دست آمده که این مقدار با توجه سطح آماری معنادار نیز می‌باشد (۰/۰۰۱=p). از آن جهت بالای عدد ۰/۷۵ دو ستاره آمده است که این مقدار در سطح آماری ۰/۰۱ معنادار شده است. اگر در سطح ۰/۰۵ معنادار می‌شد فقط یک ستاره بالای آن نمایان می‌گردید (p-Value در تحلیل آماری چه اطلاعاتی به شما می دهد؟). برای گزارش جدول فوق در پایان نامه یا مقاله جدول زیر را پیشنهاد می‌کنیم:

نحوه انجام تحلیل همبستگی پیرسون در spss

اجرای آزمون همبستگی پیرسون در SPSS

احتمالا، گسترده­ ترین کاربرد شاخص آماری همبستگی دو متغیری، ضریب همبستگی گشتاوری پیرسون است که به ­طور معمول همبستگی پیرسون نامیده می­شود. علامت اختصاری آن r است. ضریب پیرسون نشان می­ دهد که تا چه اندازه بین متغیرهای کمّی رابطه خطی وجود دارد(میزر، گامست و گارینو،152:1391).

کاربرد اصلیِ ضریب پیرسون زمانی است که متغیرها از نوع پارامتری باشند؛ بدین معنا که توزیع نرمال داشته باشند و در سطح فاصله­ ای/نسبی باشند. البته زمانی که متغیرها از نوع شبه فاصله ­ای باشند (یعنی هر متغیر ترکیبی از چند متغیر ترتیبی باشد که اصطلاحا به آن مقیاس های تراکمی می­گویند)، برخی از پژوهش­گران از ضریب پیرسون استفاده می­کنند. برخی از نویسندگان استفاده از ضریب پیرسون برای یک متغیر دو ارزشی و یک متغیر فاصله­ ای/نسبی را هم مجاز شمرده ­اند. تفسیر همبستگی پیرسون زمانی که یکی از متغیرها دوارزشی (فقط شامل دو سطح) اما متغیر دیگر کمّی است نیز می­تواند منطقی باشد(میزر، گامست و گارینو،164:1391).

تفسیر شدّت رابطه در همبستگی پیرسون
بعد از تعیین معنی­ داری و جهت رابطه، باید شدّت رابطه ارزیابی شود. برای تفسیر شدّت رابطه دومتغیر، تقسیم ­بندی­ های گوناگونی ارائه شده­ است. تقسیم ­بندی زیر یکی­ از آن­ هاست.

شیوه تفسیر شدت رابطه در همبستگی پیرسون

شدّت رابطه تفسیر
8/. تا 1 رابطه بسیار قوی
6/. تا 8/. رابطه قوی
4/. تا 6/. رابطه متوسط
2/. تا 4/. رابطه کم (یا ضعیف)
صفر تا 2/. فقدان رابطه یا رابطه ناچیز

(منبع: میلر، 299:1380)

مثال

در این بخش به بررسی همبستگی بین دو متغیر بهره هوشی و معدل مقطع کارشناسی می ­پردازیم. انتظار داریم که دو متغیر با یکدیگر همبسته باشند، به نحوی که با افزایش بهره هوشی، معدل افزایش بیابد. به عبارت دیگر انتظار داریم افرادی که بهره هوشی بالاتری دارند، معدل بالاتری هم داشته باشند. هر دو متغیر کمّی بوده و در سطح سنجش فاصله ­ای/­نسبی قرار دارند. با توجه به این که هردو متغیر در سطح سنجش فاصله­ ای/نسبی هستند از ­همبستگی ­پیرسون استفاده می­کنیم. از پیش ­فرض ­های آزمون همبستگی پیرسون نرمال بودن توزیع متغیر در جمعیّت آماری است، در این مثال فرض می­ کنیم که این پیش­فرض برقرار است و توزیع داده­ ها نرمال است

اجـ ـرا

مسیر زیر را دنبال می­کنیم:

Analyze—>Correlate—>Bivariate

نتـ ـایج

در جدول بعد، نتایج آزمون همبستگی پیرسون بین دو متغیر بهره هوشی و معدل کارشناسی نشان داده­ شده ­است. نخست به سطح معنی ­داری به دست آمده نگاه می­کنیم. سطح معنی ­داری به دست آمده برابر با 600/. به دست آمده است که بسیار بیشتر از مقدار مفروض 05/.است. در نتیجه بین دو متغیر بهره هوشی و معدل مقطع ­کارشناسی پاسخگویان رابطه معنی داری وجود ندارد. با توجه به این که بین دو متغیر همبستگی وجود ندارد، شدّت و جهت رابطه مورد بررسی قرار نمی­ گیرد.

Correlations
بهره هوشی معدل کارشناسی
بهره هوشی Pearson Correlation 1 -.053
Sig. (2-tailed) .600
N 100 100
معدل کارشناسی Pearson Correlation
همبستگی پیرسون
-.053 1
Sig. (2-tailed) .600
N 100 100

گـ ـزارش:
در گزارش نتایج می­ نویسیم:
از آزمون همبستگی ­پیرسون جهت تحلیل رگرسیون و ضریب همبستگی آزمون رابطه دو متغیر بهره هوشی و معدل مقطع کارشناسی استفاده شد. بین میزان بهره هوشی و معدل مقطع کارشناسی همبستگی معنی­ دار مشاهده نشد (600/. = P و 100= n و 053/.- = r ). در نتیجه از جنبه آماری دو متغیر بهره هوشی و معدل کارشناسی با یکدیگر رابطه ندارند.

***
(فرض می کنیم رابطه به دست آمده معنی ­دار باشد و سطح معنی­ داری به دست آمده برابر با 004/. شده است و ضریب پیرسون برابر با 45/. به دست آمده است. در این صورت به این صورت گزارش می­ دهیم:

آزمون همبستگی پیرسون نشان داد که بین میزان بهره هوشی و معدل مقطع کارشناسی همبستگی وجود دارد (004/. = P و 100= n و 45/. = r ). جهت رابطه بین بهره هوشی و معدل کارشناسی مثبت است. شدت همبستگی به­ دست آمده در حد متوسط است. واریانس توضیح داده شده 20.3% است. نتایج نشان می­ دهد دانشجویانی که بهره هوشی بالاتری دارند، معدل کارشناسی بالاتری هم کسب کرده­ اند.

چندنکته:
ضریب همبستگی پیرسون را با r نشان می­ دهند.
واریانس توضیح داده ­شده همان 2 r است که از به توان­ دو رساندن ضریب همبستگی پیرسون ( r ) به دست می ­آید و نشان­ دهنده واریانس مشترک دو متغیر است.
بهتر است نمودار پراکندگی دو متغیر بهره ­هوشی و معدل در گزارش ذکر شود (قبل از نتایج آزمون همبستگی پیرسون).

مطالعات جمعیتی

وبلاگی در زمینه جمعیت شناسی، آمار، روشهای تحقیق و دیگر زمینه های مرتبط (09108349508 - 09023452476)

ضرایب همبستگی و آزمونهای معناداری

تهیه شده توسط: حسین ضرغامی

منبع: وبلاگ علوم اجتماعی http://yosoufbakhshan.blogfa.com/post-19.aspx

اگر تحقیق شما از نوع تحلیلی باشد یعنی تحلیل دو متغیری و چند متغیری ، ) رابطه ای ، تفاوتی ) متغیرهای تحقیق شما باید به این شکل باشد.

دو متغیر ترتیبی

دو متغیر فاصله ای

یک متغیر اسمی و دیگری ترتیبی

یک متغیر اسمی و دیگری فاصله ای

یک متغیر ترتیبی و دیگری فاصله ای

در ادامه به صورت کامل با آدرس مسیرها در نرم افزار SPSS و تفسیر خروجی ها شما را راهنمایی خواهیم کرد.

کل این آزمون ها از سه حالت خارج نیستند

رابطه ای : یا برای تشخیص پیوستگی و همبستگی رابطه بین متغیرهاست(مانند پیرسون)

تفاوتی : یا برای تعیین معنی داری تفاوت میانگین بین متغیرها(مانند تحلیل واریانس و تی ستودنت)،

سومین حالت یا برای پیش بینی تغییرات و تبیینات یک متغیر براساس متغیر دیگر(مانند رگرسیون).

1-1- اسمی ( Nominal Scale ): ساده ترین کار، طبقه بندی است. وقتی ما متغیری را به دو یا چند بخش، تقسیم می کنیم مانند جنسیت به زن و مرد یا دین به اسلام و مسیحیت و یهودیت و غیره و این تقسیم بندی ما بیانگر اولویت دادن و رتبه دادن یکی بر دیگری نیست و صفر عددی هم ندارد و فاصله ای بین این بخش ها مدنظر نیست که برابر باشند یا دارای تفاوت خاصی باشند به آن مقیاس اسمی می گوییم. ملاک طبقه بندی ویژگی های مشترک افراد یا رویدادهاست. در تمام پرسشنامه هایی که این سوالات به این شکل هست، در مقیاس اسمی (حالا دو حالته یا چندحالته) قرار می گیرند:

وقتی وارد نرم افزار می شویم و به این بخش ها، کد می دهیم مثلاً زن کد1، مرد کد2، این کد 1و 2 دادن فقط قرارداد است و برای برقراری ارتباط با نرم افزار و تفهیم آن است و اصلاً بحث این نیست که 1 بهتر است یا 2 بیشتر است یا 1 و 2 را جمع و سپس تقسیم بر تعداد کنیم و غیره. می توان بجای این کد قراردادی 1 و 2 مثلاً برای زن کد هزار و برای مرد کد صفر بگذارید. از عدد برای اسم گذاری استفاده می کنیم مانند اعدادی که بر پیراهن بازیکنان ورزشی نوشته می شود. پیش شماره یا کد تلفن شهرها، پلاک منزل یا اتومبیل.

وقتی تحقیق شما یک متغیری باشد (که اغلب اینطوری نیست مگر برای تمرین و کار کلاسی) و بخواهید مثلاً متغیر جنسیت را مورد بررسی قرار دهید دیگر نیازی به آمار استنباطی نیست و فقط آمار توصیفی کافیست.

دقت و ظرافتی که برای استفاده ازین مقیاس لازم است بکار ببریم این است که اولاً بخش ها یا مقوله هایی که می گذاریم باید فراگیر (مجمل) باشند یعنی مقوله ها بتوانند تمامی صفات و یا اشیائی که مدنظر است را شامل شوند. مثلا برای وضعیت تاهل بهتر است مطلقه نیز گذاشته شود تا کسی که نه مجرد است و نه متاهل را شامل شود. دوم این که این مقوله هایی که تعیین می کنیم مانعه الجمع باشند یعنی هیچ موردی به بیش از یک طبقه یا مقوله تعلق نگیرد. به عبارت دیگر طبقه ها باید ناسازگار باشند. مثلاً وقتی می پرسید دین شما چیست؟ اسلام مسیحیت تسنن زردشتی و غیره. این مشکل وجود دارد کسی که سنّی است می تواند هم اسلام را علامت بزند و هم تسنن را.

ضعیف ترین سطح اندازه گیری است و تنها نشان دهنده تمایز بین صفات است و هیچ ترتیبی بین طبقات مبنی بر اهمیت یا اولویت از پایین به بالا یا بالعکس وجود ندارد.

از چهار مقیاس یا سطح طبقه بندی متغیرها دو سطح اسمی و ترتیبی برای متغیرهای مطلق(متغیرهایی که دارای ویژگی مجملی و مانعه الجمعی اند مانند شغل، مذهب، جنس، آراء انتخاباتی، ملیت) بکار می روند و دو مقیاس فاصله ای و نسبتی برای متغیرهای عددی.

آمارهای قابل استفاده و محاسبه در سطح اسمی عبارت اند از فراوانی، نما، لامبدا، tb گودمن و کروسکال. تحلیل جدولی

(علیزاده، 1384: 9 و کیانی، 1385: 49 و رمضان زاده، 1387: 24 و دلاور، 1383: 10 و گودرزی، 1388: 25 و قاضی طباطبایی، 1374: 7 و بیکر، 1389: 150 و رفیع پور، 1383: 192-195 و سرمد و همکاران، 1382: 46 و دواس، 1383: 134و ساروخانی، 1383: 341)

1-2- مقیاس ترتیبی ( Ordinal scale ) درین مقیاس، سوالمان یا همان متغیرمان را به دویا چند بخش تقسیم می کنیم.

اعداد منسوب به رده ها و مقوله ها، امکان تنظیم داده ها را با تعیین اولویت ها و ترتیب ها فراهم می کنند. مثلاً وقتی از شما بپرسند کسانی که تمایل دارید با آنها کار کنیدرا به ترتیب اولویت نام ببرید، جواب شما امکان اندازه گیری محبوبیت افراد بر پایه مقیاس ترتیبی را به شما می دهد. یا این موارد:

1نفر فعالیت بسیار زیاد؛ 7 نفر فعالیت متوسط؛ 2 نفر فعالیت کم به دست آمده است. این یک مقیاس ترتیبی است.

میزان پایبندی به دین. در مقیاس اسمی تنها می دانستیم که فردی مسلمان است یا مسیحی ولی در مقیاس ترتیبی علاوه بر این می دانیم که آن فرد دیندار چقدر دینمدار یا دین گریز است. یعنی هم وجود صفت را می سنجیم و هم شدت نسبی آن را.

طبقه اجتماعی؟ بالای بالا، بالای متوسط، بالای پایین؛ متوسط بالا، متوسط متوسط، متوسط پایین؛ پایین بالا، پایین متوسط، پایین پایین.

یکی از شاخص های ازخودبیگانگی سیاسی، احساس بی قدرتی است وقتی در پرسشنامه سوال بیاید «مردمانی چون من بر تصمیمات دولت تاثیر زیادی دارند» و پاسخگو از میان کاملا مخالفم تا کاملا موافقم یکی را انتخاب کند به ترتیب زیر نمره به پاسخ او تعلق می گیرد:

سوالی که در راستای تائید فرضیه باشد یعنی هم جهت باشد در آن گزینه ای که این تائید را می رساند بیشترین نمره را می گیرد مثلاً در مثال فوق وقتی فرد می گوید کاملا مخالفم که مردمانی چون من تاثیر ندارند یعنی دارد می گوید که از خودبیگانه سیاسی است و در راستای تائید فرضیه ماست. اگر پنجاه سوال داشته باشیم که در همه آنها کاملا مخالفم نمره 5 بگیرد پس امتیاز 250 یعنی کاملا از خودبیگانه سیاسی و اگر فردی با همه آن سوالات کاملا موافق باشد حداکثر امتیاز او 50 خواهد بود یعنی کمترین میزان ازخودبیگانگی سیاسی.

درین مقیاس بین طبقات مراتب قابل قبولی وجود دارد اما باز کمّی کردن دقیق میزان تفاوت بین طبقات امکان پذیر نیست. طبقات را می توان برحسب شدت موافقت و مخالفت یا نگرش فرد رتبه بندی کرد. لذا هر متغیری که بتوان آن را طبقه بندی کرد اما نتوان تفاوت بین طبقه ها را دقیقا به صورت عددی کمّی بیان کرد، این متغیر در مقیاس ترتیبی است.

درین مقیاس به تعداد افراد رتبه وجود دارد و می توان بین طبقه ها کمتر و بیشتر قائل شد. اما این کمتر و بیشتری نسبی است و دقیق نیست.

در اندازه گیری رتبه ای روابط غیرانعکاسی، نامتقارن و انتقالی هستند یعنی اگر متغیری مانند محافظه کاری در سطح رتبه ای اندازه گیری شده باشد می توان استنباط کرد که اگر فرد الف بیش از فرد ب محافظه کار است و فرد ب بیشتر از فرد پ محافظه کار است پس منطقا باید الف بیشتر از پ محافظه کار باشد.

اعداد تخصیص یافته به اندازه های مختلف یک اندازه گیری رتبه ای فقط نشان دهنده رتبه هستند و نه چیز دیگر. به عبارت دیگر اعداد نشان دهنده فواصل مشخص بین دو گزینه نیستند. بعنوان مثال ده گروه کودک را که بر اساس میزان تعاون آنها، از بالاترین درجه همکاری تا پایین ترین درجه رتبه بندی شده اند در نظر بگیرید. در این رتبه بندی نمی توان پنداشت که درجه همکاری بین گروه اول و دوم همانند یا برابر درجه همکاری بین گروه های نهم و دهم است چون فواصل نسبی اندو دقیقا برابر نیستند. همچنین نمی توان استدلال کرد که درجه تعاون و همکاری آزمودنی های گروه اول ده برابر درجه تعاون وهمکاری گروه دهم است.

رایج ترین شکل متغیرهای ترتیبی، گویه ها یا سنجه های نگرشی اند که روی طیفی از کاملا موافق یا خیلی زیاد تا کاملا مخالف یا خیلی کم قرار می گیرد.

به نوشته رفیع پور (1383) امکان محاسبات ریاضی و آماری در مقیاس ترتیبی وجود ندارد و آنچه به این وسیله سنجیده می شود از دقت کافی برخوردار نیست. اما به نوشته بیکر (1389) به نقل از بورگاتا و بورنستد این مقیاس های نگرشی ترتیبی غالباً با آنها به مثابه متغیرهای پیوسته عمل می کنند. مثلاً ممکن است متوسط نمره پاسخگویان3/2 بیاید یا مانند مورد شاخص رضایت شغلی رشته ای از گویه ها باهم جمع می شوند و سپس متوسط نمرات و اندازه های تغییر نمرات محاسبه می شود. بدین ترتیب با متغیری با مقیاس سنجش ترتیبی عملا مانند یک مقیاس فاصله ای عمل می شود و آنها معتقدند که بهتر است متغیرهای ترتیبی را متغیرهای فاصله ای ناکامل به شمار آوریم تا سطح جداگانه ای از سنجش. به نوشته قاضی طباطبایی (1374) عملیات ریاضی و آماری که رتبه مقادیر صفت را تغییر ندهد، قابل قبول است. گودرزی (1388) نیز می نویسد که درین سطح نمی توانیم عملیات ریاضی چهارگانه انجام دهیم و متاسفانه متغیرهای اجتماعی وروانی عموماً در سطح سنجش ترتیبی قرار دارند و اندازه گیری آنها درین سطح صورت می گیرد و به ندرت ازین سطح تجاوز می کند. بنابراین اینجا اولین اختلاف پیش می آید که بالاخره به مثابه ترتیبی یا فاصله ای از کدام آزمون آماری استفاده کنیم؟

پاسخ: بوگاردوس حداکثر یک مقیاس ترتیبی است. طیف لیکرت از سطح یک مقیاس ترتیبی تجاوز نمی کند و نمی توان آن را هنوز در سطح مقیاس های فاصله ای دانست. ضریب همبستگی بین لیکرت و تورستن r=/92 به دست آمده است که بیانگر تحلیل رگرسیون و ضریب همبستگی شباهت دقت و نتیجه هر دو طیف است. طیف گاتمن نیز مانند طیف های دیگر از سطح ترتیبی تجاوز نمی کند و نمی توان ادعا کرد فواصل بین نمرات یکسان می باشد. تنها مقایسه زوجی یا تورستن، درمقیاس فاصله ای قرار دارد. بنابراین دقیق تر آن است که از آزمون های مربوط به مقیاس رتبه ای استفاده شود. این آزمون ها بستگی به متغیر دیگری که با این متغیر مقایسه یا همبسته می شود نیز دارد که بعدا اشاره خواهد شد.

رایج ترین آماره های مناسب برای سنجش مقیاس ترتیبی عبارت اند از تعیین فراوانی و نما و میانه، محاسبه درصدها، ضریب همبستگی اسپرمن، میدان تغییرات، گاما، tb و tc کندال.

در این مقیاس، مقوله طبقه بندی می شود (مانند اسمی)، ترتیب طبقات و اولویت آنها مشخص می گردد (مانند ترتیبی) و فاصله بین طبقات هم به صورت عددی ثابت و مشخص، دقیقاً معلوم می گردد. مانند نمرات دانش آموزان در یک امتحان.

این موارد مثال هایی از مقیاس فاصله ای هستد: درآمد، قد (اگر به صورت عددی بیان شود نه بصورت کوتاه تر و بلندتر)، زمان، میزان مصرف آب و برق، سن(اگر حسب سال سنجیده شود چون اگر به صورت جوان، میانسال و کهنسال باشد ترتیبی لحاظ می شود)، وزن، دماسنج. سال تولد دو نفر، میزان تحصیلات رسمی، نمرات آزمون استعداد تحصیلی( SAT ) که بین 200 تا 800 است، IQ (بهره هوشی)، تعداد فرزندان .

درین مقیاس صفر مطلق و واقعی( true zero point ) (به معنای هیچ)وجود ندارد و صفر انتخابی یک صفر قراردادی است. مثلا اگر دانش آموزی از یک آزمون بهره هوشی نمره صفر گرفت به این معنا نیست که او اصولاً هیچ هوشی ندارد.

محاسبه نما، میانه، انحراف معیار، ضریب همبستگی اسپرمن و ضریب همبستگی گشتاوری پیرسون از عملیات های مجاز آماری اند.

نمرات خام آزمون ها را برای حصول اطمینان از داشتن خواص فاصله ای، می توان به نمرات استاندارد تبدیل کرد.

چون اغلب تحقیقات علوم انسانی و اجتماعی از این سه نوع تجاوز نمی کنند و تنها تفاوت مقیاس نسبی با فاصله ای در صفر مطلق است از تشریح آن صرفنظر می کنم و می رویم سراغ آزمون های متناسب با این مقیاس ها. این توضیح از آن جهت لازم بود که ما تا مقیاس ها را تشخیص ندهیم نمیتوانیم آزمون مناسب را بکار گیریم.

(علیزاده، 1384: 9 و کیانی، 1385: 49 و رمضان زاده، 1387: 24 و دلاور، 1383: 10 و گودرزی، 1388: 25 و قاضی طباطبایی، 1374: 7 و بیکر، 1389: 150 و رفیع پور، 1383: 192-195 و سرمد و همکاران، 1382: 46 و دواس، 1383: 134و ساروخانی، 1383: 341)

چنانکه دواس (1383) اشاره می کند شکل پرسش و طبقات پاسخ بر کار شما تاثیر می گذارد. شما باید اول تشخیص بدهید که سوال شما در کدام نوع مقیاس های فوق است که توضیح دادیم. مثلا اگر بپرسید از چه نوع کاری برخوردارید و برایش گزینه هیچ، پاره وقت، تمام وقت بگذارید متغیر ترتیبی است. اگر بپرسیم چند ساعت در هفته کار می کنیدو برایش گزینه 1- 10؛ 11- 20؛ 21- 30 و . بگذارید، متغیر ترتیبی است. اگر بپرسیم چند ساعت در هفته کار می کنید و خودش بصورت باز جواب دهد، متغیری فاصله ای است.

سپس بدانید که سطوح بالای سنجش هم اطلاعات بیشتری فراهم می آورد و هم دامنه روش های تحلیل گسترده تر می گردد اما اغلب اندازه گیری در سطوح پایین تر عاقلانه تر است و می توان سطح سنجش فاصله ای را به پایین تر از خود مثلا به ترتیبی تغییر داد. اما سرمد و همکارانش(1382) معتقدند که مرجح است که داده ها در بالاترین سطح مقیاس گرداوری شود زیرا تحلیل داده های آماری به مقیاسی بستگی دارد که داده ها با آن گرداوری شده اند. این دومین اختلاف نظر. حال باید چه کرد؟

از همان ابتدای طراحی سوالات پرسشنامه یا ابزار گرداوری اطلاعات و داده هایتان سعی کنید بالاترین مقیاس(مثلا فاصله ای) که دقیق تر از پایین ترهاست را درنظر بگیرید. سپس به طور روشن و واضح مشخص کنید که سوال شما در کدام مقیاس است.در غیر اینصورت باید با متخصص این کار و تحلیل گر روش شناسی وآمار مشورت کنید. علاوه بر این باید بدانید که نوع تحقیق شما چیست؟ اغلب تحقیقات دو متغیره و چند متغیره اند. مثلا یک طرف متغیرهای مستقل یا پیش بین و در طرف دیگر متغیر وابسته یا ملاک قرار دارد. برای انتخاب آزمون مناسب تشخیص مقیاس هر دو نوع متغیر لازم است. مثلا ترتیبی- ترتیبی اند یا ترتیبی- فاصله ای یا اسمی- ترتیبی و غیره.

نوع مسکن و وضعیت تاهل، غالبا اسمی اند. وضعیت اشتغال اگر بپرسیم که شغل شما چیست و هر کسی به صورت باز جواب دهد اسمی چند حالته خواهد بود. اگر شغلش را بپرسیم و برایش چند گزینه مثلا برحسب مقبولیت و منزلت در جامعه بگذاریم، ترتیبی خواهد بود مثلا گزینه ها را بگذاریم: کارکنان تخصصی و فنی؛ مدیران و مقامات و مالکین؛ کارمندان ادارات و فروشگاه ها؛ کارگران و. اما اگر از شاخص های وجهه شغلی یا شاخص اجتماعی- اقتصادی استفاده شود متغیر وضع شغلی در سطح فاصله ای خواهد بود. یکی از دلایل عدم اتفاق نظر اساتید و دانشجویان در بکارگیری آزمون های آماری مشخص، همین انعطاف و تغییر در نحوه سنجش و اندازه گیری متغیرهاست.

اگر دو متغیر اسمی باشند

مثلا یک طرف سن (جوان، میانسال، کهنسال) و طرف دیگر مهاجرت (رضایت به مهاجرت، عدم مهاجرت) برای تحلیل رابطه اشان از جدول توافقی استفاده می کنیم به شرطی که متغیر مورد بررسی مقولاتش کمتر از8 باشد.

بعد ازین سه مرحله باکسی باز می شود که در آن متغیر مستقل را به Columns و متغیر وابسته را به بخش Rows می بریم و OK .

اما پرکاربردتر از این برای دو متغیر اسمی، آزمون کی دو ( Chi-square test ) است. مانند رابطه بین دو متغیر جنسیت و رشته تحصیلی.

بعد ازین سه مرحله باکسی باز می شود که در آن متغیر مستقل را به Columns و متغیر وابسته را به بخش Rows می بریم.

قبل از Ok ، گزینه Statistics را می زنیم و در باکسی که باز می شود Chi-square را کلیک می کنیم و سپس ادامه و سپس گزینه Cells را کلیک کرده و بر روی گزینه های Expected ون Observed (فراوانی های مشاهده شده و مورد انتظار) تیک می زنیم. بعد ادامه و OK .

در جدول محاسبه شده، به مورد Asymp.Sig نگاه می کنیم که اگر مقدار عددی آن از 05/ کمتر باشد پی می بریم که با احتمال 95درصد رابطه بین دو متغیر معنی دار است.

شاخص های دیگری هم برای این کار هستند که مبتنی بر کی دو اند مانند ضریب همبستگی کرایمر، توافق پیرسون، فی، چوپوروف.

شاخص هایی هم که مبتنی بر کاهش نسبی خطا ( PRE ) هستند عبارت اند از ضریب همبستگی لامبدا، یول، گودمن و کروسکال، ضریب عدم اطمینان.

مسیر بیشتر این شاخص های مقیاس اسمی همان مسیر کی دو است که باید هر کدام راکه نیاز بود تیک بزنید. تفسیر اغلب آنهاهم باز به همان شکل است. این شاخصها تنها قدرت رابطه را نشان می دهند و بیانگر جهت نیستند. در اغلب آنها صفر نشان گر عدم ارتباط و 1 نشان گر رابطه کامل است و بین صفر تا3/ ضعیف و 3/ تا 6/ متوسط واز 6/ تا یک رابطه قوی می باشد.

ضریب یول شدت همبستگی بین دو متغیر اسمی دو مقوله ای را می سنجد. مانند جنسیت(زن- مرد) با تحصیلات (باسواد- بی سواد)

پایان نامه ارشد با موضوع رگرسیون، ضریب همبستگی، ضریب تعیین، معنادار بودن

كه در آن:
SSE: تغييرات جمله خطا كه توسط رگرسيون توضيح داده نمي‌شود.
SST: كل تغييرات در مقدار متغير وابسته
با اين حال اغلب ترجيح داده مي‌شود كه از مقياس ديگري به نام ضريب تعيين تعدیل شده68 براي بررسي نيكويي برازش69 مدل رگرسيون چند متغيره استفاده كنند. اين ضريب همان ضريب تعيين است كه در آن مقادير SST و SSE با درجات آزاديشان تعديل گرديده‌اند. اين ضريب در رگرسيون چند متغيره به صورت زير محاسبه مي‌شود (آذر و مومني، 1381):
كه در آن n تعداد مشاهدات و k تعداد متغيرهاي تحلیل رگرسیون و ضریب همبستگی مستقل است. در واقع هدف از به كارگيري تسهيل در مقايسه نيكويي برازش چندين معادله رگرسيون است كه از نظر تعداد متغيرهاي مستقل متفاوتند.
3-10-4- آزمون معنادار بودن R
ضریب همبستگی با توجه به نمونهای مشخص، محاسبه میشود. بدیهی است که این ضریب که بعضی مواقع ضریب همبستگی نمونهای خوانده میشود، از نمونهای به نمونه دیگر تغییر مییابد. حال سؤال اینجاست که آیا بین دو متغیر Xو Yکه ضریب تحلیل رگرسیون و ضریب همبستگی همبستگی آن را تعیین کردهایم همبستگی معناداری وجود دارد یا نه؟ بهعبارت دیگر، آیا میتوان به وجود یک رابطه علت و معلولی خطی اذعان داشت و یا همبستگی بهدستآمده ناشی از شانس و تصادف بوده و ضریب همبستگی جامعه (ρ) برابر صفر است (آذر و مؤمنی، 1385).
بهمنظور استنباط در خصوص ضریب همبستگی جامعه (ρ) ناچار به قبول فرضیههایی در مورد توزیع مشاهدات میباشیم. آماره مناسب برای آزمون در خصوص صفر بودن ضریب همبستگی جامعه به صورت زیر میباشد که دارای توزیع t با درجه آزادی n-2 میباشد (آذر و مؤمنی، 1385).
آماره آزمون = ضريب همبستگي جامعه.
r = ضريب همبستگي نمونه.
=N حجم نمونه
اما با توجه به اينكه در نرمافزار Eviews معناداري ضريب همبستگي بهوسيله مقدارprob مشخص شده است، لذا نيازمند انجام اين آزمون نميباشيم و تنها با بررسي شرط زير، معنيداري ضريب همبستگي را بررسي ميكنيم:
در صورتي كه مقدار prob كوچكتر يا مساوي سطح معنيدار (مثلاً 05/0) باشد، فرض صفر رد و همبستگي تأييد ميشود و درغير اين صورت فرض مقابل رد ميگردد (05/0> prob در نتيجه ضريب همبستگي معنادار ميباشد). 3-10-5- آزمون معنادار بودن معادله رگرسیون
در یک معادله رگرسیون چندگانه، چنانچه هیچگونه رابطهای میان متغیر وابسته و متغیرهای مستقل وجود نداشته باشد، میبایست تمامی ضرایب متغیرهای مستقل در معادله، مساوی صفر باشند. بدین ترتیب ما میتوانیم معنادار بودن معادله رگرسیون را آزمون کنیم. که با استفاده از آماره F با فرضهای زیر صورت میگیرد:
معادله رگرسیون معنادار نیست H0: β1 = β2 = . . . = βK = 0
معادله رگرسیون معنادار است K و . . . و2و1 i = ؛ H1: βi ≠ 0
چنانچه در سطح اطمینان 95% (خطا 5%α=) آماره Fمحاسبه شده از معادله رگرسیون کوچکتر از مقدار F بدست آمده از جدول باشد. فرض H0را نمیتوان را کرد و در غیر این صورت H0 رد میشود. واضح است که در صورت رد شدن H0 معادله رگرسیون معنادار خواهد بود. 3-10-6- آزمون معنادار بودن ضرایب ]]>

تحلیل رگرسیون و ضریب همبستگی

جهت اطلاع از تنظیمات و ویــــرایش این قالب اینجا را کلیک کنید.

تفسیر ضریب همبستگی از دو جنبه توصیفی و قواعد آمار استنباطی صورت می گیرد. تعبیر توصیفی، شدت یا ضعف و جهت تبعیت تغییرات دو متغیر نسبت به یکدیگر را معلوم می سازد. تفسیر استنباطی همبستگی معتبرتر می باشد، زیرا برای اینکه بتوان ضریب محاسبه شده را به عنوان شاخص واقعی همبستگی بین دو متغیر منظور نمود باید احتمال صحت این فرض معلوم شود. فرض مخالف آن این است که ضریب محاسبه شده ناشی از اثر عوامل تصادفی می باشد. بنابراین در تفسیر استنباطی ضریب همبستگی وجود یا عدم وجود همبستگی بین متغیرها مطرح است.

از نظر توصیفی، مقادیر مختلف ضریب همبستگی بطور تقریبی و کلی بصورت زیر تفسیر می شوند.

1- همبستگی بسیار ضعیف و ناچیز (0.2>r)

2- همبستگی ضعیف (0.4>r> ؟0.2)

3- همبستگی متوسط (0.6>r> ؟0.4)

4- همبستگی قوی (0.8>r> ؟0.6)

5- همبستگی بسیار قوی (0.8

هر چه مقدار r به عدد 1 یا 1- نزدیکتر باشد همبستگی بیشتر خواهد بود. به گونه ای که اگر r=1 باشد همبستگی کامل و مستقیم وجود دارد و اگر 1-=r باشد، همبستگی کامل و معکوس است. علامت این ضریب جهت همبستگی را نشان می دهد، به گونه ای که علامت مثبت نشان دهنده همبستگی همسو و علامت منفی دلیلی بر همبستگی غیر همسو است پس مفهوم ضریب همبستگی 1- نشان دهنده همبستگی کامل و غیرهمسو است.

در تفسیر ضرایب همبستگی توجه به نکات زیر ضروری است:

1- ضریب همبستگی تابع تغییرات ساده خطی نیست. برای مثال نمی توان گفت که ضریب 0.8، دو برابر ضریب 0.4 می باشد و یا تفاوت ضرایب 0.85 و 0.55 با تفاوت ضرایب 0.65 و 0.35 برابر است.

2- توصیف ضریب همبستگی به موضوع تحقیق بستگی دارد و باید آن را نسبت به زمینه و شرایط خاص تحقیق تفسیر کرد. برای مثال چنانچه بین وزن صد دانه و تعداد دانه در خوشه گندم از نظر محاسبه عددی و آماری همبستگی شدیدی دیده شود میزان این همبستگی ممکن است تحت تأثیر عوامل دیگری نظیر نوع واریته و شرایط آب و هوایی و غیره نیز قرار گرفته باشد. بنابراین در تعیین رابطه متقابل بین دو متغیر توجه به تمامی جنبه ها ضروری است تا بتوان تأثیر این متغیرها بر یکدیگر را بدون دخالت سایر عوامل تعیین نمود. برای روشن شدن موضوع، مثال دیگری ذکر می شود. فرض کنید در آزمایشی ضریب همبستگی میان عملکرد محصول و درصد پروتئین دانه گندم مقدار 0.6- محاسبه شده باشد. تفسیر این ضریب به این معنی است که یک رابطه منفی و متوسط بین میزان عملکرد و میزان درصد پروتئین دانه وجود دارد و با اضافه شدن یکی از آن ها دیگری کاهش می یابد. از طرفی ممکن است چنانچه به اندازه کافی کود نیتروژن در اختیار واریته ای که عملکرد زیادی را دارد قرار داده شود، درصد پروتئین دانه های آن نیز اضافه گردد. بنابراین چنین آزمایشی را باید در شرایط مختلف از نظر میزان کود نیتروژن که در اختیار گیاه قرار داده می شود انجام داد و آنگا ضریب همبستگی را بین دو متغیر فوق طوری محاسبه نمود که اثر نیتروژن برطرف گردد. این ضریب همبستگی عبارت خواهد بود از همبستگی بین دو متغیر وقتی اثر متغیر سوم برطرف شده باشد. بنابراین احتمال دارد که وقتی کود کافی در اختیار گیاهان باشد ضریب همبستگی بین میزان عملکرد و درصد پروتئین تغییر نماید. این ضریب همبستگی به همبستگی جزء (Partial correlation) معروف است که در پست های بعدی به آن خواهیم پرداخت.

«استاد، دانشجو یا پژوهشگر گرامی»

چنانچه برای انجام کار آماری پژوهش خود ارزش ویژه قائل هستید، می‌توانید شرایط انجام پروژه های آماری توسط اینجانب را بخوانید و در صورت تمایل درخواست خود را ارائه دهید.

1- چنانچه کار آماری شما پذیرفته شود، تا انتها بدون هیچگونه واسطه با من در ارتباط خواهید بود.

2- کارهای آماری انجام شده توسط اینجانب بدون محدودیت زمانی دارای گارانتی هستند. هر زمان ابهام یا ایراد در کار وجود داشته باشد پاسخگو خواهم بود.

3- تمام کارها دارای گارانتی بازگشت وجه بدون محدودیت زمانی هستند.

4- بعد از انجام هر پروژه آماری فیلم آموزشی مخصوص به آن پروژه ضبط و تمام آزمون‌های انجام شده و نحوه ارائه آن‌ها شرح داده خواهد شد تا فرد بتواند به راحتی همه موضوعات انجام شده در پروژه خود را درک کند. ارزش فیلم آموزشی 400 هزار تومان می باشد که بطور رایگان همراه با پروژه ارائه خواهد شد.

5- برای هر پروژه آماری نیم ساعت وقت مشاوره اختصاصی به ارزش 300 هزار تومان اختصاص داده می شود تا رفع اشکالات احتمالی فرد بطور کامل انجام شود.

6- بابت رفع اشکالات احتمالی و پیشنهادهای استاد هزینه اضافه دریافت نمی‌شود.

7- تمام کارها توسط شخص اینجانب دکتر رسول محمدی انجام می شود.

8- داده سازی برای پروژه های آماری را غیر اخلاقی میدانم. لذا فقط پروژه هایی که دارای داده‌های واقعی باشند پذیرفته می شود.

9- در صورت نیاز، فایل دیتای ورودی و خروجی به نرم افزار همراه با مستندات کامل ارائه می شود.

10- نتایج در نرم افزار ورد، به فرمت پایان نامه یا مقاله و به فارسی ارائه می شود.

تجزیه و تحلیل آماری رگرسیون خطی

تجزیه و تحلیل آماری رگرسیون خطی

رگرسیون خطی (Linear Regression)، به عنوان یکی از پرکاربرد ترین روش های مدلسازی داده ها و اطلاعات شناخته می شود که پایه ریاضی بسیار ساده ای هم دارد. در شرایطی که بتوانیم بین دو متغیر یک رابطه خطی را تشخیص دهیم، می توانیم از این نوع رگرسیون، برای پیش بینی و تخمین مقادیر این متغیر ها بر اساس مقدار متغیر دیگر استفاده کنیم.

منظور از رابطه خطی این است که ببینیم با افزایش یک متغیر، متغیر دیگر افزایش (کاهش) یافته و با کاهش آن هم متقابلا متغیر دوم، کاهش (افزایش) می یابد و این افزایش یا کاهش، رابطه مستقیم با مقدار متغیر اول که آن را متغیر مستقل می نامیم، دارد.

نمودار پراکنش:

یک راه تشخیص این رابطه هم این است که در یک نمودار، مقدار یک متغیر را بر اساس دومی رسم کنیم و اگر شکل حاصل، شبیه به یک خط مستقیم بود، می توانیم نتیجه بگیریم که رابطه بین این دو متغیر یک رابطه خطی است. به این نوع نمودار، نمودار پراکنش می گویند.

پس از اینکه متوجه رابطه خطی بین دو متغیر شدیم، فقط باید فرمول رابطه خطی بین آنها را محاسبه کرده و از آن برای پیش بینی مقادیر جدید یک متغیر بر اساس مقدار متغیر دیگر استفاده کنیم.

ضریب همبستگی:

برای سنجیدن شدت رابطه بین متغیر وابسته و مستقل می توانیم از ضریب همبستگی استفاده کنیم. هر چه ضریب همبستگی به ۱ یا ۱- نزدیک تر باشد،‌ شدت رابطه خطی بین متغیر های مستقل و وابسته شدید تر است.

البته اگر ضریب همبستگی نزدیک به ۱ باشد جهت تغییرات هر دو متغیر یکسان است که به آن رابطه مستقیم می گوییم و اگر ضریب همبستگی به ۱- نزدیک باشد، جهت تغییرات متغیر ها معکوس یکدیگر خواهد بود و به آن رابطه عکس می گوییم. ولی در هر دو حالت امکان پیش بینی مقدار متغیر وابسته بر حسب متغیر مستقل وجود دارد.

شایان ذکر است هر چند ضریب همبستگی راهی برای نشان دادن رابطه بین دو متغیر مستقل و وابسته است، ولی مدل رابطه بین این دو متغیر را نشان نمی دهد. نمایش رابطه خطی بین دو متغیر مستقل و وابسته معمولا با استفاده از نمودار نقطه ای (Scatter Plot) انجام می شود. در ادامه با این نوع نمودار رابطه معکوس و مستقیم بین متغیر ها را نشان می دهیم:

نمودار نقطه ای:

نمودار نقطه ای

پیشگامان بی نهایت مطالعه مقاله ابزار های تحلیل داده را به شما عزیزان پیشنهاد می کند.

نمودار نقطه ای

به طور کلی مدل رگرسیون ساده با متغیر وابسته Y و p-1 متغیر مستقل X1 , X2 , … , Xp-1 به صورت زیر تعریف می شود:

رگرسیون ساده

این معادله را می توان به صورت ماتریسی هم بیان کرد:

ماتریسی

در نظر بگیرید که محقق قصد دارد اثر دو متغیر سن و وزن را بر فشار خون اندازه گیری نماید. برای این مطالعه مقادیر سن و وزن برای n=500 نفر اندازه گیری می شود. در این مطالعه سن و وزن متغیر های مستقل یا پیشگو و متغیر فشارخون متغیر وابسته می باشد.

ماتریس X مقادیر مشاهده شده p-1 متغیر را برای n نفر نشان می دهد. بردار Y نیز مقادیر مشاهده شده متغیر وابسته برای نمونه ای به حجم n می باشد. در یک مدل رگرسیونی Βj ها پارامتر های مدل بوده و به کمک روش های مختلفی مانند روش حداقل مربعات و روش درستنمایی ماکزیمم برآورد می شوند. εi ها نیز جملات خطا نامیده می شوند و دارای توزیع نرمال با میانگین صفر و واریانس σ2 هستند.

میانگین صفر و واریانس σ2

به طور کلی معادله رگرسیون را می توان به صورت زیر تعریف کرد که:

v

نحوه برآورد ضرایب رگرسیون:

با استفاده از روش حداقل مربعات مقادیر بردار βp*1 با مینیمم کردن معادله :

روش حداقل مربعات

با توجه به ماتریس بالا به این معادله می رسیم که:

پیشگامان بی نهایت مطالعه مقاله مقدمه ای بر روش مونت کارلو را به شما عزیزان پیشنهاد می کند.

در ادامه با دو مفهوم زیر رو به رو هستیم:

مقادیر برازش شده:

با برآورد پارامتر های مدل، برآورد بردار Y با استفاده از رابطه زیر حاصل می شود. به Ŷ مقادیر برازش شده گفته می شود.

به تفاوت میان مقدار برازش شده و مقدار واقعی رگرسیون خطا می گوییم که از این رابطه به دست می آید:

برای درک بهتر ساز و کار رگرسیون خطی بهتر است با یک مثال کاربردی ادامه دهیم:

فرض کنید می خواهیم رابطه ای بین مساحت یک خانه بر حسب فوت مربع و قیمت آن بر حسب دلار پیدا کنیم و می دانیم که رابطه ای خطی بین این دو برقرار است. برای اینکار باید بهترین خطی که رابطه قیمت بر اساس مساحت خانه را نشان می دهد، بیابیم.

فرض کنید که این خط را یافته ایم، یعنی به ازای هر خانه با مساحت معلوم، قیمت حدودی آن با گذاشتن در این رابطه، به دست می آید. در این صورت اگر داده های موجود را در این رابطه قرار دهیم به ازای هر خانه، یک قیمت فروش تخمینی حاصل می شود که با قیمت واقعی خانه، اختلافی خواهد داشت.

هدف ما در رگرسیون خطی، یافتن خطی است که کمترین اختلاف بین داده های موجود و داده های تخمین زده شده را داشته باشد.

کمترین اختلاف بین داده های

در نتیجه اگر تابعی داشته باشیم که اختلاف بین مقادیر واقعی و مقادیر تخمینی را نشان دهد، باید در پی یافتن دو ضریب W0 و W1 که همان ضرایب خط هستند برای مینیمم کردن این تابع باشیم. یک روش برای انجام این کار استفاده از مجموع مربعات است.

مینیمم کردن

تابع RSS (W0,W1) از درجه دو است و به ازای مقادیر مختلف W0 و W1، با داشتن x و y ها، خروجی های مختلفی تولید می کند. باید مشتق این تابع را نسبت به هر دو متغیر بگیریم و برابر صفر قرار دهیم.

مشتق

در مورد داده ها و اطلاعات، عرض از مبدا ممکن است قابل تفسیر نباشد .مثلا در فروش مسکن، اگر مساحت خانه صفر باشد، y با عرض از مبدأ برابر خواهد شد. فرض کنیم این عدد برابر ۴۰۰۰۰ دلار است. می توانیم بگوییم که برای خرید خانه، حداقل باید ۴۰۰۰۰ دلار پول داشت و بعد بر اساس حجم خانه این مبلغ افزایش پیدا می کند.

اما شیب خط یا W1 تفسیر واضحی دارد. w1 بیانگر میزان تغییری است در y به ازای یک واحد افزایش x. در مثال فروش مسکن، اگر شیب خط برابر ۲۸۰ باشد یعنی به ازای افزایش یک فوت مربع به خانه، قیمت آن، ۲۸۰ دلار اضافه خواهد شد.

شیب خط

در ادامه بیایید اندکی در مورد کاربرد رگرسیون خطی چند متغیره صحبت کنیم. بعضی اوقات ما با بیش از یک متغیر مستقل سر و کار داریم؛ در چنین شرایطی باید از رگرسیون چند متغیره باید استفاده کنیم. برای استفاده از رگرسیون چند متغیره حتما دو فرض مهم باید وجود داشته باشند:

فرض اول:

اینکه تعداد متغیر های مستقل از تعداد مشاهده ها و داده های موجود بیشتر نباشد که البته معمولاً این شرط همیشه برقرار است.

فرض دوم:

اینکه بین خود متغیر های مستقل، رابطه خطی معناداری وجود نداشته باشد. به عنوان مثال اگر بین وزن و چربی خون، رابطه خطی وجود داشته باشد، نمی توانیم ترکیب خطی این دو را برای پیش بینی فشار خون استفاده کنیم. برای پیدا کردن ضرایب این معادله، از محاسبه گرادیان و روش کاهش گرادیان استفاده می کنیم.

پیشگامان بی نهایت مطالعه مقاله مقدمه ای بر بوت استرپ را به شما عزیزان پیشنهاد می کند.

اعتبار سنجی (Validation)

اعتبار سنجی (Validation):

در تحلیل رگرسیونی پس از برازش مدل به داده ها مناسب بودن مدل برازش شده مورد ارزیابی قرار می گیرد. پیش از هر گونه نتیجه گیری آماری از مدل، مانند پیش بینی، انجام آزمون فرض یا ساختن فواصل اطمینان از ضرایب رگرسیونی، فرض ها و شرایط رگرسیون خطی باید بررسی شوند.

هر انحراف از شرایط و مفروضات مدل در خطاهای مدل دیده می شود. بهترین روش برای این که ببینیم مدل رگرسیون تا چه اندازه برای برازش به داده ها خوب است، رسم نمودار مانده ها می باشد. مانده یا خطا میزانی از تغییرات در متغیر پاسخ است که با مدل رگرسیون بیان نمی شود.

آزمون باقی مانده ها عموما به شکل بصری و با استفاده از نمودار های هیستوگرام و پراکنش انجام می شود. البته باید توجه شود هنگامی که حجم نمونه کم است هیستوگرام به نظر نرمال نمی آید. در ضمن مقادیر پرت نیز با استفاده از این نمودار ها قابل تشخیص خواهد بود.

در نمودار مانده ها در مقابل مقادیر برازش شده اگر نقاط حول خط به طور یکنواخت و متقارن پراکنده شده باشند. به ترتیب نشان می دهد الگوی رگرسیون برازش داده شده از لحاظ ثابت بودن واریانس خطا ها و میانگین صفر برای خطا ها دارای وضعیت مناسبی است. نمودار a نشان دهنده حالتی است که در آن واریانس خطا ها ثابت است. (وضعیت مطلوب)

واریانس خطا ها

نمودار قیفی شکل ثابت نبودن واریانس را نشان می دهد. هنگامی که فرض واریانس ثابت برای خطا ها برقرار نباشد برآورد پارامتر های مدل با خطای زیاد خواهد بود در این شرایط دو روش پیش روی تحلیلگر است روش اول به کار بردن کمترین توان دوم وزنی برای برآورد ضرایب رگرسیونی و روش دیگر استفاده از تبدیل کننده های واریانس است.

تبدیل توان دوم یا لگاریتم

در صورتی که نمودار مانده ها در مقابل متغیر پاسخ روند غیر خطی داشته باشد معمولا متغیری به مدل اضافه می شود و یا تبدیلی روی داده ها اعمال می شود. (تبدیل توان دوم یا لگاریتم)

به منظور کسب اطلاعات بیشتر، مطالعه مقاله الگوریتم درخت تصمیم را به شما عزیزان پیشنهاد می نماییم.



اشتراک گذاری

دیدگاه شما

اولین دیدگاه را شما ارسال نمایید.