لیزرل چیست ؟

نرم افزار لیزرل (LISREL) یک محصول نرم افزاری است که به منظور برآورد و آزمون مدلهای معادلات ساختاری طراحی و از سوی شرکت بین المللی نرم افزار علمی (SSI) به بازار عرضه شده است. این نرم افزار با استفاده از همبستگی و کوواریانس بین متغیرهای اندازه گیری شده، می‌تواند مقادیر بارهای عاملی، واریانسها و خطاهای متغیرهای مکنون را برآورد یا استنباط کند، و از آن می‌توان برای اجرای تحلیل عاملی اکتشافی، تحلیل عاملی مرتبه دوم، تحلیل عاملی تاییدی و همچنین تحلیل مسیر (مدل یابی علّی با متغیرهای مکنون) استفاده کرد.

آشنایی با محیط نرم افزار SAS  

آشنایی با محیط نرم افزار SAS

نویسنده: نرگس سهرابی


SAS  مخفف اصطلاح لاتین (Statistical Analysis System)  ؛ به معنای سیستم تحلیل آماری است که یک زبان سطح بالا می باشد . پس از اجرای برنامه SAS چهار پنجره اصلی برای شما نشان داده می شود که به ترتیب شامل پنجره log , explore ,output ,editor می باشد.علاوه بر این پنجره‌ها، پنجره های دیگری نیز هستند که از مسیر view ,tools قابل دسترسی می باشند.


1-    پنجره Editor : پنجره ای است که در آن برنامه نویسی یا یک برنامه SAS را می شود فراخوانی و یا ویرایش کرد.این پنجره در هنگام اجرای برنامه بر روی صفحه اصلی نمایش داده می شود، و از مسیر   tools->text editor نیز قابل دسترسی است. مانند مثال زیر برنامه را در این پنجره فراخوانی کرده  یا می نویسیم و سپس با استفاده از کلید f8 ، یا نوشتن submit در نوار دستور یا کلیک به روی آیکن آدمک بر روی نوار ابزار برنامه را  اجرا می کنیم. برای اجرای بخشی از برنامه فقط ان قسمت را انتخاب می کنیم و سپس از سه روش بالا اجرا می کنیم. بعد از اجرای این برنامه می توانید برنامه را با پسوند .sas ذخیره کنید. هر پوشه با این پسوند شامل یک برنامه SAS می باشد. 

 
2-    پنجره log:در هنگام اجرای هر برنامه می توانید پیام های مربوط به اجرای هر خط برنامه را در این پنجره مشاهده کنید. پیام هایی که در این پنجره می توان مشاهده کرد شامل اجرای درست هر خط برنامه ،خطاهای ساختاری یا نوشتاری، خطاهای منطقی و همچنین مدت زمان اجرای برنامه میشود. هر کدام از این پیام‌ها با رنگ‌های متفاوتی از هم تفکیک داده شده‌اند.پیام‌های معمولی (note) با رنگ آبی خطا‌های نوشتاری(error) با رنگ قرمز وخطا‌هایی منطقی (warning) با رنگ سبز نشان داده شده‌اند. در صورتی که اجرای برنامه شما به مشکلی برخورد می‌کند میتوانید در این پنجره مشکل برنامه را بررسی کنید وسپس برنامه را تصحیح کنید.با اجرای هر برنامه صفحه log  شما طولانی و باعث سردر گمی میشود میتوانیداز دستورCrtl+E برای پاک کردن صفحه  log استفاده کنید.خروجی این پنجره با پسوند   *. log ذخیره می‌شود. این پنجره از مسیر view->log نیز قابل دسترسی است.


3-     پنجره output: اجرای بعضی از برنامه‌ها خروجی‌هایی را تولید میکنند که در پنجره output نمایش داده می‌شوند.خروجی برنامه را می‌توانید با پسوند *.lst  ذخیره کنید.

     
4-    پنجره Explorer و reaults: پنجره Explorer همان‌طور که از اسمش پیداست پرونده‌ها و پوشه‌ها را جستجو می‌کند.این پنجره چهار تا پوشه داردlibraries, file shortcuts,favorite folder, my computer .با انتخاب  my computer میتوانید فایل های با پسوندهای *.sas, *.lst, *.log را فراخوانی و اجرا کنید. پوشه libraries محل ذخیره موقت خروجی برنامه ها است به طوریکه بعد از بستن نرم افزار تمام اطلاعات پاک میشود.مسیر ذخیره خروجی برنامه libraries->work است. 


علاوه بر آن، فایل برنامه وداده های مربوط به SAS در این پنجره قابل دستیابی است. پنجره results نتایج خروجی رابرای دسترسی راحتر به صورت دسته بندی نمایش می‌دهد.









قبل از ورود داده کمی در مورد اصطلاحات مربوط به برنامه نویسی در sasبیان میشود.
در SAS دو دستور کلی دارد: 



1-    data step دستوریی که میتوان درآن داده‌ها را وارد و مدیریت کرد
2-    proc step مخفف procedure است وبعد از این دستور میتوان روش‌های آماری را در این دستور اجرا کرد.

هر جمله ای که به ( ;) ختم شود را یک دستور (statement) میگویند.
 



ایجاد مجموعه داده در sas



برای وارد کردن داده‌ها در SAS از دستور data با نام دلخواهی برای مجموعه داده باید شروع کرد. دستور(statment) input متغیرها را تعریف میکند. متغیرهایی که به صورت کاراکتر نشان داده میشوند را با علامت $ نشان میدهیم.مثلا اگر متغیر ما نام کشور باشه در اینصورت هر اسمی طول متفاوتی دارد ویا بینشان فاصله دارد، برای وارد کردن این داده طول بیشترین اسم را در جلوی متغیر مینویسیم. دستور بعدی datalines یا cards (هردو دستور را میتوان به کاربرد) است. این دستور نشان می دهد مرحله data step کامل شده است و خط بعدی شامل داده‌ها میشود. میتوان (به دلخواه) بعد از ورود داده دستور proc print را نوشت. این دستور داده‌ها را در output نشان میدهد. در صورت ننوشتن این دستور، جدول داده‌ها در مسیر 


libraries-> work  


به صورت موقت ذخیره میشود وبرای دیدن جدول داده باید به مسیر بالا رفت.
جدول موقت داده‌ها که در مسیر





->class libraries->work (نام مجموعه داده)



ذخیره شده است.




   
توجه کنید که در جدول بالا متغیرهایی که کاراکتری هستند در سمت چپ نوشته شده‌اند اگر به جای حروف از عدد برای کشور استفاده میکردیم به علت علامت $ عددها هم در چپ نمایش داده میشدند. ولی متغیرهایی که بدون علامت $ تعریف میشوند در طرف راست نوشته میشوند که نشانه محاسباتی بودن هست.در اینجا ما نشان ندادیم ولی شما می توانید امتحان کنید.   



 
در مثال بالا داده‌ها به صورت ستونی وارد شده است. میتوان داده‌ها را به صورت پشت سر هم در سطر نیز وارد کرد فقط کافی است در پایان دستورinput  علامت @@ را بنویسیم.
 




خواندن داده‌ها از یک فایل متنی



برای خواندن داده‌ها از فایل متن قبل از دستور input  دستور




infile ‘file path(c;\data) ’ 





 را به کار می‌بریم. برای استفاده از دستور infile از دو روش می توان استفاده کرد. 
در روش اول (infile ‘file path(c;\data را قبل ازدستور input  قرار می دهیم. 


داده‌های موجود در فایل .txt  
 



 

در روش دوم ابتدا از دستور filename استفاده می کنیم. این دستور یک فایل میانبر را با اسمی که نوشتیم در برنامهSAS ایجاد می کند. دقت کنید که این دستور در خارج از دستور DATA step نوشته میشود.









Filename   toxic  (نام دلخواه)   'D:\Research\Toxin\Data1998\DON.txt'; 
Data  readasc; 
  Infile   toxic; 
  Input   location  truck  probe  DON; 
run;







در اینجا دستور infile که در DATA step  قراردارد. برای فراخوانی داده‌ها به فایل میانبری که در SAS درست شده است ارجاع داده میشود. در بعضی از فایل‌‌ها ستون‌های داده با فاصله از هم جدا نمیشوند (برای مثال فایل *.prn داده‌ها با ، (کاما) از هم جدامیشوند)  بنابراین می توان گزینه delimiter برای مشخص کردن نوع جدا کننده‌ها در دستور input به کاربرد. همچنین بعضی از فایل داده‌ها دارای header (نام متغیرها در سطر اول ) هستند در صورتی که نخواهیم سطر اول خوانده شود از گزینه firstobs استفاده میکنیم. و برای فراخوانی کردن تعداد محدودی از سطرها از دستورobs  استفاده میکنیم.





Filename    toxic     'D:\Research\Toxin\Data1998\DON.txt’ ; 
data readasc; 
  infile       toxic     delimiter=','      firstobs=12    obs=100  ; 
  input     location   truck   probe   DON ;   
run;
 

نحوه محاسبه تحلیل تشخیصی (Discriminant Analysis (DA در SPSS

نحوه محاسبه تحلیل تشخیصی (Discriminant Analysis (DA در SPSS

نویسنده: هیئت تحریریه ژورنال الکترونیکی آمار آکادمی

تحلیل تشخیصی جهت ساخت و طراحی یک مدل پیش بینی از عضویت گروه ها بر اساس ویژگی های مشاهده شده برای هر مورد است. به عنوان مثال شرکت تبلیغاتی می خواهد مطالعه کند متغیر های اصلی تفکیک کننده سه گروه مشتریان دائم، تقریبا دائم و دوره ای به چه شکلی است. یا اگر بخواهیم دانش آموزان را به دو گروه با هوش و تقریبا با هوش بر اساس وضعیت نمرات آنها در سه درس داشته باشیم باید از این تحلیل اسفاده شود. به کمک این تابع می توان عضویت هر یک از افراد را با استفاده از نمره این سه درس در یکی از دو گروه پیش بینی نمود. به این دلیل که در این مثال فقط دو گروه داری لذا فقط یک تابع تشخیصی استخراج می شود. این روش به سه طریق مستقیم یا Direct سلسله مراتبی یا Hierarchical و گام به گام Stepwise انجام می شود که روش گام به گام به این دلیل که متغیر های مستقل را به ترتیب قدرت پیش بینی وارد مدل می کند از کاربرد بیشتری در بین محققان برخوردار است.
برای حل این مثال در SPSS ابتدا داده های سه درس را وارد ستون ها نموده و در ستون چهارم با مقادیر 1 و 2 گروه های با هوش و نسبتا با هوش را مشخص می کنیم.

حال به مسیر زیر در نرم افزار رفته و تنیمات را طبق دستور ها انجام می دهیم.

 

در پنجره باز شده متغیر گروه را در قسمت مربوطه وارد نموده و با تعریف گروه ها آنها را از هم تفکیک می کنیم. متغیر های نمره سه درس را نیز به عنوان متغیر های مستقل وارد قسمت Independent می کنیم.

گزینه Stepwise را نیز فعال می کنیم.


حال بر روی کلید Statistics کلیک کرده تا گزینه Discriminant analysis: Statistics فعال شود. در این پنجره Univariate ANOVAs انتخاب و Continue را انتخاب می کنیم. مطابق پنجره زیر باید این گزینه فعال شود.

حال کلید Classify را انتخاب نموده و تنظیمات را مانند زیر انجام می دهیم.

 


حال Continue و سپس OK را انتخاب می کنیم. در دو خروجی اول اطلاعات توصیفی و وضعیت قرار گیری هر یک از گروه ها مشخص می شود.


در خروجی بعدی آماره لامبدای ویلکز ظاهر می شود که جهت مطالعه معنی داری و برازش تابع مورد استفاده قرار می گیرد. نتایج نشان می دهد که حداقل یک متغیر مستقل در تفکیک این گروه ها وجود دارد.

در خروجی بعدی می توان معنی داری پارامتر های وارد شده در هر یک از مراحل امده است.


در این مرحله می توان میزان کاهش آماره لامبدا در ورود هر متغیر پیش بین مورد استفاده قرار می گرد. 
در نهایت می توان متغیر های وارد شده به هر یک از مراحل بر اساس ورود گام به گام متغیر های مستقل را پیش بینی می کند. نتایج نشان می دهد که آخرین متغیر در گام سوم وارد نشده است. دو متغیر زبان خارجی و نمره ریاضی به عنوان متغیر های پیش بین وارد شده و مقدار نمره علوم تاثیری ندارد.

در این مرحله برای بررسی برازش تابع و قابلیت تکرار آن از ضریب کانونی استفاده می شود.


نتایج نشان می دهد که متغیر های وارد شده در مدل با ضرایب خود از قابلیت تفکیک بسیار بالایی برای جدا سازی دو گروه با هوش و تقریبا با هوش دارند. در خروجی بعدی ضریب مربوط به هر یک از متغیر های تحقیق آورده شده است.


در نهایت با بررسی مجدد و تفکیک داده های موجود بر اساس ضریب فوق مشخص می شود که تا 83 درصد تفکیک بر این اساس و دو متغیر نمره ریاضیات زبان خارجی برای تفکیک این دو گروه کافی است.

با نگاهی به جدول فوق مشخص می شود که فقط یک نفر از افراد بسیار با هوش در گروه نسبتا با هوش با این تابع به اشتباه قرار گرفته است و چهار نفر از افرادی که نسبتا با هوش بودند در گروه با هوش ها به اشتباه قرار گرفتند. نتایج نشان می دهد که این تابع از قدرت تفکیکی مناسبی برای جدا سازی گروه ها برخوردار است. ضریب متغیر نمره زبان خارجی 482/0 و ضریب نمره ریاضیات 309/0 می باشد.

تحلیل تابع تشخیصی(DFA) در نرم افزار SAS

تحلیل تابع تشخیصی(DFA) در نرم افزار SAS

نویسنده: هیئت تحریریه ژورنال الکترونیکی آمار آکادمی

تحلیل تشخیصی یا Discriminant Analysis که به تابع ممیزی DFA نیز شهرت دارد، یکی از روش های آماری چند متغیره است که در تفکیک و تشخیص طبقات یک متغیر بر اساس چند متغیر کمی به کار می رود. به عنوان مثال محققی علاقه مند به مطالعه روابط بین سه نوع شغل خدمات مشتریان، مسئولین فنی و تکنسین های توزیع در یک شرکت خدمات تلفن های همراه است. محقق فرضیه ای مبنی بر متفاوت بودن این سه طبقه به لحاظ تیپ های شخصیتی دارد. لذا هر کارمند به طور تصادفی در سه آزمون تحرک پذیری، جامعه پذیری و محافظه کاری شرکت نموده و شغل وی نیز در این سه حیطه ثبت می شود. یا محققی در صدد این است تا متغیر های اصلی تفکیک کننده سه گونه گیاهی را شناسایی نماید. این روش را می توان با روش هایی چون رگرسیون ترتیبی و چند جمله ای مقایسه کرد. این روش نسبت به روش های قبلی بر اساس شاخص های کمّی انجام می پذیرد. در این مقاله سعی می شود تا در مورد مثال اول و با داشتن داده ای فرضی کاربرد این روش کمّی در نرم افزار SAS توضیحات تکمیلی ارائه شود. 
ابتدا دستور زیر برای ورود داده ها و بیان آماره های توصیفی را وارد پنجره دستورات می کنیم.




proc means data='d:\data\نام فایل' n mean std min max;
var outdoor social conservative;
run;
خروجی دستور به شرح زیر خواهد بود:

The MEANS Procedure
Variable          N            Mean         Std Dev         Minimum         Maximum
OUTDOOR         244      15.6393443       4.8399326               0      28.0000000
SOCIAL          244      20.6762295       5.4792621       7.0000000      35.0000000
CONSERVATIVE    244      10.5901639       3.7267890               0      20.0000000
 

 

proc means data='d:\data\نام فایل' n mean std;
class job;
var outdoor social conservative;
run;

 

                  N
         JOB    Obs    Variable          N            Mean         Std Dev

           1     85    OUTDOOR          85      12.5176471       4.6486346
                       SOCIAL           85      24.2235294       4.3352829
                       CONSERVATIVE     85       9.0235294       3.1433091

           2     93    OUTDOOR          93      18.5376344       3.5648012
                       SOCIAL           93      21.1397849       4.5506602
                       CONSERVATIVE     93      10.1397849       3.2423535

           3     66    OUTDOOR          66      15.5757576       4.1102521
                       SOCIAL           66      15.4545455       3.7669895
                       CONSERVATIVE     66      13.2424242       3.6922397
 

 

حال دستور زیر را برای بیان همبستگی ها وارد می کنیم:

proc corr data='d:\data\discrim';
var outdoor social conservative;
run;

        Pearson Correlation Coefficients, N = 244
                Prob > |r| under H0: Rho=0

                   OUTDOOR        SOCIAL      CONSERVATIVE

OUTDOOR            1.00000      -0.07130           0.07938
                                  0.2672            0.2166

SOCIAL            -0.07130       1.00000          -0.23586
                    0.2672                          0.0002

CONSERVATIVE       0.07938      -0.23586           1.00000
                    0.2166        0.0002

proc freq data='d:\data\نام فایل';
tables job;
run;

The FREQ Procedure
                                Cumulative    Cumulative
JOB    Frequency     Percent     Frequency      Percent

  1          85       34.84            85        34.84
  2          93       38.11           178        72.95
  3          66       27.05           244       100.00


دستور proc discrim را برای تحلیل تشخیصی وارد می کنیم.

proc candisc data='d:\data\نام فایل' out=discrim_out ; 
class job; 
var outdoor social conservative;
run;

نتیجه خروجی به شرح زیر خواهد بود.

The CANDISC Procedure

                 Multivariate Statistics and F Approximations

                             S=2    M=0    N=118.5

Statistic                        Value    F Value    Num DF    Den DF    Pr > F

Wilks' Lambda               0.36398797      52.38         6       478    <.0001
Pillai's Trace              0.76206574      49.25         6       480    <.0001
Hotelling-Lawley Trace      1.40103067      55.69         6     316.9    <.0001
Roy's Greatest Root         1.08052702      86.44         3       240    <.0001

 

 

         NOTE: F Statistic for Roy's Greatest Root is an upper bound.
                 NOTE: F Statistic for Wilks' Lambda is exact.


                           Adjusted    Approximate        Squared
           Canonical      Canonical       Standard      Canonical
         Correlation    Correlation          Error    Correlation

       1    0.720661       0.716099       0.030834       0.519353
       2    0.492659        .             0.048580       0.242713

                                                     Test of H0: The canonical correlations in the
                   Eigenvalues of Inv(E)*H              current row and all that follow are zero
                     = CanRsq/(1-CanRsq)
                                                     Likelihood Approximate
         Eigenvalue Difference Proportion Cumulative      Ratio     F Value Num DF Den DF Pr > F

       1     1.0805     0.7600     0.7712     0.7712 0.36398797       52.38      6    478 <.0001
       2     0.3205                0.2288     1.0000 0.75728681       38.46      2    240 <.0001

دو تابع تشخیصی در این رابطه استخراج می شود که ضریب اولیه 72/0 و ضریب ثانویه 49/0 محاسبه شده است.


Standardized canonical discriminant function coefficients

Pooled Within-Class Standardized Canonical Coefficients

Variable                  Can1              Can2

OUTDOOR           -.3785725108      0.9261103825
SOCIAL            0.8306986150      0.2128592590
CONSERVATIVE      -.5171682475      -.2914406390

       Pooled Within Canonical Structure

Variable                  Can1              Can2

OUTDOOR              -0.323098          0.937215
SOCIAL                0.765391          0.266030
CONSERVATIVE         -0.467691         -0.258743

این ضرایب استاندارد شده را می توان مشابه ضرایب بتای رگرسیون دانست. به عنوان مثال با افزایش یک واحد انحراف استاندارد در متغیر تحرک پذیری 32/0 کاهش انحراف استاندارد در تابع اولیه ممیزی دارد. بار تشخیصی و بار کانونی را می توان به عنوان ضرایب جایگرین این تابع دانست. این روش به لحاظ نوع برخورد با متغیر های پنهان با روش تحلیل عاملی قابل قیاس است. در مورد سایر ضرایب نیز تفسیری مشابه وجود دارد.


    Class Means on Canonical Variables

   JOB              Can1              Can2

     1       1.219100186      -0.389003864
     2      -0.106724637       0.714570441
     3      -1.419668555      -0.505904888

  Number of Observations and Percent Classified into JOB

  From
   JOB            1            2            3        Total

     1           69           12            4           85
              81.18        14.12         4.71       100.00

     2           17           64           12           93
              18.28        68.82        12.90       100.00

     3            3           10           53           66
               4.55        15.15        80.30       100.00

 Total           89           86           69          244
              36.48        35.25        28.28       100.00


در این قسمت خروجی میانگین توابع تشخیصی برای هر یک از گروه های سه گانه آورده شده است. مقادیر مندرج در قطر این خروجی به معنای طبقه بندی صحیح هر یک از افراد در گروه های مربوطه است.

برای دیدن چارت مربوطه از ماکروی زیر استفاده می شود.

proc format; 
value jobname 
1='C ' 
2='M ' 
3='D '; 
run;

data discrimplot;
set discrim_out;
format job jobname.;
run;

symbol1 interpol=none font='Times-Roman' pointlabel=("#job") height=1;

proc gplot data=discrimplot;
plot Can2*Can1=job / haxis=axis1;
run;

همانطور که دیده می شود کارمندانی که در بخش خدمات کار می کنند گرایش بیشتری به جامعه پذیری طبق تابع اول دارند. مسئولین توزیع در انتهای این طیف و مسئولین فنی در ارتباط با این متغیر در حد وسط قرار دارند. در تابع دوم نتایج به شفافی تابع اول نیست و مسئولین فنی بیشتر گرایش به بعد تحرک پذیری دارند و مسئولین توزیع و خدمات در این متغیر و این تابع ضعیف هستند.

 

محاسبه تحلیل همبستگی بنیادی(Canonical Correlation Analysis) در نرم افزار SAS

محاسبه تحلیل همبستگی بنیادی(Canonical Correlation Analysis) در نرم افزار SAS

 


در بسیاری از موقعیت های پژوهشی محقق با دو دسته از متغیر های مستقل و وابسته سروکار دارد که در هر دو طرف معادله بیش از دو متغیر وجود دارد. به عبارت دیگر در این نوع تحقیقات گاها بیش از یک متغیر وابسته وجود دارد. به این منظور باید از روش چند متغیره تحلیل بنیادی یا همبستگی کانونی استفاده شود. هدف مقاله حاضر تشریح کد های اساسی محاسبات CCA در نرم افزار کلیدی SAS است. نکته اصلی که باید مورد توجه باشد این است که عمدتا این روش به عنوان روش تعقیبی برای سایر روش های آماری محسوب می شود لیکن این روش کمتر مورد توجه پژوهشگران کشور قرار گرفته است. رگرسیون چندگانه در صورتیکه فقط یک متغیر وابسته کمی داشته باشد می تواند به عنوان جایگزین این روش وجود دارد.

به عنوان مثال محققی ابعاد صلاحیت های شغلی را در یک طرف معادله دارد و ابعاد شخصیتی را در طرف دیگر قرار داده است. با توجه به تعداد مجموعه های کوچکتر معادله استخراج می شود.

با استفاده از دستور زیر می توان اطلاعات توصیفی از وضعیت متغیر های تحقیق به دست آورد.

PROC means data= مسیر فایل;
run;

برای مشاهده اطلاعات مربوط به سطوح متغیر های مورد مطالعه پروک freq را وارد می کنیم.

PROC freq data= مسیر فایل;
  table نام متغیر مورد نظر;
run;

دستور اصلی محاسبه آن به شرح زیر است. به عبارت دیگر پروک اصلی آن cancorr  است.

proc cancorr data= مسیر فایل;
  Y1 Y2 Y3 … Yn;
  with X1 X2 X3 … Xn;
run;
 

اولین خروجی مربوط به معنی داری اولین ریشه استخراجی است.

Multivariate Statistics and F Approximations
 
S=3    M=0.5    N=295
 
Statistic                        Value    F Value    Num DF    Den DF    Pr > F
 
Wilks' Lambda               0.75436113      11.72        15    1634.7    <.0001
Pillai's Trace              0.25424936      11.00        15      1782    <.0001
Hotelling-Lawley Trace      0.31429738      12.38        15      1113    <.0001
Roy's Greatest Root         0.27449563      32.61         5       594    <.0001

 

 

 

 

با توجه به معنی داری اولین ریشه می توان استفاده از این روش را برای داده پردازی منطقی دانست. اطلاعات ریشه بعدی را می توان به شرح زیر مطالعه نمود.

Likelihood Approximate
          Eigenvalue Difference Proportion Cumulative      Ratio     F Value Num DF Den DF Pr > F
 
        1     0.2745     0.2456     0.8734     0.8734 0.75436113       11.72     15 1634.7 <.0001
        2     0.0289     0.0179     0.0919     0.9652 0.96142996        2.94      8   1186 0.0029
        3     0.0109                0.0348     1.0000 0.98918584        2.16      3    594 0.0911

 

نتایج نشان می دهد سه ریشه استخراج شده است که ریشه دوم نیز اطلاعاتی دارد که در ریشه اول تبیین نشده است. لیکن ریشه سوم به طور کلی ارزش پیش بینی ندارد. به طور کلی ضرایب هر ریشه آمده است که عمدتا بهتر است از ضرایب استاندارد شده به جای ضرایب خام به ویژه هنگامیکه انحراف استاندارد زیاد است استفاده شود تا امکان مقایسه بهتر فراهم شود.

 

 

Raw Canonical Coefficients for the VAR Variables
              V1               V2                V3
                                           
        X1           1.2538339076      0.6214775237      -0.661689607
        X2           -0.35134993      1.1876866562      0.8267209411
        X3           1.2624203286      -2.027264053      2.0002284379
 
Raw Canonical Coefficients for the WITH Variables
                W1                W2                W3
 
       Y1      0.0446205959      0.0049100176      0.0213805581
       Y2      0.0358771125      -0.042071471      0.0913073288
       Y3      0.0234171847      -0.004229472      0.0093982096
       Y4      0.0050251567      0.0851621751      -0.109835018
       Y5      0.6321192387      -1.084642482      -1.794646917

 

Standardized Canonical Coefficients for the VAR Variables
                        V1            V2            V3
 
      X1           0.8404        0.4166       -0.4435
      X2           -0.2479       0.8379        0.5833
      X3           0.4327       -0.6948        0.6855
 
Standardized Canonical Coefficients for the WITH Variables
                    W1            W2            W3
 
     Y1         0.4508        0.0496        0.2160
     Y2         0.3490       -0.4092        0.8881
     Y3         0.2205       -0.0398        0.0885
     Y4         0.0488        0.8266       -1.0661
     Y5         0.3150       -0.5406       -0.8944

 

بر این اساس می توان معادله را برای دو تابع w1 و v1و w2 و v2 نوشت ولیکن ریشه سوم ارزش تخمینی ندارد. ضرایب همبستگی کانونی نیز در خروجی بعدی مشخص است. که طبیعتا اولین ریشه دارای بیشترین ضریب همبستگی است.

Canonical Correlation Analysis
 
                                           Adjusted    Approximate        Squared
                           Canonical      Canonical       Standard      Canonical
                         Correlation    Correlation          Error    Correlation
 
                       1    0.464086       0.455474       0.032059       0.215376
                       2    0.167509        .             0.039712       0.028059
                       3    0.103991        .             0.040417       0.010814

 

این روش نیازمند حجم بالایی از نمونه است و به منظور بررسی پیش فرض های ان باید از روش MANOVA استفاده شود. در این مقاله دستورات محاسبه CCA در نرم افزار SAS آمده است. لیکن مباحث بنیادی آنرا می توان در کتاب تحلیل چند متغیره دکتر نیرومند از انتشارات دانشگاه فردوسی مشهد مطالعه نمود.

 

نحوه محاسبه حداقل مربعات دو مرحله ای در نرم افزار SPSS  نحوه محاسبه حداقل مربعات دو مرحله ای در نرم

نحوه محاسبه حداقل مربعات دو مرحله ای در نرم افزار SPSS

 

Two Stage Least Squares (2SLS) Regression

رگرسیون حداقل مربعات دو مرحله ای یک روش پیشرفته رگرسیونی برای پوشش مدل هایی است که خاصیت بازگشتی بودن را که مفروضه اصلی رگرسیون خطی عمومی است، را نقض می کنند. به ویژه مدل هایی که محقق باید همبستگی بین یک یا تعداد بیشتری از متغیر های پیش بین خود را با متغیر وابسته مدل از نقطه نظر خطای اندازه گیری چک نماید. مدل رگرسیون عمومی فرض می کند که خطا ها در متغیر وابسته با متغیر های مستقل همبسته نیستند. زمانیکه این پیش فرض محقق نشود مثلا زمانیکه رابطه به صورت دو طرفه وجود داشته باشد، بر آورد رگرسیونی OLS معتبر نخواهد بود. رگرسیون 2SLS از متغیر هایی با حداکثر کارایی که با خطا ها نا همبسته هستند برای برآورد ارزش متغیر های مساله ساز در فاز اول استفاده نموده و سپس استفاده از این مقادیر تعریف شده برای برآورد مدل رگرسیون خطی و پیش بینی تغییرات متغیر وابسته(فاز دوم).
به عنوان مثال محققی علاقه مند است مطالعه کند که آیا میزان تقاضا برای یک برند خاص در یک کشور به قیمت آن برند و درآمد مشتریان بالفعل وابسته است یا خیر؟ مشکل این محقق برای استفاده از روش OLS این است که بین قیمت و تقاضا رابطه دو طرفه وجود دارد یعنی قیمت تعیین کننده تقاضا و تقاضا نیز تعیین کننده قیمت می تواند باشد. این حالت تحت عنوان حلقه های بازخوردی در مدلسازی آماری مطرح است. لذا در این حالت بهترین مدل برای برآورد این وضعیت با توجه به شرایط بیان شده حداقل مربعات دو مرحله ای است. در این مدل درامد مشتریان به همراه متغیر باز تعریف شده قیمت برای محاسبه یک پروکسی که با میزان خطای متغیر وابسته ناهمبسته است، مورد استفاده قرار می گیرد. این پروکسی در فاز اول تعریف می شود و در فاز دوم به عنوان متغیر مستقل وارد مدل می شود. در واقع این پروکسی برای از بین بردن وجود این رابطه دو طرفه بین قیمت و تقاضا است. 
نرم افزار هایی چون SAS، Eviews، SHAZAM و ... می توانند محاسبه رگرسیون حداقل مربعات دو مرحله ای را انجام دهند. لیکن محاسبه با بسته آموزشی SPSS" href="/courses.php?id=24&title=آموزش_SPSS_مقدماتی_و_پیشرفته">نرم افزاری SPSS به دلیل سهولت کاربرد، کاربرد وسیع تری دارد. لذا در این مقاله با این نرم افزار یک نمونه مساله با این روش مورد تحلیل قرار می گیرد.
مثال: یک شرکت بازار یابی، فروش کالای چند رسانه ای و کتاب های آموزشی یک کمپانی را در اختیار گرفته است و به ازای فروش محصولات تولیدی این کمپانی درصدی را از آن دریافت می کند. این شرکت به کمک ارسال ایمیل محصولات موجود را به اطلاع اعضای سایت خود می رساند. در این رابطه این شرکت می خواهد مدلی را برای کل خرید هایی که به واسطه این ایمیل ها انجام می شود طراحی نماید تا به این وسیله متغیر های اصلی پیش بینی کننده میزان فروش خود را تعیین نماید.
مشاور بازار یابی این شرکت به عنوان محقق در نظر گرفته است که متغیر میزان کل فروش را به عنوان متغیر وابسته و متغیر های میزان تخفیف های ارائه شده توسط این سایت برای خرید های اینترنتی به صورت ماهیانه و تعداد پیشنهاد های ارائه شده به هر فرد برای خرید هر دو دسته کالا را به عنوان متغیر های پیش بینی کننده و متغیر های مرتبط با تخفیف خرید اینترنتی را به عنوان متغیر های کمکی وارد مدل نماید. 
از آنجائیکه تخفیف ماهیانه مستقل از پیشنهاد های فروش خاص ارائه شده برای هر فرد است لیکن بر فروش این اقلام تایثر گذار است. از اینرو میزان فروش و میزان تخفیف با یکدیگر دارای رابطه دو سویه هستند و باید میزان فروش این اقلام را به عنوان متغیر های Lag یا متغیر های نگه داشته شده در اولین فاز در نظر بگیریم. لذا ابتدا به مسیر زیر وارد شده و گزینه Create Time series… را انتخاب می کنیم.

سپس میزان خرید این دو قلم کالا را انتخاب کرده و به کادر سمت راست منتقل می کنیم. و نوع تابع را روی Lag قرار می دهیم.


حال باید از خانواده رگرسیون ها، در نرم افزار SPSS گزینه Two Stage Least Squares را انتخاب کنیم.

حال باید در این مرحله متغیر تعداد کل خرید هایی که به واسطه ایمیل های ارسالی دریافت شده است را قسمت متغیر وابسته مدل وارد کنیم. زیرا هدف از این مطالعه شناسایی عواملی بود که تعداد کل این خرید را شناسایی می کنند تا در آینده این شرکت تبلیغاتی بتواند تمام برنامه های خود را بازار یابی هدفمند تر روی این عوامل متمرکز نماید.
سپس باید تعداد پیشنهاد های ارائه شده برای خرید کتاب و همچنین محصولات پند رسانه ای به همراه نوع پرداخت را که به دو فرم چک های بانکی و تحویل در هنگام دریافت محصول و پرداخت از طریق کارت های اعتباری است را به قسمت متغیر های پیش بینی کننده یا Explanatory وارد می کنیم. در این مرحله باید متغیر های مشکل ساز را در قسمت بهینه ساز یا سودمند سازی متغیر وارد کنیم. این متغیر ها نوع پرداخت هزینه، تخفیف ارائه شده برای خرید اینترنتی کتاب و تخفیف ارائه شده برای خرید اینترنتی چند رسانه ای و متغیر سودمند شده میزان فروش این اقلام است. سپس کلید OK را می زنیم.


برای استفاده از بخش برنامه نویسی نرم افزار در قسمت ادیتور باید دستور زیر را وارد کرد.

اولین خروجی این نرم افزار مربوط به بخش توصیفی متغیر های وارد شده به مدل است.


متغیر هایی که تحت عنوان Predictor مشخص شده اند متغیر هایی هستند که اثر آنها ابتدا در مقایسه با متغیر های سودمند شده برای کنترل میزان خطای به وجود آمده در رابطه با متغیر وابسته محاسبه می شود. متغییر هایی که تحت عنوان predictor and instrumental نام گذاری شده اند آنهایی هستند که برای محاسبه واقعی اثر متغیر های پیش بین مورد استفاده قرار می گیرند. و برای خود آنها نیز ضرایب محاسبه می شود ولی برای متغیر هایی که فقط instrumental هستند، اثر کلی آنها در برآورد واقعی ضرایب متغری های پیش بین محاسبه می شود ولیکن برای آنها ضرایب محاسبه نمی شود. 
در بخش بعدی خروجی، مقدار Multiple R یا همان ضریب همبستگی چند گانه که بیان رابطه خطی بین متغیر های پیش بینی کننده و متغیر مشاهده شده است، نشان از یک رابطه نسبتا متوسط تا ضعیف بین متغیر های پیش بینی کننده وارد شده به مدل و متغیر وابسته مدل دارد. توان دوم آن را که با R Square نمایش می دهند بین می کند که 14 درصد از میزان فروش محصولات این شرکت از طریق کانال ایمیل توسط متغیر های مورد مطالعه محقق قابل پیش بینی است. مقدار Adjusted نیز عمدتا برای مقایسه بین مدل ها کاربرد دارد.



جدول تحلیل واریانس نشان می دهد که در برآورد ضرایب رگرسیونی و میزان باقیمانده، اعتبار قابل قبولی برای مدل رگرسیونی وجود دارد زیرا که مقدار سطح معنی داری آن زیر 05/0 است.

در نهایت ضرایب متغیر های وارد شده به مدل در این بخش مشخص می شود که از روی این جدول می توان مدلی که محقق به دنبال ان بود را برای شرکت مورد نظر در تصمیم گیری ارائه نمود.



خلاصه این مدل به این ترتیب است که نشان می دهد میزان کلی فروش تابعی از این متغیر ها است:
Y= -1.511 + 0.353 * buycd + 0.189 * buybk + 0.130 * offer_type1 + 0.303 * offer_type2.
میزان سطح معنی داری برای متغیر نوع پرداخت اول که از طریق کارت های اعتباری است بیشتر از 05/0 محاسبه شده است، لذا سطح کلی فروش را این نوع پرداخت نمی تواند به خوبی متمایز کند. در حالیکه این مقدار برای نوع پرداخت دوم که از طریق پرداخت هنگام دریافت محصول بوده است به دلیل کمتر بودن سطح معنی داری از 05/0، از قابلیت خوبی برای تبیین میزان کلی فروش برخور دار است. لذا در ارائه پیشنهاد های خرید، پیشنهاد هایی که پرداختشان از طریق پرداخت هنگام دریافت بوده است از قابلیت خوبی در پیش بینی متغیر وابسته یعنی میزان فروش برخور دار است و این گونه پیشنهاد های خرید بیشتر به خرید دو قلم کالا منجر شده است. این وضعیت برای پیشنهاد های خرید چند رسانه ای در مقابل کتاب نیز صادق است. از اینرو نتیجه می شود گرفت که روش های بازار یابی کنونی شرکت برای فروش کلی این دو قلم کالا در بازه زمانی مورد مطالعه روی فروش چند رسانه ای و به شرط پرداخت در هنگام دریافت بیشتر موثر بوده است. لذا فروش کتاب از طریق این سیستم چندان اقتصادی به نظر نمی رسد و روش بازار یابی کتاب باید تغییر کند. همچنین باید توجه کرد که متغیر های پیش بین مورد مطالعه بیشتری برای بررسی عوامل تبیین کننده میزان فروش این شرکت باید مورد مطالعه قرار گیرد.

مدلسازی Hierarchical log-linear analysis برای تحلیل داده های طبقه ای در نرم افزار SPSS

مدلسازی Hierarchical log-linear analysis برای تحلیل داده های طبقه ای در نرم افزار SPSS

نویسنده: هیئت تحریریه ژورنال الکترونیکی آمار آکادمی

یکی از موانعی که در توسعه تحقیقات پرسشنامه ای وجود دارد، ترتیبی و کیفی بودن غالب طیف های مورد استفاده در آن است. از اینرو به اعتقاد غالب آمار دانان اطلاعات پرسشنامه ای از آنجا که عموما در قالب طیف هایی چون لیکرت به دست می آید، بهتر است که با روش های کیفی و طبقه ای مورد تحلیل قرار گرفته و تا حد ممکن از روش های کمی کمتر و با احتیاط استفاده شود. یکی از روش های بسیار مطرح برای تحلیل این دسته از داده ها روش HILOG یا تحلیل سلسله مراتبی مدل لگاریتم خطی است. General Loglinear Modeling، Logit Regression ، Tobit و Poisson regression نیز در این ارتباط مورد توجه هستند.
این روش را می توان تحلیل جداول توافقی چند طرفه دانست. برای برازش مجموعه ای از مدل های ممکنه لگاریتمی خطی سلسله مراتبی بر روی جداول توافقی مذکور با استفاده از الگوریتم برازش توزیع آماری به واسطه از سر گیری های متعدد، این روش داده پردازی طبقه ای کاربرد فراوانی دارد. این مدل ها در واقع روابط بین متغیر های طبقه ای را مشخص می کنند. در این روش هر دو نوع ورود متغیر؛ پسرونده و پیشرونده در مدل مورد توجه هستند. به طور کلی تحلیل های لگاریتمی خطی که دارای انواع مختلفی هستند، برای شناسایی مدل هایی که به شناسایی روابط بین متغیر های ترتیبی یا کیفی می پردازند استفاده می شود. این کار از طریق شمارش سلول های جداول توافقی چند راهه و بر روی متغیر های مورد مطالعه انجام می شود. به عنوان مثال در یک تحقیق، محقق علاقه مند است تا بداند بعد از تبلیغات محیطی در یک نمایشگاه، در تمایل مصرف کنندگان به استفاده از پودر شوینده شرکت و همچنین محصولات شرکت رقیب، متغیر های طبقه ای چون سختی آب(ملایم، متوسط و سخت)، تجربه قبلی استفاده از این دو نوع محصول و دمای آب(سرد و گرم) و همچنین تمایل به برند چه نقشی دارند؟
در این آموزش سعی می شود تا با ارائه این مثال واقعی، ابعاد این تکنیک آماری تشریح شوند. برای این منظور نرم افزار های SPSS و SAS بیشتر از سایر نرم افزار های داده پردازی مورد توجه هستند که در این آموزش از SPSSاستفاده شده است.
به عنوان مثال در نظر بگیرید یک شرکت ارائه اشتراکات مجلات مختلف، با ارسال ماهیانه ایمیل به آدرس الکترونیکی افراد موجود در دیتا بیس خریداری شده، اشتراک های موجود را اطلاع رسانی می کند. ولی نرخ پاسخ و ثبت بسیار کم است. از آنجا که این کار برای شرکت هزینه زیادی را به دنبال داشته است، این شرکت به دنبال این است تا مطالعه کند اگر ایمیل را فقط برای کسانیکه ثبت اشتراک روزنامه را داشته اند و احتمال ثبت اشتراک مجله برای این گروه نیز بیشتر است ارسال کند، می تواند پاسخ هایی بهتری را دریافت کند. یا وضعیت درآمدی پاسخ دهندگان کنونی چگونه است؟ در صورتیکه این دو متغیر که به عنوان دو راه حل مطرح هستند در پیش بینی وضعیت میزان ثبت اشتراکات مشخص شود، آنگاه شرکت می تواند با اطمینان نسبت به تغییر دیتابیس خود عمل نماید. لذا در این مثال طبقات درآمدی، وضعیت اشتراک روزنامه و وضعیت ثبت اشتراک مجله را در بین 6400 نفر از افراد دیتا بیس موجود مورد توجه قرار دادند.
داده ها به این شکل وارد نرم افزار می شوند:



از منوی آنالیز مدل لگاریتمی را مانند تصویر زیرین انتخاب می نمائیم.

در این مرحله هر سه متغیر موجود یعنی، طبقات درآمدی، وضعیت اشتراک روزنامه و وضعیت ثبت اشتراک مجلات را وارد کادر Factor وارد کرده و سپس متغیر درآمد را انتخاب نمود و کلید Define Range را انتخاب می کنیم تا طبقات این متغیر را برای نرم افزار معرفی کنیم.


برای متغیر میزان درآمد چهار سطح را در نظر گرفته ایم لذا خواهیم داشت:

برای متغیر وضعیت ثبت اشتراک روزنامه نیز، آنرا انتخاب و کلید Define Range را انتخاب و دو مقدار صفر و یک را تعریف می کنیم زیرا این متغیر دارای دو سطح بلی و خیر است.



برای متغیر وضعیت ثبت اشتراک مجلات نیز، آنرا انتخاب و کلید Define Range را انتخاب و دو مقدار صفر و یک را تعریف می کنیم زیرا این متغیر نیز دارای دو سطح بلی و خیر است. سپس کلید OK را انتخاب کنید تا مدل Run شود.
برای انجام مراحل بالا در قالب دستورات کد نویسی نرم افزار کافی است کد زیر را در ادیتور وارد کنید:


HILOGLINEAR
inccat(1 4) news(0 1) response(0 1) /METHOD=BACKWARD
/CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5)
/PRINT=FREQ RESID
/DESIGN .

بخش اول خروجی به نحوه بهینه سازی و اشباع مدل اشاره دارد. به قسمت Backward Elimination Statistics خروجی توجه کنید. در این قسمت برای مدسازی ترکیب های لگاریتمی وجود دارند.

 


Step Summary
Stepa Effects Chi-Squarec df Sig. Number of Iterations
0 Generating Classb inccat*news*response .000 0 . 
Deleted Effect 1 inccat*news*response 3.998 3 .262 4
1 Generating Classb inccat*news, inccat*response, news*response 3.998 3 .262 
Deleted Effect 1 inccat*news 224.770 3 .000 2
2 inccat*response 77.562 3 .000 2
3 news*response 67.928 1 .000 2
2 Generating Classb inccat*news, inccat*response, news*response 3.998 3 .262 
a. At each step, the effect with the largest significance level for the Likelihood Ratio Change is deleted, provided the significance level is larger than .050.
b. Statistics are displayed for the best model at each step after step 0.
c. For 'Deleted Effect', this is the change in the Chi-Square after the effect is deleted from the model.

در Step 0 تعامل این سه متغیر مورد آزمون قرا گرفته است. به منظور آزمون این تعامل سه عاملی، این تعامل از مدل کنار گذاشته شده است. با استفاده از آماره کای اسکویر معنی داری این حذف باید مورد آنالیز قرار گیرد. از آنجا که این حذف دارای سطح معنی داری بالاتر از 1/0 در این مرحله است، باید از مدل کنار گذاشته شود. به عبارت دیگر این مدل نمی تواند بیانگر خصوصیات رفتاری داده های مشاهده شده باشد.
لذا در Step 1 تعاملات دو به دو مورد توجه قرار گرفتند. وجود سطح معنی دار کمتر از 05/0 برای هر حذف در این مرحله بیانگر اهمیت ان تعامل است در غیر این صورت آن تعامل نیز حذف می شود. از آنجا که در این مرحله، برای هر سه تعامل دو به دو سطح معنی داری کمتر از 05/0 محاسبه شده است، لذا نیازی به بررسی سایر ترکیب ها نیست و مدل نهایی انتخابی بیانگر تعامل دو به دوی متغیرهای مورد مطالعه است. لذا میزان ثبت اشتراک روزنامه با میزان درآمد، میزان ثبت اشتراک مجلات با میزان درآمد، و میزان ثبت اشتراک روزنامه با میزان ثبت مجلات در ارتباط دو به دو هستند. لذا این شرکت باید نسبت به ارتقای دیبا بیس خود بر اساس دو متغیر کسانی که در سال گذشته ثبت روزنامه داشته اند و در طیف های درآمدی مختلف هستند اقدام نماید.


عدم معنی داری آماره های برازش به معنای پذیرش فرض صفر مبنی بر برازش داده ها دارد و این موضوع اعتبار مدل را تصدیق می کند. اگر این سطح معنی دار باشد به معنای بیان ضعیف روابط موجود در بین داده ها بوده و اعتبار مدل پیشنهادی ضعیف است. برای اطلاع از وضعیت توزیع این دو آماره می توانید به بخش مقادیر محاسبه شده و مورد انتظار در جدول Cell Counts and Residuals نگاه کنید که در واقع نزدیکی این پیش بینی به معنای قدرت خطی لگاریتمی در بیان روابط موجود و بر اساس آماره کای اسکویر است.

 

آموزش نحوه محاسبه مدل رگرسیون لجستیک Binomial logistic regression در نرم‌افزار SPSS

آموزش نحوه محاسبه مدل رگرسیون لجستیک Binomial logistic regression در نرم‌افزار SPSS

 

در بسیاری از پژوهش ها متغیر وابسته مورد مطالعه ماهیتا یک متغیر گسسته است که برای برآورد رخداد هر یک از سطوح نیازمند استفاده از رگرسیون های کیفی هستیم. رگرسیون های با متغیر وابسته گسسته دارای انواع مختلفی هستند که با توجه به ماهیت متغیر وابسته تعیین می شوند. اگر متغیر وابسته دو بعدی(dichotomous) باشد رگرسیون لجستیک Binomial (or binary) logistic regression برای بیان پیش بینی استفاده می شود.

منظور از دو وجهی بودن، رخ داد یک واقعه تصادفی در دو موقعیت ممکنه است. به عنوان مثال خرید یا عدم خرید، ثبت نام یا عدم ثبت نام، ورشکسته شدن یا ورشکسته نشدن و ... متغیر هایی هستند که فقط دارای دو موقعیت هستند و مجموع احتمال هر یک آنها در نهایت یک خواهد شد. کاربرد این روش عمدتا در ابتدای ظهور در مورد کاربرد های پزشکی برای احتمال وقوع یک بیماری مورد استفاده قرار می گرفت. لیکن امروزه در تمام زمینه های علمی کاربرد وسیعی یافته است. به عنوان مثال مدیر سازمانی می خواهد بداند در مشارکت یا عدم مشارکت کارمندان کدام متغیر ها نقش پیش بینی دارند؟ مدیر تبلیغاتی می خواهد بداند در خرید یا عدم خرید یک محصول یا برند چه متغیر هایی مهم هستند؟ یک مرکز تحقیقات پزشکی می خواهد بداند در مبتلا شدن به بیماری عروق کرنری قلب چه متغیر هایی نقش پیش بینی کننده دارند؟ تا با اطلاع رسانی از احتمال وقوع کاسته شود.

مشخصا در این موقعیت پژوهشی نمی توان از رگرسیون های معمولی برای پیش بینی رخداد این متغیر های وابسته استفاده نمود. در این نوع از رگرسیون از نسبت برتری odds که نسبت (p/(1-p) می باشد استفاده می شود و برای به دست آوردن مدل لوجیت از این رابطه باید از آن لگاریتم گرفت. لذا مدل عمومی رگرسیون لجستیک به شکل زیر خواهد بود.

Ln (p/ (1-p) = intercept + b1*X1 + b2*X2 + ... + bk*Xk.

از آنجائیکه رگرسیون لوجستیک از خاصیت حداکثر درستنمایی به جای حداقل مربعات مرسوم در رگرسیون خطی استفاده می کند، از روی این فرمول در نهایت می توان احتمالات پیش بینی شده را بر اساس قاعده زیر بیان نمود:

p = e intercept + b1*X1 + b2*X2 + ... + Bk*Xk / (1+ e intercept + b1*X1 + b2*X2 + ... + Bk*Xk)

معادله رگرسیون لجستیک در نرم افزار SPSS به شکل زیر برآورد می شود:

z = ln(odds(event)) = ln(prob(event)/prob(nonevent))
= ln(prob(event)/[1 - prob(event)]) = b0 + b1X1 + b2X2 + ..... + bkX

پیش شرط های انجام رگرسیون خطی مانند وجود رابطه خطی بین متغیر های مستقل و وابسته، همسانی واریانس متغیر وابسته و متغیر های مستقل(Homoscedastic)، توزیع نرمال متغیر وابسته و باقیمانده ها یا خطای اندازه گیری مدل را نیاز ندارد. لیکن موضوع همراستایی چند گانه در رگرسیون لجستیک نیز وجود دارد که به معنای عملکرد خطی هر یک از متغیر های مستقل نسبت به یکدیگر است. برای این منظور برای هر ضریب بتا باید مقدار standard errors جزیی باشد. اگر هر متغیر مستقلی دارای خطای استاندارد بالایی باشد نشان از وجود همراستایی چند گانه روی آن متغیر دارد. 
در این جا سعی می شود تا با حل یک مساله نمونه در SPSS این موضوعات بررسی شود و نحوه محاسبات مربوط بهرگرسیون دو دویی لجستیک بررسی شود. به عنوان مثال در نظر بگیرید یک موسسه مالی اعتباری می خواهد بداند در باز پرداخت به موقع چه متغیر هایی در جامعه مورد نظر دارای اثر پیش بینی کننده هستند؟ به این منظور با توجه به دو وجهی بودن متغیر وابسته (یعنی پرداخت یا عدم پرداخت)استفاده از مدل های لوجیت معنی پیدا می کند. داده های موجود از 850 نفر از کسانی که در این موسسه حساب دارند، در دسترس است که 700 نفر از آنها به موسسه بدهکار هستند و 150 نفر از آنها بدهی ندارند و فقط جهت اعتبار سنجی مدل داده های آنها را فعلا نگه می داریم. 
با توجه به اینکه 700 نفر از این مشتریان بدهکار هستند ابتدا برای تفکیک آنها به کسانی که وام خود را به موقع خواهند پرداخت یا اینکه پرداخت منظمی نخواهد داشت؛ به مسیر زیر رفته تا پنجره اعداد رندوم باز شود.

آموزش SPSS آموزش تکنیکهای SPSS


در این پنجره Set Starting Point. را انتخاب و سپس Fixed Value را علامت زده و مقداری تصادفی مانند 9191972 را وارد می کنیم.
حال از منوی Transform گزینه Compute Variable... را انتخاب می کنیم. و نام متغیر جدید را Validate و Expression را روی rv.bernoulli(0.7) تنظیم می کنیم.

Compute Variable - SPSS

این دستور با پارامتر احتمالی 0.7 به دنبال ایجاد تصادفی دادهای تحت عنوان Validate است. از آنجائیکه در داده های موجود افرادی هستند که مشتریان قبلی موسسه نبوده اند یعنی وامی دریافت نداشته اند، لذا لازم است تا ابتدا فقط مشتریان بالفعل مورد ارزیابی قرار گیرند. لذا در این پنجره گزینه If را زده و مقدار MISSING(default) = 0 را در زیر گزینه Include if case satisfies condition فعال شده وارد می کنیم. با این کار این اطمینان حاصل می شود که داده ها بدون مقدار گم شده وارد مدل می شوند و نشان می دهد که این افراد جزء مشتریان قبلی موسسه بوده اند و وامی دریافت کرده اند. حال کلید Continue و سپس کلید Ok را انتخاب می کنیم. اگر از این متغیر درصد بگیریم مشخص می شود که 70 درصد از مشتریان را کسانی تشکیل داده اند که در باز پرداخت وام خود درست عمل کرده اند و 30 درصد این کار را به موقع انجام نداده اند و 150 نفر نیز به عنوان مقدار گم شده معرفی شده اند زیرا اینان مشتریان بالقوه هستند و هنوز وامی را دریافت نداشته اند.

Validate Table - SPSS

برای شروع آنالیز مسیر Analyze - Regression - Binary Logistic را انتخاب می کنیم.

آموزش تکنیکهای پیشرفته SPSS


ابتدا متغیر Previously defaulted را در قسمت dependent variable و متغیر های Select Age in years تا Other debt in thousands را به عنوان covariates انتخاب می کنیم. روش Forward: LR را از بین روش های ورود متغیر استفاده می کنیم. متغیر validate را در قسمت selection variable وارد می کنیم.

حال گزینه Rule را انتخاب و مقدار یک را وارد می کنیم و سپس کلید Continue را انتخاب می کنیم.

آموزش SPSS

حال کلید Categorical را انتخاب و متغیر Select Level of education را به عنوان categorical covariate و سپس کلید Continue را انتخاب می کنیم.

Logistic Regression - SPSS

آموزش SPSS

در این فاز کلید Save را انتخاب و موارد زیر را علامت گذاری می کنیم و سپس کلید Continue را انتخاب می کنیم.

Logistic Regression Save - SPSS

در این مرحله برای دیدن آزمون برازش کلی مدل و همچنین پلات توزیع و تفکیک، از منوی Option گزینه های Classification plots و Hosmer-Lemeshow goodness-of-fit.را انتخاب می کنیم. در نهایت کلید Continue و سپس Ok را انتخاب می کنیم.

Logistic Regression: Options - SPSS

تمام مراحل فوق از طریق کد نویسی زیر قابل دسترسی خواهد بود:


LOGISTIC REGRESSION VAR=default
/SELECT validate EQ 1
/METHOD=FSTEP(LR) age ed employ address income debtinc creddebt othdebt
/CONTRAST (ed)=Indicator
/SAVE PRED COOK SRESID
/CLASSPLOT
/PRINT=GOODFIT
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5)

اولین خروجی مدل بیانگر برازش کلی مدل است که آزمون Hosmer and Lemeshow می باشد. از انجا که مقدار سطح معنی داری بالای 05/0 است، لذا فرض صفر مبنی بر توضیح قابل قبول داده ها توسط مدل تائید می شود. لذا در آخرین سطح که مقدار سطح معنی داری 0.565 محاسبه شده است نشان می دهد در پایان گام چهارم مدل برازش یافته ای وجود دارد و نتایج حاصله از آن معتبر و قابل استناد است. بر خلاف نسخه های قبلی SPSS، نسخه 18آن برای محاسبه ابتدا با تجمع گروه ها در طبقات مشابه اقدام به محاسبه تست برازش می کند که این امر سبب افزایش اعتبار آن شده است.

Hosmer and Lemeshow Test - SPSS

از آنجا که تغییرات واریانس در مدل ثبت نمی شود برای بررسی وضعیت باقیمانده ها لازم است در این مرحله به مسیر Transform> Compute Variable... رفته و مقدار متغیری به نام chgdev ایجاد و سپس sre_1**2 را در بخش فرمول وارد می کنیم. با این دستور مربع استاندارد شده باقیمانده ها در متغیر chgdev ذخیره می شود. برای دیدن این نتیجه به منوی Graph و سپس گزینه Chart builder رفته و در محور y متغیر chgdev و در محور X متغیر Predicted probability را وارد می کنیم. و مدل Scatter/Dot را از gallery انتخاب می کنیم.

Chart Builder -<a href= SPSS آموزش" src="http://www.kishmehr.org/ftpfiles/logistic-spss/clip_image011.jpg" border="0" hspace="0" />

سپس کلید Ok را انتخاب می کنیم تا چارت مورد نظر ایجاد شود. تغییرات زیاد انحراف به معنای برازش ضعیف مدل به واسطه آن موارد یا پاسخگویان است.

Predicted Probablity - SPSS

منحنی که از سمت چپ به سمت بالا می آید بیانگر مواردی است که متغیر وابسته مقدار صفر را دارد. لذا در مورد کسانی که احتمال پیش بینی برای آنها در مورد عدم پرداخت بالا بوده است، انحراف زیادی را شاهد هستیم و این نشان از برازش ضعیف اطلاعات این افراد برای پیش بینی درست است. بر اساس این چارت مشخص است که بعد از احتمال 0.8 موارد کم و انحراف زیاد است. منحنی که از سمت بالا به پائین حرکت می کند به معنای افرادی است که متغیر وابسته در مورد انها مقدار یک را دارد. لذا کسانی که پرداخت کننده وام هستنند دارای بخش کوچکتری هستند که شناسایی نشده است. به عبارت دیگر غالب پرداخت کنندگان وام دارای مقادیری هستند که توسط متغیر های پیش بین موجود تبیین می شوند. نتایج نشان می دهد احتمال زیر 0.2 تعداد موراد کمی را به خود اختصاص داده است. با شناسایی این موارد در هر دو چارت می توان به شناسایی سایر متغیر های مستقل پیش بین پرداخت که در مدل جاری مورد توجه نبوده اند. برای بهتر دیده شده این موضوع بهتر است مجددا به منوی Graph و سپس گزینه Chart builder رفته و در محور y متغیر Analog of Cook's و در محور X متغیر Predicted probability را وارد می کنیم. و مدل Scatter/Dot را از gallery انتخاب می کنیم. سپس کلید Ok را انتخاب می کنیم تا چارت مورد نظر ایجاد شود.. مواردی که از سطح افقی دور شده اند نماینده افرادی هستند که اطلاعات آنها با نمونه موجود دارای اختلاف است که با افزایش فاصله این شکاف بیشتر می شود.

آموزش spss

مدل Forward stepwise با مدلی شروع می شود که هیچ متغیر پیش بینی کننده ای وجود ندارد. در اولین مرحله هر متغیری که دارای سطح معنی داری زیر 05/0 برای مقدار Score باشد وارد مدل می شود.

Variables not in the Equation

لذا در آخرین گام انتظار داریم که متغیر یا متغیر هایی که بیشتر از 05/0 دارای سطح معنی داری هستند حذف شوند.
به طور کلی بهتر است برای نشان دادن معنی داری متغیر های باقیمانده در هر مدل از Change in -2 Log Likelihood به جای آماره هایی چون والد استفاده شود.

Model if Term Removed - SPSS

در مدل های پیش بینی مقدار R2 بیانگر مقدار واریانسی است که توسط متغیر های مستقل وارد شده به مدل تفسیر می شوند و بین صفر تا یک قرار دارد و هر چه به یک نزدیک تر باشد بیانگر قدرت بیشتر مدل است. لیکن در مورد مدل هایی که متغیر وابسته کیفی است، این مقدار محاسبه نمی شود زیرا سطح به صورت گسسته است. Cox and Snell's R2 و Nagelkerke's R2 و McFadden's R2 از الترناتیو هایی هستند که برای این موضوع معرفی شده اند. تفسیر این مقادیر به راحتی R2 نیست و عمدتا برای مقایسه بین مدل ها به کارگرفته می شوند تا بهترین تخمین زننده مشخص شود. به کمک classification table مشخص می شود که تا چه حد جدا سازی افراد طبق تابع پیشنهادی امکان پذیر است که برای این تمرین 82 درصد بیان شده است.

آموزش نرم افزار SPSS

در نهایت اصلی ترین جدول نشان داده می شود که بیانگر ضرایب متغیر های وارد شده به مدل است.

Variables in the Equation -<a href= آموزش SPSS" src="http://www.kishmehr.org/ftpfiles/logistic-spss/clip_image015.gif" border="0" hspace="0" />

ضرایب نشان داده شده در آخرین مرحله که در اینجا Step4 است بیانگر معنی داری 5 متغیر وارد شده به مدل است. به دلیل دشوار بودن گزارش B بهتر است مقدار Exp(B) به عنوان ضرایب رگرسیونی هر یک از متغیر های وارد شده به مدل استفاده شود. در واقع اگر عدد eرا به توان B ببریم مقدار Exp(B) به دست می اید. در نهایت به کمک این راهنمای گرافیکی می توانیم نحوه تفکیک افراد نمونه را بر اساس این معادله ببینیم.

آموزش SPSS

 

رگرسیون لجستیک بحث مفصلی است که در این آموزش بیشتر نحوه پیاده سازی آن در نرم افزار SPSS مورد توجه بود. برای کسب اطلاعات بیشتر می توان از منابع زیر استفاده نمود:


• Hosmer, D. W., and S. Lemeshow. 2000. Applied Logistic Regression, 2nd ed. New York: John Wiley and Sons.

• McFadden, D. (1974). Conditional logit analysis of qualitative choice behavior. In: Frontiers in Economics, P. Zarembka , eds. NY: Academic Press.

• Rice, J. C. (1994). Logistic regression: An introduction. Advances in social science methodology, Vol. 3: 191-245. Greenwich , CT: JAI Press. Popular introduction.




محاسبه تابع چند جمله ای در نرم افزار SPSS

محاسبه تابع چند جمله ای در نرم افزار SPSS

نویسنده: هیئت تحریریه ژورنال الکترونیکی آمار آکادمی

در برخی موقعیت های پژوهشی محقق با یک متغیر وابسته گسسته مواجه است. برای پیش بینی ابعاد آن بهتر است از یک روش لجیت چند جمله ای استفاده نماید. مثلا محققی می خواهد بداند چه متغیر هایی بر انتخاب برند های یک دوربین دیجیتال اثر گذار هستند. به منظور محاسبه Multinomial Logistic Regression در این نرم افزار بهتر است از روش برنامه نویسی استفاده نمایید. 
در مثالی که می خواهیم با spss  حل کنیم شامل735 نفر از افرادی که در انتخاب سه برند شرکت داشته اند را مورد توجه قرار داده ایم. متغیر های سن و جنسیت را نیز برای هر یک از این افراد در فایل داده داریم. هدف در اینجا این است که مشخص کنیم کدامیک از متغیر های سن و جنسیت در تفکیک ابعاد این سه برند از یکدیگر مهم هستند. با استفاده از دستور آمار توصیفی می توانیم وضعیت انتخاب در هر یک از سطوح این برند ها را مشخص کنیم.

 


نتایج نشان می دهد در این نمونه 207 نفر برند اول، 307 نفر برند دوم و 221 نفر مشتری برند سوم هستند. حال باید دستور زیر را وارد کنیم.

sort cases by brand.
temporary.
split file by brand.
descriptives var = age female.
split file off.

 


نتایج آماره های توصیفی در ارتباط با هر یک از سطوح در جدول فوق آمده است. با نگاهی مشخص می شود که این تحلیل به تحلیل تشخیصی که یک تکنیک چند متغیره است قرابت دارد. این روش نسبت به تحلیل تشخیصی به لحاظ محدود نبودن به روش های اندازه گیری کمّی، منعطف تر است. برای محاسبه این رگرسیون باید دستور زیر را وارد کنیم.

nomreg brand (base = first) with female age
/print = lrt cps mfi parameter summary.

خروجی نرم افزار SPSS به شرح زیر خواهد بود.

 

 

 

 


در این روش، برند اول به عنوان گروه مرجع تعیین می شود. به عنوان مثال مشخص می شود که یک واحد تغییر در متغیر سن سبب افزایش نسبت 368/0 در لگاریتم برند دو به یک می شود و این مقدار برای برند سه به یک 686/0 محاسبه شده است. لذا مشخص می شود با افزایش سن شانس انتخاب برند های دو و سه نسبت به برند اول بیشتر می شود. این مقادیر به خودی خود تفسیر نمی شوند و باید مقادیر اکسپوننشیال را که با نماد Exp(B) نشان داده می شود را تفسیر نمود. برای مقدار اول 45/1 محاسبه شده است. یعنی افراد مسن تر نسبت به جوان تر ها 5/1 برابر برند دوم را نسبت به برند اول بیشتر انتخاب می کنند. نتایج نشان می دهد در تفکیک سطوح برند های اول به دوم و دوم به سوم هر دو متغیر سن و جنسیت تاثیر گذار هستند زیرا هر دو سطح دارای sig زیر 05/0 هستند.همچنین نتایج نشان می دهد زنان نسبت به مردان بیشتر برند های دوم و سوم را انتخاب می کنند.
در کاربرد این روش باید دقت شود که حجم نمونه باید بالا بوده این روش دارای شاخص های فیت مناسبی نبوده و مقادیر ضرایب تعیین آن چندان کارا نیستند. لیکن به طور کلی این روش شناسی از دقت مطلوبی در تفکیک سطوح متغیر وابسته برخور دار است. در این مقاله عمدتا نحوه محاسبه این روش در SPSS مورد توجه بوده و برای مفاهیم پایه آن باید به کتاب های مرجع مانند Agresti مراجعه نمود.

 


 

 

رگرسیون خطی با روش بوت استراپ (bootstrap)

 

رگرسیون خطی با روش بوت استراپ (bootstrap)

نویسنده: هیئت تحریریه ژورنال الکترونیکی آمار آکادمی

 رگرسیون خطی در spss:
به دو صورت می توان رگرسیونخطی را درspssانجام داد. 
به آدرس زیر بروید :


Analyze > Regression > Linear 

درکادر محاوره زیر باید
• متغیر مستقل خود را انتخاب کنید (xvar)
• متغیر وابسته را مشخص کنید (yvar)
سپس یک خروجی خوب از جداول دریافت کنید.

 

 

معادله های رگرسیونی شما در اولین ستون از اعداد، در زیر جدولی با عنوان coefficients موجودند. همچنین می توانید R  و R^2 را در خلاصه خروجی هایتان(model summary) ببینید.


رگرسیون خطی با روش بوت استراپ (bootstrap) در spss:
از راه دیگری نیز می توان رگرسیون خطی را انجام داد. به آدرس زیر بروید:

Analyze > Regression > Non-linear

 

(تعجب نکنید؛ بله از رگرسیونغیر خطی هم شما می توانید رگرسیون خطی را انجام دهید.)
در این قسمت شما باید 
• متغیر وابسته خود را پیدا کنید (yvar)
• مدل رگرسیونی خود را در قسمت model expression توصیف کنید؛ به این صورت


Constant(ثابت)+ xvar(متغیر مستقل)*slope(شیب)


• در زیر پارامترها مشخص کنید کدام یک مقادیر شما "ثابت" و کدام "شیب" هستند.
 

 

• برای انجام شبیه سازی bootstrap به گزینه options  بروید و در آن گزینه ی bootsrap estimates of standard error را فعال کنید.
به طور پیش فرض SPSS در قسمت Sequential Quadratic Programming مقادیری را در نظر گرفته است. می توانید با سلیقه خود این مقادیر را تغییر دهید اما  مقادیر خود پیش فرض به خوبی می تواند مدل را برازش دهد.

 

 

 

 

 

حال باید در قسمت parameters منوی use starting values from previous analysis را فعال کنید تا گزبنه ok در کادر محاوره nonlinear regression فعال شود.

     این بار خروجی شامل تمام متن ها است. معادله رگرسیونی شما دو بار داده خواهد شد(که یکسان خواهند بود) با حد اطمینانی که پارامتری اندازه گیری شده در بخش بالایی، و بوت استراپ در بخش پایین  تخمین زده می شود.


  


 

 

انالیز واریانس یک طرفه در spss

وقتی بخواهیم میانگین های یک صفت کمی را درسه یا  بیش از سه گروه مقایسه کنیم، آنالیز واریانس یک طرفه راه حل مناسبی است. در واقع این تجزیه و تحلیل، ما را در فهم تفاوت بین گروه ها یاری می کند. در طرح آزمایش نیز، هرگاه بخواهیم اثر عاملی با بیش از دو سطح را بر متغیر پاسخ بررسی کنیم، از آنالیز واریانس یک طرفه کمک می گیریم.
علت نامگذاری این آزمون در واقع مقایسه ی "یک" صفت در چند گروه است.
در این آزمون فرض صفر به صورت زیر است:

H_0: µ_0= µ_1=µ_2   = … = µ_n

مبنی بر تساوی میانگین همه ی گروه ها و یا شباهت گروه ها با یک دیگر. و فرض مقابل این است که حداقل بین دو گروه تساوی میانگین ها برقرار نباشد؛ یعنی

H_1: ∃  i ∈ N  Э    ( µ_i ≠ µ_0)

 با رد فرض صفر در واقع می پذیریم که اختلاف معناداری بین حداقل دو گروه وجود دارد،  اینکه کدام یک از گروه ها متفاوت تر از بقیه می باشند با آزمون های دیگری مشخص خواهد گشت. تاکید می شود که کارایی آنالیز واریانس یک طرفه تنها در مشخص شدن تفاوت در کل گروههاست و دیگر لازم نیست تا برای مقایسه کلی، به تعداد زیادی آزمون t بین هر دو گروه انجام پذیرد. می توان تنها با یک بار آزمون، پی به اختلاف میان همه ی گروهها برد در غیر اینصورت علاوه بر پیچیدگی مقایسه ها، ممکن است اختلاف بین گروهها به اشتباه بیشتر نشان داده شود.

اما برای انجام آنالیز واریانس نیز همانند سایر آزمون های پارامتری باید پیش فرض هایی برقرار باشد؛ این پیش فرض ها به قرار زیرند:
  •     نمونه های گرفته شده از هر جامعه کاملا تصادفی و مستقل باشند.
  •     متغیر تصادفی مورد نظر (صفت مورد بررسی) در هر کدام از جامعه ها از توزیع نرمال پیروی کنند.
  •     واریانس متغیر تصادفی در همه ی جامعه ها برابر باشند.
 نمونه های مختلف از جوامعی گرفته شده اند که تنها از یک روش طبقه بندی شده باشند.


تجزیه وتحلیل:

در آزمون آنالیز واریانس یک طرفه چنانچه فرض صفر رد شود، با توجه به فرضیات آن اگر فرضیه صفر رد شود، حداقل دو میانگین با هم اختلاف معنا دار خواهند داشت در این صورت باید بین همه زوج های میانگین ها آزمون هایی انجام شود تا معلوم گردد کدام یک با هم اختلاف معنا دار دارند.

سوالی که معمولا مطرح می گردد این است که چه می شود اگر به جای آزمون آنالیز واریانس یک طرفه آزمونهای t  را انجام داد؟
باید گفت که با افزایش تعداد آزمون ها؛ نرخ خطا به طور نمایی افزایش پیدا می کند. این خطا برابر خواهد شد با :

1-(1-α)k
 
 که در آن k تعداد آزمونهای تی انجام شده است.
SPSS:

آنالیز واریانس یک طرفه در SPSS را از مسیر انجام می پذیرد:

Analyze > Compare means > one-Way anova

نکته ی مهمی که در انجام این آزمون در SPSS باید به آن توجه نمود، وجود گزینه ای است که می توان تساوی واریانس ها را تایید یا رد کرد.
با این حال معمولا برای انجام صحیح آنالیز واریانس یک طرفه مانند هر آزمون دیگر بهتر است ابتدا آزمون های برقراری پیش فرض را انجام داد

برای درک بهتر مثال زیر را در نظر بگیرید:
فرض کنید که یک متخصص تغذیه بخواهد تا سه نوع روش مختلف را در افرادی که برای کاهش وزن خود به او مراجعه کرده اند ، با هم مقایسه کند. او نمونه ای تصادفی از این افراد  به اندازه ی 15 می گیرد و آن ها را به طور کاملا تصادفی به سه گروه تقسیم می کند. به گروه اول برای کاهش وزن، دارو به گروه دو ورزش و به گروه سوم رژیم غذایی تجویز می کند. در جدول زیر کاهش وزن افراد ، قبل و بعد از تجویز گرد آمده است.
 
 
برای وارد کردن داده ها در SPSS باید داده ها در ستون متغیر جدیدی که با عنوان دیگری (در اینجا  reduction) تعریف می کنید زیر هم ردیف کرده و متغیر دیگری را با نام factor یا group در کنارش تعریف کنید که مشخص کند داده ها مربوط به کدام گروه می باشند.  به شکل زیر توجه کنید:
 
 در این حالت می توانید برای بررسی بهتر داده ها مسیر زیر را طی کنید:

 
>Analyze > Descriptive statistics > Explore

و در منوی plots گزینه های دلخواهتان را انتخاب کنید.
 
با فعال کردن گزینه ی Normality plots with tests می توانید نرمالیتی هر گروه را جداگانه تست کنید و در خروجی نمودار Q-Q را نیز داشته باشید. و برای آزمون برابری واریانس ها گزینه ی Power estimation را در مسیر زیر فعال کنید.

    Spread vs Level with> Levene Test

حال مسیر آنالیز واریانس یک طرفه را طی کنید 

 
و در کادر محاوره ی آن در قسمت Dependant list  متغیر تصادفی وابسته خود را (طرح آزمایش) یا متغیری که می خواهید آنالیز واریانس را روی آن انجام دهید وارد نمایید. و در قسمت Factor متغیر عامل خود (طرح آزمایش)، یا همان متغیری که تفکیک گروه را در آن انجام دادید، وارد نمایید.


در کادر محاوره ی Post Hoc دو فرض وجود دارد:
1-    برابری واریانس ها

در این قسمت رایج ترین روش های مقایسه های چند گانه عبارتند از:

•    روش کمترین مربعات LSD               
•    روش بونفرونی    Bonferroni 
•    روش توکی  Tukey                      
•    روش شفه Scheffe                        
•    روش نیومن-کلز    Newman-Keuls  
•    روش دانت   Dunnett’s Procedure                     
که به کار گیری این روش ها، غالبا به نتایج مشابهی ختم می شود. اما باید توجه کرد که کاربرد روش دانت در مواقعی است که یکی از گروه ها، گروه شاهد یا (Control) باشد.


2-    نابرابری واریانس ها
این گزینه برای آزمون هایی که فرض برابری واریانس ها در آن صدق نمی کند کاربرد دارد.

سطح آزمون را می توان در قسمت significance level تعیین کنید. به طور پیش فرض این قسمت 0.05  در نظر گرفته می شود.

قبل از انجام آنالیز واریانس در کارد محاوره option رفته و گزینه های Descriptive و 
Homogenetity-of-Variance Test را تیک دارکنید. این گزینه ها به ترتیب توصبف داده ها و آزمون برابری واریانس ها را در بین گروه ها انجام می دهد.

و در آخر گزینه های continue  و ok را کلیک کنید تا به شما خروجی را بدهد.

تفسیر خروجی ها:

اولین خروجی دریافتی شما، جدول توصیفی داده های هر گروه است. میانگین، انحراف معیار، خطای استاندارد، و فاصله اطمینان 95 درصدی و در نهایت مقدار مینیمم و ماکزیمم داده ها را در هر گروه مشاهده می کنید    

 
در جدول زیر واریانس میان گروهها (آزمون همگنی واریانس ها) را مشاهده می کنید.  در ستون اول مقدار آماره levene  را مشاهده می کنید و دو ستون وسط درجه آزادی بین گروه ها و در جه آزادی درون گروهی را مشاهده می کنید. این دو مقدار به ترتیب برابر است با: k-1 و K(n-1) است که k  تعداد گروهها و n تعداد نمونه های درون هر گروه است. و در نهایت سطح معناداری در ستون آخر درج شده که مقدار بالای آن، دلالت بر تایید فرض صفر می کند و می پذیریم که واریانس گروهها برابر است.( p-value اعتبار فرض صفر است و مقدار بالای آن معتبر بودن فرض صفر را نتیجه می دهد.)



 خروجی زیر با عنوان ANOVA   آنالیز واریانس را با آماره ی F(فیشر) است. مجموع مربعات و درجات آزادی  بین گروهها و درون گروهها و کل را مشاهده می کنید. میانگین مربعات و آماره فیشر نیز در جدول آمده است. ستونی که باید به آن توجه نمود ستون sig. است که در اینجا مقدارش از 0.05 کمتر بوده و همین موجب رد فرض صفر می گردد. لذا ما نمی توانیم فرض برابری میانگین های گروه ها  را بپذیریم.
 
 حال که  فرض برابری میانگین های گروهها رد شده است به بررسی جزیی گروهها می پردازیم. روش توکی و کمترین مربعات و بونفرونی را می بینید. 

و در آخر  نموداری از میانگین های گروهها نمایش داده می شود


 

آزمون های Post-Hoc در SPSS

آزمون های Post-Hoc در SPSS

نویسنده: هیئت تحریریه ژورنال آمارآکادمی


مروری بر Anova 


فرض کنید که 
{E1, E2, …, Ek } 


K نمونه ای باشند که مستقلا از توزیع نرمال با واریانسهای برابر اما با میانگین های دلخواه تولید شده باشند. در این صورت آزمون Anova فرض برابری میانگین های این توزیع ها را آزمون می کند. در واقع فرض صفر به صورت زیر است:


H0 : µ1 = µ2 = µ3 = … = µk


و فرض مقابل می گوید حداقل یکی از میانگین ها با بقیه متفاوت است. با رد شدن فرض صفر ما می پذیریم که حداقل یک گروه از این K گروه میانگینی با تفاوت زیاد از میانگین گروههای دیگر دارد. 
بسیاری از آزمون های مقایسه های چندگانه multiple comparisons با هدف آنالیز دلیل رد فرض صفر در آزمون Anova به کار می روند. این آزمونها به طور کلی به آزمونهای « a posteriori » یا « post-hoc » معروفند. معروفترین آزمون های post-hoc که در SPSS نیز مورد استفاده قرار میگیرند، عبارتنداز:


• روش کمترین مربعات LSD 
• روش بونفرونی Bonferroni 
• روش توکی Tukey 
• روش شفه Scheffe 
• روش نیومن-کلز Newman-Keuls 
• روش دانت Dunnett’s Procedure 


به کار گیری این روش ها، غالبا به نتایج مشابهی ختم می شود.



و اما کدام روش؟



اینکه کدام یک از روش های فوق را انتخاب کنیم سوالی است که اغلب برای محققان مطرح می گردد:
در خیلی از مواقع روش های متفاوت post-hoc منجر به نتایج مشابهی می شود و انتخاب هر کدام از آزمونهای فوق می تواند کاملا شخصی و سلیقه ای باشد، علی رغم اینکه هر آزمون با روش منحصر به فرد خود مسائل آماری را تجزیه و تحلیل می کند. 
یک راه خوب برای انتخاب آزمون مورد نظر، در نظر گرفتن هدف تحقیق تجربی است.
معمولا اگر هدف تحقیق، تصمیم بر این باشد که یکی از گروهها را که ممکن است اثر داشته باشد را انتخاب کنیم ، آن گاه بهتر است که از یک روش لیبرال مانند کمترین مربعات فیشر استفاده شود. چرا که در این روند بهتر است که حتی یک اثر ممکن را هم از دست ندهیم. 
در عوض اگر موضوع اطمینان خاطر از این باشد که یک روش درمان خاص، دارای اثر بوده، آن گاه یک آزمون محتاط تر مثل آزمون شفه مناسب خواهد بود.
همینطور روش توکی و روش نیومن-کولز نیز می توانند یک انتخاب خوب باشند.
در مواقعی که روش های زیادی قرار است با یک میانگین کنترل، مقایسه شوند؛ یعنی یکی از گروه ها، گروه شاهد یا (Control) باشد روش دانت اغلب توصیه می شود. 
در این جا بخشی از آزمونهای post-hoc را شرح می دهیم:




• آزمون توکی (Tukey Test)

این آزمون که به HSD معروف است بعد از رد فرض صفر در آنالیز واریانس، به مقایسه ی همه ی تفاوت ها می پردازد . اگر در آزمون F تفاوت معناداری بین میانگین های گروهها ثابت شود، با آزمون توکی تفاوت معنادار مابین هر دو گروه بررسی می شود.

آماره ی این آزمون به صورت زیر است






که در آن MSE همان میانگین مربعات خطای بدست آمده در آزمون Anova است.




• آزمون نیومن-کولز (The Newman-Keuls test)



این آزمون پس از اینکه آزمون Anova فرض صفر را رد کند، مقایسه های جفتی میان گروهها را انجام می دهد. فرض کنید که گروههایی داریم که در آنها m1 < m2 < m3 ممکن است که برخی از آزمونها مقایسه های جفتی را برای موارد زیر نیز انجام دهند:





• m1 and m3 "not significantly different", but
• m1 and m2 "significantly different".



یعنی گروه اول و سوم خیلی با هم متفاوت نیستند اما در عوض گروه اول و دوم تفاوت معنا داری با هم دارند.
آزمون نیومن-کولز، دقیقا برای پرهیز از چنین اتفاقی طراحی شده است. بخوص وقتی که آزمون اعلام کند که mi و mj که (mi < mj) تفاوت معناداری با هم ندارند آن گاه هر جفت از میانگین های ml و mn که mi ml mn mj از روش نیومن کلز معنا دار نخواهند بود.
نتیجه ی این آزمون به صورت یک سری از گروههای دوتایی خواهد بود که در هرکدام از آنها آن دسته از گروهها که میانگین هایشان بنا بر سطح معناداری α تفاوت معناداری از هم دارند، قرار گرفته اند. 

آماره ی این آزمون به صورت زیر است:





• آزمون شفه (Scheffe test)



در ميان روش هاي post-hoc ،آزمون شفه بيشترين کاربرد را دارد،
اين آزمون به محقق امکان مي‌دهد تا تمام حالت‌هاي مختلف مقايسه يک به يک ميانگين‌ها و همچنين تمام ترکيب‌هاي چندتايي مقايسه ميانگين‌ها را انجام دهد .در آزمون شفه، براي کنترل ميزان احتمال خطاي نوع اول، معيار تصميم گيري در مورد فرضيه صفر يعني مقدار بحراني جهت تشخيص معني دار بودن افزايش مي يابد.


جدول زیر به مقایسه ی شرایط و چگونگی آزمون های post-Hoc معروف موجود می پردازد:










راهنمای جدول


PLSD = Protected least significant difference
HSD = Honestly significant difference
T = treatment groups
C = Control group


ستون 2 نشان می دهد که آیا تعداد مساوی از تکرار (N) در هر یک از گروه های درمان مورد نیاز است، یا اینکه آیا این روش را می توان در مواردی با 'N' نابرابر به کاربرد؟
ستون سوم مشخص می کند که قبل از انجام آزمون مورد نظر به معناداری آزمون F از قبل نیاز است یا خیر؟
ستون چهارم ضروری بودن شرط برابری واریانس ها و ستون پنجم شرط نرمال بودن خطا را برای آزمون های Post-Hoc در نظر می گیرد و ستون آخر در مورد اینکه آزمون تا چه حد در برابر خطاهای نوع اول و دوم حساس است توضیحاتی می دهد.




SPSS:


اجرای هر کدام از آزمون های فوق از مسیر زیر در SPSS امکان پذیر است:




Analyze> compare means> One-Way Anova> Post-Hoc






 

 

روش خوشه بندی دو مرحله ای(Two‐Step Clustering) در SPSS

روش خوشه بندی دو مرحله ای(Two‐Step Clustering) در SPSS

نویسنده: هیئت تحریریه ژورنال الکترونیکی آمار آکادمی

به طور کلی روش کلاسترینگ یا خوشه بندی روشی آماری برای گروهبندی مشاهدات در قالب زیر گروه های مشابه به هم و بر اساس یک یا چند ویژگی می باشد. خوشه بندی شامل خانواده بزرگی از روش ها و الگوریتم ها است که روش دو مرحله ای در مطالعات بازار یابی، رسانه ها و مخاطب شناسی و ...کاربرد فراوانی دارد. به دیگر سخن مطالعه و بخش بندی و کسب یک پروفایل کلی از نمونه مورد مطالعه هدف اصلی این روش شناسی است. 

روش دو مرحله ای در مورد داده های بزرگ و استفاده توام از داده های ترتیبی و کمی کاربرد دارد و تفاوت آن با تمام روش های دیگر خوشه بندی همین مورد است. به واقع تنها الگوریتمی است که می تواند استفاده توام از داده های کمی و کیفی را فراهم سازد. در گام اول مشاهدات در قالب خوشه های اولیه قرار می گیرند. و این پیش خوشه ها به عنوان یک هسته اولیه و به عنوان یک مشاهده قرار می گیرد. در گام دوم از روش سلسله مراتبی برای طبقه بندی این هسته ها که خروجی گام قبل هستند و مشاهدات مشابه را در یک هسته قرار داده اند، استفاده می شود. 

 

به عنوان مثال با داشتن اطلاعات جنسیت، فراوانی تعداد استفاده از روزنامه در روز، آخرین مقطع تحصیلی به عنوان متغیر های طبقه ای و سن به عنوان متغیر پیوسته می خواهیم خوشه های موجود در بین استفاده کنندگان از این رسانه را بر اساس اطلاعات دموگرافیک به دست آوریم.

 

به این منظور باید طبق مراحل زیر در SPSS اقدام نمود:

متغیر های کمی و کیفی مورد مطالعه خود را به بخش های مشخص شده وارد کرده و تنظیمات را مانند موارد زیر انجام می دهیم. محاسبه فاصله در این روش حداکثر درستنمایی برای داده های ترتیبی و فاصله اقلیدوسی برای داده های کمی است و BIC و AIC به عنوان دو معیار انتخاب تعداد خوشه ها به صورت الگوریتم خود کار است در غیر این صورت محقق در قسمت fixedباید خود این تعداد را مشخص نماید.

 
 

در این مرحله باید پلات را انتخاب و موارد را مانند تصویر زیر تنظیم نمود.

 
 

در قسمت output هم مانند زیر تنظیم می کنیم و سپس Ok را برای انجام تحلیل انتخاب می کنیم.

 
 

اولین خروجی به شکل زیر خواهد بود.

 
 

با توجه به اینکه تعیین تعداد خوشه بر اساس خود الگوریتم بود این خروجی دیده می شود. با توجه به مقدار Ratio Distance measure که باید حداکثر فاصله را ایجاد نماید مشخص می شود که در تعداد خوشه 5 در ستون مربوطه این عدد بیشترین مقدار را دارد. لذا تعیین تعداد خوشه با توجه به بیشترین مقدار در این ستون مشخص می شود. در مقادیر برابر مقدار کمینه BIC ملاک است.

 http://www.amaracademy.com/files/20130626043510-6.png

تعداد افراد قرار گرفته در هر خوشه مشخص می شود. 494 نفر نیز برای متغیر روزنامه مقداری را ثبت نکرده بودند که در اینجا از تحلیل خارج شده اند.

 

در این جدول میانگین و انحراف استاندارد برای خوشه ها بر اساس متغیر های کمی موجود است. چون سن تنها متغیر در این تحیق بود که کمی است لذا برای آن فقط محاسبه شده است. 

 

 

 

 

افزایش نسبی سن در بین خوشه ها بر اساس این دیاگرام مشهود است.

بررسی وضعیت خوشه ها بر اساس اطلاعات متغیر های ترتیبی: عبور ستون ها از مقدار بحرانی کای اسکویر به معنای معنی دار بودن و متفاوت بودن آن خوشه از سایر خوشه هاست. به عنوان مثال در یکی از خروجی ها دیده می شود که در خوشه اول جنسیت و تعداد مطالعه روزنامه آنرا از سایر خوشه ها به شکل معنی داری متمایز می سازد. یا به عنوان مثال در خوشه سوم جنسیت، درجه تحصیلی و تعداد مطالعه روزنامه آنرا از سایر خوشه ها به شکل معنی داری متمایز می سازد.برای الباقی خوشه ها نیز این روند را طی می کنیم تا به یک الگوریتم منطقی برسیم. 

لذا به طور خلاصه مشخص می شود که در هر خوشه کدام ویژگی منحصر به فرد بوده که سبب شده رفتار مشابهی را نشان دهند. مثلا اگر در خوشه سوم جنسیت، درجه تحصیلی و تعداد مطالعه روزنامه آنرا از سایر خوشه ها به شکل معنی داری متمایز می سازد. باید دید وضعیت این سه متغیر در این خوشه به چه شکلی توزیع شده است. با مراجعه به بخش توصیفی طبقات می توان این اطلاعات را به دست آورد. که جداول زیر نشان می دهد تمام آنها زن بوده و سطوح مختلفی از مطالعه روزنامه را دارند. یعنی این گروه رفتار منظمی در استفاده از رسانه از خود نشان نمی دهند و به این دلیل در این خوشه قرار گرفته اند. ترکیب درجه تحصیلی نیز از کمتر از دیپلم تا تحصیلات دانشگاهی می باشد. 

 

 

با تفسیر تمام جدول ها در کنار هم می شود نتیجه گیری های جالبی را در بافت نمونه پیدا نمود. مثلا هر چه سن افزایش یافته در خوشه ها رفتار افراد به استفاده از روزنامه منظم تر و دایمی تر شده و ترکیب مختلفی از درجه تحصیلی نیز دیده می شود یعنی افراد با داشتن ترکیب متفاوت تحصیلات در سنین بالا به مطالعه روزنامه علاقه مند تر از سایر قشر ها هستند لیکن در سطوح پایین تر سنی بیشتر باید به دنبال اهمیت درجه تحصیلی باشیم. به طور کلی در خوشه های مشابه با دیدن متغیر های مشابه نباید سریعا قضاوت نمود و اطلاعات توام خوشه های تفکیک شده حایز اهمیت است.

 

هدف از این مقاله ارائه و معرفی روش خوشه بندی دو مرحله ای و محاسبه آن در SPSS بود. نکته مهم آنکه این خروجی ها در نسخه 17 به دست آمده و در نسخه های بالاتر علیرغم بهبود چشم­گیر نمایش گرافیکی جزئیات محاسباتی کمتری به دست می آید. 

 

انتخاب مناسب آزمون آماری در spss

انتخاب مناسب آزمون آماری در spss


یکی از مهم ترین سوالاتی که در انجام پژوهش های آماری مطرح می شود انتخاب مناسب روش تحلیل آماری در تحقیقات میدانی است. معمولا نوع  آزمون های آماری از فاکتورهای  ویژگیهای نمونه، انواع داده ها و همچنین نوع تحلیلی که مورد نیاز آمارگر است، مشخص می شود. این تحلیل ها به دوبخش عمده ی آمار ناپارامتری و پارامتری بر می گردد. در تحقیقات میدانی، حجم زیادی از داده های آماری  به عنوان نمونه گردآوری می شود که از طریق آنها می توان به سوالات و فرضیه های تحقیق پاسخ داد. سوالات تحقیق بایستی براساس اهداف تحقیق (هدف کلی و جزیی) طراحی شوند تا نتیجه ی تجزیه و تحلیل آنها، بیانگر واقعی هدف تحقیق باشد. معمولا اگر محقق بدون به کار بردن آمار به تحلیل داده ها بپردازد نتیجه آن واقعی نخواهد بود و محقق به مشکل برخواهد خورد. لذا دانستن آمار و نکات ریز آماری از ضروریات فرایند تحقیق و پژوهش است. 
استنباط آماری در واقع یک نوع نتیجه گیری کلی از جز به کل است و با آزمایش و خطا همراه است. یک جنبه از استنباط آماری  محاسبه برآوردهایی از پارامترهای جامعه است مثل میانگین یا واریانس جامعه از طریق آماره های نمونه مانند میانگین یا واریانس نمونه.
در آمار استنباطی روش های گوناگونی برای تجزیه و تحلیل داده های آماری وجود دارد که هر یک برای نوع خاصی از داده ها و همین طور نوع خاصی از سوالات مورد استفاده قرار می گیرند. 
برخی از پژوهش گرها انتخاب یک آزمون آماری را وابسته به موارد زیر می دانند:
1-    نقشه یا طرح تحقیق
2-    هدف تحقیق
3-    طبیعت داده ها (تعداد متغیرها، کمی یا کیفی، پیوسته یا گسسته)
4-    ویژگی های نمونه (تعداد گروه های مورد بررسی، نرمال بودن یا نبودن جامعه)
5-    نوع استنباط مورد نیاز (توصیف جامعه، مقایسه اختلاف دو یا چند گروه، سنجش رابطه بین دو یا چند متغیر)
به طور کلی هدف هر آزمون آماری تعیین این مطلب است که آیا داده های نمونه، دلایل کافی برای رد یک فرضیه یا حدس آماری در مورد جامعه ارائه می دهد یا خیر؟ بهتر است قبل از انتخاب یک آزمون آماری بتوانیم به سوالات زیر پاسخ دهیم:
•    فرضیه تحقیق چیست؟
•    نوع داده ها چیست؟
•    توزیع ویژگی مورد بررسی در جامعه نرمال است یا خیر؟
•    چه تعداد متغیر بررسی می شوند؟
•    چند گروه مقایسه می شوند؟
•    گروه های مورد بررسی مستقلند یا خیر؟

در حالت کلی قبل از هر چیز باید به نرمالیتی توزیع متغیر بپردازیم؛ به طور کلی اگر توزیع متغیر نرمال باشد از آزمون های t و یا آنالیز واریانس و در صورت نرمال نبودن توزیع متغیر از آزمون های ناپارانتری استفاده می شود.   در نمودارهای زیر نحوه ی انتخاب آزمون ها را به ترتیب برای یک و دو و بیشتر از دو متغیر را رسم کرده ایم.
















باید توجه کرد زمانی که پای دو یا بیش از دو متغیر در میان است علاوه بر روابط میان خود داده ها؛ رابطه ی میان هر دو متغیر نیز مهم است. اینکه جنس دو متغیر چه باشد؟ میان آنها همبستگی وجود دارد یا خیر؟ سوالاتی هستند که باید از خود قبل از انتخاب آزمون ها پرسید. همانطور که در نمودار 2 نشان دادیم، برای بررسی رابطه ی بین دو متغیر وقتی هر دو متغیر پیوسته باشند از آزمون ضریب همبستگی برای بررسی رابطه بین آنها استفاده می کنیم و چنانچه یکی از متغیرها پیوسته و دیگری گسسته باشد از آنالیز واریانس و در حالتی که هر دو متغیر کیفی باشند از آزمون کای دو کمک می گیریم. همینطور در نمودار 3 به راحتی می توان دریافت در صورتی که متغیرها برای یک گروه به کار برده شوند از تحلیل عاملی یا آنالیز واریانس با اندازه های مکرر و یا رگرسیون چندگانه استفاده می شود. از تحلیل ممیزی و آنالیز واریانس چندگانه  نیز برای بررسی بیش از دو گروه استفاده می شود.

در اینجا به بسیاری از سوالاتی که مطرح می شوند پاسخ می دهیم:
بسیاری از آزمون های آماری بر فرض نرمالیتی جامعه استوارند آزمون هایی که با این جامعه ها سر و کار دارند آزمون های پارامتری هستند مانند آزمون t، و در مقابل آزمون های ناپارامتری دیگر فرض نرمالیتی را ندارند مانند آزمون های رتبه ای از قبیل آزمون من-ویتنی، یا کروسکال والیس.
برخی مواقع به راحتی می توان بر اساس نرمال بودن یا نبودن توزیع متغیرها گفت که کدام نوع از آزمون های پارامتری یا ناپارامتری  را به کار گیریم. اگر متغیر مورد بررسی رتبه ای باشد مثل رتبه بندی رضایت کارمندان(کم- متوسط- زیاد) آن گاه توزیع نرمال ندارد لذا از آزمونهای ناپارامتری بهره می گیریم.
اما نمی توان گفت که وقتی داده ها کمی هم باشند حتما از آزمونهای پارامتری استفاده می کنیم. در مواردی پیش می اید که داده ها کمی بوده اما تعدادشان اندک است در این مواقع، آزمون کولموگروف-اسمیرنف هم نمی تواند نرمال بودن داده ها را تعیین کند چرا که برای داده هایی با حجم بزرگتر کاراست. لذا تشخیص اینکه این داده ها نرمال هستند یا خیر بسیار مشکل است در این مواقع برخی از آماردانان از آزمون های پارامتری استفاده کرده و ادعا دارند که در نرمال بودن داده ها مشکلی ایجاد نمی شود. اما برخی دیگر آزمون های ناپارامتری را به کار می برند.


جدول زیر می تواند شما را در انتخاب آزمون مناسب استقلال یاری کند...




جدول زیرنیز شما را در انتخاب آزمون های آماری مناسب در همبستگی آنها یاری می کند.نوع  ضریب همبستگی ؛ بسته به نوع متغیر ها تعیین می شود.



در آینده؛ نحوه ی محاسبه این آزمون ها را در SPSS شرح می دهیم.

 

 

درباره نرم افزار SPSS

خلاصه ای از نرم افزار SPSS 

 

نام نرم افزار : SPSS

سال انتشار : 1968

توسعه دهنده : IBM , Corporation

نسخه جدید : 20.0 / August 16, 2011

موضوع : آمار

سیستم عامل : ویندوز، zLinux، یونیکس/لینوکس و Mac

وب سایت : www.SPSS.com

 

 

 


 
 
 
 
 

درباره نرم افزار SPSS

SPSS "بسته ای آماری برای علوم اجتماعی" که نخستین نسخه آن در سال 1968 پس از آنکه توسط Norman H. Nie و C.Hadlai Hull توسعه داده شد، به بازار عرضه شد .

H. Nie Norman کارشناس ارشد رشته علوم سیاسی در دانشگاه استنفورد بود، اکنون استاد پژوهش در دانشکده علوم سیاسی در استنفورد و استاد ممتاز علوم سیاسی در دانشگاه شیکاگو می باشد . 

SPSS از جمله برنامه هایی است که به طور گسترده در تحلیل های آماری مورد استفاده قرار میگیرد. این نرم افزار توسط محققان بازار، پژوهشگران سلامت، دولت، پژوهشگران آموزش، سازمان های بازار یابی و غیره مورد استفاده قرار می گیرد .

سرعت زیاد در تجزیه و تحلیل دادها، دستیابی سریع به آنچه که برای یک تحلیل آماری لازم است، توانایی تجزیه و تحلیل های آماری در همه زمینه ها، امکان ارتباط و سازگاری با مجموعه آفیس سبب شده است که کاربران به راحتی نیازهای خود را برطرف کنند .

بسیاری از ویژگی های نرم افزار SPSS از طریق منوها در دسترس می باشند یا می توان با استفاده از زبان syntax برنامه نویسی شوند .

SPSS محدودیت هایی را بر روی ساختار فایل درونی، انواع داده ها، پردازش داده ها و فایل های مچ شده قرار می دهد که با هم به طور قابل ملاحظه ای برنامه نویسی را ساده می کنند . مجموعه داده های SPSS ساختار جدولی دو بعدی دارند که ردیف ها نشان دهنده حالت ها (مانند افراد یا خانوارها) و ستون ها نیز نشان دهنده اندازه ها (سن، جنس و درآمد خانوارها) می باشند. تنها دو نوع داده تعریف شده اند : عددی و متنی (یا رشته ای). تمام پردازش داده ها مورد به مورد از طریق فایل اتفاق می افتد .

 

محیط نرم افزار SPSS

 
 
 

 

برای استفاده از این نرم افزار اولین قدم وارد کردن داده هاست. صفحه کاری SPSS دارای دو پنجره :

1 : Data View

2 : Variable View

واسط کاربر گرافیکی دارای دو نما است که می توان با کلیک کردن بر روی تب های آنها در پایین سمت چپ پنجره SPSS آنها را مشاهده کرد. Data View، این پنجره صفحه گسترده ای از حالت ها (ردیف ها) و متغیرها (ستون ها) را نمایش می دهد. برخلاف صفحه گسترده ها، سلول های اطلاعاتی  فقط می توانند شامل اعداد یا متن باشند و فرمول ها نمی توانند در این سلول ها ذخیره شوند .

مشاهده داده ها در نمای Data View

 Variable View، نمای دوم دیکشنری از اطلاعات را به ما نمایش میدهد که هر سطر نشان دهنده یک متغیر است، هم چنین نام متغیر، لیبل متغیر، لیبل مقدار، عرض چاپ، نوع اندازه گیری و تنوعی از دیگر ویژگی ها را نمایش می دهد. سلول ها در هر دو نما می توانند به صورت دستی ویرایش شوند .

مشاهده داده ها در نمای Variable View

SPSS  قادر به خواندن و نوشتن اطلاعات از فایل های متنی ASCll (شامل فایل های سلسله مراتبی)، دیگر بسته های آماری، صفحه گسترده ها و پایگاه های اطلاعاتی می باشد .

 

گذری یر نسخه های SPSS


 
 
 
 

نسخه 16.0 این نرم افزار تحت ویندوز، Mac OS 10.5 و لینوکس Run می شود . 

پیش از نسخه 16.0، نسخه های مختلفی از نرم افزار SPSS برای ویندوز، Mac OS X و یونیکس موجود بودند .

نسخه ویندوز به دفعات بیشتری به روز رسانی شد و ویژگی های بیشتری نسبت به نسخه هایی که برای سیستم های عامل دیگر بوجود آمده بودند را دارا بود .  

در سال 2006 نسخه SPSS 15.0.1 به بازار عرضه شد .

در سال 2008 نسخه 16.0.2 SPSS انتشار یافت .

در سال 2010 نسخه PASW Statistics 18.0.3 . 

در سال 2011 نسخه 20.0 IBM SPSS Statistics .

دانلود پروژه آماده

برای دانلود پروژه اماده می توانید به سایت زیر مراجعه فرمایید

www.spss2014.com

چولگی - برجستگی

برجستگی و کشیدگی معادل هم بوده و با کلمه kurtosis ترجمه می‌شوند و به معنای تغییر ارتفاع (اندازه بلندی) چگالی در آمار بکار می‌رود. بر حسب آنكه k مثبت يا منفي باشد منحني فراواني نسبت به منحني نرمال استاندارد كشيده يا پخ مي‌باشد. اكر k نزديك صفر باشد، برجستگي منحني فراواني طبيعي است.
چولگی با کلمه skewness ترجمه می‌شود. چولگی منظور تغییر شکل چگالی از حالت اصلی هستند برای مثال خمیدگی چگالی نرمال به سمت چپ باعث چولگی راست چگالی نرمال خواهد‌شد.  skewness منفی یعنی نمودار داده‌ها چاوله به چپ است و skewness مثبت یعنی نمودار داده‌ها چوله به راست است. این دو شاخص میزان انحراف از توزیع نرمال استاندارد را بیان می‌کنند. برحسب اينكه skewness مثبت يا منفي باشند، منحني فراواني چوله به راست يا چوله به چپ است.

انواع ضریب همبستگی

کی از تعاریف اساسی در علم آمار تعریف همبستگی و رابطه بین دو متغیر می باشد. بطور کلی شدت وابستگی دو متغیر به یکدیگر را همبستگی تعریف می کنیم. و ممکن علاوه بر شدت همبستگی جهت همبستگی نیز مورد نیاز پژوهشگر باشد. در آمار انواع زیادی از ضرایب همبستگی­ متفاوت وجود دارند که هر کدام همبستگی بین دو متغیر را با توجه به نوع داده­ها و شرایط متغیرها اندازه­گیری می­کنند. لذا با توجه به اهمیت این موضوع که چه ضریب همبستگی را در چه زمانی مورد استفاده قراردهیم،

در اینجا قصد داریم به تعریف انواع همبستگی پرداخته و سعی بر آن داریم که زمان استفاده از این ضرایب همبستگی­ها و روش محاسبه آنها را در یکی از نرم­افزارهای آماری ذکر کنیم.

محاسبه ضرایب همبستگی تا حدود زیادی متاثر از مقیاس اندازه گیری متغیر ها است، بعنوان مثال برای متغیر­های اسمی جهت رابطه اصلا معنی ندارد، بین جنس و معدل تنها می­توان گفت که شدت وابستگی چه مقدار است اما افزایش یا کاهش جنس معنی ندارد.

با توجه به نوع متغیر ها ضریب همبستگی می­تواند یکی از حالت­های زیر را داشته باشد.

1- دو متغیر اسمی

2- دو متغیر رتبه­ای

3- دو متغیر فاصله­ای- نسبی

4- متغیر اسمی و متغیر رتبه ای

5- متغیر اسمی و متغیر فاصله­ای - نسبی

6- متغیر رتبه­ای و متغیر فاصله­ای – نسبی

برای هر کدام از حالت­های بالا ضرایب همبستگی متفاوتی وجود دارند که در نسخه pdf به اختصار مهمترین آنها را آورده ایم و بعضا روش محاسبه آنها را در نرم افزار های spss ، lisrel و R آورده شده است.

کلمات کلیدی : انواع ضرایب همبستگی، ضریب همبستگی پیرسون، ضریب همبستگی اسپیرمن، ضریب همبستگی کرامر و فی، ضریب همبستگی لاندا، ضریب همبستگی تاو گودمن کروسکال، ضریب همبستگی گاما، ضریب همبستگی تاو کندال،ضریب همبستگی چند رشته­ای( polyserial correlation)، ضریب همبستگی چند حالتی(Polychoric correlation) و ...

منابع :

1. آمار ناپارامتریک،1382، سید یعقوب حسینی، انتشارات دانشگاه علامه طباطبایی

2. website of the NC STATE UNIVERSITY, http://faculty.chass.ncsu.edu

3. A coefficient of agreement for nominal scale, 1960, Cohen J. Educat Psychol Measure; 20: 37-46

4. The polyserial correlation coefficient, 1982, U Olsson, F Drasgow, NJ Dorans - Psychometrika, Springer

5. On the Estimation of Polychoric Correlations and their Asymptotic Covariance Matrix, (1994), Joreskog, K. GPsychometrika, 59:3, 381-389.

پایگاه داده database چیست؟

دادِگان (پایگاه داده ها یا بانک اطلاعاتی) به مجموعه ای از اطلاعات با ساختار منظم و سامانمند گفته می شود. این پایگاه های اطلاعاتی معمولاً در قالبی که برای دستگاه ها و رایانه ها قابل خواندن و قابل دسترسی باشند ذخیره می شوند.
 البته چنین شیوه ذخیره سازی اطلاعات تنها روش موجود نیست و شیوه های دیگری مانند ذخیره سازی ساده در پرونده ها نیز استفاده می گردد. مسئله ای که ذخیره سازی داده ها در دادگان را موثر می سازد وجود یک ساختار مفهومی است برای ذخیره سازی و روابط بین داده ها است.
پایگاه داده در اصل مجموعه ای سازمان یافته از اطلاعات است.این واژه از دانش رایانه سرچشمه می گیرد ،اما کاربر وسیع و عمومی نیز دارد، این وسعت به اندازه ای است که مرکز اروپایی پایگاه داده (که تعاریف خردمندانه ای برای پایگاه داده ایجاد می کند) شامل تعاریف غیر الکترونیکی برای پایگاه داده می باشد. در این نوشتار به کاربرد های تکنیکی برای این اصطلاح محدود می شود.

 

یک تعریف ممکن این است که: پایگاه داده مجموعه ای از رکورد های ذخیره شده در رایانه با یک روش سیستماتیک (اصولی) مثل یک برنامه رایانه ای است که می تواند به سوالات کاربر پاسخ دهد. برای ذخیره و بازیابی بهتر، هر رکورد معمولا به صورت مجموعه ای از اجزای داده ای یا رویداد ها سازماندهی می گردد.

بخش های بازیابی شده در هر پرسش به اطلاعاتی تبدیل می شود که برای اتخاذ یک تصمیم کاربرد دارد. برنامه رایانه ای که برای مدیریت و پرسش و پاسخ بین پایگاه های داده ای استفاده می شود را مدیر سیستم پایگاه داده ای یا به اختصار (DBMS) می نامیم. خصوصیات و طراحی سیستم های پایگاه داده ای در علم اطلاعات مطالعه می شود.

مفهوم اصلی پایگاه داده این است که پایگاه داده مجموعه ای از رکورد ها یا تکه هایی از یک شناخت است.نوعا در یک پایگاه داده توصیف ساخت یافته ای برای موجودیت های نگه داری شده در پایگاه داده وجود دارد: این توصیف با یک الگو یا مدل شناخته می شود. مدل توصیفی، اشیا پایگاه های داده و ارتباط بین آنها را نشان می دهد. روش های متفاوتی برای سازماندهی این مدل ها وجود دارد که به آنها مدل های پایگاه داده گوییم.

پرکاربرد ترین مدلی که امروزه بسیار استفاده می شود، مدل رابطه ای است که به طور عام به صورت زیر تعریف می شود: نمایش تمام اطلاعاتی که به فرم جداول مرتبط که هریک از سطر ها و ستونها تشکیل شده است(تعریف حقیقی آن در علم ریاضیات برسی می شود). در این مدل وابستگی ها به کمک مقادیر مشترک در بیش از یک جدول نشان داده می شود. مدل های دیگری مثل مدل سلسله مراتب و مدل شبکه ای به طور صریح تری ارتباط ها را نشان می دهند.

در مباحث تخصصی تر اصطلاح دادگان یا پایگاه داده به صورت مجموعه ای از رکورد های مرتبط با هم تعریف می شود. بسیاری از حرفه ای ها مجموعه ای از داده هایی با خصوصیات یکسان به منظور ایجاد یک پایگاه داده ای یکتا استفاده می کنند.

معمولا DBMS ها بر اساس مدل هایی که استفاده می کنند تقسیم بندی می شوند: ارتباطی،شی گرا، شبکه ای و امثال آن. مدل های داده ای به تعیین زبانهای دسترسی به پایگاه های داده علاقه مند هستند. بخش قابل توجهی از مهندسی DBMS مستقل از مدل های می باشد و به فاکتور هایی همچون اجرا، همزمانی،جامعیت و بازیافت از خطاهای سخت افزاری وابسطه است.در این سطح تفاوت های بسیاری بین محصولات وجود دارد.

موارد زیر به صورت خلاصه شرح داده می شود:
•۱ تاریخچه پایگاه داده
•۲ انواع دادگان ها
•۳ مدل های پایگاه داده
۳.۱ مدل تخت
۳.۲ مدل شبکه ای(Network)
۳.۳ مدل رابطه ای
۳.۴ پایگاه داده های چند بعدی
۳.۵ پایگاه داده های شیء
•۴ ویژگی های سیستم مدیریت پایگاه داده ها
•۵ فهرست سیستم های متداول مدیریت دادگان

1- تاریخچه پایگاه داده
اولین کاربردهای اصطلاح پایگاه داده به June 1963 باز می گردد، یعنی زمانی که شرکت System Development Corporation مسئولیت اجرایی یک طرح به نام "توسعه و مدیریت محاسباتی یک پایگاه داده ای مرکزی" را بر عهده گرفت. پایگاه داده به عنوان یک واژه واحد در اوایل دهه 70 در اروپا و در اواخر دهه 70 در خبر نامه های معتبر آمریکایی به کار رفت.(بانک داده ای یا Databank در اوایل سال 1966 در روزنامه واشنگتن کار رفت)


تصویر:اولین سیستم مدیریت پایگاه داده در دهه 60 گسترش یافت. از پیشگامان این شاخه چارلز باخمن می باشد. مقالات باخمن این را نشان داد که فرضیات او کاربرد بسیار موثرتری برای دسترسی به وسایل ذخیره سازی را محیا می کند.

در آن زمانها پردازش داده بر پایه کارت های منگنه و نوار های مغناطیسی بود که پردازش سری اطلاعات را مهیا می کند. دو نوع مدل داده ای در آن زمانها ایجاد شد:CODASYL موجب توسعه مدل شبکه ای شدکه ریشه در نظریات باخمن داشت و مدل سلسله مراتبی که توسط North American Rockwell ایجاد شد و بعدا با اقباس از آن شرکت IBM محصولIMS را تولید نمود.

مدل رابطه ای توسط E. F. Codd در سال 1970 ارائه شد.او مدل های موجود را مورد انتقاد قرار می داد. برای مدتی نسبتا طولانی این مدل در مجامع علمی مورد تایید بود. اولین محصول موفق برای میکرو کامپیوتر ها dBASE بودکه برای سیستم عامل هایCP/M و PC-DOS/MS-DOS ساخته شد.

در جریان سال 1980 پژوهش بر روی مدل توزیع شده (distributed database) و ماشین های دادگانی (database machines) متمرکز شد، اما تاثیر کمی بر بازار گذاشت. در سال 1990 توجهات به طرف مدل شی گرا(object-oriented databases) جلب شد. این مدل جهت کنترل داده های مرکب لازم بود و به سادگی بر روی پایگاه داده های خاص، مهندسی داده(شامل مهندسی نرم افزار منابع) و داده های چند رسانه ای کار می کرد.

در سال 2000 نوآوری تازه ای رخ داد و دادگان اکس ام ال (XML) به وجود آمد. هدف این مدل از بین بردن تفاوت بین مستندات و داده ها است و کمک می کند که منابع اطلاعاتی چه ساخت یافته باشند یا نه در کنار هم قرار گیرند.

2- انواع دادگان ها
دادگان ها از نظر ساختار مفهومی و شیوه ای رفتار با داده ها بر دو نوع هستند :
1.دادگان رابطه ای
2.دادگان شی گرا

3- مدل های پایگاه داده
شگرد های مختلفی برای مدل های داده ای وجود دارد. بیشتر سیستم های پایگاه داده ای هر چند که طور معمول بیشتر از یک مدل را مورد حمایت قرار می دهند، حول یک مدل مشخص ایجاد شده اند. برای هر یک از الگوهای های منطقی (logical model) اجراهای فیزیکی مختلفی قابل پیاده شدن است و سطوح کنترل مختلفی در انطباق فیزیکی برای کاربران محیا می کند. یک انتخاب مناسب تاثیر موثری بر اجرا دارد. مثالی از موارد الگوی رابطه ای (relational model) است: همه رویدادهای مهم در مدل رابطه ای امکان ایجاد نمایه هایی که دسترسی سریع به سطرها در جدول را می دهد،فراهم می شود.

یک مدل داده ای تنها شیوه ساختمان بندی داده ها نیست بلکه معمولا به صورت مجموعه ای از عملیات ها که می تواند روی داده ها اجرا شود تعریف می شوند. برای مثال در مدل رابطه ای عملیاتی همچون گزینش (selection)، طرح ریزی (projection) و اتصال (join) تعریف می گردد.

۳.۱ مدل تخت
مدل تخت یا جدولی (flat (or table) model ) تشکیل شده است از یک آرایه دو بعدی با عناصر داده ای که همه اجزای یک ستون به صورت داده های مشابه فرض می شود و همه عناصر یک سطر با هم در ارتباط هستند. برای نمونه در ستون هایی که برای نام کاربری و رمز عبور در جزئی از سیستم های پایگاه داده ای امنیتی مورد استفاده قرار می گیرد هر سطر شامل رمز عبوری است که مخصوص یک کاربر خاص است.

ستون های جدول که با آن در ارتباط هستند به صورت داده کاراکتری، اطلاعات زمانی، عدد صحیح یا اعداد ممیز شناور تعریف می شوند. این مدل پایه برنامه های محاسباتی(spreadsheet) است.

پایگاه داده ها با فایل های تخت به سادگی توسط فایل های متنی تعریف می شوند. هر رکورد یک خط است و فیلد ها به کمک جدا کننده هایی از هم مجزا می شوند. فرضا به مثال زیر دقت کنید:
id name team
1 Amy Blues
2 Bob Reds
3 Chuck Blues
4 Dick Blues
5 Ethel Reds
6 Fred Blues
7 Gilly Blues
8 Hank Reds
داده های هر ستون مشابه هم است ما به این ستونها فیلد ها (fields) گوییم. و هر خط را غیر از خط اول یک رکورد(record) می نامیم. خط اول را که برخی پایگاه های داده ای آنرا ندارند رکورد برچسب(field labels) گوییم. هر مقدار داده ای اندازه خاص خود را دارد که اگر به آن اندازه نرسد می توان از کاراکنر فاصله برای این منظور استفاده کرد اما این مسئله مخصوصا زمانی که بخواهیم اطلاعات را بر روی کارت های منگنه قرار دهیم مشکل ساز خواهد شد. امروزه معمولا از نویسه TAB برای جداسازی فیلد ها و کاراکتر خط بعد برای رکورد بعدی استفاده می کنیم. البته شیوه های دیگری هم وجود دارد مثلا به مثال زیر دقت کنید:
"1","Amy","Blues"
"2","Bob","Reds"
"3","Chuck","Blues"
"4","Dick","Blues"
"5","Ethel","Reds"
"6","Fred","Blues"
"7","Gilly","Blues"
"8","Hank","Reds"
این مثال از جدا کننده کاما استفاده می کند.در این نوع مدل تنها قابلیت حذف،اضافه،دیدن و ویرایش وجود دارد که ممکن است کافی نباشد.Microsoft Excel این مدل را پیاده سازی می کند.

۳.2 مدل شبکه ای(Network)
در سال 1969 و در کنفرانس زبانهای سیستم های داده ای (CODASYL) توسطCharles Bachman ارائه شد. در سال 1971 مجددا مطرح شد و اساس کار پایگاه داده ای قرار گرفت و در اوایل دهه 80 با ثبت آن درسازمان بین المللی استانداردهای جهانی یا ISO به اوج رسید.

مدل شبکه ای (database model) بر پایه دو سازه مهم یعنی مجموعه ها و رکورد ها ساخته می شود و برخلاف روش سلسله مراتبی که از درخت استفاده می کند، گراف را به کار می گیرد. مزیت این روش بر سلسله مراتبی این است که مدل های ارتباطی طبیعی بیشتری را بین موجودیت ها فراهم می کند. الی رغم این مزیت ها به دو دلیل اساسی این مدل با شکست مواجه شد: اول اینکه شرکت IBM با تولید محصولات IMS و DL/I که بر پایه مدل سلسله مراتبی است این مدل را نادیده گرفت.

دوم اینکه سرانجام مدل رابطه ای (relational model) جای آن را گرفت چون سطح بالاتر و واضح تر بود. تا اوایل دهه 80 به علت کارایی رابط های سطح پایین مدل سلسله مراتبی و شبکه ای پیشنهاد می شد که بسیاری از نیاز های آن زمان را برطرف می کرد. اما با سریعتر شدن سخت افزار به علت قابلیت انعطاف و سودمندی بیشتر سیستم های رابطه ای به پیروزی رسیدند.

رکورد ها در این مدل شامل فیلد هایی است( ممکن است همچون زبان کوبول (COBOL) به صورت سلسله مراتب اولویتی باشد). مجموعه ها با ارتباط یک به چند بین رکورد ها تعریف می شود: یک مالک و چند عضو. عملیات های مدل شبکه ای از نوع هدایت کننده است: یک برنامه در موقعیت جاری خود باقی می ماند و از یک رکورد به رکورد دیگر می رود هر گاه که ارتباطی بین آنها وجود داشته باشد. معمولا از اشاره گرها(pointers) برای آدرس دهی مستقیم به یک رکورد در دیسک استفاده می شود. با این تکنیک کارایی بازیابی اضافه می شود هر چند در نمایش ظاهری این مدل ضروری نیست .

۳.3 مدل رابطه ای
مدل رابطه ای (relational model) در یک مقاله تحصیلی توسط E. F. Codd در سال 1970 ارائه گشت. این مدل یک مدل ریاضیاتی است که با مفاهیمی چون مستندات منطقی (predicate logic) و تئوری مجموعه ها (set theory) در ارتباط است. محصولاتی همچون اینگرس،اراکل، DB2 وسرور اس کیوال (SQL Server) بر این پایه ایجاد شده است.

ساختار داده ها در این محصولات به صورت جدول است با این تفاوت که می تواند چند سطر داشته باشد. به عبارت دیگر دارای جداول چند گانه است که به طور صریح ارتباطات بین آنها بیان نمی شود و در عوض کلید هایی به منظور تطبیق سطر ها در جداول مختلف استفاده می شود. به عنوان مثال جدول کارمندان ممکن است ستونی به نام "موقعیت" داشته باشد که کلید جدول موقعیت را با هم تطبیق می دهد.

۳.4 پایگاه داده های چند بعدی
پایگاه داده های رابطه ای توانست به سرعت بازار را تسخیر كند، هرچند كارهایی نیز وجود داشت كه این پایگاه داده ها نمی توانست به خوبی انجام دهد. به ویژه به كارگیری كلیدها در چند ركورد مرتبط به هم و در چند پایگاه داده مشترك، كندی سیستم را موجب می شد.

برای نمونه برای یافتن نشانی كاربری با نام دیوید، سیستم رابطه ای باید نام وی را در جدول كاربر جستجو كند و كلید اصلی (primary key ) را بیابد و سپس در جدول نشانی ها، دنبال آن كلید بگردد. اگر چه این وضعیت از نظر كاربر، فقط یك عملیات محسوب، اما به جستجو درجداول نیازمند است كه این كار پیچیده و زمان بر خواهد بود.

راه كار این مشكل این است كه پایگاه داده ها اطلاعات صریح درباره ارتباط بین داده ها را ذخیره نماید. می توان به جای یافتن نشانی دیوید با جستجو ی كلید در جدول نشانی، اشاره گر به داده ها را ذخیره نمود. در واقع، اگر ركورد اصلی، مالك داده باشد، در همان مكان فیزیكی ذخیره خواهد شد و از سوی دیگر سرعت دسترسی افزایش خواهد یافت.

چنین سیستمی را پایگاه داده های چند بعدی می نامند. این سیستم در هنگامی كه از مجموعه داده های بزرگ استفاده می شود، بسیار سودمند خواهد بود. از آنجاییكه این سیستم برای مجموعه داده های بزرگ به كار می رود، هیچگاه در بازار به طور مستقیم عمومیت نخواهد یافت.

۳.5 پایگاه داده های شیء
اگر چه سیستم های چند بعدی نتوانستند بازار را تسخیر نمایند، اما به توسعه سیستم های شیء منجر شدند. این سیستم ها كه مبتنی بر ساختار و مفاهیم سیستم های چند بعدی هستند، به كاربر امكان می دهند تا اشیاء را به طور مستقیم در پایگاه داده ها ذخیره نماید. بدین ترتیب ساختار برنامه نویسی شیء گرا (object oriented ) را می توان به طور مستقیم و بدون تبدیل نمودن به سایر فرمت ها، در پایگاه داده ها مورد استفاده قرار داد.

این وضعیت به دلیل مفاهیم مالكیت (ownership) در سیستم چند بعدی، رخ می دهد. در برنامه شیء گرا (OO)، یك شیء خاص "مالك " سایر اشیاء در حافظه است، مثلا دیوید مالك نشانی خود می باشد. در صورتی كه مفهوم مالكیت در پایگاه داده های رابطه ای وجود ندارد.

4- ویژگی های سیستم مدیریت پایگاه داده ها
پس از این مقدمه به توصیف سیستم مدیریت پایگاه داده ها می پردازیم. سیستم مدیریت پایگاه داده ها، مجموعه ای پیچیده از برنامه های نرم افزاری است كه ذخیره سازی و بازیابی داده های (فیلدها، ركوردها و فایل ها) سازمان را در پایگاه داده ها، كنترل می كند. این سیستم، كنترل امنیت و صحت پایگاه داده ها را نیز بر عهده دارد.

سیستم مدیریت پایگاه داده ها، درخواست های داده را از برنامه می پذیرد و به سیستم عامل دستور می دهد تا داده ها ی مناسب را انتقال دهد. هنگامی كه چنین سیستمی مورد استفاده قرار می گیرد، اگر نیازمندیهای اطلاعاتی سازمانی تغییر یابد، سیستم های اطلاعاتی نیز آسانتر تغییر خواهند یافت. سیستم مذكور از صحت پایگاه داده ها پشتیبانی می كند. بدین ترتیب كه اجازه نمی دهد بیش از یك كاربر در هر لحظه، یك ركورد را به روز رسانی كند. این سیستم ركوردهای تكراری را در خارج پایگاه داده ها نگاه می دارد.

برای مثال، هیچ دو مشترك با یك شماره مشتری، نمی توانند در پایگاه داده ها وارد شوند. این سیستم روشی برای ورود و به روز رسانی تعاملی پایگاه داده ها فراهم می آورد. یك سیستم اطلاعات كسب و كار از موضوعاتی نظیر (مشتریان، كارمندان، فروشندگان و غیره) و فعالیت هایی چون (سفارشات، پرداخت ها، خریدها و غیره) تشكیل شده است.

طراحی پایگاه داده ها، فرایند تصمیم گیری درباره نحوه سازماندهی این داده ها در انواع ركوردها و برقراری ارتباط بین ركوردهاست.سیستم مدیریت پایگاه داده ها می تواند ساختار داده ها و ارتباط آنها را در سازمان به طور اثر بخش نشان دهد. سه نوع مدل متداول سازمانی عبارتند از: سلسله مراتبی، شبكه ای و رابطه ای.

یك سیستم مدیریت پایگاه داده ها ممكن است یك، دو یا هر سه روش را فراهم آورد. سرورهای پایگاه داده ها، كامپیوترهایی هستند كه پایگاه داده های واقعی را نگاه می دارند و فقط سیستم مدیریت پایگاه داده ها و نرم افزار مربوطه را اجرا می كنند. معمولا این سرورها رایانه های چند پردازنده ای با آرایه های دیسك RAID برای ذخیره سازی می باشند.

5- فهرست سیستم های متداول مدیریت دادگان
معروف ترین این نرم افزارهای مدیریت دادگان ها می توان به چند نمونه زیر اشاره کرد:
1.Oracle
2.Microsoft SQL Server
3.MySQL
4.PostregSQL
5.DB2
6.Microsoft Access
واژه دادگان از برابرنهاده های فرهنگستان زبان فارسی می باشد. 
منبع : ایران ناز

راهنمای بکارگیری آزمون های آماری در نرم افزار SPSS

مقدمه
بسیاری از دانشجویان و حتی برخی از اساتید گرامی به دلیل تشتت آراء و نبود اتفاق نظر و تفاوت های روند تحقیقات، در چگونگی بکارگیری آزمون های آماری متناسب با مقیاس و نوع داده ها دچار سردرگمی و تردید هستند. مطلب زیر برگرفته از کتب روش تحقیق وآمار است تا بلکه راهنمایی باشد برای عزیزانی که هر کدام به نوعی کارشان به این نرم افزار و این مرحله وابسته است.
اگر تحقیق شما از نوع تحلیل دو متغیری و چند متغیری است و متغیرهای تحقیق شما به این شکل اند

دو متغیر اسمی

دو متغیر ترتیبی

دو متغیر فاصله ای

یک متغیر اسمی و دیگری ترتیبی

یک متغیر اسمی و دیگری فاصله ای

یک متغیر ترتیبی و دیگری فاصله ای

این مطلب در ادامه به صورت کامل با آدرس مسیرها در نرم افزار SPSS و تفسیر خروجی ها شما را راهنمایی می کند.

کل این آزمون ها از سه حالت خارج نیستند یا برای تشخیص پیوستگی و همبستگی رابطه بین متغیرهاست(مانند پیرسون) یا برای تعیین معنی داری تفاوت میانگین بین متغیرها(مانند تحلیل واریانس ANOVA و تی ستودنت)، یا برای پیش بینی تغییرات و تبیینات یک متغیر براساس متغیر دیگر(مانند رگرسیون).

 

1- مقیاس هایی که داده ها در آن نوع و شکل گرداوری می شوند تا مورد استفاده قرار گیرند (اندازه گیری شوند) عبارت اند از:

1-1- اسمی (Nominal Scale): ساده ترین کار، طبقه بندی است. وقتی ما متغیری را به دو یا چند بخش، تقسیم می کنیم مانند جنسیت به زن و مرد یا دین به اسلام و مسیحیت و یهودیت و غیره و این تقسیم بندی ما بیانگر اولویت دادن و رتبه دادن یکی بر دیگری نیست و صفر عددی هم ندارد و فاصله ای بین این بخش ها مدنظر نیست که برابر باشند یا دارای تفاوت خاصی باشند به آن مقیاس اسمی می گوییم. ملاک طبقه بندی ویژگی های مشترک افراد یا رویدادهاست. در تمام پرسشنامه هایی که این سوالات به این شکل هست، در مقیاس اسمی (حالا دو حالته یا چندحالته) قرار می گیرند:
جنسیت؟ زن مرد
محل سکونت؟ شهر روستا
وضعیت تاهل؟ مجرد متاهل مطلقه
اشتغال؟ شاغل بیکار جویای کار بازنشسته
دین؟ اسلام مسیحی یهودی زردشتی سایر
رنگ چشم؟ آبی قهوه ای مشکی
نمره بهره هوشی؟ بالا پایین
ملیت؟ ایرانی غیرایرانی
قومیت؟ فارس کرد آذری سایر
محل تولد؟ شهر روستا فلان شهر
وقتی وارد نرم افزار می شویم و به این بخش ها، کد می دهیم مثلاً زن کد1، مرد کد2، این کد 1و 2 دادن فقط قرارداد است و برای برقراری ارتباط با نرم افزار و تفهیم آن است و اصلاً بحث این نیست که 1 بهتر است یا 2 بیشتر است یا 1 و 2 را جمع و سپس تقسیم بر تعداد کنیم و غیره. می توان بجای این کد قراردادی 1 و 2 مثلاً برای زن کد هزار و برای مرد کد صفر بگذارید. از عدد برای اسم گذاری استفاده می کنیم مانند اعدادی که بر پیراهن بازیکنان ورزشی نوشته می شود. پیش شماره یا کد تلفن شهرها، پلاک منزل یا اتومبیل.
وقتی تحقیق شما یک متغیری باشد (که اغلب اینطوری نیست مگر برای تمرین و کار کلاسی) و بخواهید مثلاً متغیر جنسیت را مورد بررسی قرار دهید دیگر نیازی به آمار استنباطی نیست و فقط آمار توصیفی کافیست.
دقت و ظرافتی که برای استفاده ازین مقیاس لازم است بکار ببریم این است که اولاً بخش ها یا مقوله هایی که می گذاریم باید فراگیر (مجمل) باشند یعنی مقوله ها بتوانند تمامی صفات و یا اشیائی که مدنظر است را شامل شوند. مثلا برای وضعیت تاهل بهتر است مطلقه نیز گذاشته شود تا کسی که نه مجرد است و نه متاهل را شامل شود. دوم این که این مقوله هایی که تعیین می کنیم مانعه الجمع باشند یعنی هیچ موردی به بیش از یک طبقه یا مقوله تعلق نگیرد. به عبارت دیگر طبقه ها باید ناسازگار باشند. مثلاً وقتی می پرسید دین شما چیست؟ اسلام مسیحیت تسنن زردشتی و غیره. این مشکل وجود دارد کسی که سنّی است می تواند هم اسلام را علامت بزند و هم تسنن را.
در مقیاس اسمی هیچ کدام از چهار عملی اصلی حساب (جمع، تفریق، تقسیم، بعلاوه) انجام نمی پذیرد.
ضعیف ترین سطح اندازه گیری است و تنها نشان دهنده تمایز بین صفات است و هیچ ترتیبی بین طبقات مبنی بر اهمیت یا اولویت از پایین به بالا یا بالعکس وجود ندارد.
از چهار مقیاس یا سطح طبقه بندی متغیرها دو سطح اسمی و ترتیبی برای متغیرهای مطلق(متغیرهایی که دارای ویژگی مجملی و مانعه الجمعی اند مانند شغل، مذهب، جنس، آراء انتخاباتی، ملیت) بکار می روند و دو مقیاس فاصله ای و نسبتی برای متغیرهای عددی.
آمارهای قابل استفاده و محاسبه در سطح اسمی عبارت اند از فراوانی، نما، لامبدا، tb گودمن و کروسکال. تحلیل جدولی
(علیزاده، 1384: 9 و کیانی، 1385: 49 و رمضان زاده، 1387: 24 و دلاور، 1383: 10 و گودرزی، 1388: 25 و قاضی طباطبایی، 1374: 7 و بیکر، 1389: 150 و رفیع پور، 1383: 192-195 و سرمد و همکاران، 1382: 46 و دواس، 1383: 134و ساروخانی، 1383: 341)
1-2- مقیاس ترتیبی (Ordinal scale) درین مقیاس، سوالمان یا همان متغیرمان را به دویا چند بخش تقسیم می کنیم.
اعداد منسوب به رده ها و مقوله ها، امکان تنظیم داده ها را با تعیین اولویت ها و ترتیب ها فراهم می کنند. مثلاً وقتی از شما بپرسند کسانی که تمایل دارید با آنها کار کنیدرا به ترتیب اولویت نام ببرید، جواب شما امکان اندازه گیری محبوبیت افراد بر پایه مقیاس ترتیبی را به شما می دهد. یا این موارد:
وضعیت اشتغال؟ اصلا کار نمی کنم پاره وقت تمام وقت
میزان شادی دانش آموزان یک کلاس و مرتب کردن آنها حسب شدت شادمانی اشان.
میزان فعالیت های آموزشی دانشجویان یک کلاس
1نفر فعالیت بسیار زیاد؛ 7 نفر فعالیت متوسط؛ 2 نفر فعالیت کم به دست آمده است. این یک مقیاس ترتیبی است.
میزان پایبندی به دین. در مقیاس اسمی تنها می دانستیم که فردی مسلمان است یا مسیحی ولی در مقیاس ترتیبی علاوه بر این می دانیم که آن فرد دیندار چقدر دینمدار یا دین گریز است. یعنی هم وجود صفت را می سنجیم و هم شدت نسبی آن را.
طبقه اجتماعی؟ بالا متوسط پایین
مشارکت سیاسی؟ زیاد متوسط کم
طبقه اجتماعی؟ بالای بالا، بالای متوسط، بالای پایین؛ متوسط بالا، متوسط متوسط، متوسط پایین؛ پایین بالا، پایین متوسط، پایین پایین.
درآمد من کفاف مخارجم را می دهد. کاملا موافق موافق مردد مخالف کاملا مخالف
مرتب کردن دانش آموزان یک کلاس به ترتیب قد از کوتاه ترین به بلندترین (یا بالعکس)
میزان تعصبات نژادی وقومی، از خودبیگانگی سیاسی
یکی از شاخص های ازخودبیگانگی سیاسی، احساس بی قدرتی است وقتی در پرسشنامه سوال بیاید «مردمانی چون من بر تصمیمات دولت تاثیر زیادی دارند» و پاسخگو از میان کاملا مخالفم تا کاملا موافقم یکی را انتخاب کند به ترتیب زیر نمره به پاسخ او تعلق می گیرد:
کاملا مخالف5 مخالف4 بی نظر3 موافقم2 کاملا موافقم1
سوالی که در راستای تائید فرضیه باشد یعنی هم جهت باشد در آن گزینه ای که این تائید را می رساند بیشترین نمره را می گیرد مثلاً در مثال فوق وقتی فرد می گوید کاملا مخالفم که مردمانی چون من تاثیر ندارند یعنی دارد می گوید که از خودبیگانه سیاسی است و در راستای تائید فرضیه ماست. اگر پنجاه سوال داشته باشیم که در همه آنها کاملا مخالفم نمره 5 بگیرد پس امتیاز 250 یعنی کاملا از خودبیگانه سیاسی و اگر فردی با همه آن سوالات کاملا موافق باشد حداکثر امتیاز او 50 خواهد بود یعنی کمترین میزان ازخودبیگانگی سیاسی.
درین مقیاس بین طبقات مراتب قابل قبولی وجود دارد اما باز کمّی کردن دقیق میزان تفاوت بین طبقات امکان پذیر نیست. طبقات را می توان برحسب شدت موافقت و مخالفت یا نگرش فرد رتبه بندی کرد. لذا هر متغیری که بتوان آن را طبقه بندی کرد اما نتوان تفاوت بین طبقه ها را دقیقا به صورت عددی کمّی بیان کرد، این متغیر در مقیاس ترتیبی است.
درین مقیاس به تعداد افراد رتبه وجود دارد و می توان بین طبقه ها کمتر و بیشتر قائل شد. اما این کمتر و بیشتری نسبی است و دقیق نیست.
مشهورترین مقیاس ترتیبی، مقیاس بوگاردوس است.
سنجش هر متغیری با مقیاس ترتیبی امکان پذیر نیست.
در اندازه گیری رتبه ای روابط غیرانعکاسی، نامتقارن و انتقالی هستند یعنی اگر متغیری مانند محافظه کاری در سطح رتبه ای اندازه گیری شده باشد می توان استنباط کرد که اگر فرد الف بیش از فرد ب محافظه کار است و فرد ب بیشتر از فرد پ محافظه کار است پس منطقا باید الف بیشتر از پ محافظه کار باشد.
اعداد تخصیص یافته به اندازه های مختلف یک اندازه گیری رتبه ای فقط نشان دهنده رتبه هستند و نه چیز دیگر. به عبارت دیگر اعداد نشان دهنده فواصل مشخص بین دو گزینه نیستند. بعنوان مثال ده گروه کودک را که بر اساس میزان تعاون آنها، از بالاترین درجه همکاری تا پایین ترین درجه رتبه بندی شده اند در نظر بگیرید. در این رتبه بندی نمی توان پنداشت که درجه همکاری بین گروه اول و دوم همانند یا برابر درجه همکاری بین گروه های نهم و دهم است چون فواصل نسبی اندو دقیقا برابر نیستند. همچنین نمی توان استدلال کرد که درجه تعاون و همکاری آزمودنی های گروه اول ده برابر درجه تعاون وهمکاری گروه دهم است.
رایج ترین شکل متغیرهای ترتیبی، گویه ها یا سنجه های نگرشی اند که روی طیفی از کاملا موافق یا خیلی زیاد تا کاملا مخالف یا خیلی کم قرار می گیرد.
به نوشته رفیع پور (1383) امکان محاسبات ریاضی و آماری در مقیاس ترتیبی وجود ندارد و آنچه به این وسیله سنجیده می شود از دقت کافی برخوردار نیست. اما به نوشته بیکر (1389) به نقل از بورگاتا و بورنستد این مقیاس های نگرشی ترتیبی غالباً با آنها به مثابه متغیرهای پیوسته عمل می کنند. مثلاً ممکن است متوسط نمره پاسخگویان3/2 بیاید یا مانند مورد شاخص رضایت شغلی رشته ای از گویه ها باهم جمع می شوند و سپس متوسط نمرات و اندازه های تغییر نمرات محاسبه می شود. بدین ترتیب با متغیری با مقیاس سنجش ترتیبی عملا مانند یک مقیاس فاصله ای عمل می شود و آنها معتقدند که بهتر است متغیرهای ترتیبی را متغیرهای فاصله ای ناکامل به شمار آوریم تا سطح جداگانه ای از سنجش. به نوشته قاضی طباطبایی (1374) عملیات ریاضی و آماری که رتبه مقادیر صفت را تغییر ندهد، قابل قبول است. گودرزی (1388) نیز می نویسد که درین سطح نمی توانیم عملیات ریاضی چهارگانه انجام دهیم و متاسفانه متغیرهای اجتماعی وروانی عموماً در سطح سنجش ترتیبی قرار دارند و اندازه گیری آنها درین سطح صورت می گیرد و به ندرت ازین سطح تجاوز می کند. بنابراین اینجا اولین اختلاف پیش می آید که بالاخره به مثابه ترتیبی یا فاصله ای از کدام آزمون آماری استفاده کنیم؟
پاسخ: بوگاردوس حداکثر یک مقیاس ترتیبی است. طیف لیکرت از سطح یک مقیاس ترتیبی تجاوز نمی کند و نمی توان آن را هنوز در سطح مقیاس های فاصله ای دانست. ضریب همبستگی بین لیکرت و تورستنr=/92 به دست آمده است که بیانگر شباهت دقت و نتیجه هر دو طیف است. طیف گاتمن نیز مانند طیف های دیگر از سطح ترتیبی تجاوز نمی کند و نمی توان ادعا کرد فواصل بین نمرات یکسان می باشد. تنها مقایسه زوجی یا تورستن، درمقیاس فاصله ای قرار دارد. بنابراین دقیق تر آن است که از آزمون های مربوط به مقیاس رتبه ای استفاده شود. این آزمون ها بستگی به متغیر دیگری که با این متغیر مقایسه یا همبسته می شود نیز دارد که بعدا اشاره خواهد شد.
رایج ترین آماره های مناسب برای سنجش مقیاس ترتیبی عبارت اند از تعیین فراوانی و نما و میانه، محاسبه درصدها، ضریب همبستگی اسپرمن، میدان تغییرات، گاما، tb و tc کندال.


1-3-مقیاس فاصله ای (Interval scale) (پیوسته یا برش دار):
در این مقیاس، مقوله طبقه بندی می شود (مانند اسمی)، ترتیب طبقات و اولویت آنها مشخص می گردد (مانند ترتیبی) و فاصله بین طبقات هم به صورت عددی ثابت و مشخص، دقیقاً معلوم می گردد. مانند نمرات دانش آموزان در یک امتحان.
این موارد مثال هایی از مقیاس فاصله ای هستد: درآمد، قد (اگر به صورت عددی بیان شود نه بصورت کوتاه تر و بلندتر)، زمان، میزان مصرف آب و برق، سن(اگر حسب سال سنجیده شود چون اگر به صورت جوان، میانسال و کهنسال باشد ترتیبی لحاظ می شود)، وزن، دماسنج. سال تولد دو نفر، میزان تحصیلات رسمی، نمرات آزمون استعداد تحصیلی(SAT) که بین 200 تا 800 است، IQ(بهره هوشی)، تعداد فرزندان
تمامی آماره های مورد استفاده در آمار و ریاضی درین سطح قابل اجرا هستند.
آزمون های پارامتری فقط با سطوح اندازه گیری فاصله ای و نسبی، قابل کاربرد است.
آزمون های ناپارامتری مخصوص مقیاس های اسمی و ترتیبی می باشد.
درین مقیاس صفر مطلق و واقعی(true zero point) (به معنای هیچ)وجود ندارد و صفر انتخابی یک صفر قراردادی است. مثلا اگر دانش آموزی از یک آزمون بهره هوشی نمره صفر گرفت به این معنا نیست که او اصولاً هیچ هوشی ندارد.
محاسبه نما، میانه، انحراف معیار، ضریب همبستگی اسپرمن و ضریب همبستگی گشتاوری پیرسون از عملیات های مجاز آماری اند.
جمع و تفریق مجاز است اما ضرب و تقسیم مجاز نیست.
اندازه گیری فاصله ای فقط قابلیت پذیرش تغییر و تبدیل هایی را دارد که در سطح خطی انجام می شوند.
نمرات خام آزمون ها را برای حصول اطمینان از داشتن خواص فاصله ای، می توان به نمرات استاندارد تبدیل کرد.
چون اغلب تحقیقات علوم انسانی و اجتماعی از این سه نوع تجاوز نمی کنند و تنها تفاوت مقیاس نسبی با فاصله ای در صفر مطلق است از تشریح آن صرفنظر می کنم و می رویم سراغ آزمون های متناسب با این مقیاس ها. این توضیح از آن جهت لازم بود که ما تا مقیاس ها را تشخیص ندهیم نمیتوانیم آزمون مناسب را بکار گیریم.
(علیزاده، 1384: 9 و کیانی، 1385: 49 و رمضان زاده، 1387: 24 و دلاور، 1383: 10 و گودرزی، 1388: 25 و قاضی طباطبایی، 1374: 7 و بیکر، 1389: 150 و رفیع پور، 1383: 192-195 و سرمد و همکاران، 1382: 46 و دواس، 1383: 134و ساروخانی، 1383: 341)

2- چگونگی تشخیص آزمونها
چگونه تشخیص دهیم که از کدام آزمون آماری استفاده کنیم؟
چنانکه دواس (1383) اشاره می کند شکل پرسش و طبقات پاسخ بر کار شما تاثیر می گذارد. شما باید اول تشخیص بدهید که سوال شما در کدام نوع مقیاس های فوق است که توضیح دادیم. مثلا اگر بپرسید از چه نوع کاری برخوردارید و برایش گزینه هیچ، پاره وقت، تمام وقت بگذارید متغیر ترتیبی است. اگر بپرسیم چند ساعت در هفته کار می کنیدو برایش گزینه 1- 10؛ 11- 20؛ 21- 30 و ... بگذارید، متغیر ترتیبی است. اگر بپرسیم چند ساعت در هفته کار می کنید و خودش بصورت باز جواب دهد، متغیری فاصله ای است.
سپس بدانید که سطوح بالای سنجش هم اطلاعات بیشتری فراهم می آورد و هم دامنه روش های تحلیل گسترده تر می گردد اما اغلب اندازه گیری در سطوح پایین تر عاقلانه تر است و می توان سطح سنجش فاصله ای را به پایین تر از خود مثلا به ترتیبی تغییر داد. اما سرمد و همکارانش(1382) معتقدند که مرجح است که داده ها در بالاترین سطح مقیاس گرداوری شود زیرا تحلیل داده های آماری به مقیاسی بستگی دارد که داده ها با آن گرداوری شده اند. این دومین اختلاف نظر. حال باید چه کرد؟
از همان ابتدای طراحی سوالات پرسشنامه یا ابزار گرداوری اطلاعات و داده هایتان سعی کنید بالاترین مقیاس(مثلا فاصله ای) که دقیق تر از پایین ترهاست را درنظر بگیرید. سپس به طور روشن و واضح مشخص کنید که سوال شما در کدام مقیاس است.در غیر اینصورت باید با متخصص این کار و تحلیل گر روش شناسی وآمار مشورت کنید. علاوه بر این باید بدانید که نوع تحقیق شما چیست؟ اغلب تحقیقات دو متغیره و چند متغیره اند. مثلا یک طرف متغیرهای مستقل یا پیش بین و در طرف دیگر متغیر وابسته یا ملاک قرار دارد. برای انتخاب آزمون مناسب تشخیص مقیاس هر دو نوع متغیر لازم است. مثلا ترتیبی- ترتیبی اند یا ترتیبی- فاصله ای یا اسمی- ترتیبی و غیره.
نوع مسکن و وضعیت تاهل، غالبا اسمی اند. وضعیت اشتغال اگر بپرسیم که شغل شما چیست و هر کسی به صورت باز جواب دهد اسمی چند حالته خواهد بود. اگر شغلش را بپرسیم و برایش چند گزینه مثلا برحسب مقبولیت و منزلت در جامعه بگذاریم، ترتیبی خواهد بود مثلا گزینه ها را بگذاریم: کارکنان تخصصی و فنی؛ مدیران و مقامات و مالکین؛ کارمندان ادارات و فروشگاه ها؛ کارگران و... اما اگر از شاخص های وجهه شغلی یا شاخص اجتماعی- اقتصادی استفاده شود متغیر وضع شغلی در سطح فاصله ای خواهد بود. یکی از دلایل عدم اتفاق نظر اساتید و دانشجویان در بکارگیری آزمون های آماری مشخص، همین انعطاف و تغییر در نحوه سنجش و اندازه گیری متغیرهاست.

3- مقیاس های متغیرها و مسیر اجرا و تفاسیر خروجی ها
اگر دو متغیر اسمی باشند مثلا یک طرف سن (جوان، میانسال، کهنسال) و طرف دیگر مهاجرت (رضایت به مهاجرت، عدم مهاجرت) برای تحلیل رابطه اشان از جدول توافقی استفاده می کنیم به شرطی که متغیر مورد بررسی مقولاتش کمتر از8 باشد.
نحوه اجرا در SPSS
Analyze-Descriptive Statistics- Crosstabs
بعد ازین سه مرحله باکسی باز می شود که در آن متغیر مستقل را به Columns و متغیر وابسته را به بخش Rows می بریم و OK.
اما پرکاربردتر از این برای دو متغیر اسمی، آزمون کی دو (Chi-square test) است. مانند رابطه بین دو متغیر جنسیت و رشته تحصیلی.
نحوه اجرا در SPSS
Analyze-Descriptive Statistics- Crosstabs
بعد ازین سه مرحله باکسی باز می شود که در آن متغیر مستقل را به Columns و متغیر وابسته را به بخش Rows می بریم.
قبل از Ok ، گزینه Statistics را می زنیم و در باکسی که باز می شود Chi-square را کلیک می کنیم و سپس ادامه و سپس گزینه Cells را کلیک کرده و بر روی گزینه های Expected ون Observed (فراوانی های مشاهده شده و مورد انتظار) تیک می زنیم. بعد ادامه و OK.
نحوه تفسیر خروجی کی دو:
در جدول محاسبه شده، به مورد Asymp.Sig نگاه می کنیم که اگر مقدار عددی آن از 05/ کمتر باشد پی می بریم که با احتمال 95درصد رابطه بین دو متغیر معنی دار است.
شاخص های دیگری هم برای این کار هستند که مبتنی بر کی دو اند مانند ضریب همبستگی کرایمر، توافق پیرسون، فی، چوپوروف.
شاخص هایی هم که مبتنی بر کاهش نسبی خطا (PRE) هستند عبارت اند از ضریب همبستگی لامبدا، یول، گودمن و کروسکال، ضریب عدم اطمینان.
پیشنهاد می شود بیشتر از شاخص های مبتنی بر کاهش نسبی خطا استفاده شود.
مسیر بیشتر این شاخص های مقیاس اسمی همان مسیر کی دو است که باید هر کدام راکه نیاز بود تیک بزنید. تفسیر اغلب آنهاهم باز به همان شکل است. این شاخصها تنها قدرت رابطه را نشان می دهند و بیانگر جهت نیستند. در اغلب آنها صفر نشان گر عدم ارتباط و 1 نشان گر رابطه کامل است و بین صفر تا3/ ضعیف و 3/ تا 6/ متوسط واز 6/ تا یک رابطه قوی می باشد.
ضریب یول شدت همبستگی بین دو متغیر اسمی دو مقوله ای را می سنجد. مانند جنسیت(زن- مرد) با تحصیلات (باسواد- بی سواد)
روش اجرا در SPSS
Analyze-Correlate-Distance
باکسی باز می شود و هر دو متغیر را به سمت راست منتقل می کنیم. سپس این ها را به ترتیب کلیک می کنیم
Similarities-Measure- Binary-Yule-Continue-Ok

اگر دو متغیر ترتیبی باشند
اگر بخواهید آماره های توصیفی مناسب برای دو متغیر ترتیبی (مانند پایگاه اجتماعی و دینداری) را بکارببرید از یکی از این موارد به تناسب تحقیقتان استفاده کنید: جدول توافقی، تاو کندال، دی سامرز، گاما، سپیرمن، ضریب کاپای کوهن.
محل اجرا در نرم افزار هم مانند کی دو و شاخص های مبتنی بر PRE در مسیر زیر است:
Analyze-Descriptive Statistics-Crosstabs
تفسیر هم باز بدان شکل است که اگر آزمون معنی داری کمتر از 05/بود بین این دو متغیر رابطه هست.
اگر بخواهید آمار استنباطی دو متغیر در مقیاس ترتیبی را به دست آورید از آزمون معنی داری سپیرمن و گاما استفاده کنید.

اگر دو متغیر فاصله ای باشند
روش تحلیل مناسب برای دو متغیر در مقیاس فاصله ای (مثلا میزان مطالعه حسب ساعت و مقدار معدل) جدول توافقی و نمودار پراکنش است. ترجیحا نمودار پراکنش بهتر است. این کار برای آن است تا ماهیت این ارتباط بین متغیرها مشخص شود که ارتباطشان خطی یا غیرخطی است. شدت هم بطور نسبی نشان داده می شود طوری که هر چه نقاط به هم نزدیک تر و حول خط باشند همبستگی قوی تر است. جهت این ارتباط هم از روی نمودار مشخص است. بدین صورت که اگر توزیع شکلی کشیده از جنوب غربی به شمال شرقی داشت، رابطه مثبت است و اگر شکلی کشیده از جنوب شرقی به شمال غربی داشت، رابطه معکوس است.
روش اجرا در SPSS
به این ترتیب عمل کنید:
Graphs-Scatter.Dot-Simple Scatter- Define
در باکسی که باز می شود متغیر وابسته یا ملاک را به بخش Y و متغیر مستقل یا پیش بین را به X منتقل کنید. بعدOK.
در آمار استنباطی هم دو آزمون مخصوص مقیاس فاصله ای اند:
ضریب همبستگی پیرسون(Pearson’s correlation coefficients) و تحلیل رگرسیون(Regression Analysis)
روش اجرا در SPSS
مطابق موارد زیر به ترتیب، کلیک کنید:
Analyze- Correlate- Bivariate
در باکسی که باز می شود متغیرهای مورد نظر را به سمت راست منقل کنید. در همان باکس روی پیرسون تیک بزنید. بعد روی Option کلیک کنید. در باکسی که باز می شود Means and Standard Dev و Cross-Product dev را تیک بزنید بعد ادامه و OK.
تفسیر جدول
اگر sig کمتر از 05/ بود بین این دو متغیر همبستگی وجود دارد. مقدار پیرسون هم بیانگر شدت این رابطه است. یعنی اگر مقدار پیرسون بین صفر تا 3/ بود ضعیف و اگر بین 3/ تا 6/ بود متوسط و اگر بیشتر از 6/ بود قوی است. این قراردادی است ولی معمولا در تفسیر نتایج و تحقیقات مختلف از آن پیروی می شود.
اگر فرضیه شما دو دامنه است یعنی جهتی در فرضیه مشخص نکرده اید در تیک های بالا، دودامنه(2 tailed) که بصورت پیش فرض فعال است را مارک دار انتخاب کنید.

اگر متغیری اسمی و دیگری ترتیبی باشد
آمار توصیفی مناسب برای یک متغیر اسمی (محل زندگی: شهر- روستا) و ترتیبی (میزان رضایت از زندگی) می تواند یکی از این موارد باشد:
ضریب همبستگی لامبدا، گودمن و کروسکال، وی کرامر، چوپوروف.
آمار استنباطی هم بهتر از بقیه آزمون من- ویتنی (Mann- Whithney) می باشد. از این طریق میانگین بین دو متغیر را مقایسه می کنیم. باید واریانس ها برای دو گروه یکسان باشد.
روش اجرا در SPSS
به این ترتیب عمل می کنیم:
Analyze- Nonparametric- 2 independent samples
در باکسی که باز می شود متغیر وابسته یا ملاک را به بخش Test Variable List می بریم و مستقل را به Grouping Var . زیر آن گزینه Define G را کلیک کرده و جلوی group1 عدد 1 (یا کدی که به متغیر داده اید) و جلوی Group2 عدد 2 (یا کدی که به متغیر داده اید) واردمی کنیم. بعد ادامه، در همان باکس اول، من ویتنی را تیک می زنیم، ادامه و OK.
تفسیر جدول خروجی این هم بر مبنای سیگ می باشد که اگر کمتر از 5صدم بودنتیجه می گیریم که تفاوت بین میانگین ها معنی دار است.

اگر متغیری اسمی و دیگری فاصله ای باشد
مناسب ترین آزمون برای وقتی که متغیری اسمی (نوع قومیت: کرد، فارس، آذری) و دیگری فاصله ای (بهره هوشی، میزان درآمد و...) باشد دو مورد است: تی ستودنت (student’s t-test) یا تحلیل واریانس یکطرفه (One way ANOVA).
تی ستودنت سه حالت دارد(یک نمونه ای، نمونه های جفت یاوابسته، دو نمونه مستقل) وقتی از یک نمونه ای استفاده می کنیم که مقدار میانگین و انحراف معیار جامعه را داشته باشیم که در اغلب تحقیقات این میسر نیست. از نمونه های جفت وقتی استفاده می کنیم که برای یک فرد دو نمره داشته باشیم مثلا میزان فشار خون دانش آموزان قبل و بعد از کنکور را بخواهیم با جنسیت (دختر و پسر) مقایسه کنیم. از دو نمونه مستقل هنگامی استفاده می کنیم که بین نمونه ها ارتباطی وجود نداشته باشد. مثلا مقایسه دانشجویان بین دو دانشگاه، مقایسه میانگین متغیری بین زنان و مردان.
روش اجرای t در SPSS
هر سه نوع آزمون تی ازین مسیر قابل دسترس و اجراهستند:
Analyze- Compare means- One Sample… /Paired Samples…/ Independent…
در یک نمونه ای، باکسی که باز می شود مقدار ثابت (مقدار آزمون) را می خواهد که باید وارد کنید. در دونمونه مستقل وقتی باکس باز شد متغیر وابسته را به بخش Test Var منتقل می کنیم و متغیر مستقل را به Grouping Var و سپس زیر خودش Define رو می زنیم و کدهای 1 و2 را جلوی گروپ 1 و2 می زنیم.
تفسیر همه یکسان است که وقتی Sig کمتر از 05/ باشد نتیجه می گیریم که تفاوت میانگین ها معنادار است. خروجی تی با دو نمونه مستقل دارای دو جدول است که جدول دوم دارای سه مقدار Sig است. سیگ اول (زیر عبارت Levene’s Test for…) بیانگر همسانی یا نابرابری واریانس دو گروه است. یعنی اگر سیگ بیشتر از 5درصد بود نتیجه می گیریم که واریانس ها برابرند. (این سیگ تعیین کننده نوع ارتباط میانگین ها نیست) لذا می رویم سراغ سیگ دوم که در زیرعنوان T- Test for Eq و در روبروی عنوان Equal Variances Assumed قرار دارد اگر مقدار آن کمتر از 05/ بود نتیجه می گیریم تفاوت میانگین ها معنادار است. اما اگر مقدار سیگ لِوِن (زیر عبارت Levene’s Test for…) کمتر از 05/ بود نتیجه می گیریم که واریانس ها نابرابرند و لذا می رویم سراغ سیگ سوم که در زیرعنوان T- Test for Eq و در روبروی عنوان Equal Variances NOT Assumed و از روی این مقدار تشخیص می دهیم که تفاوت میانگین ها معنادار است یا نیست که اگر کمتر از 05/ بودمعنادار است.(برای توضیح بیشتر و راهنمایی کامل به اثر مفید آقای سعید گودرزی با عنوان کاربرد آمار در علوم اجتماعی، 1388، صفحات 226-244 مراجعه نمایید)
تحلیل واریانس را هنگامی باید استفاده کرد که واریانس دو گروه یکسان باشد. چگونه ازین مطلب مطلع و مطمئن شویم؟ با آزمون لون.
تحلیل واریانس هم سه حالت دارد(یکطرفه، دوطرفه، چند طرفه). در یکطرفه تاثیر یک متغیر مستقل بر وابسته(مانند جنسیت بر میزان درآمد)، در دو طرفه دو متغیر مستقل بر وابسته و در چند طرفه تاثیر چند متغیر مستقل بر وابسته سنجیده می شود که غالباً تحلیل واریانس یکطرفه کاربرد بیشتری دارد.
روش اجرا در نرم افزار SPSS
تحلیل واریانس یکطرفه ازین مسیر قابل دسترسی است:
Analyze- Compare means- One way ANOVA
در اینجا باکسی باز می شود که متغیر وابسته را به Dependent List برده و متغیر مستقل را به Factor. سپس اگر اطلاعات بیشتری خواستید روی Option کلیک می کنید و گزینه های Descriptive، Homogeneity of Variance، Means plot را تیک می زنید. بعد ادامه و OK.
برای تحلیل واریانس دو طرفه این مسیر را طی می کنیم:
Analyze- General linear Model- Univariate
متغیر وابسته به بخش Dependent Var و متغیر مستقل به Fixed Factor. برای دریافت اطلاعات بیشتر روی Option کلیک می کنیم. باکسی باز می شودکه در آن متغیرهای مستقل (دوتا در سمت چپ در کادر Factor(s) and Factor) را به سمت راست (کادر Display Means for) منتقل می کنیم. سپس این موارد را در زیر تیک می زنیم:Homogeneity, Estimate, Descriptive بعد ادامه و قبل از ok کردن اگر خواستید می توانید نمودار را هم رسم کنید. برای اینکار روی Plots کلیک کرده و یکی از متغیرهای مستقل را به بخش Horizontal و متغیر مستقل دیگر را به Separate منتقل می کنیم.

این مطالب زیر در فرصت های آتی انشاالله اضافه خواهند شد.
تا کی اندر دام وصل آرم تذروی خوش خرام
در کمینم و انتظار وقت فرصت می‌کنم(حافظ)

-نحوه محاسبه ضریب آلفای کرونباخ
-تشریح نمونه گیری و فرمول کوکران و مقادیر آن
-رگرسیون و تفسیر خروجی های آن
-نحوه کامپیوت کردن سوالات یک متغیر در پرسشنامه با استفاده از نرم افزار
-اهمیت استفاده از نمودار و چارت متناسب با مقیاس ها
نحوه ارجاع و معرفی منبع این مطلب وقتی ازآن استفاده می کنید

پرسشنامه یا Questionnaire

در بسياري از علوم، تحقيقات بر اساس پرسشنامه صورت می گيرد. طراحي يك پرسشنامه خوب نيازمند تجربه و رعايت پاره اي قوانين مي باشد. اين نوشتار مطالب مرتبط با بهره برداري صحيح از يك پرسشنامه را در سر فصل عناوين ذيل ارائه مي نمايد:

1.1. پرسشنامه چیست؟

1.2. هدف از طراحي پرسشنامه

1.3. بيان مساله

1.4. تعيين جامعه آماري و انتخاب نمونه

1.5. اصول تدوين پرسشنامه

1.6. توزيع مقدماتي پرسشنامه

1.7. كنترل كيفيت پرسشنامه

1.8. توزيع نهائي پرسشنامه

1.9.تجزيه و تحليل آماري پرسشنامه

 

 

2. پرسشنامه چیست؟

پرسشنامه شامل دسته اي از پرسش ها ست كه برطبق اصول خاصي تدوين گرديده است و به صورت كتبي به افراد ارائه مي شود و پاسخگو بر اساس تشخيص خود جواب ها را در آن مي نويسد.

2.1. طبقه بندي بر اساس ماهيت پرسشنامه

- پرسشنامه باز

- پرسشنامه بسته

در پرسشنامه باز با سوالات باز روبرو هستيم. در اينجا پاسخگو مي تواند بدون محدوديت هر پاسخي را كه مد نظرش باشد در مورد آن پرسش بنويسد و يا در آن زمينه توضيح دهد. در اينگونه سوالات، اطلاعات دقيق تر، كامل تر و داراي ارزش بيشتر هستند ولي طبقه بندي و نتيجه گيري از آنها مشكل تر و به تجربه زياد نيازمند دارد.

در پرسشنامه بسته با پرسش هاي بسته مواجه هستیم. براي هر پرسش تعدادي گزينه و پاسخ انتخاب شده است كه فرد پاسخ دهنده بايد يكي از آنها رابه عنوان پاسخ بگزيند. هريك از پاسخ ها به گونه اي تنظيم شده است كه در عين منطقي بودن براي آن سوال از پاسخ مربوط به ديگر سوالات مجزا باشد. در اينجا پاسخ ها را مي توان به سرعت نوشت و تجزيه و تحليل و طبقه بندي پاسخ ها نيز ساده تر است اما اطلاعات به دقت و كاملي پرسش نامه باز نيست.

2.2. انواع پرسشنامه از لحاظ اجرا عبارتند از:

- پرسشنامه به طريق رو در رو

- پرسشنامه تلفني

- پرسشنامه پستی

- پرسشنامه رایانه ای

- پرسشنامه پست الکترونیکی

- پرسشنامه اینتنرنتی یا صفحات وب (لینک نمونه این پرسشنامه)

2.3. انواع پرسشنامه از لحاظ محتوای سنجش شده عبارتند از:

- پرسشنامه آگاهی سنجی Survey of Knowledge

- پرسشنامه نگرش سنجی Survey of Attitude

- پرسشنامه عملکرد سنجی Survey of practice

 

3. هدف از طراحي پرسشنامه

- تهیه فهرستی از هدف هایی است که پژوهشگر قصد دارد به کمک پرسشنامه به آنها برسد.

- داشتن درک روشنی از آنچه که باید حاصل شود

- به چه نوع اطلاعاتی نیاز داریم

- با این اطلاعات چه کارهایی می توانیم انجام دهیم

- چگونه هر سؤالی در پرسشنامه در رسیدن به این هدف به ما کمک می کند

- روش های تجزیه و تحلیل اطلاعاتی که پس از اجرای پرسشنامه جمع آوری می شوند چيست؟

 

4. بيان مساله

4.1. What is the problem

4.2. به دنبال چه هستيد؟

4.2.1. توصیف رفتار يا

4.2.2. طرز تفکر يا

4.2.3. یک احساس ویژه یا

4.2.4. آزمون رابطه بین دو یا چند متغیر

 

5. تعيين جامعه آماري و انتخاب نمونه

الف) در تعیین جامعه آماري به اين نكات توجه داشته باشيد:

5.1. اهمیت موضوع

5.2. قابلیت تعمیم پذیری

5.3. علاقه پژوهشگر

5.4. منابع اطلاعاتی

يك جامعه آماري مي تواند شهرک، شهر، استان، کشور، منطقه آموزشی واحد نظامی یا زیر گروهی از واحدهای ذکر شده نظیر گروه های قومی، مذهبی، سنی و شغلی باشد. توجه داشته باشيد به علت وسعت زیاد جامعه موردنظر، همیشه مطالعه تمام آن مقدور نیست و بعلاوه برای توصیف ویژگی های جامعه موردنظر و آزمون فرضیه در مورد آن نیازی به مطالعه تمام اعضای جامعه نیست. فلذا به انتخاب نمونه ای از اعضای جامعه که معرف و نماینده واقعی آن باشند اقدام می نمائيم.

ب) در تعیین نمونه آماري به اين نكات توجه داشته باشيد:

5.5. در تعيين حجم نمونه از فرمول ها و معيار هاي آماري استفاده كنيد.

5.6. توجه داشته باشيد بيشترين حجم نمونه قابليت تعميم نمونه به جامعه را محقق خواهد نمود.

5.7. براي مثال هنگاميكه شما مشغول طراحي يك پرسشنامه سنجش رضايت شغلي در يك شركت يا سازمان بزرگ مي باشيد مي توانيد با كمك واريانس و انحراف معيار جنس، سن يا تحصيلات تعداد نمونه مورد نیاز خود را بدست آورید.

5.8. روش نمونه گيري را مشخص كنيد: مثلا نمونه گيري خوشه اي چند مرحله اي

 

6. اصول تدوين پرسشنامه

در پژوهش هایی که از پرسشنامه استفاده می شود اعضا نمونه یا جامعه با پر کردن پرسشنامه و بازگرداندن آن به پژوهشگر در مصاحبه ای که خود آن را بر عهده داشته اند شرکت می کنند؛ به همین دلیل سؤال ها و راهنمایی های مربوط به آن باید به اندازه کافی روشن و قابل فهم باشد تا پاسخگو نقش مصاحبه کننده را نیز اجرا کند و بتواند افراد مورد نظر را در مشارکت ترغیب کند. دستورالعمل، سؤال ها و راهنمایی آن باید به گونه ای طرح شود که افراد مورد نظر را به ادامه همکاری و برگرداندن پرسشنامه علاقه مند نماید؛ این امر به خاطر عدم حضور مصاحبه گر واقعی برای توضیح بیشتر و تشویق پاسخ دهنده است.

بیشتر پرسشنامه ها حاوی مطالبی هستند که به منظور اندازه گیری متغیرهای وابسته و مستقل و ویژگی های موردنیاز تهیه و تدوین می شود دستورالعمل هایی که در تنظیم پرسشنامه الزامی هستند به شرح ذیل است:

6.1. سؤال های پرسشنامه باید ساده، روشن و دقیق باشند؛ زیرا هنگام پاسخگویی به آنها کسی جهت تعریف و توضیح حضور ندارد.

6.2. سؤالات پرسشنامه باید به صورت پاسخ بسته نوشته شود (يك گزينه از بين چند گزينه انتخاب شود) و بهتر است تعداد سؤال های پاسخ باز به حداقل ممکن برسد ولي حذف نشود. امکان دارد پاسخ هایی که به سؤالات باز داده می شود ناتمام و بی ربط باشند. ناخوانایی، غلط املایی و تفسیر پاسخ های باز از دیگر مشکلات سؤال های پاسخ باز می باشند.

6.3. به صورت اضافی و به خاطر جلوگیری از اشتباه از سؤالات گُزیده استفاده می شود. سؤال های گزیده به پرسش هایی گفته می شوند که گروه معینی از پاسخ دهندگان به آن پاسخ می دهند. برای مثال با مطرح کردن سؤالی درباره وضعیت تأهل در پرسشنامه می توان پاسخ دهندگان متأهل را شناسایی کرد و سپس پرسش های مربوط به فرزند، یا فرزندان، همسر و سایر موارد را مطرح نمود. هر سؤال گزیده به راهنمایی خاص خود نیاز دارد.

6.4. سؤال های مربوط به گذشته را در یک محدوده زمانی مشخص مطرح کنید در صورتی که قصد دارید درباره رفتار گذشته افراد اطلاعاتی کسب کنید، زمان مورد نظر را مشخص کنید. برای مثال این سؤال که چند بار مرتکب تخلفات رانندگی شده اید بسیار مهم است. عدم وجود محدوده زمانی مشخص در چنین سؤال هایی موجب می شود که افراد پاسخ های خود را به زمان های متفاوت نسبت دهند. لذا اطلاعاتی که در این گونه موارد بدست می آید در بهترین حالات فاقد انسجام خواهند بود و در بدترین شرایط به قدری مبهم اند که نمی توان بر اساس آنها دست به تحلیل زد. در محدوده های زمانی که چنین سؤال هایی به کار می روند به صورت زیر باید عمل شود که به صورت عبارت هایی همچون: در 5 سال گذشته، در یک سال گذشته، در یک ماه گذشته و یا اینکه اساساً سؤال کرد چه موقع برای اندازه گیری تعداد دفعاتی که رفتار افراد در آن ارتباط انجام شده است، اغلب محدوده زمانی کوتاه تر مناسب است زیرا پاسخ دهندگان نمی توانند وقوع رفتارهای خود را در زمان های طولانی به یاد آورند.

6.5. برای سؤال های حساس چارچوب مناسبی فراهم سازید گاهی اوقات پرسش هایی مطرح می شوند که ممکن است مغایر عقیده، باور، نگرش و مکاتب فکری باشند.

6.6. تعدادی از سؤال های پرسشنامه را به ویژگی های فردی و جمعیتی اختصاص دهید. این نوع سؤال ها که بر ویژگی هایی فردی تأکید دارند در قالب پرسشنامه ها مطرح می شود این پرسش ها از مواردی به این شرح تشکیل شده اند: سن، جنس، وضعیت تأهل، قوم و نژاد، تحصیلات، شغل، درآمد و گاهی اوقات مذهب، نوع مالکیت محل مسکونی، ترکیب خانوادگی.

6.7. سؤال های پرسشنامه باید یکی از جنبه های هدف و یا فرضیه صورت بندی شده را اندازه گیری کند به منظور تهیه و تنظیم پرسشنامه ای مناسب باید هر یک از سؤال های پرسشنامه هدفی را اندازه گیری کند؛ به عبارت دیگر سؤال باید به شیوه ای تنظیم شود که به کمک آنها بتوان اطلاعات لازم برای پاسخ دادن به سؤال های تحقیق یا آزمون فرضیه های صورت بندی شده جمع آوری کرد.

6.8. سؤال های پرسشنامه را با توجه به موضوع پژوهش در ارتباط با خصوصیت جامعه ای که پرسشنامه در آن اجرا می شود تعیین کنید. نظم و ترتیبی که سؤال های پرسشنامه بر اساس آن طرح می شود متفاوت است. ولی در اینکه جای هر سؤالی کجا باشد اتفاق نظری وجود ندارد. بعضی ترجیح می دهند که نکات مربوط به ویژگی های فردی و خانوادگی در ابتدای پرسشنامه و سؤال های حساس در آخر آورده شود و برخی عکس این عمل را انجام می دهند در واقع این پژوهشگر است که باید با توجه به بینشی که در مورد موضوع و جامعه ی پژوهشی خود دارد جای هر سؤال یا نظم و ترتیب آنها را تعیین نماید. چنانچه موضوع اهمیت قابل توجهی داشته باشد بهترین شیوه آن است که پرسش های مربوط به موضوع اصلی را در ابتدا بیاوریم تا بالاترین نسبت پاسخ دهی بدست آید.

6.9. صفحه اول پرسشنامه بایستي مربوط به نحوه ی پاسخگویی به سؤال ها باشد. و در آن به پرسش شونده اطمينان دهيد كه پاسخ هاي وي و اطلاعاتي كه در اختيار شما قرار مي دهد محرمانه تلقي خواهد شد.

6.10. هيچگاه در يك پرسش دو موضوع را مورد پرسش قرار ندهيد زيرا پرسش شونده ممكن است پاسخ متفاوتي به هر يك از سوال ها داشته باشد.

6.11. در طراحي سوال ايده خودتان و يا به عبارتي پاسخ خودتان را به پرسش شونده ديكته نكنيد. بعض سوالا ها طوري طراحي ميشوند كه پاسخ مشخصي دارند كه مفيد نيست.

6.12. از صفحه آرائي، چيدمان شكيل و فونت هاي مناسب و درشت براي طراحي پرسشنامه استفاده كنيد.

6.13. در پرسش هاي بسته مي توانيد از طيف ليكرت براي پاسخگوئي استفاده كنيد.

6.14. پرسشنامه را جذاب کنید. یکی از راه های رسیدن به این هدف چاپ پرسشنامه است.

6.15. پرسشنامه را صفحه بندی کنید.

6.16. سؤال های پرسشنامه را تا حد ممکن به شکل ساده طرح کنید به نحوی که پاسخگویی به آنها آسان باشد.

6.17. در ابتدا و انتهای پرسشنامه، نام و نام خانوادگی و آدرسی را که پرسشنامه به آنجا فرستاده شود ذکر کنید.

6.18. نحوه پاسخگویی به سؤال ها را خیلی ساده و با حروف درشت ذکر کنید.

6.19. در ابتدای هرنوع سؤال یک مثال مطرح و نحوه پاسخگویی به آن را مشخص کنید.

6.20. سؤال های پرسشنامه را براساس نظم منطقی مطرح کنید.

6.21. در ابتدای پرسشنامه سؤال هایی را مطرح کنید که جالب هستند.

6.22. در پرسشنامه هایی که خیلی طولانی هستند سؤالات مهم را در آخر پرسشنامه نیاورید.

6.23. از به کاربردن کلماتی که پاسخ دهندگان نسبت به آنها حساس هستند خودداری نمایید.

6.24. در هر سؤال اطلاعات را به طور کامل بیان کنید به نحوی که سؤال برای پاسخ دهنده معنی دار باشد.

6.25. طول پرسشنامه بر دقت پاسخگویی تأثیر دارد بنابراین در صورت امکان پرسشنامه را مختصر مطرح کنید. به عبارت دیگر در پرسشنامه فقط سؤال هایی را مطرح کنید که در جهت رسیدن به هدف های پژوهش مورد نیاز هستند.

 

7. توزيع مقدماتي پرسشنامه

پس از تدوین پرسشنامه و قبل از سنجش گسترده نخستین مرحله ارزيابي مقدماتي پرسشنامه است. زيرا ممكن است پرسشنامه نياز به بررسي مجدد، حذف از تعدادي از سوالات و يا افزودن سوالت جديد بر مبناي اطلاعات دريافتي از پرسش هاي باز باشد.

پس لازم است پیش نویس پرسشنامه قبل از اینکه به صورت نهایی تهیه و تنظیم شود چندین بار و از دیدگاه های مختلف بررسی شود. "دِیلی مَن" پیشنهاد می کند که پرسشنامه قبل از اجرا به صورت آزمایشی برای سه گروه زیر اجرا گردد:

7.1. گروهی از افراد جامعه که قصد دارید که یافته های پژوهش را به آنها تعمیم دهید.

7.2. کسانی که نتایج بررسی بوسیله آنها مورد استفاده قرار می گیرند مانند نهادهای اجرایی، مدیران سازمان ها و ....

7.3. صاحب نظران و متخصصانی که در تهیه و تنظیم پرسشنامه تبحر و تجربه دارند

معمولا در اين مرحله پرسشنامه بين خبرگان و يا نمايندگان اقشار مختلف نمونه آماري صورت مي پذيرد. و بر اساس تجربه بايستي حداقل 10 الي 15 درصد نمونه آماري را پوشش دهد.

 

8. كنترل كيفيت پرسشنامه

موضوع کنترل کيفيت نتايج يک پرسشنامه دامنه وسيعی از موضوعات مختلف را در بر می گيرد. اگر پرسشنامه را مانند يک آزمون فرض کنيم، به طور کلی می توان گفت يک آزمون خوب بايد از ويژگی های مطلوبی مانند عينيت، سهولت اجرا، عملی بودن، سهولت تعبير و تفسير، روايی و پايايی برخوردار باشد تا به نتايج درستی منجر شود. در بين اين ويژگی ها روائی و پايائی از اهميت بيشتری برخوردارند.

8.1. اعتبار و روايي (Validity)

روايی پرسشنامه عبارت است از توانايی ابزار مورد نظر در اندازه گيری صفتی که پرسشنامه برای اندازه گيری آن طراحی شده است و شامل روايی صوری، روايی محتوی، روايی سازه، روايی پيش بينی و .... می باشد. در حقيقت پرسشنامه يک ابزار اندازه گيری است که قرار است ويژگی هايی از يک جمعيت را اندازه گيری کند. سوال اين است که آيا اين ابزار اندازه گيری که برای ارزيابی يک ويژگی در جامعه (مانند تعهد سازمانی) طراحی شده است به چه ميزان می تواند اين ويژگی را اندازه گيری کند. هر قدر سوالات پرسشنامه ويژگی های مورد نظر را بهتر بسنجند، پرسشنامه دارای روايی بيشتری است. به طور کلی آزمونی دارای روايی است که برای اندازه گيری يک ويژگی کافی و مناسب باشد.

8.2. پايائي (Reliability)

يک سوال اساسی ديگر در مورد پرسشنامه يا هر آزمون ديگری اين است که اين ابزار اندازه گيری در شرايط يکسان تا چه اندازه نتايج يکسانی بدست می دهد؟ به عبارتی اگر آزمونی را در شرايط يکسان چند بار تکرار کنيم، تقريبا نتايج يکسانی داشته باشد. به طور کلی پايائی يک وسيله اندازه گيری، عمدتا به دقت و کيفيت نتايج حاصل از آن اشاره می کند. يا می توان گفت پايائی به دقت، اعتماد پذيری، ثبات يا تکرار پذيری نتايج آزمون اشاره دارد. برای اندازه گيری پايائی يک پرسشنامه شاخصی به نام ضريب پايائی وجود دارد. اين ضريب به اشکال مختلفی محاسبه می شود و مقدار آن بين صفر و يک در نوسان است. اين ضريب هر مقدار به يک نزديک تر باشد، پرسشنامه از پايايی بيشتری برخوردار است.

8.3. رابطه روايي و پايائي

رابطه بين روايی و پايائی را می توان چنين بيان کرد که يک آزمون بايد پايا باشد تا بتواند روا باشد. اگر آزمونی در هر بار اجرا روی تعدادی نمونه نتايج مختلفی بدست دهد، آن آزمون يک آزمون پايا نخواهد بود و در واقع هيچ چيز را به درستی اندازه نخواهد گرفت و اگر يک آزمون چيزی را به درستی اندازه گيری نکند، هيچ اطلاعات مفيدی به ما نخواهد داد. برای مثال يک آزمون رياضی برای اندازه گيری محتوا و هدف های درس تاريخ، روا (مناسب) نيست. اما اين آزمون می تواند مطالب رياضی را که اندازه می گيرد با دقت (به طور پايا) اندازه گيری کند. پس برای اين که يک آزمون روا باشد بايد نخست پايا باشد. يعنی پايايی شرط روايی است اما روايی برای پايايی ضروری نيست.

8.4. روش هاي تعيين پايايي

روش های تعيين پايايی متنوع اند که به پاره ای از آنها در زیر اشاره می شود:

8.4.1. روش آلفای کرونباخ (Alpha) برای مشاهده روش همبستگی درونی در پايايی يک پرسشنامه

8.4.2. روش دو نیمه کردن (Split-Half) برای مشاهده روش همبستگی درونی در پايايی يک پرسشنامه

8.4.3. روش گاتمن (Gattman) برای مشاهده حدود پائین و بالای روائی

8.4.4. روش موازی (Parallel) برای مشاهده پايايی دو فرم موازی از يک آزمون

8.4.5. روش موازی اکید (Strict Parallel) در اين روش برآورد اعتبار علاوه بر فرض يکسان بودن واريانس های دو آزمايش، تحت فرض يکسان بودن ميانگين ها نيز صورت می گيرد.

در استفاده از روش آلفای کرونباخ برای سنجش پایائی پرسشنامه محدوده مقادیر قابل قبول آلفا: بین 0.7 تا 1 عالی ، بین 0.4 تا 0.7 خوب و کمتر از 0.4 ضعیف محسوب مي شود.

8.5. روش هاي تعيين روائی

برای تعیین روائی محتوای یک آزمون از روش های نظری استفاده می شود که بیشتر آنها بر تجربه و نظر خبرگان استوار است. برای ارزیابی روائی سازه، از روش تحلیل عاملی ( Factor Analysis) استفاده می شود.

قابل ذكر است نرم افزار SPSS كليه امكانات و ابزار هاي لازم براي سنجش آلفاي كرونباخ و تحليل عاملي را دارا مي باشد.

چنانچه در زمينه سنجش آلفاي كرونباخ یا روش تحلیل عاملی در نرم افزار SPSS به راهنمائي نياز داريد، از این سایت مفید که متعلق به آقای میرزاده می باشد بازدید فرمائید. اینجا کلیک کنید.

 

9. توزيع نهائي پرسشنامه

پس از تدوین پرسشنامه و كنترل كيفيت اوليه تعیین چگونگی توزیع و جمع آوری پرسشنامه مطرح مي شود.

برای این کار دو روش متداول است:

9.1. تحویل پرسشنامه ها به پاسخ دهندگان به صورت مستقیم

9.2. پست کردن پرسشنامه ها.

روش تجزیه و تحلیل داده ها

یکی از مشکلات عمده دانشجویان حتی در مقاطع ارشد و دکترا و علیرغم گذراندن درس روش تحقیق این است که واقعا نمی دانند با داده های خود باید چه کار کنند و چطور آن را تحلیل کنند و چگونه به یک جمع بندی کلی دست یابند. من قبلا در دو پست در همین وبلاگ به بحث پرسشنامه و روش صحیح انتخاب آزمون های آماری اشاره نمودم که مورد استقبال بسیاری از دوستان قرار گرفت. (لینک آنها در قسمت انتهائی این مطلب آمده است)

امروز تصمیم دارم برای افرادی که ابزار جمع آوری داده آنها پرسشنامه می باشد و از طیف لیکرت استفاده می نمایند یک متدولوژی مناسب ارائه نمایم که چندین پایان نامه با موفقیت و با این روش هدایت شده اند. امیدوارم مفید و مثمر ثمر قرار گیرد و انشالله دوستان در منابع پایان نامه خویش نیز به آن ارجاع دهند تا موجب توسعه و نشر علم گردد.

 

یادآوری 1:

در ابتدا یادآور می شوم بر مبناي مطالعات در ادبيات آماري، انتخاب حجم نمونه به عواملي مانند كمي يا كيفي بودن متغير، اسمي، ترتيبي يا عددي بودن آن، حجم جامعه و نوع توزيع آماري جامعه بستگي دارد. پس اگر متغير هاي مورد مطالعه شما دو شرط داشته باشد یعنی اولا از طريق تحقيق پرسشنامه اي با طيف پنج گزينه اي ليكرت (متغير كيفي اسمي) مورد مطالعه قرار گیرد و ثانیا حجم جامعه آماری شما كم مي باشد از فرمول زير براي بدست آوردن حجم نمونه استفاده کنید:
در اينجا n حجم نمونه مورد نياز (حداقل تعداد پرسش شوندگان)، N حجم کل جامعه آماری شما، α سطح اطمينان 95% ، P نسبت موفقيت و d خطاي اندازه گيري قابل قبول مي باشد كه معمولا در تحقيق  5 درصد در نظر گرفته می شود. به عبارتي با اين حجم نمونه كه از اين فرمول محاسبه مي شود صحت اطلاعات در سطح اطمينان 95% و خطاي 5 درصد قابل صحت و اعتبار خواهد بود.
در اين رابطه p نسبت موفقيت است. مقدار p را مانند واريانس از اطلاعات گذشته يا از پيش آزمون به دست مي‌آوريم و اگر هيچ يک از اين ها مقدور نباشد، مقدار آن را 0.5 در نظر مي‌گيريم. زيرا بيشترين مقدار واريانس براي نسبت وقتي است که P معادل 0.5 باشد.
 
یادآوری 2:
حال که متوجه شدید حداقل پاسخ دهندگان مورد نیازتان چه تعداد می باشد، باید پرسشنامه را تهیه نموده، توزیع مقدماتی آن را انجام دهید و سپس کنترل کیفیت نماید.
چنانچه در زمینه تهیه پرسشنامه و یا در زمینه کنترل کیفیت آن (محاسبه اعتبار و روائي (Validity)، پايائي (Reliability) آن) مشکلی دارید به مطلبی که در همین وبلاگ با عنوان پرسشنامه تهیه شده است مراجعه کنید.
 
روش تجزیه و تحلیل داده ها:
پیشنهاد می نمایم به منظور پايبندي به اصول شناخت توصيفي و تحليل و اجتناب از پيش داوري و به منظور تجزيه و تحليل داده ها از الگوي جامع زير تبعيت کنید:
این روش شامل دو بخش است که هر بخش شامل سه زیر بخش است که در کل و با هم یک الگوی جامع را ارائه می نماید:
 
بخش اول: توصيف داده ها (Data Description)
بخش دوم: تحلیل داد ها (Data Analysis)
 
در بخش توصیف داده ها چه کنیم؟
در این بخش سه اقدام اساسی صورت می گیرد:
الف) توصیف ویژگی های عمومی پاسخگویان
ب) کالبد شناسی متغیر های اصلی
ج) گروه بندی بر اساس ویژگی های عمومی پاسخگویان
 
در بخش تحلیل داده ها چه کنیم؟
در این بخش سه اقدام اساسی صورت می گیرد:
الف) تحلیل همبستگی
ب) تحلیل رگرسیون
ج) تحلیل مسیر
 
توصيف داده ها
در اين بخش صرفا به توصيف داده هاي گرد آوري شده و تبيين ساختار يافته پاسخ هاي پرسش شوندگان و گروه بندي اطلاعات واصله بر اساس ويژگي هاي عمومي آن مي پردازيم که همانطور که اشاره شد شامل سه بخش زير مي باشد:
 
الف) توصيف ويژگي هاي عمومي پاسخگويان
این قسمت شامل مطالعه توزيع فراواني پاسخگويان از نظر جنس، سن، وضعيت تحصيلات، رشته تحصيلي، سنوات خدمت، وضعيت استخدامي و پست سازماني و ... است
 
ب) كالبد شكافي متغير هاي اصلي
این قسمت شامل توصيف گويه هاي هر متغير مورد استفاده در تحقيق با استفاده از آمار توصيفي (ميانگين و انحراف معيار) و سنجش آنها با طيف پنج تائي و بررسي تطبيقي شاخص ها می باشد.
 
ج) گروه بندي بر اساس ويژگي هاي عمومي پاسخگويان 
در این بخش بررسي جداگانه هر يك از ويژگي هاي عمومي مانند نظر جنس، سن، وضعيت تحصيلات، رشته تحصيلي، سنوات خدمت، وضعيت استخدامي و پست سازماني و ... با متغير هاي تحقيق (اعم از مستقل و وابسته) و از طريق آمار هاي توزيع پراكندگي (ميانگين و انحراف معيار) و دريافتي خروجي تحليلي براي آنها صورت می پذیرد.
 
مثال:
فرض کنید ما در حال سنجش یک متغیر وابسته (Y) از طریق 5 متغیر مستقل (X1,X2,X3,X4,X5) هستیم.
 
Y=f(X1, X2, X3, X4, X5)
فرض کنید بین 70 نفر پرسشنامه توزیع شده است و شما به منظور سنجش X1 پنج سوال و به منظور سنجش X2 سه سوال و به منظور سنجش X3 چهار سوال و به منظور سنجش X4 یک سوال و به منظور سنجش X5 نیز دو سوال و به منظور سنجش Y نیز سه سوال در پرسشنامه طراحی کرده اید. یعنی جمعا 18 پرسش در پرسشنامه دارید و علاوه بر این 18 پرسش از پرسش شونده 5 سوال در مورد جنس، سن، سطح تحصیلات، رشته تحصیلی و پست سازمانی وی پرسیده اید.
حال پاسخ این 23 سوال را در مورد این 70 نفر وارد نرم افزار SPSS کنید و از خروجی های متنوع و مختلف آن بهره برداری های زیر را نمائید:
 
گام نخست: 
در بخش توصیف ویژگی های عمومی طی جداولی فراوانی و درصد فراوانی و نمودار های مرتبط با آن را برای 5 صفت مذکور و جداگانه مشخص نماید و در مورد سطح تحصیلات یا سن ابتکار به خرج داده و مثلا سن را گروه بندی نموده و بعد جداول مربط به آن را تهیه کنید.
 
گام دوم:
در بخش کالبد شناسی متغیر های اصلی به سراغ X1 تا X5 و Y بروید. در این بخش توصیه می شود، براي تبيين دقيق تر متغير هاي تحقيق، این متغیرها (مستقل و وابسته) به شرح زير با دامنه تغييرات 2 تا 2- رتبه بندی گردد. این کار توصیف را آسانتر می نماید. پیشنهاد من توصيف متغير ها بر اساس طيف هفت تائي و به شرح زير می باشد.
 
عنوان طبق فاصله امتيازات
کاملا قوي: 1.34 تا 2
قوي: 0.68 تا 1.33
نسبتا قوي: 0.01 تا 0.67
متوسط = صفر
نسبتا ضعيف: 0.01- تا 0.67-
ضعيف: 0.68- تا 1.33-
کاملا ضعيف: 1.34- تا 2-
 
یاد آوری3:
شما برای هر پرسش از طیف 5 تائی لیکرت استفاده نموده اید و در SPSS به هر طیف مانند تقسیم بندی زیر عددی را تخصیص داده اید:
کاملا موافقم (2)
موافقم (1)
نظری ندارم (0)
مخالفم (1-)
کاملا مخالفم (2-)
پس میانگین 70 پاسخ در مورد پرسش مثلا 16 عددی را تولید می کند که در یکی از هفت طبقه بندی فوق قرار می گیرد. البته فراموش نکنید اگر 5 سوال جواب نهائی متغیر X1 را تشکیل می دهند شما باید به شرط برابری وزن 5 سوال میانگین وزنی این 5 سوال را برای X1 لحاظ کنید.
حالا مشخص کنید که اولا هر یک از متغیر های X1 تا X5 و Y میانگین امتیاز و انحراف معیارشان چقدر است و در کدام طبقه بندی فوق قرار می گیرد و ثانیا جدول زیر را تهیه و تحلیل کنید.
 
توزيع فراواني طبقات مربوط به سنجه هاي تشکيل دهنده شاخص X1
 
- در بخش گروه بندي بر اساس ويژگي هاي عمومي پاسخگويان از تکنیک زیر استفاده نمائید:
یک جدول مشابه زیر تهیه کنید. توجه کنید برای 5 صفت مذکور مانند جنس اینکار باید به تفکیک صورت پذیرد.
 
ارزش امتیازات شاخص هاي اصلي تحقيق براي پاسخگويان به تفكيك جنسيت
 
حال فرض کنید اطلاعات جدول حاكي از آن است كه، ميانگين امتياز شاخص X1 در مردان 0.75 و در زنان 0.82 مي باشد. اما سوال اين است كه آيا برتري اين عدد حاكي از برتري شاخص X1 گروه زنان نسبت به گروه مردان مي باشد؟ پاسخ اين مهم را صرفا مي توان با آزمون هاي آماري داد.
به منظور بررسي معنا دار بودن تفاوت ميانگين هر يک از شاخص ها در دو گروه زن و مرد از آزمون مقايسه ميانگين Independent- Sample T-Test استفاده نمائید و نتايج آن در سطح اطمينان 95% تحلیل کنید.
مقدار Sig را در آزمون برابري واريانس Levene's از خروجی های SPSS برای این شاخص استخراج کنید. فرض منید عدد 0.675 شده است
Sig.=P-value=0.675>0.05=∝
چون مقدار P-Value كه مربوط به واريانس است از α بزرگتر شده است، پس برابري واريانس ها رد نمي شود. لذا به P-Value سطر اول نگاه کنید. فرض کنید این عدد 0.750 شده است.
Sig(2-taild)=P-value=0.750>0.05=∝
پس تائيد مي شود كه ميانگين شاخص X1 در دو گروه زنان و مردان تفاوت معنا دار آماري وجود ندارد.
گواه ديگر براي اين مدعا عدد نشان داده شده در ستون (95% Confidence Interval of the Difference) مي باشد، كه شامل صفر مي باشد و لذا فرض H0 تائيد مي شود. گواه سوم بر اين موضوع مقدار آماره t مي باشد كه اگر از 2 بزرگتر باشد، تفاوت معنا دار خواهد شد كه در اينجا (مثال ما) كوچكتر از 2 مي باشد.
 
یادآوری 4:
شما در این بخش فقط داشتید در مورد تفاوت مثلا میانگین شاخص X1 در دو گروه زن و مرد بررسی انجام می دادید اما اگر بخواهید بدانید بین میانگین شاخص X1 در سه گروه سنی (24-29) و (30-35) و (36-41) سال تفاوت معنادار آماری وجود دارد یا خیر یعنی بیش از دو گروه را مقایسه نمائید مجبور هستید از روش زیر استفاده کنید:
نظر به اينكه در اين بخش با بيش از دو گروه جهت مقايسه آزمون آماري مقايسه ميانگين مواجه مي باشيم روش آزمون مقايسه ميانگين Independent- Sample T-Test قابل استفاده نمي باشد و بايستي از آزمون آناليز واريانس يك طرفه (One-Way ANOVA) استفاده نمائيم. نتايج اين آزمون را به کمک SPSS در سطح اطمينان 95% استخراج کنید. در اين آزمون كه با آزمون Post Hoc نيز تركيب شده است، فرض H0 برابري ميانگين هر شاخص در تمامي گروه هاي سني مختلف و فرض H1 تفاوت معنا دار اين ميانگين ها خواهد بود.
نحوه استنباط آماري آزمون ANOVA یا همان Analysis of Variance براي شاخص X1 به شرح زیر می باشد:
مقدار Sig را در نظر مي گيريم. فرض کنید 0.02 است
Sig.=P-value=0.02<0.05=∝
چون مقدار P-Value از α كوچكتر شده است، پس فرض H0 رد مي شود و اختلاف معني دار است.
اینکار را برای مابقی شاخص ها هم تکرار کنید. کار شما در توصیف با یک جمع بندی زیبا و برقراری ارتباط بین قسمت های مختلف به اتمام خواهد رسید و وارد مرحله تحلیل می شوید.

جدید ترین مطالب آموزشی پژوهشگران آمار

» انجام فصل 3 و 4 و5 پایان نامه
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amos در تحلیل آماری و انجام پروژه های spss

» کدام یک از شاخص های مرکزی بر دیگری برتری دارد؟
نوشته شده در بیست و نهم مهر ۱۳۹۴ در تحلیل آماری و انجام پروژه های spss

» توزیع نمونه گیری میانگین - قضیه حد مرکزی چیست؟
نوشته شده در بیست و نهم مهر ۱۳۹۴ در تحلیل آماری و انجام پروژه های spss

» نحوه ی استفاده از جدول احتمال توزیع نرمال استاندارد
نوشته شده در بیست و نهم مهر ۱۳۹۴ در تحلیل آماری و انجام پروژه های spss

» برآورد یا تخمین پارامتر جامعه - فاصله اطمینان و سطح اطمینان چیست؟
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» رسم نمودار برای جدول متقاطع در نرم افزار spss
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» رسم نمودار برای جدول متقاطع در نرم افزار spss
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» واحد آماری چیست؟
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» متغیر تصادفی چیست؟ پارامتر چیست؟ آماره چیست؟
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» مقیاس های اندازه گیری
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» متغیرهای کیفی و متغیرهای کمی
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» اطلاعات نامعلوم یا مقادیر گمشده (missing value)
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون علامت (آزمون آماری ناپارامتری مقایسه دو گروه وابسته)
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون ویلکاکسون (آزمون آماری ناپارامتری مقایسه دو گروه وابسته)
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون دوربین-اسلینگر-مک (مقایسه چند گروه داده کمی وابسته)
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون مربع کای (آزمون مقایسه داده های مستقل رده ای)
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون مربع کای (آزمون مقایسه داده های مستقل رده ای)
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون فیشر (آزمون مقایسه داده های مستقل رده ای)
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون کوکران- منتل هانزل (آزمون مقایسه داده های مستقل رده ای)
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون مک نمار
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون U من ویتنی
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» معرفی آزمون کوکران
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون فریدمن
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» آزمون کروسکال والیس
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» پیش آزمون
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» کاربرد مدل های کامل ساختاری در پژوهش
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» ساختن طرح سلسله مراتبی
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amosدر تحلیل آماری و انجام پروژه های spss

» انواع ضریب همبستگی
نوشته شده در بیست و ششم مهر ۱۳۹۴ در تحلیل آماری و انجام پروژه های spss

» پایایی (Reliability)
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amos در تحلیل آماری و انجام پروژه های spss

» روایی (اعتبار)Validity
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amos در تحلیل آماری و انجام پروژه های spss

» ضریب همبستگی پیرسون و ضريب همبستگي اسپيرمن در spss
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amos در تحلیل آماری و انجام پروژه های spss

» تحلیل واریانس چند متغیری MANOVA
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amos در تحلیل آماری و انجام پروژه های spss

» کلیات رگرسیون خطی ساده
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amos در تحلیل آماری و انجام پروژه های spss

» بررسی فرض هاي زيربنايي هر رگرسيون (بررسي مناسب بودن الگوي رگرسيون)
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amos در تحلیل آماری و انجام پروژه های spss

» آزمون z يا Z Test براي آزمون فرض تساوي دو نسبت
انجام و تحویل فوری پروژه های آماری با نرم افزار spss+lisrel+amos در تحلیل آماری و انجام پروژه های spss

 

 

برآورد یا تخمین پارامتر جامعه - فاصله اطمینان و سطح اطمینان چیست؟

هدف استنباط آماری به دست آوردن و نتیجه گیری در مورد پارامتر جامعه است.
می دانیم پارامتر جامعه مجهول است و باید از روی نمونه ای که از چامعه به دست می آید به براورد یا تخمین مقدار ان بپردازیم.
دو نوع برآوردگر یا تخمین زننده برای پارامتر جامعه وجود دارد.
1- برآورد کننده ی نقطه ای: برآورد کننده ای را برآوردگر نقطه ای پارامتر جامعه می گوییم که تنها یک عدد را به عنوان برآوردی ( تخمینی) از پارامتر جامعه ارائه کند.
2- برآورد کننده فاصله ای یا فاصله اطمینان: برآورد فاصله ای یا فاصله اطمینان تخمین می زند که پارامتر جامعه در میان دو عدد مشخص قرار می گیرد یا به عبارت دیگر فاصله ای را ارائه می کند که با احتمال مشخص (1- برآورد یا تخمین پارامتر  جامعه - فاصله اطمینان و سطح اطمینان چیست؟ ) پارامتر جامعه در آن فاصله قرار می گیرد.
به این فاصله [ به عنوان مثال (a,b)] فاصله اطمینان و به احتمالی که این فاصله شامل پارامتر جامعه باشد درجه اعتماد یا سطح اطمینان می گوییم.
بنابراین فاصله اطمینان یا برآورد فاصله ای عبارت است از تخمین فاصله ای از a تا b که انتظار می رود پارامتر جامعه با احتمال (1- برآورد یا تخمین پارامتر  جامعه - فاصله اطمینان و سطح اطمینان چیست؟ ) ( سطح اطمینان) در این فاصله قرار گیرد.

  برآورد یا تخمین پارامتر  جامعه - فاصله اطمینان و سطح اطمینان چیست؟

 

تفسیر فاصله اطمینان:


هنگامی که فاصله اطمینان پارامتر جامعه را محاسبه می کنیم، این فاصله یا پارامتر جامعه را در بر می گیرد یا نمی گیرد.[ پارامتر جامعه مجهول است]
به عنوان مثال اگر بخواهیم یک فاصله اطمینان با سطح اطمینان 95 درصد برای پارامتر جامعه به دست آوریم. قبل از انجام آزمایش و به دست آوردن فاصله اطمینان می دانیم که از هر 100 مورد به طور متوسط در 95 مورد فاصله اطمینان، پارامتر جامعه را در بر می گیرد ولی زمانی که فاصله اطمینان را به دست آوردیم یا پارامتر جامعه را در بر می گیرد یا نمی گیرد.
به عنوان یک مثال روشن کننده می توان چنین بیان کرد که قبل از آنکه یک بچه به وجود بیاید احتمال دختر شدن ان تقریبا 50 درصد است ولی وقتی که کار از کار گذشت و بچه به وجود آمد یا دختر است یا پسر. فاصله اطمینان نیز به همین صورت است قبل از محاسبه ما امید داریم که فاصله محاسبه شده یا احتمال (1- برآورد یا تخمین پارامتر  جامعه - فاصله اطمینان و سطح اطمینان چیست؟ ) درصد شامل پارامتر جامعه باشد ولی وقتی که فاصله محاسبه شد یا پارامتر جامعه را در بر می گیرد یا نمی گیرد.

رسم نمودار برای جدول متقاطع در نرم افزار spss

اطلاعاتی که در این بخش مورد تجزیه و تحلیل قرار می گیرند از فایل demo است.
در این فایل عوامل موثر بر خرید افراد مورد تجزیه و تحلیل قرار می گیرد. متغیرهای مالکیت دستگاه دیجیتالی (ownpda)، میزان درامد افراد به صورت طبقه بندی شده (inccat) و سطح تحصیلات (ed) مورد استفاده قرار می گیرد.

در مقاله روش به دست آوردن جدول متقاطع روش به دست آوردن جدول متقاطع بین دو متغیر مالکیت و سطح درآمد را توضیح دادیم در این قسمت قصد داریم نتایج یک جدول متقاطع را در نمودار ستونی نشان دهیم.
برای به دست آوردن نمودار ستونی دسته بندی شده (Clusterd bar charts) ابتدا از منوها موارد زیر را انتخاب می کنیم.

Analyze > Descriptive statistics > crosstabs  


کادر گفتگوی crosstabs باز می شود و مانند شکل زیر در قسمت سطر (Rows) متغیر درآمد inccat و در قسمت ستون (columns) متغیر مالکیت دستگاه دیجیتالی ownpda را وارد کرده و گزینه Display clustered bar charts را فعال می کنیم.

رسم نمودار برای جدول متقاطع در نرم افزار spss

شکل زیر به دست می آید.

رسم نمودار برای جدول متقاطع در نرم افزار spss

با توجه به اینکه تعداد نمونه ها در گروه های مختلف درآمد برابر نیستند بنابراین مقایسه طول ستون ها در گروه های مختلف درامد امکان پذیر نیست. 
هدف اصلی این نمودار مقایسه طول ستونها در هر دسته و بررسی وجود الگو در دسته های مختلف است بنابراین نیاز است نموداری به دست اوریم که بر حسب درصد بیان شده باشد.
نمودارهای ستونی پشته شده:
در نمودارهای ستونی دسته بندی شده می توان ستون ها را بر روی هم قرار داد که نتیجه آن نمودار ستونی پشته شده (stack) است.
به طور ایده آل می خواهیم تمام ستونها طول برابری داشته باشند تا بتوانیم به سادگی نواحی مختلف ستون ها را با هم مقایسه کنیم. در حقیقت نموداری می خواهیم که محور عمودی بر حسب درصد باشد و تمام ستون ها به صورت 100 درصد نشان داده شوند.

رسم نمودار برای جدول متقاطع در نرم افزار spss

همان طور که از شکل فوق مشخص است با افزایش درآمد مالکیت نیز افزایش یافته است
برای به دست آوردن نمودار ستونی پشته شده از منوها موارد زیر را انتخاب می کنیم.

Graphs > legacy Dialogs > Bar  


در کادر گفتگوی Bar charts شکل زیر گزینه Bar stackd را انتخاب و بر گزینه Define کلیک می کنیم.

رسم نمودار برای جدول متقاطع در نرم افزار spss

در کادر گفتگوی Define Stacked Bar شکل زیر در قسمت Bar represent گزینه % of cases را فعال کرده و در قسمت Catgory Axis متغیر inccat و در قسمت Define clusterd by متغیر Ownpda را وارد و بر گزینه ok کلیک می کنیم.

رسم نمودار برای جدول متقاطع در نرم افزار spss

برای به دست نمودار به صورت شکل فوق در پنجره خروجی بر روی نمودار دو بار کلیک کرده و پس از وارد شدن به پنجره ویرایشگر موارد زیر را انتخاب می کنیم.

options > Scale to 100%

مقیاس های اندازه گیری

یکی از مشخصات داده ها ( مشاهدات) که همیشه باید به آن توجه کنیم مقیاس اندازه گیری ان ها است. مقیاس داده ها را به چهار سطح اسمی، رتبه ای، فاصله ای و نسبتی تقسیم می کنند.

مقیاس اسمی (nominal scale) تنها برای نامگذاری به کار می رود. اطلاعات با مقیاس اسمی را نمی توان به صورت معنی دار از کم به زیاد مرتب نمود.

مثال:

محل تولد، رنگ، جنسیت، گروه خونی، وضعیت تاهل مثال هایی از متغیرهای اسمی هستند.

مقیاس رتبه ای (ordinal scale) متغیرهای که مقادیر آنها تنها نشان دهنده ترتیب و ردیف می باشند دارای مقیاس رتبه ای هستند. میزان رضایت شغلی یا رتبه ی دانشجویان کلاس هر دو متغیرهایی با مقیاس رتبه ای هستند. وقتی با یک متغیر رتبه ای سرکار داریم اطلاعاتی که اعداد آن در اختیار ما قرار می دهند محدودیت هایی دارد برای مثال نمی توانیم بگوییم کسی که رتبه آن در کلاس 1 است دو برابر بیشتر از کسی که رتبه 2 دارد نمره گرفته است یا قوی تر است. تنها چیزی که می توانیم بگوییم این است که یکی از دیگری قوی تر است.

فاصله بین مقادیر معنی دار نیست یعنی نمی توانیم بگوییم کسی که رتبه ان 2 است به همان اندازه از کسی که رتبه آن 3 است قوی تراست که کسی که رتبه آن 1 است از 2 قوی تر است.

مقیاس نسبتی (ratio scale):
اگر درامد سالانه افراد را به صورت دقیقی اندازه گیری نماییم مقیاس اندازه گیری را مقیاس نسبتی می نامیم. 
در این حالت می توانیم بگوییم: 
یک مقدار در مقایسه با مقدار دیگر چقدر کوچکتر یا بزرگتر است. 
فاصله بین مقادیر معنی دار است.
برای مثال فاصله بین درآمد 10000 تا 30000 ریال همان مقداری است که فاصله بین 70000 تا 90000 ریال می باشد. همچنین می توانیم
نسبت بین دو مقدار را به صورت صحیحی محاسبه کنیم.
یک درآمد 50000 ریالی دو برابر یک درامد 25000 ریالی است. سن و سنوات تحصیلی هر دو مثال هایی از متغیرهایی با مقیاس اندازه گیری نسبتی هستند.

مقیاس فاصله ای(interval scale) درست شبیه مقیاس نسبتی است با این تفاوت که صفر مطلق ندارد. یعنی در مقیاس فاصله ای نمی توان نسبت بین دو مقدار را محاسبه نمود یک مثال برای مقیاس فاصله ای متغیر درجه حرارت می باشد. روزی که درجه حرارت 40 درجه است نمی توانیم بگوییم دو برابر روزی که درجه حرارت 20 درجه است هوا گرم تر است. ولی فاصله 10 درجه تا 20 درجه همان فاصله 30 درجه تا 40 درجه است.

تعداد متغیرهای فاصله ای بسیار محدود است و تفاوت بین متغیرهای فاصله ای و نسبتی در آنالیز های آماری به ندرت اهمیت دارد ( اگر اصلا اهمیتی داشته باشد)

نکته:

مقیاس اندازه گیری متغیر تعین کننده نوع آنالیز آماری است که می توانیم انجام دهیم. با توجه به اینکه ما همواره داده های خود را به صورت کد بندی (عدد) وارد کامپیوتر می نماییم. بنابراین به کمک نرم افزار ها می توانیم اعداد بی معنایی را محاسبه نماییم، مانند صدک برای محل تولد یا میانه برای رنگ اتومبیل؛ در نتیجه همواره باید به مقیاس اندازه گیری متغیر مورد بررسی توجه شود و مطمئن شویم که آنالیز داده ها معقول است.

متغیرهای کیفی و متغیرهای کمی

متغیرها را می توان به دو گروه متغیرهای کیفی و متغیرهای کمی تقسیم نمود.

متغیرهای کیفی متغیرهای هستند که بیان کننده حالت و کیفیت می باشند و شامل متغیرهای اسمی و رتبه ای است.

متغیرهای کمی متغیرهای هستند که بیان کننده کمیت و اندازه می باشند و می توان آنها را به دسته گسسته و پیوسته تقسیم نمود.

متغیرهای گسسته: متغیرهایی که فقط قابل شمارش هستند، متغیرهای گسسته می گوییم.

مثال:

تعداد فرزندان، تعداد دندان های پوسیده، تعداد تماس های ناموفق.

متغیرهای پیوسته: متغیرهایی که اندازه پذیرند و مقادیر آنها در فاصله ای از اعداد حقیقی قرار دارد متغیرهای پیوسته می گوییم.

مثال:

دمای هوا، مدت زمان تولید یک قطعه، وزن یک کالا.

نوع متغیر با توجه به ماهیتی که در زمان جمع آوری داده ها برای ان قائل می شویم تعین می شود به عنوان مثال درآمد افراد یک متغیر کمی است ولی اگر زمان جمع آوری اطلاعات درآمد را به گروه های مختلف تقسیم نماییم و افراد را بر اساس متغیر جدید اندازه گیره نماییم دیگر متغیر حاصل کمی نیست. 
در آمد شما در کدام یک از گروه های زیر قرار دارد

زیر 50 هزار ریال     بین 50 تا 100 هزار ریال  
بالای 100 هزار ریال

 

نکته کاربردی:

بهتر است صفت هایی که ذاتا به صورت کمی هستند را به صورت کمی جمع آوری نماییم زیرا در صورت نیاز به راحتی می توانیم آن ها را گروه بندی نماییم ولی اگر به صورت دسته بندی جمع آوری نمودیم تبدیل آنها به صورت کمی غیر ممکن است.

به عنوان نمونه در مثال بالا اگر شخصی گزینه 2 را انتخاب نماید (بین 50 تا 100 هزار ریال ) ما دقیقا نمی دانیم درآمد او چقدر است. حال اگر یکی از اهداف تحقیق محاسبه میانگین درامد افراد جامعه باشد به صورت دقیق نمی توانیم این میزان را محاسبه نماییم ( به صورت تقریبی می توان محاسبه نمود) ولی اگر داده ها به صورت کمی جمع آوری شود مقدار دقیق ان قابل محاسبه است.

نکته کاربردی:

در بعضی مواقع به علت محرمانه بودن یا شکل خاص سوال باید سوال به نحوی پرسیده شود که شخص بدون هیچ واهمه و ترسی به سوالات پاسخ گوید.

به عنوان نمونه پرسیدن سن افراد همواره یکی از مشکلات تحلیلگران بوده است زیرا:

  • بعضی از افراد سن واقعی خود را بیان نمی کنند
  • با توجه به گذشت سریع زمان معمولا افراد سن خود را به روز نمی کنند و ممکن است چند سال اختلاف بین سن بیان شده و سن واقعی افراد وجود داشته باشد

 

در چنین مواقعی سوالات باید به گونه ای پرسیده شود که شخص بدون هیچ گونه واکنشی به سوال پاسخ بدهد به عنوان نمونه در سوال فوق می توانیم به جای سن افراد سال تولد افراد را مورد پرسش قرار دهیم و خود در هنگام آنالیز داده ها سن افراد را محاسبه نماییم به این صورت ما به مطلوب خود رسیده ایم و نوع متغیر نیز تغیر نکرده است.

اطلاعات نامعلوم یا مقادیر گمشده (missing value)

هنگامی که به جمع آوری اطلاعات به خصوص از طریق پرسشنامه می پردازیم ممکن است بعضی از سوالات بدون پاسخ رها شده باشد در این مواقع چه برخوردی باید با این موارد نمود آیا می توانیم به راحتی آن ها را نادیده گرفته و به تجزیه و تحلیل داده های موجود بپردازیم؟

مثال:

مطالعه ای در مورد میزان رضایت کارمندان در میان 100 کارمند انجام میدهیم و مشاهده می کنیم که 55 نفر آنها راضی، 4 نفر ناراضی و 41 نفر از پاسخ دادن خودداری می کنند.

  • اگر کلیه مقادیر را در نظر بگیریم 55 درصد کارمندان از وضعیت موجود راضی هستند.
  • اگر مقادیر نامعلوم را کنار بگذاریم 93 درصد کارمندان از وضعیت موجود راضی هستند.

به نظر شما کدام نتیجه صحیح است؟

متاسفانه نمی توان فهمید ممکن است کارمندان راضی باشند ولی دوست نداشته باشند پاسخ بدهند. همچنین ممکن است که تقریبا نیمی از کارمندان ناراضی باشند اما از بیان نارضایتی خود بیمناک باشند.

هنگامی که مشاهدات ما به دلیل عدم پاسخگویی شرکت کنندگان دارای مقادیر نامعلوم زیادی است نتیجه گیری صحیح را اگر غیر ممکن نسازد بسیار سخت می کند.

بنابراین نیاز است همواره در خروجی ها و گزارشات ارائه شده خود مقادیر داده های نامعلوم را نیز گزارش نمائیم.

آزمون علامت (آزمون آماری ناپارامتری مقایسه دو گروه وابسته)

در بسیاری از تحقیقات آزمایشی مایل به ارزیابی وضعیت یک متغیر در حالات متفاوت می با شیم. مانند ارزیابی میزان مسئولیت پذیری افراد قبل و بعد از یک دوره ی آموزشی. اینچنین نمونه هایی در آمار، نمونه های وابسته نامیده می شوند. حال این متغیر(مسئولیت پذیری) می تواند در دو یا چند وضعیت مورد ارزیابی قرار گیرد.بر این اساس آزمون های آماری ناپارامتری مربوط به نمونه های وابسته به دو دسته کلی تقسیم می شوند : آزمون های آماری مربوط به دو گروه وابسته و آزمون های آماری مربوط به چند گروه وابسته. آزمون هایی مانند آزمون علامت، آزمون ویلکاکسون و آزمون مک نمار برای مقایسه دو گروه وابسته مورد استفاده قرار می گیرند.
در این مطلب به معرفی آزمون علامت می پردازیم :

آزمون علامت

مانند دیگر آزمون های ناپارامتری در مورد آزمون علامت نیز هیچ محدودیتی راجع به نوع توزیع متغیر مورد نظر وجود ندارد. اما مقادیر متغیر مورد نظر باید پیوستگی داشته و مقیاس آن از نوع ترتیبی باشد. بعبارت دیگر اجرای این آزمون برای متغیرهایی که دارای مقوله های محدودی هستند امکان پذیر نیست.
در این آزمون نمره ی هر فرد در دو حالت در نظر گرفته می شود، اگر نمره ی اولیه فرد بیشتر از نمره فرد در وضعیت دوم باشد به آن نمونه علامت «-» داده می شود و در صورتی که نمره ی اولیه کمتر از نمره دوم باشد علامت «+» به آن نمونه اختصاص می یابد. در صورتیکه نمره فرد در دو وضعیت برابر باشد آن نمونه را از محاسبات آزمون حذف می نماییم.

به این ترتیب اگر تعداد علامت های مثبت و منفی برابر باشد، می توان نتیجه گرفت که گرایش مشخصی در افزایش یا کاهش نمره ها در دو وضعیت وجود ندارد. اما اگر تعداد مثبت ها بیشتر باشد به این معنی است که سطح نمرات در وضعیت دوم بهتر از وضعیت اول است و نهایتاً اگر نمرات منفی بیشتر باشد می توان بیشتر بودن نمرات در وضعیت اول را نتیجه گرفت.

برای مثال فرض کنید نمره اطلاعات عمومی افراد در دو وضعیت قبل و بعد از شرکت در یک دوره آموزشی اندازه گیری شده باشد. می خواهیم بدانیم آیا دوره آموزشی سطح اطلاعات عمومی افراد را افزایش داده است یا خیر؟

آزمون علامت





آماره ی آزمون معرفی شده برای بررسی مقایسه نمرات افراد در دو وضعیت به صورت زیر می باشد :

آزمون علامت

 

در این رابطه n تعداد کل افراد نمونه بوده و x فراوانی نشانه های مورد نظر محقق است (با توجه به فرضیه مورد آزمون). در صورتیکه حجم نمونه کم باشد از احتمال های تجمعی توزیع دو جمله ای برای قضاوت درباره آماره آزمون استفاده می شود. اما اگر حجم نمونه زیاد باشد تقریب توزیع نرمال برای این منظور کاربرد دارد.

منبع : آمار ناپارامتریک ، نوشته سید یعقوب حسینی ، انتشارات دانشگاه علامه طباطبایی.

آزمون ویلکاکسون (آزمون آماری ناپارامتری مقایسه دو گروه وابسته)

زمانی که در یک تحقیق هدف مقایسه یک متغیر در دو وضعیت متفاوت باشد و در صورت عدم برقراری فرض نرمال بودن نمونه می توان از آزمون های ناپارامتری مانند آزمون علامت، آزمون ویلکاکسون و آزمون مک نمار برای مقایسه دو گروه وابسته استفاده نمود.در این مطلب به معرفی آزمون ویلکاکسون پرداخته می شود. در آزمون ویلکاکسون نیز مانند آزمون علامت الزامی در مورد نوع توزیع متغیر مورد نظر وجود ندارد اما مقادیر متغیر مورد نظر باید پیوستگی داشته و مقیاس آن از نوع ترتیبی باشد. بعبارت دیگر اجرای این آزمون برای متغیرهایی که دارای مقوله های محدودی هستند امکان پذیر نیست.

توجه : در آزمون علامت تنها علائم مثبت ومنفی به کار گرفته می شود در حالیکه یک واحد ممکن است 1 واحد اختلاف داشته باشد و واحد دیگر 10 واحد. آزمون ویلکاکسون علاوه بر در نظر گرفتن مثبت یا منفی بودن داده ها، مقدار تفاوت آن ها را نیز در نظر می گیرد و چون اطلاعات بیشتری را مورد استفاده قرار می دهد نتایج دقیقتری از آزمون علامت ارائه می دهد.به مثال زیر توجه کنید :

مثال :فرض کنید نمره اطلاعات عمومی افراد در دو وضعیت قبل و بعد از شرکت در یک دوره آموزشی اندازه گیری شده باشد. می خواهیم بدانیم آیا دوره آموزشی سطح اطلاعات عمومی افراد را افزایش داده است یا خیر؟

آزمون ویلکاکسون

 

در این جدول ابتدا تفاوت بین نمرات حساب شده و سپس قدر مطلق این تفاوت ها مبتای محاسبه رتبه قرار داده شده است. فرد شماره 3 و 5 با داشتن تفاوت نمره 0.5 کمترین تفاوت را در بین نمونه ها دارند و بنابراین میانگین رتبه های 1 و 2 (1.5) به این دو تعلق می گیرد و به همین ترتیب سایر نمونه ها نیز رتبه بندی می شوند. حال محقق می تواند با توجه به زوج هایی که افزایش نمره و یا کاهش نمره داشته اند به جمع رتبه ها پرداخته و از آماره زیر برای آزمون مورد نظر استفاده نمود.

آزمون ویلکاکسون

 

nحجم نمونه مورد استفاده و Tمجموع رتبه های افرادی است که افزایش نمره (یا کاهش نمره) داشته اند.

آماره ی حاصل با توجه به یک طرفه یا دوطرفه بودن فرض مقابلمورد بررسی قرار می گیرد.در صورتی که حجم نمونه ها کوچک باشد این آماره با مقدار حاصل از جدول ویلکاکسون مقایسه می شود و در صورت بزرگ بودن حجم نمونه از توزیع نرمال برای رد یا پذیرش فرض صفر استفاده می نماییم.

نکته :
1. مقدار حاصل از آماره ویلکاکسون به ازای استفاده از مجموع رتبه های مثبت یا منفی برابر می باشد و تنها تفاوت این آماره ها در علامت آن ها است. (مقدار آماره به ازای رتبه های منفی دارای علامت منفی است).
2. در محاسبه nحجم نمونه تعداد افرادی که نمره ثابتی در دو وضعیت داشته اند از حجم کل نمونه حذف می شوند.

منبع : آمار ناپارامتریک ، نوشته سید یعقوب حسینی ، انتشارات دانشگاه علامه طباطبایی.