پژوهش user869

سه‌شنبه 28 شهریور 1396 ساعت 06:36
جدول-5: نتایج شبیهسازی برای سه روش موردنظر با 20=λ و 1=σ و 10000=n33جدول-6: نتایج شبیهسازی برای سه روش موردنظر با 20=λ و 3=σ و 10000=n34فهرست نمودارها عنوان صفحه نمودار1: 459 داده مربوط به حقوق استادان آمار آمریکا به عنوان تابعی […]

پژوهش user869

مقدمه
رگرسیون (regression) در قلب آمار جای دارد. رگرسیون کمترین مربعات عادی (ordinary least square regression) (OLSR) میانگین متغیر پاسخ (response) را به عنوان تابعی از متغیرهای پیشبینیکننده (predictors)، برآورد میکند. رگرسیون کمترین انحراف قدرمطلق (least absolute deviation regression) (LADR)، تابع میانهی شرطی (به شرط متغیرهای پیشبینیکننده) را به عنوان تابعی از متغیرهای پیشبینیکننده، برآورد میکند. رگرسیون کمترین انحراف قدرمطلق، نسبت به مشاهدات پرت، پایاتر از رگرسیون کمترین مربعات است. Koenker و Bassett در سال 1978 ایدهی مربوط به رگرسیون کمترین انحراف قدر مطلق را تعمیم دادند و رگرسیون چندکی (quantile regression) را مطرح کردند. رگرسیون چندکی، توابع چندکی شرطی (به شرط متغیرهای پیشبینیکننده) را به عنوان توابعی از متغیرهای پیشبینیکننده، برآورد میکند. رگرسیون چندکی اطلاعات بیشتری از توزیع شرطی متغیر پاسخ ارائه میدهد و رگرسیون کمترین انحراف قدر مطلق را به عنوان یک حالت خاص در بر میگیرد. رگرسیون چندکی پس از معرفی توجه زیادی را به خود جلب کرده است و در زمینههای گوناگون به کار برده شده است از جمله: اقتصاد (Koenker و Hendricks (1992)، Koenker و Hallock (2001))، آنالیز بقاء (Yang (1999)، Koenker و Geling (2001)) مطالعات ریزآرایه (microarray) (Wang و He (2007) )، نمودار رشد (Wei و همکاران (2006)، Wei و He (2006)).
1-1- تاریخچه
انتخاب متغیر (variable selection) نقش اساسی در فرآیند ساختمان مدل ایفا میکند. در عمل، به طور معمول تعداد زیادی متغیر پیشبینیکنندهی کاندید وجود دارد. این متغیرها در مرحلهی ابتدائی مدلبندی، به حساب آورده میشوند. همان طور که Fan و Li در سال 2001 مورد بررسی قرار دادند این کار به سبب جلوگیری از انحراف از مدل اصلی صورت میگیرد (اگر تعداد متغیرهای پیشبینیکنندهی کمتری از آنچه در واقعیت وجود دارد، در مدلبندی در نظر بگیریم، برآوردهای اریب حاصل میشوند). اما نگه داشتن متغیرهای بیربط در مدل نهایی، نامطلوب است. چون این کار تفسیر مدل نهایی را مشکل مینماید و ممکن است قدرت پیشبینی آن را کاهش دهد. به این دلیل آماردانان معمولأ از روش انتخاب بهترین زیرمجموعه (best-subset selection) برای انتخاب متغیر استفاده میکنند. با این حال به روش انتخاب بهترین زیرمجموعه چند اشکال وارد است. شدیدترین آنها همانطور که Breiman در سال 1996 مورد بررسی قرار داد، عدم پایایی (stability) است. منظور از پایایی در این زمینه، این است که با تغییر اندک در متغیرهای پیشبینیکننده، در انتخاب بهترین زیرمجموعه تغییر زیادی صورت نگیرد. دیگر اینکه زمانی که تعداد متغیرها زیاد است از نظر محاسباتی غیر عملی است. انتخاب گام به گام (stepwise-selection) جانشین محاسباتی برای انتخاب بهترین زیر مجموعه است. معذلک، انتخاب گام به گام بسیار متغیر است و اغلب اوقات به جواب بهینهی موضعی میانجامد. به علاوه همانطور که Fan و Li در سال 2001 و همچنین Shen و Ye در سال 2002 مورد بررسی قراردادند، این دستورالعملهای انتخاب، خطای تصادفی را در مرحلهی انتخاب متغیر در نظر نمیگیرند.
برای انجام انتخاب متغیر، تاوانهای (penalties) گوناگونی معرفی شدهاند. تاوان L1 که در LASSO مورد استفاده قرار میگیرد، توسط Tibshirani در سال 1990 برای رسیدن به انتخاب متغیر معرفی شد. Fan و Li در سال 2001 یک روش متحد از طریق رگرسیون کمترین مربعات غیر مقعر، پیشنهاد کردند که بهطور همزمان عمل انتخاب متغیر و برآورد پارامترها را انجام میدهد. این روش، جواب تنک (sparse) تولید میکند، پایایی انتخاب متغیر را تضمین میکند، و برآوردهای نااریب برای ضرائب بزرگ ارائه میدهد. منظور از جواب تنک، ارائه برآورد صفر برای ضرائبی است که در واقعیت، تأثیرگذار نیستند. این سه خاصیت پسندیده یک تاوان خوب است که توسط Fan و Li در سال 2001 مورد بررسی قرار گرفت. یک نمونه از تاوان غیر محدب، تابع انحراف قدرمطلق به طور هموار بریده شده (smoothly clipped absolute deviation) (SCAD) است که اولین بار توسط Fan در سال 1997 معرفی شد، و سپس توسط Fan و Li در سال 2001 مورد مطالعه بیشتر قرار گرفت تا خواص پیشگویی (oracle properties) آن در زمینه درستنمایی تاوانیده (penalized likelihood) نشان داده شود. پس از آن، یک سری مقالات توسط Fan و Li در سال 2002 و 2004، Fan و Peng در سال 2004، Hunter و Li در سال 2005 نوشته شده و خواص دیگر آن مورد مطالعه قرار گرفته و الگوریتمهای جدیدی ارائه شده است.
Zou در سال 2006 با به کار بردن وزنهای انطباقی برای تاوانیدن ضرائب مختلف، در تاوان LASSO، تاوان LASSO انطباقی (adaptive-LASSO) را معرفی کرد و خواص پیشگویی آن را نشان داد. نتایج مشابه در مقالههایی که توسط Yuan و Lin در سال 2007، Zhao و Yu در سال 2006 نوشته شده است، ساخته شد. Zhang و Lu در سال 2007 LASSO انطباقی را در مدلهای خطر متناسب (proportional hazard models) مورد مطالعه قرار دادند. Candes و Tao در سال 2007 همچنین Fan و Lv در سال 2006 انتخاب متغیر را در زمینههایی که از نظر بعدی بزرگتر از اندازه نمونه هستند، مورد مطالعه قرار دادند. Koenker در سال 2004 تاوان LASSO را برای مدل رگرسیون چندکی با اثرات آمیخته (mixed-effect quantile regression model) برای دادههای طولی به کار برد. Li و Zhu در سال 2005 راه حلی برای رگرسیون چندکی L1 تاوانیده شده (L1 penalized quantile regression) ارائه کردند. Wang، Li و Jiang در سال 2007 رگرسیون کمترین انحراف قدر مطلق را با تاوان LASSO انطباقی در نظر گرفتند.
در این پایاننامه به انتخاب متغیر در رگرسیون چندکی تاوانیده میپردازیم. توجه داشته باشید تابع زیانی که در رگرسیون چندکی مورد استفاده قرار میگیرد در مبدأ مشتقپذیر نیست، در نتیجه خواص پیشگویی کلی برای درستنمایی تاوانیده غیر مقعر که توسط Fan و Li در سال 2001 مورد مطالعه قرار گرفت، به طور مستقیم قابل اجرا نیست. در این پایاننامه خواص پیشگویی تاوانهای SCAD و LASSO انطباقی در زمینهی رگرسیون چندکی تاوانیده، که شامل رگرسیون کمترین انحراف قدرمطلق به عنوان یک حالت خاص میباشد، تعمیم داده میشود.
فصل دوم

رگرسیون چندکی
2-1- چندکها وچندکهای شرطیاصطلاح صدک (percentile) مترادف با چندک (quantile) است. معروفترین چندک، میانه median)) است. میانهی جمعیت، عددی است که توزیع را به دو قسمت مساوی تقسیم میکند. به این معنی که برای متغیر تصادفی Y میانه عددی است مانند m که در شرط
PY≥m≥12 and PY≤m≥12صدق میکند. اگر متغیر تصادفی Yپیوسته باشد، آنگاه میانه جواب معادلهیFm=12است که در آن Fy تابع توزیع تجمعی (cumulative distribution function) متغیر تصادفی Y است.
در بسیاری موارد میانه معرف بهتری از مرکز جامعه است تا میانگین (mean). به عنوان مثال توزیع متغیر حقوق را در نظر بگیرید. این توزیع، چوله به سمت راست است، زیرا معمولاً، به طور نسبی، تعداد کمی از افراد حقوق زیاد دریافت میکنند. در نتیجه، میانه معیار مناسبتری برای میزان تمرکز توزیع حقوق نسبت به میانگین، ارائه میدهد.
به غیر از میانه، چارکها (quartiles)، چندکهای مفید دیگری میباشند که توزیع Y را به چهار قسمت تقسیم میکنند. چارک اول (q0.25) و چارک سوم (q0.75) با روابط زیر تعریف میشوند:PY≤q0.25≥0.25 and PY≥q0.25≥0.75PY≤q0.75≥0.75 and PY≥q0.75≥0.25دهکها (deciles) نیز چندکهای مفید دیگری میباشند که توزیع Y را به ده قسمت تقسیم میکنند. دهکها q0.1,q0.2,…,q0.9)) با روابط زیر تعریف میشوند:
PY≤q0.1≥0.1PY≥q0.1≥0.9 , PY≤q0.2≥0.2PY≥qo.2≥0.8 , … , PY≤q0.9≥0.9PY≥q0.9≥0.1 به طور کلی برای نسبت p، 0<p<1 چندک pام (p-th quantile) که آن را با qp نشان میدهیم از رابطهی
PY≤qp≥p PY≥qp≥1-pبه دست میآید. در حالت پیوسته qp جواب معادلهی Fqp=p است.
شبیه به میانگین شرطی ((conditional mean، چندکهای شرطی (conditional quantiles) را نیز می توان با استفاده از تابع توزیع شرطی تعریف کرد. این چندکها در مطالعهی روابط بین متغیرها مفید هستند. در چنین حالتی، چندکهای Y که به مقدار متغیر پیشبینیکننده X بستگی دارند، با qp(x) نشان داده می شوند که از رابطهی
PY≤qp(x) X=x≥p PY≥qp(x) X=x≥1-pبه دست میآیند.
2-2- از رگرسیون میانگین تا رگرسیون چندکی
رگرسیون برای مطالعهی رابطهی بین متغیر پاسخ Y و یک یا تعدادی متغیر پیشبینیکننده X به کار میرود. در رگرسیون عادی، میانگین شرطی μx=EYX=x بر حسب x مدلبندی میشود. به عنوان مثال در مدل رگرسیون ساده فرض میشود:
μx=α+βxرگرسیون چندکی، چندکهای شرطی qp(x)را بر حسب x مدلبندی میکند. رگرسیون چندکی برای چندکهای مختلف، تصویرکاملتری نسبت به رگرسیون میانگین ارائه میدهد.
مدلبندی چندکها نسبت به مشاهدات پرت، پایاتر (robust) از مدلبندی میانگین است. به علاوه تجزیه و تحلیل اثر متغیرهای پیشبینیکننده روی چندک های مختلف متغیر پاسخ، تصویر آشکارتری از رابطهی متغیر پاسخ با متغیرهای پیشبینیکننده ارائه میدهد. به ویژه در بسیاری از موارد، توجه، علاوه بر مرکز توزیع، روی اثر متغیرهای پیش بینی کننده بر دنباله توزیع است.
برای این که مطلب بهتر نشان داده شود مثال زیر را در نظر بگیرید:
مثال: برای این که رابطهی بین درآمد استادان دانشگاه و تعداد سالهایی که آنها به عنوان استاد مشغول به کار بودند مشخص شود، 459 داده مربوط به حقوق استادان آمار آمریکا و تعداد سالهایی که هر کدام به عنوان استاد بین سالهای 1980 تا 1990، مشغول به کار بودهاند جمعآوری شده است. مدل رگرسیونی خطی استاندارد برای این دادهها به صورت زیر است :
Y=α+βx+εکه Y میزان درآمد، x تعداد سالهای استاد بودن و εخطای مدل است. فرض می شود خطاها مستقل هستند و توزیع نرمال دارند. با توجه به نمودار پراکندگی دادهها، به نظر می رسد مناسبتر است از مدل های پیچیدهتری مانند مدلهای رگرسیونی چندجملهای استفاده شود. در نمودار 1، دادهها به همراه بهترین نمودار رگرسیونی درجه دوم
Y=α+βx+γx2+εرسم شده است.
درآمد
تعداد سال های استاد بودن

نمودار 2: 459 داده مربوط به حقوق استادان آمار آمریکا به عنوان تابعی از سالهای استادی، به همراه سه نمودار رگرسیونی چندکی
نمودارهای حاصل را نمودارهای رگرسیون چندکی (quantile regression curves) گویند. این نمودارها را به چند طریق میتوان هموار (smooth) کرد. توجه کنید که با رسم این نمودارها تغییر در میزان حقوق بهتر نشان داده شده است.
2-3- از برآورد کمترین مربعات تا check function
مدل رگرسیونی ساده y=xTβ+εرا در نظر بگیرید. بردار پارامتر β معمولاً با در نظر گرفتن تابع زیان درجه دوم ru=u2 برآورد میشود. به این معنی که برای مجموعه دادههای xi,yii=1nبرآوردیابی از طریق مینیمم کردن i=1nryi-xiTβ=i=1nyi-xiTβ2 روی β، انجام میپذیرد.
در رگرسیون میانگین، به برآورد امید شرطی EYX=x علاقهمندیم. زیرا این امید شرطی مقدار θای است که امید تابع زیان EY-θ2X=x که i=1nryi-xiTβ مقدار نمونهای آن است، را مینیمم میکند. به طور مشابه رگرسیون میانهای، میانهی شرطی Y به شرط X=x را برآورد میکند و با مینمم کردن E|Y-θ|X=x روی θ مرتبط است. تابع زیان مربوطه |u| است. با این حال، راحتتر است که تابع زیان را ρ.5=.5|u| در نظر گرفت. برآوردیابی از طریق مینیمم کردن
i=1nρ.5yi-xiTβروی β، انجام میپذیرد. ρ.5u را به صورت
ρ.5u=.5uI(0,∞)(u)-1-.5uI(-∞,0]uمیتوان بازنویسی کرد. جائی که IAu تابع نشانگر معمولی روی مجموعهی A است. این تعریف با جایگذاری 0<p<1 به جای .5 تعمیم پیدا میکند:
ρpu=puI(0,∞)(u)-1-puI(-∞,0]u : check function
چندک pام ، مقدار θای است که EρpY-θ را مینیمم میکند. رگرسیون چندکی، چندکهای شرطی Y به شرط X=x را برآورد میکند و با مینیمم کردن EρpY-θX=x روی θ بدست میآید. (Keming Yu,Zudi Lu and Julian Stander,2003)
2-4- از توزیعهای شرطی چوله تا رگرسیون چندکی
نمودار 3 وزن در برابر سن،4011 دختر آمریکایی را نشان میدهد.
سن
وزن

نمودار 3: وزن در برابر سن 4011 دختر آمریکایی
به صورت شهودی، نمودار 4 یک تصویر مناسب از رابطهی بین سن و وزن نشان میدهد. این نمودار شامل چندین نمودار رگرسیون چندکی هموار شده بر پایهی p برابر با 03/0، 1/0،25/0، 5/0، 75/0، 9/0 و 97/0 است.
سن
وزن

نمودار4: وزن در برابر سن 4011 دختر آمریکایی به همراه هفت نمودار رگرسیونی چندکی
از این نمودارها به نظر میرسد که توزیع شرطی چوله به سمت راست است. لذا استفاده از رگرسیون میانگین مناسب نمیباشد و نمودار میانه، برای نمایش تمرکز دادهها مناسبتر است. از طرفی با در دست داشتن نمودارهای رگرسیونی چندکی میتوان به رابطهی بین وزن و سن برای افراد چاق ولاغر پی برد. مسئلهای که در بسیاری موارد مورد نظر است.
نکته: فرض کنید خطاهای مدل از توزیع نرمال با میانگین صفر و انحراف استاندارد معلوم σ، پیروی کنند، آنگاه ماکزیمم کردن تابع درستنمائی بر حسب β، برآورد کمترین مربعات خطا را نتیجه میدهد. اگر فرض شود که خطای مدل (ε)، دارای تابع چگالی احتمال به فرم
fε∝ e-ρpεبا ρp ذکر شده باشد، در این صورت ماکزیمم کردن تابع درستنمائی مربوطه، معادل با مینیمم کردن function check است. در حقیقت یک چگالی احتمال استاندارد وجود دارد که چگالی لاپلاس نامتقارن نامیده میشود و فرم fε=p1-pe-ρp(ε) را دارد.
2-5- روش برآوردیابی
مدل رگرسیون چندکی پارامتری
معمولاً برای تعیین رابطهی بین متغیر پاسخ Y و متغیرهای پیشبینیکننده x، فرض میشود که EYX=x توسط یک ترکیب خطی ساده xTβ میتواند مدلبندی شود. به طور مشابه، مدل رگرسیونی چندکی ابتدائی، ارتباط خطی چندکهای شرطی Y به ازای x را تعیین میکند. به بیان دیگر رابطهی بین چندکهای %p100 متغیر Y و متغیرهای پیشبینیکننده x، توسط qp(x)=xTβ بیان میشود.
با توجه به مجموعه دادههای xi,yii=1n، پارامتر β از طریق مینیمم کردن
i=1nρpyi-xiTβبرآورد میشود.
جواب صریح برای ضرائب رگرسیونی تحت این مدل رگرسیونی چندکی پارامتری وجود ندارد. چون check function در مبدا مشتقپذیر نیست. Koenker and D’Orey در سال 1987 الگوریتمی برای مینیمم کردن این تابع ارائه کردند. برنامههای مورد نیاز در S-PLUS و R موجود میباشد. در R دستور مورد نظر rq، rqs و rq.process و package مورد نظر، quantreg میباشد.
تئوری کلاسیک، فقط برای مدلبندی امیدهای شرطی به کار می رود. در حالی که نیاز، آمار را به سوی استفاده و کاربرد رگرسیون چندکی پیش برد. رگرسیون چندکی به صورت گسترده در زمینههای کاربردی مانند پزشکی، آنالیز بقا، آمار مالی و اقتصادی، اقتصاد و ... به کار برده می شود. مدلهای رگرسیون چندکی پارامتری، نیمه پارامتری و ناپارامتری سالهاست که معرفی شدهاند و به صورت گسترده مورد استفاده قرار میگیرند و در حال پیشرفت و بهبود روشها و الگوریتمها میباشند.
فصل سوم

رگرسیون چندکی خطی تاوانیده
3-1- رگرسیون چندکی خطی تاوانیده
نمونهیxi,yi, i=1,2,…,n از یک جمعیت ناشناخته را در نظر بگیرید به طوری که xiϵRd باشد. تابع چندکی شرطی τام (th quantile function conditional τ)fτt به گونهای تعریف میشود که برای 0<τ<1 داشته باشیم:
PY≤fτXX=x=τKoenker و Bassett در سال 1978، با نامتقارن کردن تابع زیان قدرمطلق، تابع زیانی به نام check function را معرفی کردند که به صورت زیر تعریف میشود:
ρτr=τrIr(0,∞)-1-τr Ir(-∞,0]=τr r>0-1-τr otherwise آنها نشان دادند تابع چندکی شرطی τام با حل مسئله مینیممگیری زیر میتواند حل شود:
minfτϵFi=1nρτyi-fτxi(1-3)
برای پرهیز از بیش برازشی از لحاظ تعداد متغیرها و تعمیم رگرسیون چندکی به رگرسیون چندکی تاوانیده، مشابه آنچه Koenker و همکاران در سال 1994 و Koenker در سال 2004 انجام دادند حالت تاوانیده (1-3) را به صورت زیر در نظر میگیریم minfτϵFi=1nρτyi-fτxi+λJfτ(2-3)
جائی که 0 λ≥ پارامتر نظم (regularization parameter) است و Jfτ تاوان ناهمواری تابع fτ∙ را مشخص میکند.
در این پایاننامه توجه را روی رگرسیون چندکی خطی متمرکز میکنیم یعنی حالتی که:
fτx=xTβτرا در نظر میگیریم جائی که βτ=βτ,1,βτ,2,…,βτ,dT باشد. به عبارت دیگر تابع چندک شرطی، یک تابع خطی از متغیرهای پیشبینیکننده است. با تبدیل مدلهای غیر خطی به مدلهای خطی میتوان مبحث را برای حالت غیرخطی نیز داشت.
برای توابعی به فرم خطی، تعداد زیادی تابع تاوان وجود دارد: تاوان L0 (که به تاوان آنتروپی نیز معروف است) توسط Breiman در سال 1996 در روش انتخاب بهترین زیرمجموعه مورد استفاده قرار گرفت. تاوان L1 (LASSO) که توسط Tibshirani در سال 1996 مورد مطالعه قرار گرفت. تاوان L2 که در رگرسیون ستیغی (ridge) مورد استفاده قرار میگیرد و توسط Horel و Kennard در سال 1988 مورد مطالعه قرار گرفت. ترکیب تاوانهای L0 و L1 که توسط Liu و Wu در سال 2007 مورد بررسی قرار گرفت. تاوانهای (q≥0) Lq در رگرسیون پلی (bridge regression) که توسط Frank و Freidman در سال 1993 مورد بررسی قرار گرفتند.
Fan و Li در سال 2001 استدلال کردند که یک تاوان خوب باید سه خاصیت نااریبی برای ضرائب بزرگ، تنکی و پیوستگی را در برآورد خود داشته باشد. متأسفانه هیچ کدام از خانواده تاوانهای Lq این سه خاصیت را به طور همزمان ندارند. اما Fan و Li در سال 2001 نشان دادند که تاوان SCAD در زمینهی درستنمایی تاوانیده این خواص را دارد. یک تاوان دیگر که جزء دستهبندی آخر است، تاوان LASSO انطباقی است که توسط Zou در سال 2006 مورد بررسی قرار گرفت.
3-2- رگرسیون چندکی خطی تاوانیده با تاوان LASSO
LASSO روشی است که به طور همزمان انتخاب متغیر و برآوردیابی را انجام میدهد. برآورد LASSO در رگرسیون چندکی خطی به صورت زیر تعریف میشود:
βLASSO=argminβi=1nρτyi-xiTβi+λj=1dβj(3-3)
جائی که λ پارامتر نظم نامنفی است. عبارت دوم (3-3) تاوان L1 است که برای دستیابی به برآورد LASSO ضروری است. LASSO با بزرگ شدن λ، ضرائب را به طور پیوسته به سمت صفر کوچک میکند و اگر λ به اندازهی کافی بزرگ باشد مقدار دقیق بعضی از ضرائب، صفر خواهد شد.
3-3- رگرسیون چندکی خطی تاوانیده با تاوان LASSO انطباقی
LASSO انطباقی به عنوان تعمیم تاوان LASSO میتواند در نظر گرفته شود. ایدهی کار چنین است که ضرائب متغیرهای کمکی (covariates) مختلف در سطحهای مختلف با وزنهای انطباقی، تاوان داده شوند.
Zou در سال 2006 برای حالت رگرسیون کمترین مربعات پیشنهاد کرد از برآوردهای کمترین مربعات معمولی به توان عددی، به عنوان وزن استفاده شود. تعمیم مستقیم این روش برای رگرسیون چندکی این است که از برآوردهای رگرسیون چندکی ناتاوانیده (non-penalized quantile regression) به عنوان وزن استفاده شود. قرار دهید:
βτ=argminβτi=1nρτyi-xiTβiβτ برآورد سازگار برای βτ است. بنابراین رگرسیون چندکی LASSO انطباقی تاوانیده (adaptive-LASSO penalized quantile regression) عبارت زیر را بر حسب βτ مینیمم میکند:
i=1nρτyi-xiTβτ+λj=1dwjβτ,jکه در آن برای 0γ>ای که به صورت مناسب اختیار شده، برای j=1,2,…,d داریم:
wj=1βτ,jγ 3-4- رگرسیون چندکی خطی تاوانیده با تاوان SCAD
Fan و Li در سال 2001 خواص پیشگویی SCAD را در زمینهی انتخاب متغیر نشان دادند و حدس زدند که تاوان LASSO خواص پیشگویی را ندارد. این حدس، پس از آن، توسط Zou درسال 2006 تأیید شد. او LASSO انطباقی را پیشنهاد کرد و خواص پیشگویی آن را در رگرسیون کمترین مربعات تاوانیده نشان داد.
تاوان SCAD بر حسب مشتق اولش تعریف میشود و حول مبدأ متقارن است. برای 0θ>، مشتق اول آن به صورت زیر است:
pλ'θ=λIθ≤λ+aλ-θ+a-1λIθ>λ(4-3)
جایی که 2 a> و 0 λ>، پارامترهای میزانسازی هستند. توجه داشته باشید که تابع تاوان SCAD، متقارن است، روی بازهی0,∞ نامحدب است و در مبدأ مشتقپذیر نیست. یک نمونه از تابع تاوان SCAD در نمودار 5 نشان داده شده است. میتوان مشاهده کرد که حول مبدأ رفتاری شبیه به تاوان LASSO دارد که به خاصیت تنکی میانجامد. اما SCAD ضرائب بزرگ را به طور مساوی و ثابت تاوان میدهد در حالی که تاوان LASSO با افزایش مقدار ضرائب، به صورت خطی افزایش مییابد. از این طریق، تاوان SCAD برآوردهای تاوانیده نااریب را برای ضرائب بزرگ نتیجه میدهد. پس از قرار دادن تاوان SCAD در (2-3) با تابع خطی fx=xTβτ، رگرسیون چندکی SCAD تاوانیده (SCAD penalized quantile regression)، باید مسئله مینیممگیری زیر را حل کند:
minβτi=1nρτyi-xiTβτ+j=1npλβτ,j
نمودار 5: نمونهای از نمودار تابع SCAD برای7/3= a و 2= λ
نمودار 6: نمودار تابع LASSO
فصل چهارم

خواص مجانبی
4-1- خواص مجانبی (asymptotic properties)
در این بخش خواص پیشگویی رگرسیون چندکی SCAD تاوانیده و رگرسیون چندکی LASSO انطباقی تاوانیده ثابت میشود. فرض میشود که دادههای xi,yi ,i=1,…,n شامل n مشاهده از مدل خطی زیر است:
yi=xiTβ+εi=xi1Tβ1+xi2Tβ2+εi, i=1,2,…,n(1-4)
جائی که Pεi<0=τ است، و دارای شرط (i) زیر میباشد. xi=xi1T,xi2TT، β=β1T,β2TT و xi1ϵRs و xi2ϵRd-s است. ضرائب رگرسیونی حقیقی به صورت β1=β10 و β2=β20=0 و در نتیجه β0=β10T,β20TT میباشند، به طوری که هیچ یک از مؤلفههای β10، صفر نباشند. این مطلب به این معنی است که s متغییر پیشگویی اول مهم هستند در حالی که p-sتای باقیمانده، متغیرهای نوفه (noise variables) هستند.
برای نتایج تئوری، شرطهای تخصصی زیر را میگذاریم
فرض خطا: خطاهای رگرسیونی εi مستقل و همتوزیع هستند. همچنین دارای چندک τام صفر و چگالی مثبت و پیوسته f∙، اطراف صفر میباشند.

طرح xi i=1,2,…,n یک دنبالهی تعیینی (deterministic sequence) است به طوری که یک ماتریس مثبت قطعی ∑ وجود دارد به قسمی که=∑ limn→∞i=1nxixiTn .
زیر ماتریس s-بعدی از ∑ که در بالا و سمت چپ قرار دارد با ∑11 و زیر ماتریس (d-s)-بعدی از آن که در پایین و سمت راست قرار دارد با ∑22 مشخص میکنیم.
4-2- خواص مجانبی تاوان SCAD
رگرسیون چندکی SCAD تاوانیده مسئله مینیممگیری minβQβ را که در آن
Qβ=i=1nρτyi-xiTβ+nj=1dpλnβjاست، حل میکند. مشابه آنچه Fan و Li در سال 2001 نشان دادند، سازگاری برآوردگر SCAD تاوانیده شده را در قضیهی 1 زمانی که پارامتر میزانسازی λn→0 وقتی که n→∞، نشان میدهیم.
قضیه 1 (سازگاری(consistency)): نمونهی xi,yi ,i=1,…,n از مدل (1-4) که در شرایط (i) و (ii) صدق میکند در نظر بگیرید. اگر λn→0، آنگاه مینیمم موضعی β وجود دارد به طوری که =Opn-12 β-β10.
تحت شرایط بیشتر، خاصیت تنکی =0 β2 برآوردگر SCAD تاوانیده به دست میآید.
لم 1 (تنکی): نمونهی xi,yi ,i=1,…,n از مدل (1-4) که در شرایط (i) و (ii) صدق میکند در نظر بگیرید. اگر داشته باشیم λn→0 و nλn→∞ زمانی که n→∞، آنگاه برای هر β1ای که β1-β10=Opn-12 و هرC ثابت در حالت حدی (n→∞) با احتمال یک داریم:
Qβ1T, 0TT=minβ2<Cn-12Qβ1T,β2TTتوجه کنید در شرایط لم 1 داریم: λn→0 و nλn→∞ زمانی که n→∞، مفهوم این شرط این است که با بزرگ شدن n، λn کوچک شود ولی نرخ کوچک شدن λn کمتر از نرخ بزرگ شدن n باشد به گونهای که nλn→∞ زمانی که n→∞ میل میکند.
قضیهی بعدی خواص پیشگویی مجانبی را بیان میکند.
قضیهی 2 (پیشگویی): نمونهی تصادفیxi,yi ,i=1,…,n از مدل(1-4) که در شرایط (i) و (ii) صدق میکند در نظر بگیرید. اگر داشته باشیم λn→0 و nλn→∞ زمانی که n→∞، برای مینیم موضعی بر پایهی n مشاهده β=β1T,β2TT در قضیهی 1، در حالت حدی (n→∞) با احتمال یک داریم:
تنکی: β2=0و
نرمال بودن مجانبی: nβ1-β10LN0,τ1-τ∑11-1f02
که ∑11 در شرط (ii) تعریف شده است.
اثبات قضایا و لم فوق در پیوست آورده شده است.
تذکر 1: توجه داشته باشید که تفاوت اصلی بین رگرسیون چندکی تاوانیده و درستنمایی تاوانیده کلیتر، همان طور که Fan و Li در سال 2001 مورد بررسی قرار دادند، این است که در رگرسیون چندکی تاوانیده، تابع زیان check function در مبدأ مشتقپذیر نیست. برای فایق آمدن بر مشکلی که از این مشتقناپذیری به وجود میآید، لم تحدب (convexity lemma) که قبلاً توسط Pollard در سال 1991 مورد استفاده قرار گرفت، به کار برده میشود.
لم تحدب: فرض کنید hnu:uϵU یک دنباله از توابع تصادفی محدب تعریف شده روی یک زیرمجموعهی محدب و باز U از Rd باشد. همچنین فرض کنید hu یک تابع حقیقی مقدار روی U باشد به طوری که برای هر uϵU داشته باشیم hnuPhu . آنگاه برای هر زیرمجموعه فشرده k از U داریم:
supuϵkhnu-huP0تابع h∙ ضرورتاً روی U، محدب است.
4-3- خواص مجانبی تاوان LASSO انطباقی
رگرسیون چندکی adaptive-LASSO تاوانیده، مسئله مینیممگیری minβQ1β را که در آن
Q1β=i=1nρτyi-xiTβ+nλnj=1dwjβjاست، حل میکند. فرض کنید βAL جواب آن باشد.
قضیهی 3 (پیشگویی): نمونهی تصادفیxi,yi ,i=1,…,n از مدل (1-4) که در شرایط (i) و (ii) صدق میکند، در نظر بگیرید. اگر nλn→0 و nγ+12λn→∞ (0< γ) زمانی که n→∞، آنگاه:
تنکی: βAL=0
و
نرمال بودن مجانبی: nβ1AL-β10LN0,τ1-τ∑11-1f02
اثبات قضیه فوق در پیوست آورده شده است.
توجه کنید در شرایط قضیه 3 داریم: nλn→0 و nγ+12λn→∞ زمانی که n→∞ میل میکند. nλn→0 به این مفهوم است که با بزرگ شدن n، λn کوچک میشود و نرخ کوچک شدن λn بیشتر از نرخ بزرگ شدن n میباشد. از طرف دیگر nγ+12λn→∞ با توجه به اینکه nλn→0، نرخ بزرگ شدن nγ2 باید بیشتر از نرخ کوچک شدن nλn باشد.
4-4- خطاهای تصادفی مستقل و ناهمتوزیع
استتنتاجها در قضایای 2 و3 بر اساس فرض مستقل و همتوزیع بودن (i.i.d) خطاهای تصادفی بدست آمده است. میتوان نتایج پیشگویی مزبور را به حالتی که خطاهای تصادفیi.i.d. نباشند، تعمیم داد. بر اساس کاری که Knight در سال 1999 انجام داد، فرضهای زیر را در نظر میگیریم:
(الف) زمانی که n→∞، داشته باشیمmax1≤i≤nxiTxin→0 (ب) خطاهای تصادفی εiها مستقل هستند و εi دارای تابع توزیع Fit=Pεi≤t است. فرض میکنیم هر یک از Fi∙ها به طور موضعی در همسایگی صفر، خطی هستند (با شیب مثبت) و داریم .Fi0=τتعریف میکنیم ψnit=0tnFisn-Fi0ds که برای هر n و i یک تابع محدب است.
(ج) فرض میکنیم برای هر u
1ni=1nψniuTxi→ςuکه ς(∙) یک تابع اکیدأ محدب است که در فاصلهی 0,∞ مقدار میگیرد.
نتیجه 1: تحت شرایط (ii) و (الف)، قضیههای 2 و 3 برای خطاهای تصادفی که i.i.d نیستند و در شرایط (ب) و (ج) صدق میکنند، برقرار هستند.
فصل پنجم

مثال کاربردی
در این فصل، یک مثال برای نشان دادن عملکرد انتخاب متغیر، تحت یک مدل رگرسیونی خاص، بیان میکنیم. در این مثال، جملهی ثابت در مدل رگرسیونی، در نظر گرفته شده است.
دادهها از مدل خطی زیر تولید میشود:
y=xTβ+σε (1-5)
جائی که ( 0 ،0 ،0 ،2 ،0 ،0 ،5/1، 3) β= است. مؤلفههای x و ε دارای توزیع نرمال هستند. همبستگی بین xi و xj، ρi-j است که ρ، 5/0 در نظر گرفته شده است. این مدل توسط نویسندگان بسیاری در نظر گرفته شده است. Tibshirani در سال 1996، Fan و Li در سال 2001 و Zou در سال 2006 از جمله نویسندگانی هستند که این مدل را در نظر گرفتهاند.مثال. برای مقایسه عملکرد انتخاب متغیر تاوانهای L1، SCAD و adaptive-L1 دادههایی از مدل (1-5) تولید میکنیم. نتایج شبیهسازی در جدولهای 1 تا 6 آورده شده است.
در هر روش، شبیهسازی برای سه مقدار λ برابر با 1، 8 و 20 انجام شده است. در هر روش و برای هر مقدار λ، 10000 بار از مدل (1-5) با σ برابر با 1، 100 داده و 10000 بار برای σ برابر با 3، 100 داده شبیهسازی شده است.
در تاوان SCAD، مقدار پارامتر a، همانطور که Fan و Li پیشنهاد کردند 7/3 در نظر گرفته شده است. در تاوان LASSO انطباقی مقدار γ، 1 در نظر گرفته شده است.
تعداد ضرائب صفر به صورت زیر تعیین میشود:
یک برآوردگر صفر تلقی میشود اگر مقدار آن به صورت قدرمطلق، کمتر از 10-6 باشد.
میزان خطا، میانگین check loss است و check loss به صورت i=1nρτyi-xiTβ در نظر گرفته شده است.
منظور از ضرائب صفر صحیح، ضرائبی است که برآورد آنها صفر بدست آمده است و در واقعیت نیز مقدار آنها صفر میباشد. ضرائب صفر غلط ضرائبی هستند که برآورد آنها صفر بدست آمده است ولی در واقعیت مقدار آنها صفر نمیباشد.
توجه کنید که در جدولهای 1 تا 6، اعدادی که در هر ستون در پرانتز آورده شده است، انحراف معیار میباشد.
1=λ
جدول-1: نتایج شبیهسازی برای سه روش مورد نظر با 1=λ و 1=σ و 10000=nτn10000=,σ1=روش خطا صفر ضرایب تعداد میانگین صحیح غلط25/0 L1134/29 (025/0)723/2 (990/0)008/0 (09/0)SCAD 207/29 (027/0)463/2 (059/1)018/0 (136/0)Adaptive-L1344/30 (025/0) 670/4 (528/0)020/0 (140/0)
5/0 L1089/37 (029/0)708/2 (963/0)0 (0)SCAD 535/37 (03/0)462/2 (967/0) 0 (0)Adaptive-L1168/38 (03/0)393/4 (697/0)0 (0)
75/0 L1117/29 (024/)721/2 (988/0) 0 (0)SCAD 808/28 (023/) 474/2 (891/0) 0 (0)
Adaptive-L1207/30 (025/0) 488/4 (642/0) 0 (0)

جدول-2: نتایج شبیهسازی برای سه روش مورد نظر با 1=λ و 3=σ و 10000=n
τn10000=,σ3=
روش خطا صفر ضرایب تعداد میانگینصحیح غلط25/0 L1484/87 (075/0) 723/2 (992/0) 994/0 (125/0)
SCAD 777/88 (063/0) 178/2 (090/1) 000/1 (0)
Adaptive-L1178/88 (074/0) 271/3 (965/0) 996/0 (090/0)
5/0 L1211/111 (087/0) 703/2 (980/0)007/0 (084/0)SCAD 846/112 (085/0) 382/2 (045/1) 029/0 (171/0)
Adaptive-L1702/113 (089/0) 982/3 (741/0) 008/0 (088/0)
75/0 L1491/87 (074/) 701/2 (969/0) 005/0 (070/0)SCAD 926/90 (066/) 474/2 (841/0) 0 (0)
Adaptive-L1217/88 (075/0) 231/3 (068/0) 005/0 (950/0)
8=λ
جدول-3: نتایج شبیهسازی برای سه روش موردنظر با 8=λ و 1=σ و 10000=nτn10000=,σ1=
روش خطا صفر ضرایب تعداد میانگینصحیح غلط25/0 L1456/30 (026/0) 798/3 (950/0) 010/0 (101/0)
SCAD 905/29 (024/0) 264/3 (172/1) 0 (0)
Adaptive-L1789/31 (025/0) 973/4 (162/0) 424/0 (494/0)
5/0 L1281/38 (030/0) 667/3 (986/0) 0 (0)SCAD 330/37 (03/0) 390/3 (005/1) 0 (0)
Adaptive-L1036/39 (03/0) 999/4 (014/0) 0 (0)
75/0 L1500/30 (026/) 771/3 (963/0) 0 (0)
SCAD 527/29 (025/) 394/3 (080/1) 0 (0)
Adaptive-L1985/30 (026/0) 000/5 (0) 0 (0)
جدول-4: نتایج شبیهسازی برای سه روش موردنظر با 8=λ و 3=σ و 10000=n
τn10000=,σ3=
روش خطا صفر ضرایب تعداد میانگینصحیح غلط25/0 L1413/91 (078/0) 794/3 (956/0) 007/1 (149/0)
SCAD 717/90 (051/0) 400/3 (894/0) 1 (0)
Adaptive-L1460/92 (077/0) 556/4 (601/0) 004/1 (070/0)5/0 L1890/114 (091/0) 662/3 (989/0) 011/0 (107/0)SCAD 773/112 (086/0) 4030/3 (060/1) 008/0 (092/0)Adaptive-L1294/116 (092/0) 424/4 (715/0) 066/0 (249/0)
75/0 L1528/91 (077/) 797/3 (952/0) 016/0 (125/0)
SCAD 132/91 (059/) 778/3 (647/0) 0 (0)
Adaptive-L1306/91 (075/0) 375/4 (658/0) 008/0 (090/0)
20=λ
جدول-5: نتایج شبیهسازی برای سه روش موردنظر با 20=λ و 1=σ و 10000=nτn10000=,σ1=
روش خطا صفر ضرایب تعداد میانگینصحیح غلط25/0 L1243/34 (032/0) 564/4 (632/0) 063/0 (243/0)
SCAD 732/32 (029/0) 337/4 (717/0) 041/0 (119/0)
Adaptive-L1146/34 (025/0) 000/5 (0) 000/1 (0)
5/0 L1221/41 (035/0) 443/4 (699/0) 0 (0)
SCAD 936/39 (030/0) 230/4 (829/0) 0 (0)
Adaptive-L1595/40 (033/0) 000/5 (0)0 (0)
75/0 L1206/34 (033/) 561/4 (622/0) 0 (0)
SCAD 084/34 (031/) 536/4 (576/0) 0 (0)
Adaptive-L1636/32 (028/0) 000/5 (0)0 (0)
جدول-6: نتایج شبیهسازی برای سه روش موردنظر با 20=λ و 3=σ و 10000=n
τn10000=,σ3=
روش خطا صفر ضرایب تعداد میانگینصحیح غلط25/0 L1831/102 (096/0) 584/4 (615/0) 139/1 (374/0)SCAD 373/98 (103/0) 353/4 (688/0) 079/1 (337/0)
Adaptive-L1884/104 (094/0) 987/4 (111/0) 386/1 (487/0)5/0 L1414/123 (102/0) 445/4 (692/0) 052/0 (228/0)SCAD 416/121 (077/0) 308/4 (549/0) 0 (0)
Adaptive-L1992/127 (100/0) 883/4 (323/0) 090/1 (312/0)
75/0 L1613/102 (095/) 575/4 (617/0) 134/0 (357/0)SCAD 076/97 (081/) 333/4 (734/0) 0 (0)
Adaptive-L1428/95 (081/0) 000/5 (0) 064/0 (244/0)
در هر مقدار λ و در مدل (1-5) با σ برابر با 1 و 3، میزان خطا برای هر سه روش فوق تقریباً یکسان است. لذا از لحاظ میانگین check loss، این روشها با یکدیگر تفاوتی ندارند.
حالت مطلوب زمانی اتفاق میافتد که تعداد ضرائب صفر غلط کم و تعداد ضرائب صفر صحیح به 5 نزدیک باشد. از این نظر روش adaptive-LASSO بهتر از دو روش دیگر است. زیرا برای λهای مختلف تعداد ضرائب صفر غلط کم و تعداد ضرائب صفر صحیح بیشتری دارد.
روش SCAD و L1 تفاوت زیادی از لحاظ تعداد ضرائب صفر صحیح ندارند. البته در اکثر مواقع روش L1 تعداد ضرائب صفر صحیح بیشتری (البته به مقدار کم) نسبت به روش SCAD ارائه میدهد ولی تعداد ضرائب صفر غلط بیشتری نیز ارائه میدهد.
توجه کنید که در مقالهی مورد نظر (Variable selection in quantile regression)، نرمافزار مورد استفاده برای قسمت شبیهسازی و تابعcheck loss ذکر نشدهاند. با توجه به متن پایاننامه، check loss، i=1nρτyi-xiTβ در نظر گرفته شده و از نرمافزار R، دستورهای rq.fit.lasso و rq.fit.scad برای شبیهسازی استفاده شده است. لازم به ذکر است در نهایت نتایج ارائه شده در این شبیهسازی با نتایج مقاله اصلی (Variable selection in quantile regression)، مطابقت دارد.
فهرست منابع و مآخذ
An, L. T. H. and Tao, P. D. (1997). Solving a class of linearly constrained indefinite quadratic problems by d.c. algorithms. J. Global Optim. 11, 253-285.
Breiman, L. (1996). Heuristics of instability and stabilization in model selection. Amer. Statist. 24, 2350-2383.
Candes, E. and Tao, T. (2007). The Dantzig selector: statistical estimation when p is much larger than n. Amer. Statist. 6, 2313-2351.
Fan, J. (1997). Comments on “Wavelets in statistics: A review”, by A. Antoniadis. J. Amer. Statist. Assoc. 6, 131-138.
Fan, J. and Li, R. (2001). Variable selection via nonconcave penalized likelihood and its oracle properties. J. Amer. Statist. Assoc. 96, 1348-1360.
Fan, J. and Li, R. (2002). Variable selection for Cox’s proportional hazards model and frailty model. Amer. Statist. 30, 74-99.
Fan, J. and Li, R. (2004). New estimation and model selection procedures for semiparametric modeling in longitudinal data analysis. J. Amer. Statist. Assoc. 99, 710-723.
Fan, J. and Lv, J. (2006). Sure independence screening for ultra-high dimensional feature space. Submitted.Fan, J. and Peng, H. (2004). Nonconcave penalized likelihood with a diverging number of parameters. Amer. Statist. 32, 928-961.
Frank, I. and Friedman, J. (1993). A statistical view of some chemometrics regression tools. Technometrics 35, 109-148.
Geyer, C. J. (1994). On the asymptotics of constrained m-estimation. Amer. Statist. 22, 1993- 2010.Harrison, D. and Rubinfeld, D. L. (1978). Hedonic housing prices and the demand for clean air. J. Environmental Economics and Management, 81-102.
He, X. and Shao, Q.-M. (2000). On parameters of increasing dimensions. J. Multivariate Anal. 73, 120-135.
Hendricks, W. and Koenker, R. (1992). Hierarchical spline models for conditional quantiles and the demand for electricity. J. Amer. Statist. Assoc. 87, 58-68.
Hoerl, A. and Kennard, R. (1988). Ridge regression. In Encyclopedia of Statistical Sciences 8, 129-136 Wiley, New York.Hunter, D. R. and Li, R. (2005). Variable selection using MM algorithm. Amer. Statist. 33, 1617-1642.
Keming Yu, Zudi Lu and Julian Stander (2003). Quantile regression: applications and current research areas. The Statistician 52, Part 3,331-350
Knight, K. (1999). Asymptotics for L1-estimators of regression parameters under heteroscedas- ticity. Canad. J. Statist. 27, 497-507.
Kocherginsky, M., He, X. and Mu, Y. (2005). Practical confidence intervals for regression quan- tiles. J. Comput. Graph. Statist. 14, 41-55.
Koenker, R. (2004). Quantile regression for longitudinal data. J. Multivariate Anal. 91, 74-89.
Koenker, R. (2005). Quantile Regression, Cambridge University Press.
Koenker, R. and Bassett, G. (1978). Regression quantiles. Econometrica 46, 33-50.
Koenker, R. and Geling, R. (2001). Reappraising medfly longevity: a quantile regression survivalanalysis. J. Amer. Statist. Assoc. 96, 458-468.
Koenker, R. and Hallock, K. (2001). Quantile regression. Journal of Economic Perspectives 15, 143-156.
Koenker, R., Ng, P. and Portnoy, S. (1994). Quantile smoothing splines. Biometrika 81, 673-680.
Li, Y., Liu, Y. and Zhu, J. (2007). Quantile regression in reproducing kernel Hilbert spaces. J.
Amer. Statist. Assoc., 102, 255-268.
Li, Y. and Zhu, J. (2005). l1-norm quantile regressions. J. Comput. Graph. Statist. To appear.Liu, S., Shen, X. and Wong, W. (2005a). Computational development of -learning. In The SIAM 2005 International Data Mining Conf., 1-12.Liu, Y., Shen, X. and Doss, H. (2005b). Multicategory -learning and support vector machine: computational tools. J. Comput. Graph. Statist., 14, 219-236.
Liu, Y. and Wu, Y. (2007). Variable selection via a combination of the L0 and L1 penalties. J. Comput. Graph. Statist., 16, 782-798.
Pollard, D. (1991). Asymptotics for least absolute deviation regression estimators. Econometric Theory 7, 186-199
Tibshirani, R. J. (1996). Regression shrinkage and selection via the lasso. J. Roy. Statist. Soc. Ser. B 58, 267-288.
Wang, H. and He, X. (2007). Detecting differential expressions in genechip microarray studies: A quantile approach. J. Amer. Statist. Assoc. 102, 104-112.
Wang, H., Li, G. and Jiang, G. (2007). Robust regression shrinkage and consistent variable selection through the lad-lasso. J. Business & Economic Statistics 25, 347-355.
Wei, Y. and He, X. (2006). Conditional growth charts (with discussions). Ann. Statist. 34, 2069-2031.
Wei, Y., Pere, A., Koenker, R. and He, X. (2006). Quantile regression methods for reference growth curves. Statist. Medicine 25, 1369-1382.
Wu, Y. and Liu, Y. (2007). Robust truncated-hinge-loss support vector machines. J. Amer. Statist. Assoc. 102, 974-983.
Yang, S. (1999). Censored median regression using weighted empirical survival and hazard functions. J. Amer. Statist. Assoc. 94, 137–145.
Yichao Wu and Yufeng Liu (2009). Variable selection in quantile regression. Statistica Sinica 19, 801-817
Yuan, M. and Lin, Y. (2007). On the nonnegative garrote estimator. J. Roy. Statist. Soc. Ser. B 69, 143–161.
Zhang, H. H., Ahn, J., Lin, X. and Park, C. (2006). Gene selection using support vector machines with nonconvex penalty. Bioinformatics 22, 88–95.
Zhang, H. H. and Lu, W. (2007). Adaptive-lasso for Cox’s proportional hazard model. Biometrika. 94, 691–703.
Zhao, P. and Yu, B. (2006). On model selection consistency of lasso. J. Machince Learning Research 7, 2541-2563.Zou, H. (2006). The adaptive lasso and its oracle properties. J. Amer. Statist. Assoc., 101, 1418-1429.
Zou, H. and Li, R. (2007). One-step Sparse Estimates in Nonconcave Penalized Likelihood Models. Ann. Statist. To appear.پیوست
پیوست1
اثبات قضایا و لمها
برای اثبات قضایای پایاننامه از یک قضیه و لم معروف به نام لم تحدب (convexity lemma) استفاده میکنیم.
لم 2 (لم تحدب): فرض کنید hnu:uϵU یک دنباله از توابع تصادفی محدب تعریف شده روی یک زیرمجموعهی محدب و باز U از Rd باشد. همچنین فرض کنید hu یک تابع حقیقی مقدار روی U باشد به طوری که برای هر uϵU داشته باشیم hnuPhu . آنگاه برای هر زیرمجموعه فشرده k از U داریم:
supuϵkhnu-huP0تابع h∙ ضرورتاً روی U، محدب است.چندین اثبات برای لم تحدب وجود دارد. خوانندگان علاقهمند میتوانند به (1991)Pollard مراجعه کنند.
تقریب خطی ρτεi-t را با Di=1-τεi<0-τεi≥0 مشخص میکنیم. یک تعبییر از Di این است که Di به عنوان مشتق اول ρτεi-t در t=0 میتواند در نظر گرفته شود. به علاوه، این شرط که εi دارای چندک τام، صفر است این مطلب را بیان میکند که EDi=0 است. تعریف میکنیم:
Ri,nu=ρτεi-xiTun-ρτεi-DixiTunWn=i=1nDixin Wn,11=i=1nDixi1nدر این صورت داریم:
WnLN0,τ1-τ∑ Wn,11LN0,τ1-τ∑11لم 3: برای مدل (1-4) با پارامتر حقیقی β0،Gnu را به صورت
Gnu=i=1nρτεi-xiTun-ρτεiمشخص میکنیم، جائی کهεi=yi-xiTβ0 است. تحت شرایط (i) و (ii) برای هر u ثابت داریم:
Gnu=f02 uTi=1nxixiTn u+WnT u+op1(1)
اثبات لم 3: شرط (i)، این مطلب را بیان میکند که تابع Mt=Eρτεi-t-ρτεi دارای مینیمم یکتا در صفر است. بسط تیلور آن در مبدأ فرم Mt=f02t2+ot2 را دارد. بنابراین برای nهای بزرگ داریم:
EGnu=i=1nMxiTun=i=1nf02 xiTun2+oxiTun2 = f02n uTi=1nxixiTu+o12n uTi=1nxixiTuتحت شرط (ii) داریم
EGnu=f02n uTi=1nxixiTu+o1بنابراین داریم:
Gnu=EGnu+WnTu+i=1nRi,nu-ERi,nuبا محسبات معمولی داریم
Ri,nu≤xiTunεi≤xiTunبرای u ثابت، با توجه به حذف جملهی ضرب داخلی داریم:
Ei=1nRi,nu-ERi,nu2=i=1nERi,nu-ERi,nu2 ≤i=1nERi,nu2 ≤i=1nxiTun2Eεi≤xiTun ≤i=1nxiTun2Eεi≤unmaxj=1,…,nxj →0 (2)
همانطور که در (1991) Pollard داریم، جائی که∙ ، عملگر نرم اقلیدسی را مشخص میکند.
از طرفی در مرحلهی آخر داریم:
i=1nxiTun2=uTi=1nxixiTnu→uTuبه این دلیل که i=1nxi2n→trace(∑) ، داریم maxxjn→0 . رابطهی (2) دلالت بر این موضوع دارد که
i=1nRi,nu-ERi,nu=op1و این اثبات را کامل میکند∎قبل از شروع اثبات قضیهی 1، این نکته را بیان میکنیم که
WnTu=EWnTu+OpVarWnTuو
VarWnTu=i=1nEDixiTun2=τ1-τuTi=1nxixiTnuبنابراین
WnTu=Opτ1-τuTi=1nxixiTnuاثبات قضیهی 1: برای اثبات قضیهی 1، از استراتژی مشابه آنچه Fan و Li در 2001 استفاده کردند، استفاده میکنیم. کافی است نشان دهیم برای هر 0<δ، ثابت بزرگ C وجود دارد به طوری که
Pinfu=CQβ0+un>Qβ0≥1-δ(3)
که این مطلب را میرساند که با احتمالی حداقل برابر با 1-δ، مینیمم موضعی در گوی β0+un: u≤C وجود دارد.
این موضوع به نوبه خود دلالت بر این موضوع دارد که یک مینیمم موضعی وجود دارد بهطوری
β-β=Op1nکه این دقیقاً همان چیزی است که میخواهیم نشان دهیم. توجه کنید که
Qβ0+un-Qβ0
=i=1nρτyi-xiTβ0+un-ρτyi-xiTβ0+nj=1dpλnβj0+ujn-pλnβj0≥i=1nρτyi-xiTβ0+un-ρτyi-xiTβ0+nj=1spλnβj0+ujn-pλnβj0جائی که s تعداد مؤلفههای β10 است وβj0 ، j-امین مؤلفهی β10 است. با توجه به لم 3، اولین عبارت در سمت راست، برای هر u ثابت، دقیقاً Gnu=f02uTi=1nxixiTnu+WnTu+op1 است.
با به کاربردن لم تحدب (لم 2) برای hnu=Gnu-WnTu، میتوان همگرایی نقطه به نقطه را به همگرایی یکنواخت روی هر زیرمجموعه فشرده از Rd، تقویت کرد.
توجه کنید، برای n بزرگ، به طور یکنواخت در هر مجموعه فشرده از Rd داریم:
nj=1spλnβj0+ujn-pλnβj0=0(4)
با توجه به این حقیقت که 0< βj0 برای 1,2,…,s=j، تاوان SCAD برای ضرائبی که بزرگتر از aλn مسطح است.
بر اساس آنچه در بالا گفته شد، عبارت درجه دوم f0uTi=1nxixiTu2n برای u برابر با C به اندازهی کافی بزرگ، کران پایین Qβ0+un-Qβ0 است. بنابراین شرط (ii) دلالت بر این موضوع دارد که (3) برقرار است و این اثبات را کامل میکند.∎اثبات لم 1: برای هر 0<β2≤Cn-12 β1-β10=Opn-12و داریم:
Qβ1T,0TT-Qβ1T,β2TT
=Qβ1T,0TT-Qβ10T,0TT-Qβ1T,β2TT-Qβ10T,0TT =Gnnβ1-β10T,0TT-Gnnβ1-β10T,β2TT-nj=s+1dpλnβj (5)
=f02nβ1-β10T,0Ti=1nxixiTnnβ1-β10T,0TT+nβ1-β10T,0TWn-f02nβ1-β10T,β2Ti=1nxixiTnnβ1-β10T,β2TT-nβ1-β10T,β2TWn+o1+op1-nj=s+1dpλnβjشرط β1-β10=Opn-12 و 0<β2≤Cn-12 دلالت بر این موضوع دارد که
f02nβ1-β10T,0Ti=1nxixiTnnβ1-β10T,0TT=Op1f02nβ1-β10T,β2Ti=1nxixiTnnβ1-β10T,β2TT=Op1و داریم
nβ1-β10T,0TWn-nβ1-β10T,β2TWn=-n0T,β2TWn =nτ1-τβ2T∑22β21+op1توجه داشته باشیدکه
nj=s+1dpλnβj≥nλnlimλ→0inf limθ→0+infpλθλj=s+1dβj1+o1 =nλnj=s+1dβj1+o1 جایی که مرحلهی آخر بر اساس این حقیقت کlimλ→0inf limθ→0+infpλθλ=1ه است، برقرار است.
از طرفی nλn→∞ دلالت بر این موضوع دارد که nλn=nnλn از مرتبهای بالاتر از n قرار دارد. بنابراین برای nهای بزرگ Qβ1T,0TT-Qβ1T,β2T<0 است و این اثبات را کامل میکند.∎اثبات قضیه 2: قسمت (a)، با توجه به لم 1 برقرار است. بنابراین قسمت (b) را ثابت میکنیم.
طبق قضیه 1، Qβ1T,0TT به عنوان تابعی از β1، مینیمم سازگار β1 را دارد.
از اثبات قضیه 1 داریم که nβ1-β1، مقدار
GnθT,0TT+nj=1spλnβj0+θjnرا جایی که θ=θ1,θ2,…,θsTϵRs است، مینیمم میکند. توجه کنید آنچه که در اثبات قضیه 1، لم 3 و لم تحدب داریم، دلالت بر این دارد که به طور یکنواخت روی هر زیرمجموعه فشرده ازRs داریم:
GnθT,0TT=f02θT,0Ti=1nxixiTnθT,0TT+θT,0TWn+op1 =f02θTi=1nxi1xi1Tnθ+θTi=1nDixi1n+op1توجه کنید که برای nهای بزرگ، طبق (4) به طور یکنواخت روی هر مجموعه فشرده از Rs داریم:
nj=1spλnβj0+θjn=nj=1spλnβj0GnθT,0TT+nj=1npλnβj0+θjn=12θTf0i=1nxi1xi1Tnθ+i=1nDixi1nTθ+nj=1spλnβj0+rnθ=12θ-ϚnTf0i=1nxi1xi1Tnθ-Ϛn-12ϚnTf0i=1nxixiTnϚn+nj=1spλnβj0+rnθالبته جایی که Ϛn=-f0i=1nxi1xi1Tn-1Wn,11 است و برای باقیمانده rnθ به طور یکنواخت روی هر زیرمجموعه فشرده از Rs داریم
rnθP0 توجه کنید که عبارت nj=1spλnβj0 به θ بستگی ندارد. بنابراین برای nهای بزرگ، مینیمم موضعیθ به Ϛn خیلی نزدیک است و داریم:
θ-Ϛn=op1این به این معنی است که
θ=-f0i=1nxi1xi1Tn-1i=1nDixi1n+op1بنابراین
nβ1-β10=-f0i=1nxi1xi1Tn-1i=1nDixi1n+op1با به کار بردن قضیه slutsky به این نتیجه میرسیم که
nf0∑11β1-β10LN0,τ1-τ∑11و این اثبات را کامل میکند.∎اثبات قضیه 3: توجه کنید
Q1β0+un-Q1β0=i=1nρτyi-xiTβ0+un-ρτyi-xiTβ0+nλnj=1dwjβj0+ujn-wjβj0ابتدا عبارت دوم را در نظر میگیریم. برای j=1,2,…,n داریم βj0≠0 در نتیجه داریم wjPβj0-γ. چون nβj0+ujn-βj0→ujsignβj0 و nλn→0 داریم
nλnwjβj0+ujn-wjβj0P0از طرف دیگر برای j=s+1,s+2,…,d پارامتر حقیقی βj0=0 است بنابراین
nλnwj=n1+γ2λnnβj-γکهnβj=Op1 است. بنابراین داریم اگر uj≠0 آنگاه
nλnwjβj0+ujn-wjβj0P∞و در غیر اینصورت برابر با صفر است. این نتایج به همراه نتیجهی لم 3 دلالت بر این دارد که
Q1β0+un-Q1β0LVuکه Vu=f02u1∑11u1+Wn,11Tu1 uj=0 for j≥s+1∞ otherwise و u1=u1,u2,…,usT است.
توجه کنید که Q1β0+un-Q1β0 درu محدب است و V مینیمم یکتا دارد. نتایجی که Geyer در سال 1994 پیرامون epi-همگرایی بدست آورد دلالت بر این دارد که
argmin Q1β0+un=nβAL-β0Largmin Vuکه قسمت نرمال بودن را ثابت میکند. حال خاصیت سازگاری انتخاب مدل را نشان میدهیم.
برای هر β1-β10=Opn-12 و 0<β2<Cn-12 داریم
Q1β1T,0TT-Q1β1T,β2TT=Q1β1T,0TT-Q1β10T,0TT-Qβ1T,β2TT-Qβ10T,0TT=Gnnβ1-β10T,0TT-Gnnβ1-β10T,β2TT-nλni=1nwjβj.توجه کنید در اینجا دو عبارت اول مشابه آنچه در (5) داریم، است. بنابراین به طور مشابه میتواند کران داشته باشد.
با توجه به آنچه در زیر داریم عبارت سوم زمانی n→∞ به سمت -∞ میل میکند.
nλnj=s+1dwjβj=n1+γ2λnnj=s+1dnβj-γβj→∞ بنابراین شرط n1+γ2λn→∞ دلالت بر این دارد که nλnj=s+1dwjβj نسبت به عبارات دیگر از درجهی بالاتری برخوردار است لذا برای nهای بزرگ، Q1β1T,0TT-Q1β1T,β2TT<0 و این سازگاری انتخاب مدل را برای رگرسیون چندکی LASSO انطباقی تاوانیده، ثابت میکند.∎اثبات نتیجه 1: با توجه به اثبات قضیه 1، لم 1، قضیه 2 و قضیه 3، کافی است تقریب مجانبی مشابه (1) را ثابت کنیم.توجه کنید که ρτ. را به صورت ρτr=r2+r-12r میتوان بازنویسی کرد. بنابراین مشابه آنچه knight در سال 1999 انجام داد داریم:
Gnu=i=1nρτεi-xiTun-ρτεi=i=1n-xiTunsignεi2+r-12+i=1n0xiTunIεi≤s-Iεi≤0dsبا استدلالی مشابه آنچه knight در سال 1999 داشت به این نتیجه میرسیم که برای بردار تصادفی نرمال چند متغییرهی V با میانگین صفر داریم
GnuL-uTV+ςuبنابراین، نتایج از تحدب مؤکد.ς بدست میآید.∎پیوست2
واژگان انگلیسی به فارسی
A
LASSO انطباقی Adaptive-LASSOرگرسیون چندکی LASSO انطباقی تاوانیده Adaptive-LASSO penalized quantile regression
B
انتخاب بهترین زیرمجموعه Best-subset selectionرگرسیون پلی Bridge regression
C
میانگین شرطی Conditional meanچندک شرطی Conditional quantileتابع چندکی شرطی τام Conditional τ th quantile functionسازگاری Consistency
لم تحدب Convexity lemma
متغیر کمکی Covariate
تابع توزیع تجمعی Cumulative distribution function
D
دهک Decile
دنباله تعیینی Deterministic sequence
L
رگرسیون کمترین انحراف قدرمطلق Least absolute deviation regression
رگرسیون چندکی L1 تاوانیده penalized quantile regression L1M
میانگین Mean
میانه Median
مدل رگرسیون چندکی با اثرات آمیخته Mixed-effect quantile regression model
ریزآرایه Microarray
N
متغیر نوفه Noise variable
رگرسیون چندکی ناتاوانیده Non-penalized quantile regression
O
خاصیت پیشگویی Oracle property
رگرسیون کمترین مربعات عادی Ordinary least square regression
P
درستنمایی تاوانیده Penalized likelihood
تاوان Penalty
صدک Percentile
متغییر پیشبینیکننده Predictor
چندک pام P-th quantile
Q
چندک Quantile
رگرسیون چندکی Quantile regression
نمودار رگرسیونی چندکی Quantile regression curve
چارک Quartile
R
رگرسیون Regression
پارامتر نظم Regularization parameter
متغیر پاسخ Response
پایا Robust
S
رگرسیون چندکی SCAD تاوانیده SCAD penalized quantile regression
هموار Smooth
انحراف قدرمطلق بهطور هموار بریده شده Smoothly clipped absolute deviation
انتخاب گامبهگام Stepwise-selection
V
انتخاب متغیر Variable selectionواژگان فارسی به انگلیسی
الف انتخاب بهترین زیرمجموعه Best-subset selection
انتخاب گامبهگام Stepwise-selection
انتخاب متغیر Variable selection
انحراف قدرمطلق بهطور هموار بریده شده Smoothly clipped absolute deviation
پ پارامتر نظم Regularization parameter
پایا Robust
ت تابع توزیع تجمعی Cumulative distribution function
تابع چندکی شرطی τام Conditional τ th quantile function
LASSOانطباقی Adaptive-LASSO
تاوان Penalty
چ چارک Quartile
چندک Quantile
چندک شرطی Conditional quantile
چندک pام P-th quantile
خ خاصیت پیشگویی Oracle property
د درستنمایی تاوانیده Penalized likelihood
دنباله تعیینی Deterministic sequence
دهک Decile
ر رگرسیون Regression
رگرسیون پلی Bridge regression
رگرسیون چندکی Quantile regression
رگرسیون چندکی ناتاوانیده Non-penalized quantile regression
رگرسیون چندکی LASSO انطباقی تاوانیده Adaptive-LASSO penalized quantile regression
رگرسیون چندکی L1 تاوانیده L1 penalized quantile regression
رگرسیون چندکی SCAD تاوانیده SCAD penalized quantile regression
رگرسیون کمترین انحراف قدرمطلق Least absolute deviation regression
رگرسیون کمترین مربعات عادی Ordinary least square regression
ریزآرایه Microarray
س سازگاری Consistency
ص صدک Percentile
ل لم تحدب Convexity lemma
م متغیر پاسخ Response
متغییر پیشبینیکننده Predictor
متغیر کمکی Covariate
متغیر نوفه Noise variable
مدل رگرسیون چندکی با اثرات آمیخته Mixed-effect quantile regression model
میانگین Mean
میانگین شرطی Conditional mean
میانه Median
ن نمودار رگرسیون چندکی Quantile regression curve
ه هموار Smooth
پیوست 3
علائم اختصاری
OLSR=ordinary least square regression
LADR=least absolute deviation regression
SCAD=smoothly clipped absolute deviation
LASSO=least absolute shrinkage and selection operator
i.i.d=independent identically distributed
پیوست 4
برنامههای کامپیوتری
برنامه زیر، برنامه رگرسیون چندکی برای چندک 75/0 است که در محیط نرمافزار R نوشته شده است. سایر برنامهها مشابه این برنامه میباشند.
p<-8
rho<-.5
n<-100
R <- matrix(0,p,p)
beta <- c(1,3,1.5,0,0,2,0,0,0)
for(i in 1:p){
for(j in 1:p){
R[i,j] <- rho^abs(i-j)
}
}
x <- matrix(rnorm(n*p),n,p) %*% t(chol(R))
x<-cbind(rep(1,n),x)
x
y <- x %*% beta + rnorm(n)
ynlambda<-abs(rq.fit(x,y,tau=.0.75)$coefficients)
nlambda1<-abs(nlambda)^(-1)*1
nlambda1
ss<-function(r,t){
if(r>=0) g<-r*t
if(r<0) g<-(t-1)*r
g}
check<-function(bhat){
l<-0
for(i in 1:n){
a<-rep(0,0)
b<-rep(0,0)
a[i]<-y[i]-t(x[i,])%*%bhat
b[i]<-ss(a[i],t=0.75)
l<-l+b[i]
}
l}
d<-rep(0,0)
correct<-rep(0,0)
wrong<-rep(0,0)
for(i in 1:(100*n)){
if(i%%1==0)print(i)
x <- matrix(rnorm(n*p),n,p) %*% t(chol(R))
x<-cbind(rep(1,n),x)
y <- x %*% beta + rnorm(n)
bhatc<-rq.fit.lasso(x,y,tau=0.75,lambda=nlambda1)$coefficients
newbhat<-bhatc
newbhat[newbhat<=10^(-6)]<-0
correct[i]<-sum(newbhat==0 & beta==0)
wrong[i]<-sum(newbhat==0 & beta!=0)
d2<-check(bhatc)
cat("d2=",d2,"n")
d[i]<-d2
}
mean(d)
sqrt(var(d)/10000)
mean(correct)
mean(wrong)
sqrt(var(correct))
sqrt(var(wrong))
Abstract
Variable selection in quantile regression
By

دسته‌بندی نشده

No description. Please update your profile.

LEAVE COMMENT

نظرات (0)
امکان ثبت نظر جدید برای این مطلب وجود ندارد.