زنجیر مارکوف جاذب: یک وضعیت در زنجیر مارکف جاذب است اگر بیرون آمدن از آن غیر ممکن باشد، به این معنی که احتمال فرار از آن وضعیت صفر باشد. یک زنجیر مارکف را جاذب گویم هرگاه حداقل یک وضعیت جاذب داشته باشد.
توزیع جذب: توزیع های احتمالی که تعداد «افراد» (مانند ذرات) را که شکست می خورند از یک ناحیه مشخص عبور کنند، که شامل خطرات مختلفی است، نشان میدهند. به عنوان مثال، این ناحیه ممکن است به سادگی یک خط مستقیم باشد که شامل تعدادی «نقطه جذب» است. زمانی که یک ذره در حال حرکت در طول خط به چنین نقطهای برخورد میکند، احتمال p وجود دارد که جذب شود. اگر جذب شود، دیگر نمیتواند به پیشرفت خود ادامه دهد، اما همچنین آن نقطه قادر به جذب ذرات بیشتر نیست. زمانی که M نقطه جذب فعال وجود داشته باشد، احتمال جذب یک ذره برابر
(1-(1-p)^M)
است.
ریسک پذیرفتنی: ریسکی است که مزایای یک روش پزشکی خاص در نظر گرفته شده، از خطرات بالقوه آن مهمتر باشد.
ناحیه پذیرش: یک اصطلاح مرتبط با آزمون های معناداری آماری است که مجموعه مقادیری از یک آماره آزمون را بیان می کند که به ازای آنها فرض صفر رد نمی شود. به عنوان مثال فرض کنید برای آزمودن فرض صفرِ "برابری میانگین فشار خون مردان و زنان" در برابر فرض مقابلِ "نابرابری میانگین ها" از آزمون Z استفاده می شود. اگر سطح معناداری آزمون 0.05 انتخاب شود آنگاه ناحیه پذیرش شامل مقادیر بین منفی 1.96 تا 1.96 می شود.
الگوریتم رد و پذیرش: یک الگوریتم برای تولید اعداد تصادفی از توزیع احتمال f(x) به طوری که اول از یک توزیع دیگر تحت عنوان g(x) یک عدد تولید میکنیم به طوری که f و g به صورت زیر رابطه داشته باشند
f(x)<=kg(x)
برای هر x
که در آن، k یک عدد ثابت است. الگوریتم طبق مراحل
زیر عمل میکند:
الف) فرض کنید r یک عدد از توزیع g(x) باشد.
ب) فرض کنید s یک عدد از توزیع یکنواخت استاندارد باشد.
ج) c=ksg(r) را محاسبه کنید.
د) اگر c بزرگتر از f(r) بود، r را رد کن و به مرحله الف برگرد؛ اگر c کوچکتر مساوی f(r) بود، r را به عنوان یک عدد از توزیع f بپذیر.
(خدا پدره خوارزمی رو بیامرزه)
درستی (صحت): میزان مطابقت با یک مقدار استاندارد شناخته شده. به اریبی نیز مراجعه کنید.
(این واژه مربوط به بحث صحت Accuracy و دقت Precision در کنترل کیفیت هست)
تابع خ.ه.: مخفف تابع خودهمبستگی
روش های تطبیقپذیر: روش هایی که از جنبه های مختلف داده های نمونه برای انتخاب مناسب ترین نوع روش آماری برای تجزیه و تحلیل استفاده می کنند.
برای مثال، یک برآوردگر تطبیقپذیر T برای مرکز توزیع می تواند به این صورت باشد
T= میانبرد
وقتی k<=2
=میانگین حسابی
وقتی که
2<k<5
=میانه زمانی که k بیشتر مساوی 5 باشد
بطوری که k کشیدگی نمونه باشد. بنابراین اگر نمونه به نظر برسد که از توزیع دم کوتاه ناشی شده است، میانگین بزرگترین و کوچکترین مشاهدات استفاده میشود؛ اگر به نظر برسد که وضعیت دم بلند وجود دارد، از میانه استفاده میشود و در غیر این صورت، میانگین نمونه محاسبه میشود.
نمودار متغیر افزوده: یک روش نموداری است که در انواع تحلیل رگرسیون برای شناسایی اینکه یک متغیر توصیفی بخصوص، در حضور متغیر های توصیفی دیگر باید به مدل اضافه شود یا خیر، استفاده می شود. متغیری که داوطلب اضافه شدن به مدل هست ممکن است یک متغیر جدید و یا توان بالاتری از یک
متغیر در خود مدل باشد. اگر متغیر داوطلب را با xi نشان دهیم، آنگاه باقیمانده های حاصل از رگرسیون متغیر پاسخ روی تمام متغیر های توصیفی بجز xi در مقابل باقیمانده های حاصل از رگرسیون xi روی باقی متغیر های توصیفی رسم می شود. یک رابطه خطی قوی در این نمودار نشان دهنده نیاز به اضافه کردن xi به معادله رگرسیون است.
قانون جمع احتمالات: برای دو پیشامد ناسازگار A و B، احتمال رخدادن حداقل یکی از آنها برابر مجموع تک تک احتمال های آنهاست، یعنی
P ( A یا B) = P A + P B
به طوری که P A نشان دهنده احتمال رخدادن پیشامد A است. برای k رویداد دوبهدو ناسازگار A1 تا Ak قانون کلی تر به شکل زیر است
P(A1 یا A2 ... Ak) = P(A1)+P(A2)+ ... +P(Ak)
همچنین به قانون ضرب احتمالات و نابرابری بول مراجعه کنید.
مدل جمعی: مدلی است که در آن متغیر های توضیحی بر روی متغیر پاسخ اثر جمعی دارند. به عنوان مثال در
یک مدل جمعی فرضی، اگر متغیر A به مقدار a روی برخی از اندازه های پاسخ تاثیر داشته باشد و اگر متغیر B به اندازه b روی همان پاسخ تاثیر داشته باشد، آنگاه اثر ترکیبی A و B برابر a+b خواهد بود.
(مربوط به رگرسیون ناپارامتری)
داده پرت افزایشی: در یک سری زمانی داده پرت افزایشی اصطلاحی است که برای مشاهده ای بکار می رود که تحت تاثیر مداخله ای غیر تکراری مانند اعتصاب ، جنگ و غیره قرار میگیرد. در این حالت تنها سطح مشاهده خاصی تحت تاثیر قرار میگیرد برخلاف داده پرت تحولی که مربوط به یک شوک غیر عادی در یک زمانی مثل T هست که روی مشاهدات مابعد آن نیز تاثیر میگذارد.
زیر مجموعه مناسب: اصطلاحی در تحلیل رگرسیون است برای زیر مجموعه ای از متغیر های توصیفی که تصور می شود در مورد متغیر پاسخ به اندازه مجموعه تمام متغیر های توصیفی اطلاعات داشته باشد. همچنین به روش های گزینش در رگرسیون مراجعه کنید.
ماتریس مجاورت: یک ماتریس با درایه های xij، که اتصالات یک گراف جهتدار را نشان میدهد. اگر راس i به j وصل شود، xij برابر یک و در غیر اینصورت 0 می باشد. قطر اصلی ماتریس مجاورت یک گراف ساده بدون طوقه باید برابر 0 باشد. ماتریس مجاورت یک گراف بدون جهت، متقارن است.
ماتریس همبستگی تعدیل شده: ماتریس همبستگی است که درایه های قطر اصلی آن با اشتراک ها جایگزین شده. اساس تحلیل مولفه های اصلی.
میانگین های تیماری تعدیل شده: در تحلیل کواریانس، معمولا برای برآورد میانگین های تیماری استفاده می شود، پس از تعدیل کردن تمام تیمار ها به سطح میانگین یکسان برای متغیر های کمکی با استفاده از برآورد رابطه بین متغیر های کمکی و متغیر پاسخ.
مجاز بودن: یک مفهوم بسیار کلی که برای هر روش استنباط آماری قابل استفاده است. ایده اصلی این است که یک رویه مجاز است اگر و تنها اگر هیچ روش دیگری در آن کلاس از رویه ها وجود نداشته باشد که حداقل به طور یکنواخت به خوبی رویه مورد نظر و یا حداقل در یک مورد خاص بهتر عمل کند. در اینجا به طور یکنواخت یعنی برای همه مقادیر پارامتر هایی که توزیع احتمال متغیر های تصادفی تحت بررسی را مشخص میکنند.
(مربوط به استنباط آماری توی ارشد)
تبدیل همگر: تبدیل Y=AX+b که در آن A ماتریسی نامنفرد و b برداری با مقادیر حقیقی می باشد. این تبدیل در بسیاری از حوزه های آماری به خصوص تحلیل چند متغیره اهمیت دارد.
مدل سن _دوره_هم گروه: مدلی مهم در بسیاری از مطالعات مشاهداتی است زمانی که منطقی است که فرض کنیم سن یک فرد، تعداد سال هایی که در معرض عامل خطر قرار دارد و سنی که آن فرد برای اولین بار در معرض خطر قرار گرفته، هر سه اینها در خطر بیماری نقش دارند. متاسفانه هر سه این عوامل نمی توانند به طور همزمان وارد مدل شوند از آنجاییکه این عمل باعث ایجاد همخطی میشود چون "سنی که آن فرد برای اولین بار در معرض خطر قرار گرفته" + "تعداد سال هایی که در معرض عامل خطر قرار دارد" برابر سن آن فرد می شود. چندین روش مختلف برای جدا کردن وابستگی عامل ها پیشنهاد شده اگر چه معمولا یکی از عامل ها را از مدل حذف میکنند. همچنین به نمودار لکسیس مراجعه کنید.
نرخ مرگ و میر سنین خاص: نرخ مرگ و میر محاسبه شده در حدود سنی نسبتا کوتاه. به عنوان مثال، برای سنین بین ۲۰ تا ۳۰ سال داریم
DR(20,30)=
(تعداد مرگ و میر در بازه سنی ۲۰ تا ۳۰ در یک سال بخصوص)/(میانگین جمعیت در بازه سنین ۲۰ تا ۳۰ در آن سال بخصوص)
محاسبه نرخ مرگ و میر به این شیوه معمولا لازم است از آنجاییکه همچین نرخ هایی تقریبا همیشه برای سنین مختلف بسیار فرق میکند، تغییراتی که توسط نرخ مرگ و میر خام آشکار نمی شود. همچنین به نرخ مرگ و میر بر اثر علت خاص و نسبت مرگ و میر استاندارد شده مراجعه کنید.
توافق: میزانی که ناظران، ارزیابان و آزمون های تشخیصی مختلف روی یک ردهبندی دودویی توافق میکنند. معیار های توافق مانند ضریب کاپا، کمیت فراوانی نسبی درایه های قطر جدول توافقی دو در دو را با در نظر گرفتن توافق بر اثر شانس مشخص می
کنند. باید به این مسئله توجه کنید که توافق قوی نیازمند پیوند قوی است درصورتی که پیوند قوی نیازمند توافق قوی نیست.
آلفا اگرسی: یک تعمیم برای نسبت بخت ها از جدول توافقی دو در دو به جدول های توافقی بزرگتر است که ناشی شده از داده های است که درجه های مختلفی از شدت یک بیماری و مقدار های مختلف از آشکاری دارند.
میم. الف. الف.: مخفف معیار اطلاعات آکائیکه.
معیار اطلاعات آکائیکه: یک شاخص که در حوزه های مختلف برای انتخاب مدل استفاده می شود. تعریف می شود:
-2L+2m
به طوری که L ماکسیمم لگاریتم تابع درستنمایی و m تعداد پارامتر های مدل می باشد. این شاخص با ایجاد یک جریمه برای تعداد پارامتر های مدل، هم نکویی برازش آماری و هم تعداد پارامتر های مدل را در نظر می گیرد. مقادیر کمتر این شاخص نشان دهنده مدل بهتر است یعنی مدلی که با کمترین پارامتر، برازش
مناسبی برای داده ها تامین می کند. همچنین به اصل خساست(امساک) و معیار شوارتز مراجعه کنید.
الگوریتم: مجموعه ای از قوانین خوش تعریف است که اگر مرتب انجام شود به جواب یک مسئله از کلاس خاصی از مسائل ریاضی یا محاسباتی منجر می شود.
هم اثر سازی: زمانی اتفاق میافتد که برآورد یک پارامتر کاملاً با سایر پارامترها در هم آمیخته میشود زیرا اطلاعات کافی در دسترس نیست. هم اثر سازی بیرونی به دلیل کمبود داده کافی است مانند داده گمشده و یا همخطی. هم اثر سازی درونی به دلیل عدم شناسایی مدل آماری بخصوصی است، مثلا یک مدل رگرسیونی با متغیر توصیفی رسته ای که به اندازه دسته ها متغیر ظاهری دارد. (ماتریس X'X معکوس پذیر نمی باشد)
همه زیرمجموعه های رگرسیونی: یک نوع تحلیل رگرسیون است که در آن تمام مدل های ممکن در نظر گرفته می شود و بهترین مدل با مقایسه یک معیار مناسب مثل آماره cp مالو انتخاب میشود. اگر p تا
متغیر توصیفی داشته باشیم ، دو به توان p تا مدل باید بررسی شود. معمولا الگوریتم جست و خیز استفاده می شود تا تعداد کمی از مدل ها مورد بررسی قرار بگیرند. همچنین به روش های گزینش مدل در رگرسیون مراجعه کنید.
همگرایی تقریبا مطمئن: یک نوع همگرایی است که شبیه همگرایی نقطه ای یک دنباله از توابع می باشد با این تفاوت که همگرایی لازم نیست روی مجموعه های با احتمال صفر رخ دهد. تعریف رسمی آن به اینصورت است: دنباله Xt تقریبا با با اطمینان به mu میل میکند، اگر وجود داشته باشد مجموعه ای تحت عنوان M به طوری که P(M)=1 باشد و برای هر ω عضو N داشته باشیم X(ω) میل کند به mu.
آلفا: احتمال خطای نوع اول. همچنین به سطح معناداری مراجعه کنید.
آلفا پیراسته میانگین: یک روش برآورد کردن میانگین جامعه که نسبت به برآوردگر معمولیه میانگین نمونه، داده های پرت کمتر روی آن اثر میگذارند. نحوه
محاسبه آن به این صورت است که به اندازه نسبت آلفا از دو طرف مشاهدات حذف میکنیم و سپس از داده های باقیمانده میانگین میگیریم. اگر x(1),x(2),...,x(n) مقادیر مرتب شده نمونه باشند آنگاه این برآوردگر برابر
است که در آن k کوچک ترین عدد صحیح بزرگتر یا مساوی αn است. همچنین به برآوردگر های M مراجعه کنید.
آلفا وینزوریده میانگین: یک روش برآورد کردن میانگین جامعه که نسبت به برآوردگر معمولیه میانگین نمونه، داده های پرت کمتر روی آن اثر میگذارند. به جای k مشاهده اول داده k ام و به جای k مشاهده اخر داده n-k ام را درنظر میگیرم، به طوری که k کوچک ترین عدد صحیح بزرگتر یا مساوی αn است.
به طوری که x(1),x(2),...x(n) مقادیر مرتب شده
نمونه هستند. همچنین به برآوردگر های M مراجعه کنید.
امید شرطی متناوب: یک روش برای برآورد کردن تبدیل بهینه برای آنالیز رگرسیون و همبستگی. برای متغیر های توصیفی x1,...xq و متغیر پاسخ y, این روش تبدیل g(y) و s1(x1) تا sq(xq) را پیدا میکند به طوری که این تبدیل، همبستگی بین y و مقادیر پیشبینی شده را بیشینه می کند. در این تکنیک هر تبدیل هموار دلخواهی را می توان برای متغیر های توصیفی و پاسخ استفاده کرد.
حداقل مربعات متناوب: روشی که اکثرا در مقیاس بندی چند بعدی استفاده میشود به طوری که یک معیار نکویی برازش برای برخی از پیکربندی های نقاط طی یک سری از مراحل کمینه میشود، که هر کدام شامل استفاده از حداقل مربعات است.
رگرسیون لجستیک متناوب: یک روش رگرسیون لجستیک که در تحلیل داده های طولی، زمانی که متغیر پاسخ دودویی باشد، استفاده میشود. بر پایه معادلات
برآورد تعمیم یافته.
فرض مقابل: فرضی که در برابر فرض صفر، آزمون میشود.
تحلیل کواریانس: در آغاز کار برای تعمیم آنالیز واریانس استفاده میشد به طوری که علاوه بر اثر متغیر های عامل، اثر ممکن متغیر پیوسته همراه (متغیر کمکی) را روی متغیر پاسخ در نظر میگیرد. معمولا فرض میشود که تیمار ها روی متغیر کمکی تاثیری ندارند و رابطه متغیر کمکی با متغیر پاسخ خطی است. اگر همچین رابطه ای وجود داشته باشد، آنگاه اضافه کردن متغیر کمکی میتواند منجر به کاهش میانگین مربع خطا شود و در نتیجه حساسیت آزمون F که برای ارزیابی تیمار ها به کار میرفت، افزایش یابد. امروزه به نظر میرسد که این اصطلاح عموما برای هر تحلیلی که در جستجوی ارزیابی رابطه بین متغیر پاسخ و چندین متغیر توصیفی باشد، به کار میرود. همچنین به توازی در تحلیل کواریانس ، مدل های خطی تعمیم یافته و تکنیک جانسون نیمن مراجعه کنید.
تحلیل پراکندگی: هم معنی تحلیل واریانس چندمتغیره است.
تحلیل واریانس: جداسازی واریانس قابل استناد به یک متغیر از واریانس قابل استناد به بقیه متغیر ها. با افراز واریانس کل مجموعه مشاهدات به بخش هایی مختص به عوامل مختلف، مثل، جنسیت، گروه تیمار و ...، و با مقایسه واریانس ها (مربعات میانگین) به کمک آزمون F، میتوان تفاوت بین میانگین ها را ارزیابی کرد. ساده ترین تحلیل از این نوع شامل یک طرح یکطرفه است که در آن N آزمودنی معمولاً بهصورت تصادفی به k سطح مختلف یک عامل تخصیص مییابند. سپس تغییرات کل در مشاهدات به یک بخش ناشی از تفاوتهای بین میانگینهای سطوح (مجموع مربعات بین گروهها) و یک بخش ناشی از تفاوتهای بین آزمودنی در همان گروه (مجموع مربعات درون گروهها، که همچنین به آن مجموع مربعات باقیمانده گفته میشود) تقسیم میشود. این اصطلاحات معمولاً بهصورت یک جدول تحلیل واریانس تنظیم میشوند.
اگر میانگینهای جمعیتهای نماینده سطوح عامل
یکسان باشد، آنگاه در محدوده تغییرات تصادفی، میانگین مربعات بین گروهها و میانگین مربعات درون گروهها باید یکسان باشد. اینکه آیا این موضوع صحیح است یا نه، در صورتی که برخی فرضیات برآورده شوند، میتواند با یک آزمون F مناسب بر اساس نسبت میانگین مربعات ارزیابی شود. فرضیات ضروری برای اعتبار آزمون F این است که متغیر پاسخ در هر جامعه بهطور نرمال توزیع شده و جامعه ها واریانس یکسانی داشته باشند. اساساً، این یک مثال از مدل خطی تعمیمیافته با تابع پیوند همانی و خطاهای با توزیع نرمال است. همچنین به تحلیل کوواریانس، طرح گروههای موازی و طرح های عاملی مراجعه کنید.
جدول تحلیل واریانس: به آنالیز واریانس مراجعه کنید.
آماره کمکی: اصطلاحی که به آماره C در موقعیتهایی اطلاق میشود که آماره بسنده مینیمال، S، برای پارامتر θ را میتوان به صورت S=(T, C) نوشت و C دارای توزیع حاشیهای است که به θ وابسته نیست. به عنوان مثال، بگذارید N یک متغیر تصادفی با توزیع شناخته شده pn = Pr(N = n)(n = 1, 2, ... ) باشد و
Y1، Y2، ...، YN متغیرهای تصادفی مستقل و همتوزیع از خانواده توزیع نمایی با پارامتر θ باشند. درستنمایی دادهها (n, y1, y2, ..., yn) برابر است با
*فرمول باید اضافه شود*
به طوری که S مساوی با [N,مجموع b(Yj)] برای تتا بسنده است و N آماره کمکی است. اصطلاحی مهم در کاربرد درستنمایی شرطی در برآورد.
آزمون اندرسون-دارلین: آزمایشی که نشان میدهد یک نمونه مشخص از مشاهدات از یک توزیع احتمال نظری معین ناشی میشود. برای آزمون نرمال بودن دادهها، به عنوان مثال، آماره آزمون عبارت است از
*فرمول*
به طوری که x(1) ≤ x(2) ≤ ··· ≤ x(n) مشاهدات مرتب شده هستند، s² واریانس نمونه است و
*فرمول*
به طوری که
*فرمول*
فرض صفر نرمال بودن برای مقادیر 'بزرگ' An^2 رد میشود. مقادیر بحرانی آماره آزمون موجود است. همچنین به آزمون شاپیرو-ویلک مراجعه کنید.
برآوردگر اندرسون-شیائو: یک برآوردگر متغیرهای ابزاری برای مدلهای دادههای پانل دینامیک با تقاطعهای خاص هر موضوع.
نمودار های اندرو: یک نمایش گرافیکی دادههای چندمتغیره که در آن یک مشاهده
، x' = [x1, x2, ... , xq]
بهعنوان تابعی به شکل زیر نمایش داده میشود
*فرمول*
بر روی دامنه مقادیر
−π ≤ t ≤ π
ترسیم شده است. مجموعهای از مشاهدات چندمتغیره به عنوان گردایه ای از این نمودارها نمایش داده شده است و میتوان نشان داد که آن توابعی که برای تمامی مقادیر t نزدیک به هم باقی میمانند، مربوط به مشاهداتی هستند که از نظر فاصله اقلیدسی به یکدیگر نزدیک هستند. این ویژگی به این معناست که چنین نمودارهایی معمولاً میتوانند برای شناسایی گروههای مشاهدات مشابه و همچنین شناسایی نقاط پرت در دادههای چندمتغیره استفاده شوند. مثالی که در شکل
۳ نشان داده شده، شامل نمودارهایی برای نمونهای از ۳۰ مشاهده است که هر کدام دارای پنج مقدار متغیر هستند. این نمودار وجود سه گروه در دادهها را نشان میدهد. چنین نمودارهایی تنها میتوانند از عهده تعداد محدودی از مشاهدات برآیند قبل از اینکه تحلیل آنها بسیار دشوار شود. همچنین به چهرههای چرنوف و نمادها مراجعه کنید.
روش شمارش زاویه ای: روشی برای برآورد نسبت مساحت یک جنگل که در واقع تحت پوشش پایههای درختان قرار دارد. یک ناظر به هر یک از چند نقطه در جنگل که بهطور تصادفی یا سیستماتیک انتخاب شدهاند، میرود و تعداد درختانی را که در آن نقطه، زاویهای بزرگتر یا مساوی با زاویه ثابت از پیش تعیین شده ۲α را ایجاد میکنند، میشمارد.
(Bitterlich's method)
Angular histogram
هیستوگرام دایره ای: روشی برای نمایش دادههای دایرهای که شامل پیچیدن هیستوگرام معمولی به دور یک دایره است. هر میله در هیستوگرام در نقطه میانی
بازه گروه قرار دارد و طول میله متناسب با فراوانی در آن گروه است. شکل ۴ چنین نمایشی را برای زمانهای ورود در ۲۴ ساعت شبانه روز برای ۲۵۴ بیمار در یک واحد مراقبتهای ویژه در طول ۱۲ ماه نشان میدهد. همچنین به نمودار گل سرخی مراجعه کنید.
intensive care unit=ICU
Angular uniform distribution
توزیع یکنواخت دایره ای: یک توزیع احتمال برای یک متغیر تصادفی دایره ای θ که به صورت زیر ارائه میشود:
*فرمول*
ت.و.: مخفف تحلیل واریانس.
باقیمانده انسکوب: جایگزینی برای باقیماندههای معمولی در مدلهای رگرسیون که در آنها مقادیر خطای تصادفی بهطور نرمال توزیع نشدهاند، مانند رگرسیون لجستیک. هدف تولید "باقیماندههایی" است که توزیعهایی نزدیک به نرمال داشته باشند. شکل چنین باقیماندهای به توزیع خطا فرض شده بستگی
دارد؛ به عنوان مثال، در مورد توزیع پواسون، شکل آن به صورت
3(y^(2/3)−ŷ^(2/3))/2ŷ^(1/6)
است که در آن y و ŷ بهترتیب مقادیر مشاهدهشده و برازشیافته پاسخ هستند.
مدل های پادوابستگی: یک خانواده از ساختارها برای ماتریس واریانس-کواریانس یک مجموعه دادههای طولی، با مدل مرتبه r که مستلزم این است که دنباله متغیرهای تصادفی، Y1، Y2، ...، YT به گونهای باشد که برای هر r<t
Yt|Yt-1,Yt-2,... ,Yt-r
مستقل شرطی از Yt-r-1,..., Y1 است. به عبارت دیگر، پس از در نظر گرفتن r مشاهدات پیشین Yt، مشاهدات پیشین باقیمانده اطلاعات اضافی درباره Yt ارائه نمیدهند. این مدل هیچ محدودیتی بر ثبات واریانس یا همبستگی نسبت به زمان تحمیل نمیکند، بنابراین از نظر گشتاور مرتبه دوم، ایستا نیست. این ویژگی در عمل بسیار مفید است زیرا دادههای بسیاری از مطالعات طولی اغلب با گذشت زمان واریانس افزایشی دارند.
پادرتبه: برای یک نمونه تصادفی X1، ..., Xn، متغیرهای تصادفی D1، ..., Dn به گونهای که
*فرمول*
اگر به عنوان مثال D1 = 2 باشد، در این صورت X2 کوچکترین مقدار قدر مطلق و Z1 دارای رتبه 1 است.
متغیر متضاد: عبارتی که در برخی رویکردهای شبیهسازی بهکار میرود، به طوری که اجرای متوالی شبیهسازیها انجام میشود تا برآوردگرهای اجرای نااریب و با توزیع یکسان بدست آید که بهجای مستقل بودن، همبستگی منفی دارند. ارزش این رویکرد در این است که منجر به یک برآوردگر نااریب (میانگین برآوردها از تمام اجراها) میشود که واریانس کمتری نسبت به میانگین برآوردهای اجرای با توزیع یکسان و مستقل دارد. بهعنوان مثال، اگر r یک متغیر تصادفی بین ۰ و ۱ باشد، آنگاه s = 1 − r نیز همینطور خواهد بود. در اینجا دو اجرای شبیهسازی شامل
r1، r2، ...، rm
و
1 − r1، 1 − r2، ...، 1 − rm
خواهد بود که بهوضوح مستقل نیستند.
طرح بهینه الف : به ملاک بهینگی مراجعه کنید.
ت.م.م.: مخفف تمام مقایسات موجود.
روش تخمین بازه اطمینان بوت استرپ: یک روش برای تخمین بازه اطمينان که از رویکرد بوت استرپ استفاده میکند و از هیچ گونه تکرار مونت کارلویی استفاده نمیکند.(یعنی لازم نیست نمونه جدید تولید کنی)
تخمین: یک نتیجه ای که دقیق نیست ولی به اندازه کافی نزدیک هست که برای اهداف خواسته شده مفید باشد.
Archetypal analysis
تحلیل کهن الگویی: رویکردی برای تحلیل دادههای چندمتغیره که هدف آن نمایان کردن هر فرد در دادهها به عنوان ترکیبی از افراد با نوع خالص یا کهن الگو ها است. کهن الگو ها خود به ترکیبی از افراد موجود در مجموعه داده محدود میشوند. به طور
صریح، مسئله این است که مجموعهای از بردارهایq × 1 به نامهای z1, ..., zp را پیدا کنیم که الگوهای کهن الگویی در دادههای چندمتغیره، X، را توصیف کنند. برای z1، ..., zp ثابت، به طوری که
*فرمول*
و βki>=0 و مجموع βki مساوی یک، تعریف کنید {αik} , k=1,..p به عنوان کمینه ساز
*فرمول*
تحت قید های، αik>=0 و مجموع αik مساوی یک، .سپس الگوهای کهن الگویی یا کهن الگو ها را به عنوان ترکیبهای z1، ...، zp تعریف کنید که عبارت زیر را کمینه میکنند
*فرمول*
برای p > 1، کهن الگو ها بر روی پوسته محدب دادهها قرار میگیرند؛ آنها مقادیر فرین داده هستند بهگونهای که تمامی دادهها میتوانند بهعنوان ترکیبهای محدب از کهن الگو ها نمایش داده شوند. با این حال، کهن الگو ها بهطور کامل افسانه ای نیستند زیرا هرکدام محدود به ترکیبی از نقاط موجود در دادهها میباشند.
(unsupervised)
مدل های خ.ن.و.ش.: مخفف مدل های خودهمبسته ناهمواریانس شرطی.
توزیع آرک سینوسی: توزیع بتا با پارامتر های α=β=0.5
قانون آرک سینوس: یک تقریب قابل اعمال برای یک قدمزدن تصادفی ساده که مقادیر 1 و −1 را با احتمال 1/2 میگیرد است که محاسبه احتمال نسبت زمانی که امتیاز تجمعی مثبت یا منفی است را آسان میکند. این تقریب میتواند به این صورت بیان شود: برای α ثابت
(0 < α < 1)
و n به سمت بینهایت، احتمال اینکه نسبت k/n از زمان، که امتیاز تجمعی مثبت است، کمتر از α باشد، به سمت
2π^-1arcsin(α^1/2)
میل میکند. به عنوان مثال، اگر یک سکه بیطرف به تعداد یک بار در هر ثانیه به مدت ۳۶۵ روز پرتاب شود، احتمال این که بازیکن خوششانستر برای بیش از ۳۶۴
روز و ۱۰ ساعت در صدر باشد، ۰.۰۵ است. تعداد کمی از مردم باور خواهند کرد که یک سکه بینقص توالیهایی را تولید کند که در آن هیچ تغییری در صدر بودن برای میلیونها بار متوالی رخ ندهد و با این حال، این همان چیزی است که یک چنین سکه ای به طور نسبتاً منظم انجام میدهد. به طور شهودی، بیشتر مردم احساس میکنند که مقادیر k/n نزدیک به ۱/۲ محتملتر هستند. اما در واقع، عکس این درست است. مقادیر ممکن نزدیک به ۱/۲ کماحتمالترین و مقادیر فرین k/n = ۱ و k/n = ۰ پر احتمالترین هستند. شکل ۵ نتایج یک آزمایش شبیهسازی ۵۰۰۰ بار پرتاب یک سکه سالم
(Pr(شیر)=Pr(خط)=۱/۲)
را نشان میدهد که در آن شیر به عنوان ۱ و خط به عنوان -۱ امتیاز داده میشود. به طول امواج بین تقاطعهای متوالی y = ۰، یعنی تغییرات متوالی در صدر بودن توجه کنید.
تبدیل آرک سینوس: یک تبدیل برای نسبت، p، که به منظور تثبیت واریانس آن طراحی شده و مقادیر مناسبتری برای تکنیکهایی مانند تحلیل واریانس و تحلیل رگرسیون تولید میکند. این تبدیل به صورت
زیر ارائه میشود
*فرمول*
ک.ن.م.: مخفف کارایی نسبی مجانبی.
نمونه گیری در سطح: روشی برای نمونه گیری که در آن یک منطقه جغرافیایی به نواحی کوچکتر (شهرستانها، روستاها، بلوکهای شهری و غیره) تقسیم میشود، که برخی از آنها بهصورت تصادفی انتخاب میشوند و سپس نواحی انتخابشده یا زیرنمونه گیری میشوند یا بهطور کامل مورد بررسی قرار میگیرند. به نمونه گیری خوشهای نیز مراجعه کنید.
مساحت زیر نمودار (م.ز.ن.): اغلب یک راه مفید برای خلاصهسازی اطلاعات به دست آمده از مجموعهای از اندازهگیریها که در طول زمان بر روی یک فرد انجام میشود، مانند دادههای جمعآوری شده در یک مطالعه طولی یا برای منحنی دوز-پاسخ است. معمولاً این کار با جمع کردن مساحتهای زیر منحنی بین هر دو مشاهده متوالی محاسبه میشود، به عنوان مثال با استفاده از قاعده ذوزنقه. این روش اغلب
پیشبینیکننده اثرات بیولوژیکی مانند سمی بودن یا سودمندی است. همچنین به Cmax، تحلیل ویژگیهای پاسخ و Tmax مراجعه کنید.
توزیع آرفویدسن: توزیع احتمال تعداد مقادیر صفر بین k متغیر تصادفی با توزیع چندجمله ای که p1=p2=...=pk.
خ.ی.م.: مخفف مدل های خودهمبسته یکپارچه میانگین متحرک.
میانگین حسابی: به میانگین مراجعه کن.
خ.م.م.: مخفف مدل های خودهمبسته میانگین متحرک.