زنجیر مارکوف جاذب: یک وضعیت در زنجیر مارکف جاذب است اگر بیرون آمدن از آن غیر ممکن باشد، به این معنی که احتمال فرار از آن وضعیت صفر باشد. یک زنجیر مارکف را جاذب گویم هرگاه حداقل یک وضعیت جاذب داشته باشد.

 

توزیع جذب: توزیع‌ های احتمالی که تعداد «افراد» (مانند ذرات) را که شکست می خورند از یک ناحیه مشخص عبور کنند، که شامل خطرات مختلفی است، نشان می‌دهند. به عنوان مثال، این ناحیه ممکن است به سادگی یک خط مستقیم باشد که شامل تعدادی «نقطه جذب» است. زمانی که یک ذره در حال حرکت در طول خط به چنین نقطه‌ای برخورد می‌کند، احتمال p وجود دارد که جذب شود. اگر جذب شود، دیگر نمی‌تواند به پیشرفت خود ادامه دهد، اما همچنین آن نقطه قادر به جذب ذرات بیشتر نیست. زمانی که M نقطه جذب فعال وجود داشته باشد، احتمال جذب یک ذره برابر

(1-(1-p)^M)

است.

 

ریسک پذیرفتنی: ریسکی است که مزایای یک روش پزشکی خاص در نظر گرفته شده، از خطرات بالقوه آن مهمتر باشد.

 

ناحیه پذیرش: یک اصطلاح مرتبط با آزمون های معناداری آماری است که مجموعه مقادیری از یک آماره آزمون را بیان می کند که به ازای آنها فرض صفر رد نمی شود. به عنوان مثال فرض کنید برای آزمودن فرض صفرِ "برابری میانگین فشار خون مردان و زنان" در برابر فرض مقابلِ "نابرابری میانگین ها" از آزمون Z استفاده می شود. اگر سطح معناداری آزمون 0.05 انتخاب شود آنگاه ناحیه پذیرش شامل مقادیر بین منفی 1.96 تا 1.96 می شود.

 

الگوریتم رد و پذیرش: یک الگوریتم برای تولید اعداد تصادفی از توزیع احتمال f(x) به طوری که اول از یک توزیع دیگر تحت عنوان g(x) یک عدد تولید میکنیم به طوری که f و g به صورت زیر رابطه داشته باشند

f(x)<=kg(x)

برای هر x

که در آن، k یک عدد ثابت است. الگوریتم طبق مراحل

 

زیر عمل میکند:

الف) فرض کنید r یک عدد از توزیع g(x) باشد.

ب) فرض کنید s یک عدد از توزیع یکنواخت استاندارد باشد.

ج) c=ksg(r) را محاسبه کنید.

د) اگر c بزرگتر از f(r) بود، r را رد کن و به مرحله الف برگرد؛ اگر c کوچکتر مساوی f(r) بود، r را به عنوان یک عدد از توزیع f بپذیر.

(خدا پدره خوارزمی رو بیامرزه)

 

 

درستی (صحت): میزان مطابقت با یک مقدار استاندارد شناخته شده. به اریبی نیز مراجعه کنید.

(این واژه مربوط به بحث صحت Accuracy و دقت Precision در کنترل کیفیت هست)

 

تابع خ.ه.: مخفف تابع خودهمبستگی

 

روش های تطبیق‌پذیر: روش هایی که از جنبه های مختلف داده های نمونه برای انتخاب مناسب ترین نوع روش آماری برای تجزیه و تحلیل استفاده می کنند.

 

برای مثال، یک برآوردگر تطبیق‌پذیر T برای مرکز توزیع می تواند به این صورت باشد

T= میانبرد

وقتی k<=2

=میانگین حسابی

وقتی که

2<k<5

=میانه زمانی که k بیشتر مساوی 5 باشد

بطوری که k کشیدگی نمونه باشد. بنابراین اگر نمونه به نظر برسد که از توزیع دم کوتاه ناشی شده است، میانگین بزرگ‌ترین و کوچک‌ترین مشاهدات استفاده می‌شود؛ اگر به نظر برسد که وضعیت دم بلند وجود دارد، از میانه استفاده می‌شود و در غیر این صورت، میانگین نمونه محاسبه می‌شود.

 

نمودار متغیر افزوده: یک روش نموداری است که در انواع تحلیل رگرسیون برای شناسایی اینکه یک متغیر توصیفی بخصوص، در حضور متغیر های توصیفی دیگر باید به مدل اضافه شود یا خیر، استفاده می شود. متغیری که داوطلب اضافه شدن به مدل هست ممکن است یک متغیر جدید و یا توان بالاتری از یک

 

متغیر در خود مدل باشد. اگر متغیر داوطلب را با xi نشان دهیم، آنگاه باقیمانده های حاصل از رگرسیون متغیر پاسخ روی تمام متغیر های توصیفی بجز xi در مقابل باقیمانده های حاصل از رگرسیون xi روی باقی متغیر های توصیفی رسم می شود. یک رابطه خطی قوی در این نمودار نشان دهنده نیاز به اضافه کردن xi به معادله رگرسیون است.

 

قانون جمع احتمالات: برای دو پیشامد ناسازگار A و B، احتمال رخدادن حداقل یکی از آنها برابر مجموع تک تک احتمال های آنهاست، یعنی

P ( A یا B) = P A + P B

به طوری که P A نشان دهنده احتمال رخدادن پیشامد A است. برای k رویداد دوبه‌دو ناسازگار A1 تا Ak قانون کلی تر به شکل زیر است

P(A1 یا A2 ... Ak) = P(A1)+P(A2)+ ... +P(Ak)

همچنین به قانون ضرب احتمالات و نابرابری بول مراجعه کنید.

 

مدل جمعی: مدلی است که در آن متغیر های توضیحی بر روی متغیر پاسخ اثر جمعی دارند. به عنوان مثال در

 

یک مدل جمعی فرضی، اگر متغیر A به مقدار a روی برخی از اندازه های پاسخ تاثیر داشته باشد و اگر متغیر B به اندازه b روی همان پاسخ تاثیر داشته باشد، آنگاه اثر ترکیبی A و B برابر a+b خواهد بود.

(مربوط به رگرسیون ناپارامتری)

 

داده پرت افزایشی: در یک سری زمانی داده پرت افزایشی اصطلاحی است که برای مشاهده ای بکار می رود که تحت تاثیر مداخله ای غیر تکراری مانند اعتصاب ، جنگ و غیره قرار میگیرد. در این حالت تنها سطح مشاهده خاصی تحت تاثیر قرار میگیرد برخلاف داده پرت تحولی که مربوط به یک شوک غیر عادی در یک زمانی مثل T هست که روی مشاهدات مابعد آن نیز تاثیر میگذارد.

 

زیر مجموعه مناسب: اصطلاحی در تحلیل رگرسیون است برای زیر مجموعه ای از متغیر های توصیفی که تصور می شود در مورد متغیر پاسخ به اندازه مجموعه تمام متغیر های توصیفی اطلاعات داشته باشد. همچنین به روش های گزینش در رگرسیون مراجعه کنید.

 

ماتریس مجاورت: یک ماتریس با درایه های xij، که اتصالات یک گراف جهت‌دار را نشان میدهد. اگر راس i به j وصل شود، xij برابر یک و در غیر اینصورت 0 می باشد. قطر اصلی ماتریس مجاورت یک گراف ساده بدون طوقه باید برابر 0 باشد. ماتریس مجاورت یک گراف بدون جهت، متقارن است.

 

 

ماتریس همبستگی تعدیل شده: ماتریس همبستگی است که درایه های قطر اصلی آن با اشتراک ها جایگزین شده. اساس تحلیل مولفه های اصلی.

 

میانگین های تیماری تعدیل شده: در تحلیل کواریانس، معمولا برای برآورد میانگین های تیماری استفاده می شود، پس از تعدیل کردن تمام تیمار ها به سطح میانگین یکسان برای متغیر های کمکی با استفاده از برآورد رابطه بین متغیر های کمکی و متغیر پاسخ.

 

مجاز بودن: یک مفهوم بسیار کلی که برای هر روش استنباط آماری قابل استفاده است. ایده اصلی این است که یک رویه مجاز است اگر و تنها اگر هیچ روش دیگری در آن کلاس از رویه ها وجود نداشته باشد که حداقل به طور یکنواخت به خوبی رویه مورد نظر و یا حداقل در یک مورد خاص بهتر عمل کند. در اینجا به طور یکنواخت یعنی برای همه مقادیر پارامتر هایی که توزیع احتمال متغیر های تصادفی تحت بررسی را مشخص میکنند.

(مربوط به استنباط آماری توی ارشد)

 

 

تبدیل همگر: تبدیل Y=AX+b که در آن A ماتریسی نامنفرد و b برداری با مقادیر حقیقی می باشد. این تبدیل در بسیاری از حوزه های آماری به خصوص تحلیل چند متغیره اهمیت دارد.

 

مدل سن _دوره_هم گروه: مدلی مهم در بسیاری از مطالعات مشاهداتی است زمانی که منطقی است که فرض کنیم سن یک فرد، تعداد سال هایی که در معرض عامل خطر قرار دارد و سنی که آن فرد برای اولین بار در معرض خطر قرار گرفته، هر سه اینها در خطر بیماری نقش دارند. متاسفانه هر سه این عوامل نمی توانند به طور همزمان وارد مدل شوند از آنجاییکه این عمل باعث ایجاد همخطی میشود چون "سنی که آن فرد برای اولین بار در معرض خطر قرار گرفته" + "تعداد سال هایی که در معرض عامل خطر قرار دارد" برابر سن آن فرد می شود. چندین روش مختلف برای جدا کردن وابستگی عامل ها پیشنهاد شده اگر چه معمولا یکی از عامل ها را از مدل حذف میکنند. همچنین به نمودار لکسیس مراجعه کنید.

 

 

نرخ مرگ و میر سنین خاص: نرخ مرگ و میر محاسبه شده در حدود سنی  نسبتا کوتاه. به عنوان مثال، برای سنین بین ۲۰ تا ۳۰ سال داریم

DR(20,30)=

(تعداد مرگ و میر در بازه سنی ۲۰ تا ۳۰ در یک سال بخصوص)/(میانگین جمعیت در بازه سنین ۲۰ تا ۳۰ در آن سال بخصوص)

 

محاسبه نرخ مرگ و میر به این شیوه معمولا لازم است از آنجاییکه همچین نرخ هایی تقریبا همیشه برای سنین مختلف بسیار فرق میکند، تغییراتی که توسط نرخ مرگ و میر خام آشکار نمی شود. همچنین به نرخ مرگ و میر بر اثر علت خاص و نسبت مرگ و میر استاندارد شده مراجعه کنید.

 

توافق: میزانی که ناظران، ارزیابان و آزمون های تشخیصی مختلف روی یک رده‌بندی دودویی توافق میکنند. معیار های توافق مانند ضریب کاپا، کمیت فراوانی نسبی درایه های قطر جدول توافقی دو در دو را با در نظر گرفتن توافق بر اثر شانس مشخص می

 

کنند. باید به این مسئله توجه کنید که توافق قوی نیازمند پیوند قوی است درصورتی که پیوند قوی نیازمند توافق قوی نیست.

 

آلفا اگرسی: یک تعمیم برای نسبت بخت ها از جدول توافقی دو در دو به جدول های توافقی بزرگتر است که ناشی شده از داده های است که درجه های مختلفی از شدت یک بیماری و مقدار های مختلف از آشکاری دارند.

 

میم. الف. الف.: مخفف معیار اطلاعات آکائیکه.

 

معیار اطلاعات آکائیکه: یک شاخص که در حوزه های مختلف برای انتخاب مدل استفاده می شود. تعریف می شود:

 -2L+2m

به طوری که L ماکسیمم لگاریتم تابع درستنمایی و m تعداد پارامتر های مدل می باشد. این شاخص با ایجاد یک جریمه برای تعداد پارامتر های مدل، هم نکویی برازش آماری و هم تعداد پارامتر های مدل را در نظر می گیرد. مقادیر کمتر این شاخص نشان دهنده مدل بهتر است یعنی مدلی که با کمترین پارامتر، برازش

 

مناسبی برای داده ها تامین می کند. همچنین به اصل خساست(امساک) و معیار شوارتز مراجعه کنید.

 

الگوریتم: مجموعه ای از قوانین خوش تعریف است که اگر مرتب انجام شود به جواب یک مسئله از کلاس خاصی از مسائل ریاضی یا محاسباتی منجر می شود.

 

هم اثر سازی: زمانی اتفاق می‌افتد که برآورد یک پارامتر کاملاً با سایر پارامترها در هم آمیخته میشود زیرا اطلاعات کافی در دسترس نیست. هم اثر سازی بیرونی به دلیل کمبود داده کافی است مانند داده گمشده و یا همخطی. هم اثر سازی درونی به دلیل عدم شناسایی مدل آماری بخصوصی است، مثلا یک مدل رگرسیونی با متغیر توصیفی رسته ای که به اندازه دسته ها متغیر ظاهری دارد. (ماتریس X'X معکوس پذیر نمی باشد)

 

همه زیرمجموعه های رگرسیونی: یک نوع تحلیل رگرسیون است که در آن تمام مدل های ممکن در نظر گرفته می شود و بهترین مدل با مقایسه یک معیار مناسب مثل آماره cp مالو انتخاب میشود. اگر p تا

 

متغیر توصیفی داشته باشیم ، دو به توان p تا مدل باید بررسی شود. معمولا الگوریتم جست و خیز استفاده می شود تا تعداد کمی از مدل ها مورد بررسی قرار بگیرند. همچنین به روش های گزینش مدل در رگرسیون مراجعه کنید.

 

همگرایی تقریبا مطمئن: یک نوع همگرایی است که شبیه همگرایی نقطه ای یک دنباله از توابع می باشد با این تفاوت که همگرایی لازم نیست روی مجموعه های با احتمال صفر رخ دهد. تعریف رسمی آن به اینصورت است: دنباله Xt تقریبا با با اطمینان به mu میل میکند، اگر وجود داشته باشد مجموعه ای تحت عنوان M به طوری که P(M)=1 باشد و برای هر ω عضو N داشته باشیم X(ω) میل کند به mu.

 

آلفا: احتمال خطای نوع اول. همچنین به سطح معناداری مراجعه کنید.

 

آلفا پیراسته میانگین: یک روش برآورد کردن میانگین جامعه که نسبت به برآوردگر معمولیه میانگین نمونه، داده های پرت کمتر روی آن اثر می‌گذارند. نحوه

 

محاسبه آن به این صورت است که به اندازه نسبت آلفا از دو طرف مشاهدات حذف میکنیم و سپس از داده های باقیمانده میانگین میگیریم. اگر x(1),x(2),...,x(n) مقادیر مرتب شده نمونه باشند آنگاه این برآوردگر برابر

است که در آن k کوچک ترین عدد صحیح بزرگتر یا مساوی αn است. همچنین به برآوردگر های M مراجعه کنید.

 

آلفا وینزوریده میانگین: یک روش برآورد کردن میانگین جامعه که نسبت به برآوردگر معمولیه میانگین نمونه، داده های پرت کمتر روی آن اثر می‌گذارند. به جای k مشاهده اول داده k ام و به جای k مشاهده اخر داده n-k ام را درنظر میگیرم، به طوری که k کوچک ترین عدد صحیح بزرگتر یا مساوی αn است.

به طوری که x(1),x(2),...x(n) مقادیر مرتب شده

 

نمونه هستند. همچنین به برآوردگر های M مراجعه کنید.

 

امید شرطی متناوب: یک روش برای برآورد کردن تبدیل بهینه برای آنالیز رگرسیون و همبستگی. برای متغیر های توصیفی x1,...xq و متغیر پاسخ y, این روش تبدیل g(y) و s1(x1) تا sq(xq) را پیدا میکند به طوری که این تبدیل، همبستگی بین y و مقادیر پیش‌بینی شده را بیشینه می کند. در این تکنیک هر تبدیل هموار دلخواهی را می توان برای متغیر های توصیفی و پاسخ استفاده کرد.

 

حداقل مربعات متناوب: روشی که اکثرا در مقیاس بندی چند بعدی استفاده میشود به طوری که یک معیار نکویی برازش برای برخی از پیکربندی های نقاط طی یک سری از مراحل کمینه میشود، که هر کدام شامل استفاده از حداقل مربعات است.

 

رگرسیون لجستیک متناوب: یک روش رگرسیون لجستیک که در تحلیل داده های طولی، زمانی که متغیر پاسخ دودویی باشد، استفاده میشود. بر پایه معادلات

 

برآورد تعمیم یافته.

 

فرض مقابل: فرضی که در برابر فرض صفر، آزمون میشود.

 

تحلیل کواریانس: در آغاز کار برای تعمیم آنالیز واریانس استفاده میشد به طوری که علاوه بر اثر متغیر های عامل، اثر ممکن متغیر پیوسته همراه (متغیر کمکی) را روی متغیر پاسخ در نظر میگیرد. معمولا فرض میشود که تیمار ها روی متغیر کمکی تاثیری ندارند و رابطه متغیر کمکی با متغیر پاسخ خطی است. اگر همچین رابطه ای وجود داشته باشد، آنگاه اضافه کردن متغیر کمکی میتواند منجر به کاهش میانگین مربع خطا شود و در نتیجه حساسیت آزمون F که برای ارزیابی تیمار ها به کار میرفت، افزایش یابد. امروزه به نظر میرسد که این اصطلاح عموما برای هر تحلیلی که در جستجوی ارزیابی رابطه بین متغیر پاسخ و چندین متغیر توصیفی باشد، به کار میرود. همچنین به توازی در تحلیل کواریانس ، مدل های خطی تعمیم یافته و تکنیک جانسون نیمن مراجعه کنید.

 

تحلیل پراکندگی: هم معنی تحلیل واریانس چندمتغیره است.

 

تحلیل واریانس: جداسازی واریانس قابل استناد به یک متغیر از واریانس قابل استناد به بقیه متغیر ها. با افراز واریانس کل مجموعه مشاهدات به بخش هایی مختص به عوامل مختلف، مثل، جنسیت، گروه تیمار و ...، و با مقایسه واریانس ها (مربعات میانگین) به کمک آزمون F، میتوان تفاوت بین میانگین ها را ارزیابی کرد. ساده ترین تحلیل از این نوع شامل یک طرح یک‌طرفه است که در آن N آزمودنی معمولاً به‌صورت تصادفی به k سطح مختلف یک عامل تخصیص می‌یابند. سپس تغییرات کل در مشاهدات به یک بخش ناشی از تفاوت‌های بین میانگین‌های سطوح (مجموع مربعات بین گروه‌ها) و یک بخش ناشی از تفاوت‌های بین آزمودنی در همان گروه (مجموع مربعات درون گروه‌ها، که همچنین به آن مجموع مربعات باقیمانده گفته می‌شود) تقسیم می‌شود. این اصطلاحات معمولاً به‌صورت یک جدول تحلیل واریانس تنظیم می‌شوند.

 

اگر میانگین‌های جمعیت‌های نماینده سطوح عامل

 

یکسان باشد، آنگاه در محدوده تغییرات تصادفی، میانگین مربعات بین گروه‌ها و میانگین مربعات درون گروه‌ها باید یکسان باشد. اینکه آیا این موضوع صحیح است یا نه، در صورتی که برخی فرضیات برآورده شوند، می‌تواند با یک آزمون F مناسب بر اساس نسبت میانگین مربعات ارزیابی شود. فرضیات ضروری برای اعتبار آزمون F این است که متغیر پاسخ در هر جامعه به‌طور نرمال توزیع شده و جامعه ها واریانس یکسانی داشته باشند. اساساً، این یک مثال از مدل خطی تعمیم‌یافته با تابع پیوند همانی و خطاهای با توزیع نرمال است. همچنین به تحلیل کوواریانس، طرح گروه‌های موازی و طرح های عاملی مراجعه کنید.

 

جدول تحلیل واریانس: به آنالیز واریانس مراجعه کنید.

 

آماره کمکی: اصطلاحی که به آماره C در موقعیت‌هایی اطلاق می‌شود که آماره بسنده مینیمال، S، برای پارامتر θ را می‌توان به صورت S=(T, C) نوشت و C دارای توزیع حاشیه‌ای است که به θ وابسته نیست. به عنوان مثال، بگذارید N یک متغیر تصادفی با توزیع شناخته شده pn = Pr(N = n)(n = 1, 2, ... ) باشد و

 

Y1، Y2، ...، YN متغیرهای تصادفی مستقل و هم‌توزیع از خانواده توزیع نمایی با پارامتر θ باشند. درستنمایی داده‌ها (n, y1, y2, ..., yn) برابر است با

*فرمول باید اضافه شود*

به طوری که S مساوی با [N,مجموع b(Yj)] برای تتا بسنده است و N آماره کمکی است. اصطلاحی مهم در کاربرد درستنمایی شرطی در برآورد.

 

آزمون اندرسون-دارلین: آزمایشی که نشان می‌دهد یک نمونه مشخص از مشاهدات از یک توزیع احتمال نظری معین ناشی می‌شود. برای آزمون نرمال بودن داده‌ها، به عنوان مثال، آماره آزمون عبارت است از

*فرمول*

به طوری که x(1) ≤ x(2) ≤ ··· ≤ x(n) مشاهدات مرتب شده هستند، s² واریانس نمونه است و

*فرمول*

به طوری که

*فرمول*

فرض صفر نرمال بودن برای مقادیر 'بزرگ' An^2 رد می‌شود. مقادیر بحرانی آماره آزمون موجود است. همچنین به آزمون شاپیرو-ویلک مراجعه کنید.

 

 

برآوردگر اندرسون-شیائو: یک برآوردگر متغیرهای ابزاری برای مدل‌های داده‌های پانل دینامیک با تقاطع‌های خاص هر موضوع.

 

نمودار های اندرو: یک نمایش گرافیکی داده‌های چندمتغیره که در آن یک مشاهده

، x' = [x1, x2, ... , xq]

 به‌عنوان تابعی به شکل زیر نمایش داده می‌شود

*فرمول*

بر روی دامنه مقادیر

−π ≤ t ≤ π

 ترسیم شده است. مجموعه‌ای از مشاهدات چندمتغیره به عنوان گردایه ای از این نمودارها نمایش داده شده است و می‌توان نشان داد که آن توابعی که برای تمامی مقادیر t نزدیک به هم باقی می‌مانند، مربوط به مشاهداتی هستند که از نظر فاصله اقلیدسی به یکدیگر نزدیک هستند. این ویژگی به این معناست که چنین نمودارهایی معمولاً می‌توانند برای شناسایی گروه‌های مشاهدات مشابه و همچنین شناسایی نقاط پرت در داده‌های چندمتغیره استفاده شوند. مثالی که در شکل

 

۳ نشان داده شده، شامل نمودارهایی برای نمونه‌ای از ۳۰ مشاهده است که هر کدام دارای پنج مقدار متغیر هستند. این نمودار وجود سه گروه در داده‌ها را نشان می‌دهد. چنین نمودارهایی تنها می‌توانند از عهده تعداد محدودی از مشاهدات برآیند قبل از اینکه تحلیل آن‌ها بسیار دشوار شود. همچنین به چهره‌های چرنوف و نمادها مراجعه کنید.

 

روش شمارش زاویه ای: روشی برای برآورد نسبت مساحت یک جنگل که در واقع تحت پوشش پایه‌های درختان قرار دارد. یک ناظر به هر یک از چند نقطه در جنگل که به‌طور تصادفی یا سیستماتیک انتخاب شده‌اند، می‌رود و تعداد درختانی را که در آن نقطه، زاویه‌ای بزرگتر یا مساوی با زاویه ثابت از پیش تعیین شده ۲α را ایجاد می‌کنند، می‌شمارد.

(Bitterlich's method)

 

Angular histogram

هیستوگرام دایره ای: روشی برای نمایش داده‌های دایره‌ای که شامل پیچیدن هیستوگرام معمولی به دور یک دایره است. هر میله در هیستوگرام در نقطه میانی

 

بازه گروه قرار دارد و طول میله متناسب با فراوانی در آن گروه است. شکل ۴ چنین نمایشی را برای زمان‌های ورود در ۲۴ ساعت شبانه روز برای ۲۵۴ بیمار در یک واحد مراقبت‌های ویژه در طول ۱۲ ماه نشان می‌دهد. همچنین به نمودار گل سرخی مراجعه کنید.

intensive care unit=ICU

 

Angular uniform distribution

توزیع یکنواخت دایره ای: یک توزیع احتمال برای یک متغیر تصادفی دایره ای θ که به صورت زیر ارائه میشود:

*فرمول*

 

ت.و.: مخفف تحلیل واریانس.

 

باقیمانده انسکوب: جایگزینی برای باقیمانده‌های معمولی در مدل‌های رگرسیون که در آن‌ها مقادیر خطای تصادفی به‌طور نرمال توزیع نشده‌اند، مانند رگرسیون لجستیک. هدف تولید "باقیمانده‌هایی" است که توزیع‌هایی نزدیک به نرمال داشته باشند. شکل چنین باقیمانده‌ای به توزیع خطا فرض شده بستگی

 

دارد؛ به عنوان مثال، در مورد توزیع پواسون، شکل آن به صورت

3(y^(2/3)−ŷ^(2/3))/2ŷ^(1/6)

است که در آن y و ŷ به‌ترتیب مقادیر مشاهده‌شده و برازش‌یافته پاسخ هستند.

 

مدل های پادوابستگی: یک خانواده از ساختارها برای ماتریس واریانس-کواریانس یک مجموعه داده‌های طولی، با مدل مرتبه r که مستلزم این است که دنباله متغیرهای تصادفی، Y1، Y2، ...، YT به گونه‌ای باشد که برای هر r<t

Yt|Yt-1,Yt-2,... ,Yt-r

مستقل شرطی از Yt-r-1,..., Y1 است. به عبارت دیگر، پس از در نظر گرفتن r مشاهدات پیشین Yt، مشاهدات پیشین باقی‌مانده اطلاعات اضافی درباره Yt ارائه نمی‌دهند. این مدل هیچ محدودیتی بر ثبات واریانس یا همبستگی نسبت به زمان تحمیل نمی‌کند، بنابراین از نظر گشتاور مرتبه دوم، ایستا نیست. این ویژگی در عمل بسیار مفید است زیرا داده‌های بسیاری از مطالعات طولی اغلب با گذشت زمان واریانس افزایشی دارند.

 

 

پادرتبه: برای یک نمونه تصادفی X1، ..., Xn، متغیرهای تصادفی D1، ..., Dn به گونه‌ای که

*فرمول*

اگر به عنوان مثال D1 = 2 باشد، در این صورت X2 کوچک‌ترین مقدار قدر مطلق و Z1 دارای رتبه 1 است.

 

متغیر متضاد: عبارتی که در برخی رویکردهای شبیه‌سازی به‌کار می‌رود، به طوری که اجرای متوالی شبیه‌سازی‌ها انجام می‌شود تا برآوردگرهای اجرای نااریب و با توزیع یکسان بدست آید که به‌جای مستقل بودن، همبستگی منفی دارند. ارزش این رویکرد در این است که منجر به یک برآوردگر نااریب (میانگین برآوردها از تمام اجراها) می‌شود که واریانس کمتری نسبت به میانگین برآوردهای اجرای با توزیع یکسان و مستقل دارد. به‌عنوان مثال، اگر r یک متغیر تصادفی بین ۰ و ۱ باشد، آنگاه s = 1 − r نیز همین‌طور خواهد بود. در اینجا دو اجرای شبیه‌سازی شامل

r1، r2، ...، rm

 و

 1 − r1، 1 − r2، ...، 1 − rm

 

 خواهد بود که به‌وضوح مستقل نیستند.

 

طرح بهینه الف : به ملاک بهینگی مراجعه کنید.

 

ت.م.م.: مخفف تمام مقایسات موجود.

 

روش تخمین بازه اطمینان بوت استرپ: یک روش برای تخمین بازه اطمينان که از رویکرد بوت استرپ استفاده میکند و از هیچ گونه تکرار مونت کارلویی استفاده نمیکند.(یعنی لازم نیست نمونه جدید تولید کنی)

 

تخمین: یک نتیجه ای که دقیق نیست ولی به اندازه کافی نزدیک هست که برای اهداف خواسته شده مفید باشد.

 

Archetypal analysis

تحلیل کهن الگویی: رویکردی برای تحلیل داده‌های چندمتغیره که هدف آن نمایان کردن هر فرد در داده‌ها به عنوان ترکیبی از افراد با نوع خالص یا کهن الگو ها است. کهن الگو ها خود به ترکیبی از افراد موجود در مجموعه داده محدود می‌شوند. به طور

 

صریح، مسئله این است که مجموعه‌ای از بردارهایq × 1 به نام‌های z1, ..., zp را پیدا کنیم که الگوهای کهن الگویی در داده‌های چندمتغیره، X، را توصیف کنند. برای z1، ..., zp ثابت، به طوری که

*فرمول*

و βki>=0 و مجموع βki مساوی یک، تعریف کنید {αik} , k=1,..p به عنوان کمینه ساز

*فرمول*

تحت قید های،  αik>=0 و مجموع αik مساوی یک، .سپس الگوهای کهن الگویی یا کهن الگو ها را به عنوان ترکیب‌های z1، ...، zp تعریف کنید که عبارت زیر را کمینه می‌کنند

*فرمول*

برای p > 1، کهن الگو ها بر روی پوسته محدب داده‌ها قرار می‌گیرند؛ آنها مقادیر فرین داده هستند به‌گونه‌ای که تمامی داده‌ها می‌توانند به‌عنوان ترکیب‌های محدب از کهن الگو ها نمایش داده شوند. با این حال، کهن الگو ها به‌طور کامل افسانه ای نیستند زیرا هرکدام محدود به ترکیبی از نقاط موجود در داده‌ها می‌باشند.

(unsupervised)

 

 

مدل های خ.ن.و.ش.: مخفف مدل های خودهمبسته ناهمواریانس شرطی.

 

توزیع آرک سینوسی: توزیع بتا با پارامتر های  α=β=0.5

 

قانون آرک سینوس: یک تقریب قابل اعمال برای یک قدم‌زدن تصادفی ساده که مقادیر 1 و −1 را با احتمال 1/2 می‌گیرد است که محاسبه احتمال نسبت زمانی که امتیاز تجمعی مثبت یا منفی است را آسان می‌کند. این تقریب می‌تواند به این صورت بیان شود: برای α ثابت

 (0 < α < 1)

 و n به سمت بی‌نهایت، احتمال اینکه نسبت k/n از زمان، که امتیاز تجمعی مثبت است، کمتر از α باشد، به سمت

2π^-1arcsin(α^1/2)

میل میکند. به عنوان مثال، اگر یک سکه بی‌طرف به تعداد یک بار در هر ثانیه به مدت ۳۶۵ روز پرتاب شود، احتمال این که بازیکن خوش‌شانس‌تر برای بیش از ۳۶۴

 

روز و ۱۰ ساعت در صدر باشد، ۰.۰۵ است. تعداد کمی از مردم باور خواهند کرد که یک سکه بی‌نقص توالی‌هایی را تولید کند که در آن هیچ تغییری در صدر بودن برای میلیون‌ها بار متوالی رخ ندهد و با این حال، این همان چیزی است که یک چنین سکه ای به طور نسبتاً منظم انجام می‌دهد. به طور شهودی، بیشتر مردم احساس می‌کنند که مقادیر k/n نزدیک به ۱/۲ محتمل‌تر هستند. اما در واقع، عکس این درست است. مقادیر ممکن نزدیک به ۱/۲ کم‌احتمال‌ترین و مقادیر فرین k/n = ۱ و k/n = ۰ پر احتمال‌ترین هستند. شکل ۵ نتایج یک آزمایش شبیه‌سازی ۵۰۰۰ بار پرتاب یک سکه سالم

(Pr(شیر)=Pr(خط)=۱/۲)

را نشان می‌دهد که در آن شیر به عنوان ۱ و خط به عنوان -۱ امتیاز داده می‌شود. به طول امواج بین تقاطع‌های متوالی y = ۰، یعنی تغییرات متوالی در صدر بودن توجه کنید.

 

تبدیل آرک سینوس: یک تبدیل برای نسبت، p، که به منظور تثبیت واریانس آن طراحی شده و مقادیر مناسب‌تری برای تکنیک‌هایی مانند تحلیل واریانس و تحلیل رگرسیون تولید می‌کند. این تبدیل به صورت

 

زیر ارائه می‌شود

*فرمول*

 

ک.ن.م.: مخفف کارایی نسبی مجانبی.

 

نمونه گیری در سطح: روشی برای نمونه گیری که در آن یک منطقه جغرافیایی به نواحی کوچکتر (شهرستان‌ها، روستاها، بلوک‌های شهری و غیره) تقسیم می‌شود، که برخی از آن‌ها به‌صورت تصادفی انتخاب می‌شوند و سپس نواحی انتخاب‌شده یا زیر‌نمونه گیری می‌شوند یا به‌طور کامل مورد بررسی قرار می‌گیرند. به نمونه گیری خوشه‌ای نیز مراجعه کنید.

 

مساحت زیر نمودار (م.ز.ن.): اغلب یک راه مفید برای خلاصه‌سازی اطلاعات به دست آمده از مجموعه‌ای از اندازه‌گیری‌ها که در طول زمان بر روی یک فرد انجام می‌شود، مانند داده‌های جمع‌آوری شده در یک مطالعه طولی یا برای منحنی دوز-پاسخ است. معمولاً این کار با جمع کردن مساحت‌های زیر منحنی بین هر دو مشاهده متوالی محاسبه می‌شود، به عنوان مثال با استفاده از قاعده ذوزنقه. این روش اغلب

 

پیش‌بینی‌کننده اثرات بیولوژیکی مانند سمی بودن یا سودمندی است. همچنین به Cmax، تحلیل ویژگی‌های پاسخ و Tmax مراجعه کنید.

 

توزیع آرفویدسن: توزیع احتمال تعداد مقادیر صفر بین k متغیر تصادفی با توزیع چندجمله ای که p1=p2=...=pk.

 

خ.ی.م.: مخفف مدل های خودهمبسته یکپارچه میانگین متحرک.

 

میانگین حسابی: به میانگین مراجعه کن.

 

خ.م.م.: مخفف مدل های خودهمبسته میانگین متحرک.