1. Дайте определение оценки максимального правдоподобия (给出极大似然估计的定义).

    Пусть $X_1,\dots,X_n$ — выборка из распредеоение $\mathcal{F}{\theta}$, его плотность распределение $f{\theta}(y)$. Функция правдоподобия:

    $$ f(X,\theta)=f_{\theta}(X_1)\cdot f_{\theta}(X_2)\cdot\ \dots\ \cdot f_{\theta}(X_n). $$

    Оценка максимального правдоподобия $\hat{\theta}$ для неизвестного параметра $\theta$ это такое значение $\theta$, при котором достигается максимум функции правдоподобия $f(X,\theta)$:

    $$ \hat{\theta}=\argmax_\theta f(X,\theta). $$

  2. Дайте определение (точного и асимптотически точного) доверительного интервала (ДИ) для неизвестного параметра (给出未知参数(精确和渐近精确)置信区间(CI)的定义).

    Пусть $X_1,\dots,X_n$ — выборка из распредеоение $\mathcal{F}_{\theta}$. Пусть $\theta^-_n=\theta^-_n(X_1,\dots,X_n)$ и $\theta^+_n=\theta^+_n(X_1,\dots,X_n)$ —некоторые статистики.

    Случай интервал $(\theta_n^-,\theta_n^+)$ — доверительный интервал для параметра $\theta$ уровня доверия $1-\varepsilon$, если

    $$ P(\theta\in(\theta_n^-,\theta_n^+))=1-\varepsilon. $$

    Случай интервал $(\theta_n^-,\theta_n^+)$ — асимптотический доверительный интервал для параметра $\theta$ уровня доверия $1-\varepsilon$, если

    $$ P(\theta\in(\theta_n^-,\theta_n^+))\rightarrow 1-\varepsilon. $$

  3. Дайте определение статистического критерия (теста) (给出统计标准(检验)的定义).

    Критерий — любая функция

    $$ \delta:\mathbb{R}^n\rightarrow\{H_0,H_1,\dots\} $$

    из множества всех возможных значений выборки в множество гипотез. Если $\delta(X_1,\dots,X_n)=H_0$, то принимается основная гипотеза (если гипотез всего две). Если $\delta(X_1,\dots,X_n)=H_1$, то основная гипотеза отвергается и принимается альтернатива.

    Правило, согласно которому отвергается гипотеза, называется статистическим критерием.

    Функция от выборочных наблюдений $X_1,\dots,X_n$, используемая для проверки гипотезы $H_0$, называется статистикой критерия.

  4. Дайте определение вероятностей ошибок 1го и 2го родов(给出第一和第二类错误概率的定义).

    Вероятность ошибки 1-го рода (размер критерия) критерия $\delta$ это вероятность

    $$ \alpha=P_{H_0}(гипотеза\ H_0\ отвергается|H_0\ истинна). $$

    Вероятность ошибки 2-го рода критерия $\delta$ это вероятность

    $$ \beta=P_{H_1}(гипотеза\ H_0\ принимается|H_1\ истинна). $$

  5. Дайте определение мощности критерия (给出统计功效的定义).

    Мощность критерия: $1-\beta$.

  6. Дайте определение p-value (给出 p 值的定义).

    Пусть $\widetilde{s}$ — реализация статистики критерия,

    $$ P(|s|>\widetilde{s})=\varepsilon^* $$

    где $\varepsilon^*$ p-value.

  7. Как по p-value принимается решение в пользу основной или альтернативной гипотез (如何使用p值来决定支持主假设还是备择假设)?

    $\varepsilon^\leqslant\alpha$, то отвергается $H_0$; $\varepsilon^>\alpha$, то не отвергается $H_0$.

  8. Дайте определение асимптотически нормальной оценки (АНО) (给出渐近正态估计(AНO)的定义).

    Оценка $\theta^*$ — асимптотически нормальная оценка параметра $\theta$ с коэффициентом $\sigma^2=\sigma^2(\theta)>0$, если при $n\rightarrow\infty$

    $$ \sqrt{n}(\theta^*-\theta)\Rightarrow\eta\sim\mathcal{N}_{0,\sigma^2}. $$

  9. Как строятся доверительные интервалы и статистические критерии с помощью АНО (如何使用АНО构建置信区间和统计标准)?

    Доверительный интервал: $\theta^*\pm\mathcal{N}{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$, где $\mathcal{N}{\alpha/2}$ квантиль стандартного нормального распределения.

    1. Формулировка гипотез:

      • Основая гипотеза ($H_0$): параметр $\theta=\theta_0$,
      • Альтернативная гипотеза ($H_1$ ): параметр $\theta\neq\theta_0$ (двусторонняя) или $\theta>\theta_0/\theta<\theta_0$ (односторонняя).
    2. Статистика теста:

      $$ Z=\sqrt{n}\cdot\frac{\theta^*_n-\theta_0}{\sigma}, $$

      где $\sigma$ — стандартная ошибка.

    3. Критическая область: Если $|Z|>z_{\alpha/2}$, отвергаем $H_0$.

  10. Как определяются ранги для наблюдений выборки (如何确定观测样本的秩)?

    Две независимые выборки $X_1,\dots,X_m\sim\mathcal{F}$, $Y_1,\dots,Y_n\sim\mathcal{G}$. $\mathcal{F}$ и $\mathcal{G}$ — непрерывное распределение. Расположить все выборки от наименьшего к наибольшему. Ранг $X_i$ вычисляется по формуле: $R_i=\sharp\{j:Y_j<X_i\}+\sharp\{k:X_k<X_i\}+1$; Ранг $Y_i$ вычисляется по формуле: $S_j=\sharp\{i:X_i<Y_j\}+\sharp\{k:Y_k<Y_j\}+1$.

  11. Сформулируйте основную гипотезу для критерия Манна-Уитни (提出曼-惠特尼标准的原假设).

    $\mathcal{F}$ и $\mathcal{G}$ — непрерывное распределение. Основая гипотеза $H_0: \mathcal{F}=\mathcal{G}$ .

  12. Сформулируйте основную гипотезу для критерия Вилкоксона (提出 Wilcoxon 准则的原假设).

    Две независимые выборки $X_1,\dots,X_m$, $Y_1,\dots,Y_n$. Выборка $(X_1,Y_1),\dots,(X_n,Y_n), Z_i=Y_i-X_i$. Основая гипотега $H_0$: $Z_1$ симметрично относительно 0.

  13. В чем отличие независимых (непарных) выборок от зависимых (парных) выборок (独立(非配对)样本和因果(配对)样本之间有什么区别)?

    Независимые выборки используются, когда два набора данных не зависят друг от друга и относятся к разным субъектам или группам. Используются критерии для независимых выборок, такие как $t$-тест для двух независимых выборок или $U$-критерий Манна–Уитни.

    Зависимые выборки используются в случаях, когда существует корреляция или парная связь между двумя наборами данных, и подходят для сравнений «до и после» или экспериментов с совпадающим дизайном на одном и том же объекте. Парный $t$-тест или критерий Вилкоксона.

  14. Как задается многофакторная (множественная) линейная регрессионная модель (如何指定多元(多重)线性回归模型)?

    $Y=X\beta+\varepsilon$, где

    $$ \begin{gathered}Y=\begin{pmatrix}Y_1 \\Y_2\\\vdots\\ Y_n\end{pmatrix},\beta=\begin{pmatrix}\beta_1 \\\beta_2\\\vdots\\ \beta_k\end{pmatrix},\varepsilon=\begin{pmatrix}\varepsilon_1 \\\varepsilon_2\\\vdots\\ \varepsilon_n\end{pmatrix},X=\begin{pmatrix}X_{11} & \dots & X_{1k}\\\vdots&&\vdots\\ X_{n1}&\dots&X_{nk}\end{pmatrix}\end{gathered} $$

    обычно $X_{j1}=1$, $rank=k$.

  15. Какие требования накладываются на случайное возмущение в классической нормальной регрессионной модели (经典正态回归模型对随机扰动有哪些要求)?

    $\varepsilon_1,\dots,\varepsilon_n\sim\mathbb{N}_{0,\sigma^2}$, где $E\varepsilon_i=0, \ D\varepsilon_i=\sigma^2<\infty$.

  16. Как определяется остаток в i-ом наблюдении (如何确定第 i 个观测值的残差)?

    Регрессионная модель: $Y_i=\alpha+\beta X_i+\varepsilon_i, i:1,\dots,n$ . $\varepsilon_i=Y_i-\alpha-\beta X_i$

  17. Чему равна сумма остатков (残差之和等于多少)?

    0

  18. Дано регрессионное уравнение y=10+0,5x. Спрогнозируйте среднее значение переменной Y, если X=10 (给出了一个回归方程 y=10+0.5x。如果 X=10,预测变量 Y 的平均值)?

    15

  19. Дано регрессионное уравнение y=10-2x. Что произойдет в среднем с переменной Y, если переменная X увеличится на единицу (给出回归方程 y=10-2x。如果变量 X 增加 1,变量 Y 平均会发生什么变化)?

    $Y$ в среднем уменьшается на 2.