본문 바로가기

Analyst Life

데이터 과학자 (Data Scientist) 인터뷰에 나오는 질문 Top8

반응형

데이터 과학자에게 있어 통계는 기초 하나로 데이터 과학을 배우려는 모든 전문가는 이 주제에 대한 광범위한 지식을 가지고 있어야 합니다.

 

통계는 데이터 과학자의 커리어에 있어 더 나은 비즈니스 결정을 내리는 데 도움이 됩니다. 채용을 해야 하는 매니져라면 첫 인터뷰에서 아래 통계 질문이 유용 할 수 있습니다. 경력과 포지션에 따라 더 깊이 파고 들고 질문을 하면 원하는 경력자를 채용할 수 있게 되겠죠.

 

#1. '신뢰 구간 (Confidence Interval)'을 정의하세요?

신뢰 구간은 통계적 추론을 통해 추출 할 수있는 매개 변수의 구간 추정이라고합니다 . 따라서 아래 공식을 사용하여 계산됩니다.

 

[point_estimation — cv * sd, point_estimation + cv * sd]

 

여기서 cv — 표본 분포에 따른 임계 값으로 정의됩니다. sd — 주어진 샘플의 표준 편차


# 2. 신뢰 수준을 정의 할 수 있습니까? 

가설 검정에서 정의 된 신뢰 수준은 귀무 가설이 거짓이면 기각 할 확률이라고합니다. 이것을 공식은 다음과 같습니다. 

 

P (거부하지 않는 H0 | H0이 True) = 1 — P (거부하는 H0 | H0이 참)

 

기본 Satistical Power는 95%입니다.


# 3 . 가설 검정을 정의하십시오.

가설 검정은 주어진 데이터에서 통계를 관찰 할 확률 (p-value)을 계산하고 귀무 가설이 참인 경우에만 결론을 내리는 통계적 추론 방법으로 정의 할 수 있습니다. 이를 바탕으로 p-value와 유의 수준을 비교하여 귀무 가설을 기각해야하는지 여부를 결정해야합니다. 테스트는 주로 효과를 확인하기 위한 테스트로 주로 사용됩니다.


# 4. 이상 값(Outliers)을 어떻게 감지 할 수 있습니까?

이상값은 다른 관측치와 다를 수 있는 관측치 일 뿐이며 변수를 그리는 가장 쉬운 방법은 다른 관측치와 멀리있는 데이터 포인트를 탐지하는 것입니다. 이러한 차이를 정량화하는 유일한 방법은 사 분위수 또는 사 분위수 범위 (IQR)를 사용하는 것입니다. 사 분위수 범위는 첫 번째 사 분위수, 즉 Q3-Q1을 뺀 경우 감지 할 수 있습니다. 이상 치는 Q1–1.5 * IQR보다 작거나 Q3 + 1.5 * IQR보다 높은 데이터 포인트로 정의 할 수 있습니다.


# 5. p-value를 어떻게 정의 하시겠습니까?

P-value는 귀무 가설이 참인 경우 데이터를 관찰 할 확률로 정의됩니다. p-value 작으면 귀무 가설을 기각 할 확률이 더 높다는 의미입니다.


# 6. Type I 와 Type II 오류를 정의 할 수 있습니까?

제 1 종 오류는 P 거부 H0 | H0이 True)로 정의 될 수 있으며, 이는 거짓 긍정 (여기서 ⍺는 신뢰 수준을 1을 뺀 값으로 정의 됨)이고 제 2 종 오류는 P로 정의됩니다 (H0 | H0을 거부하지 않음은 거짓) ( 여기서 β는 1에서 통계적 검정력을 뺀 값으로 정의되며 위음성입니다. 그러나 유형 I 오류와 유형 II 오류간에 약간의 상충 관계가있을 수 있습니다. 이것은 단순히 제 1 종 오류를 줄이려면 제 2 종 오류를 증가시켜야한다는 것을 의미합니다.


# 7. 실험을 위해 표본 크기를 선택하는 방법이 있습니까?

표본 크기는 표본의 표준 오차, 검정력, 효과 크기 및 원하는 신뢰 수준과 밀접한 관련이 있다고합니다. 표본 크기는 검정력이 증가하거나 표본 효과 크기가 감소 할 때만 증가한다고합니다.


# 8 . 표준 오류를 정의 하시겠습니까?

표준 오차는 표본 분포의 표준 편차로 정의됩니다. CLM의 도움으로 평균의 표준 오차는 표본 크기 n을 취하여 제곱근으로 나눈 모집단 표준 편차를 사용하여 정의 할 수 있습니다. 예를 들어 모집단 표준이 알려지지 않은 경우 표준 편차를 추정치로 사용할 수 있습니다.

 

 

반응형