본문 바로가기
자격증 공부

ADsP 40회 기출 공부

by 준코메 2024. 5. 10.

1. 다음 중 기업의 전략 도출을 위한 가치 기반 분석과 관련된 설명으로 옳지 않은 것은?

핵심적인 비즈니스 이슈에 답을 주는 분석은 기업의 경쟁전략과 밀접하게 연관된다.

다양한 대량의 데이터를 수집, 분석하여 새로운 정보나 인사이트를 도출하고, 이를 기반으로 비즈니스 가치를 창출하는 것이 중요하다.

전략적 분석과 통찰력의 창출은 빅데이터 프로젝트에서 핵심적인 역할을 한다.

기존 성과를 유지하고 업계를 따라잡는 것이 전략적 가치 기반 분석의 가장 중요한 목표이다.

기존 성과를 유지하는 것은 바람직하지 않다.

 

 

2. 빅데이터 분석 활용의 효과 예시로 가장 옳지 않은 것은?

운송 비용의 절감

상품 개발과 조립 비용의 절감

서비스 산업의 확대와 제조업의 축소

새로운 수익원의 발굴 및 활용

제조업의 축소는 활용 효과가 아니다.

 

 

3. 데이터베이스의 일반적인 특징으로 옳지 않은 것은?

데이터베이스는 다수가 공동으로 이용하는 공용 데이터이다.

데이터베이스는 응용프로그램의 종속성을 가진다.

데이터베이스는 컴퓨터가 접근 가능한 저장매체에 데이터를 저장한다.

데이터베이스는 동일한 내용의 데이터가 중복되지 않는 통합 데이터이다.

데이터베이스는 응용프로그램의 독립성을 가진다.

 

 

4. 다음 중 기업 내부 데이터베이스 솔루션으로 알맞지 않은 것은?

ERP

ITS

SCM

CRM

ITS라는건 없다.

 

 

5. 데이터의 특징에 대한 설명 중 옳지 않은 것은?

데이터는 객관적 사실이다.

데이터는 추론과 추정의 근거를 이루는 사실이다.

데이터의 최소단위는 바이트로 01의 이진수 하나로 이루어져있다.

단순한 객체로서의 가치와 다른 객체와의 상호 관계 속에서의 가치를 갖는다.

데이터의 최소단위는 비트(bit)이다.

 

 

6. 이미지, 로그, 영상, 텍스트 등의 데이터 형태로 알맞은 것은?

Structured data

Quantitative data

Unstructured data

Semi-structured data

이미지, 로그, 영상, 텍스트 등의 데이터 형태는 비정형 데이터이다.

 

 

7. 다음 중 빅데이터 활용 기법에 관한 설명으로 옳지 않은 것은?

군집분석을 통해 고객의 개인신용평가에 활용한다. (신용예측에 활용한다.)

최적화 문제에 대한 해결방안으로 사용되는 빅데이터 분석은 유전알고리즘이다.

특정 주제에 대해 사용되는 텍스트를 분석하는 것을 감정()분석이라 한다.

최근 핀테크 기업들은 사회연결망분석을 활용하고 있다.

군집분석으로 예측은 수행 할 수 없다.

 

 

8. 빅데이터가 만들어 낸 본질적인 변화로 옳지 않은 것은?

. 사전처리 사후처리
. 대면조사 표본조사
. 질보다 양적으로
. 상관관계 인과관계

,

,

,

,

빅데이터로 인한 본질적인 변화: 사전처리 → 사후처리, 표본조사 → 전수조사,  → 양, 인과관계 → 상관관계

 

 

9. 가트너가 본 데이터 사이언티스트의 요구 역량으로 알맞지 않은 것은?

데이터 관리

분석 모델링

비즈니스 분석

조직 관리

상식적으로 조직 관리는 경영쪽 업무이므로 데이터 사이언티스트의 요구 역량은 아니다.

 

 

10. 다음 중 데이터 사이언티스트에게 요구되는 하드스킬로 알맞은 것은?

데이터 분석 기술

시각화를 활용한 설득력

커뮤니케이션 기술

창의적 사고

②, ③, ④는 소프트 스킬이다.

 

 

11. 조직에 데이터 분석 문화를 자리 잡게 하기 위한 행동으로 알맞지 않은 것은?

경영진이 데이터에 기반 한 의사결정을 할 수 있는 기업문화 정착의 변화관리를 지속해야 한다.

분석적인 사고를 업무에 적용할 수 있도록 다양한 교육을 실시해야 한다.

단순한 도구(Tool) 교육이 아닌 분석역량의 확보와 강화에 초점을 맞춰야 한다.

경영진을 대상으로 한시적 속성 교육을 강화해야 한다.

한시적 속성 교육이 아닌 지속적 교육이 필요하다.

 

 

12. 아래에서 설명한 데이터 분석 조직구조는?

- 전사 분석업무를 별도의 분석 전담 조직에서 담당
- 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능
- 현업 업무부서의 분석업무와 이중화/이원화 가능성이 높음

집중 구조

기능 구조

확산 구조

분산 구조

별도의 분석 전담 조직이 있으며 이중화/이원화 가능성이 높은 구조는 집중 구조이다.

 

 

13. 빅데이터 분석방법론의 분석기획 단계 산출물인 프로젝트 범위 정의서(SOW)에 들어가는 내용으로 옳은 것은?

비즈니스 이해

데이터 정의

데이터 스토어 설계

탐색적 분석

 

 

14. 다음 중 CRISP-DM의 모델링 단계에서 수행하는 업무(태스크)로 옳지 않은 것은?

모델링 기법 선택

데이터 통합

모델 테스트 계획 설계

모델 평가

데이터 통합은 데이터 준비 단계에서 수행한다.

 

 

15. 빅데이터 분석 절차는 빅데이터 분석 방법론을 토대로 5단계 절차로 수행된다. 절차로 옳은 것은?

분석 기획 데이터 준비 시스템 구현 데이터 분석 평가 및 전개

분석 기획 데이터 분석 시스템 구현 데이터 준비 평가 및 전개

데이터 준비 분석 기획 데이터 분석 시스템 구현 평가 및 전개

분석 기획 데이터 준비 데이터 분석 시스템 구현 평가 및 전개

 

 

16. 분석과제 발굴 방법 중 상향식 접근법(Bottom Up Approach)에 대한 설명으로 옳지 않은 것은?

분석대상이 명확할 때 솔루션을 찾는 방식이다.

일반적으로 비지도 학습(Unsupervised Learning) 방식을 수행한다.

다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 문제를 도출하는 일련의 과정이다.

하향식 접근 방식과는 달리 복잡하고 다양한 환경에서 발생하는 문제 해결에도 적합하다.

분석대상이 명확할 땐 하향식 접근법을 진행한다.

 

 

17. 과제 중심적인 접근방식으로 진행되는 특징으로 알맞지 않은 것은?

Speed & Test

Quick-Win

Accuracy & Deploy

Problem Solving

과제 중심적 접근 방식
Speed & Test / Quick-Win / Problem Solving

장기적인 마스터 플랜 방식
Accuracy & Deploy / Long Term View

 

 

18. 하향식 접근방식의 수행 내용으로 옳지 않은 것은?

문제탐색

프로토타이핑

문제정의

타당성검토

하향식 접근방법: 문제탐색 → 문제정의 → 해결방안 → 타당성검토

 

 

19. 빅데이터 분석 방법론의 분석기획 단계에서 수행하는 주요 task 로 옳은 것은?

비즈니스의 이해 및 범위 설정

필요 데이터 정의

모델 적용 및 운영 방안 수립

모델 발전 계획 수립

 

 

20. 데이터 분석기획 유형에 관한 설명으로 옳지 않은 것은?

분석대상을 알고, 분석방식도 아는 경우 개선을 통한 최적화 유형을 적용한다.

최적화, 솔루션, 관찰, 발견의 4가지 분석 주제 유형으로 이루어져 있다.

분석대상을 알고 분석방식을 모르는 경우 솔루션을 찾아내는 방식을 적용한다.

발견은 분석대상을 모르고, 분석방식도 모르는 경우 적용한다.

관찰이 아니라 통찰이다.

 

 

21. 다음이 설명하는 표본추출방법으로 알맞은 것은?

모집단을 상이한 집단으로 나누고 각 집단에서 무작위로 표본을 추출하는 방법

단순무작위 추출법

계통추출법

군집추출법

층화추출법

 

 

22. 주성분 수의 선택 방법에 대한 설명으로 가장 옳지 않은 것은?

주성분들이 설명하는 총 분산의 비율이 70~90% 사이가 되는 주성분의 개수를 선택할 수도 있다.

고유값이 1에 가까운 값을 선택 한다.

스크리 플랏(Scree Plot)를 통해서 주성분의 분산의 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 미미한 지점에서 주성분의 개수를 정할 수 있다.

전체변이 공헌도 방법은 고유값 평균 및 스크리 플랏(Scree Plot) 방법보다 항상 우수하다.

 

 

23. 의사결정나무 분리기준인 엔트로피 지수의 계산식은?

 

 

24. 확률에 대한 설명으로 가장 적합하지 않은 것은?

각 사건의 확률은 0~1 이다. (확률은 0이상의 값을 가진다.)

표본 공간(S)에서 발생 가능한 모든 사건의 확률의 합은 1이다.

AB가 독립사건인 경우, 각 독립사건들의 확률의 합은 합집합의 확률과 동일하다.

전체 표본 중 독립적인 것을 근원사건이라 한다.

배반사건일 경우 합집합의 확률과 동일하다.

 

 

25. 아래 데이터는 닭의 성장률에 대한 다양한 사료 보충제의 효과를 측정하고 비교하기 위한 사료 유형별 닭의 무게 데이터이다. summary 함수 결과에 대한 해석 중 옳지 않은 것은?

feed는 범주형 데이터이다.

feed의 사료 중 soybean 수가 가장 많다.

range(chickwts$weight)의 결과는 108 423이다.

weight의 평균값은 258.0이다.

weight의 평균값(Mean)은 261.3이다.

 

 

26. 계층적 군집 방법으로 가장 알맞지 않은 것은?

단일연결법

완전연결법

평균연결법

편차연결법

편차연결법이라는 건 없다.

 

 

27. 분해시계열의 요인으로 알맞지 않은 것은?

추세요인

계절요인

환경요인

순환요인

세요인, 절요인, 환요인, 규칙요인 (추계순불 암기)

 

 

28. 다음 수식이 나타내는 데이터간 거리는?

유클리드 거리

표준화 거리

마할라노비스 거리

민코프스키 거리(민코우스키거리)

 

 

29. 다음 중 의사결정나무와 가장 관련 없는 용어는?

카이제곱 통계량(Chi-square Statistic)

지니 지수(Gini Index)

엔트로피 지수(Entropy Index)

퍼셉트론(Perceptron)

퍼셉트론은 신경망과 관련 있다.

 

 

30. 두 개의 확률변수 X, Y 의 공분산에 대한 설명 중 옳지 않는 것은?

공분산이 양수이면 X가 증가할 때 Y도 증가한다.

공분산이 음수이면 X가 증가할 때 Y는 감소한다.

공분산의 크기는 상관계수와 동일하게 - 1~1 사이의 범위를 갖는다.

두 변수가 서로 독립이면 공분산이 0이다.

공분산의 범위는 -∞~+∞이다.

 

 

31. 아래의 F-Beta Score(지표)에 대한 설명으로 옳은 것은?

Beta 값이 1.0보다 크면 Precision 에 비중을 두고 계산한다.

Beta 값이 1.0보다 작으면 Recall 에 비중을 두고 계산한다.

Beta 값이 0.5 일 경우 precision 2배 가중치하여 평균한다.

Recall 값과 Precision 값이 정확이 같다면 Beta 에 관계없이 다른 결과가 나온다.

 

 

32. 앙상블 기법에 대한 설명으로 알맞은 것은?

앙상블 기법을 사용하게 되면 각 모형의 상호 연관성이 높을수록 정확도가 향상된다.

대표적인 앙상블 기법은 배깅, 부스팅이 있다.

전체적인 예측값의 분산을 유지하여 정확도를 높일 수 있다.

랜덤 포레스트는 앙상블 기법 중 유일한 비지도학습 기법이다.

①: 상호 연관성이 낮을수록 정확도가 향상된다.
③: 분산을 줄여야 한다.
④: 랜덤 포레스트는 지도학습이다.

 

 

33. 다음 중 통계적 가설검정에 대한 설명으로 옳지 않은 것은?

귀무가설이 사실일 때 이 귀무가설을 기각함으로써 발생하는 오류를 유의수준이라 한다.

귀무가설이 거짓일 경우, 이를 옳지 않다고 판단하는 확률을 검정력이라 한다.

사실인 귀무가설을 기각했을 때 발생하는 오류를 제 2종 오류라 한다.

p-value (유의확률)이 클수록 귀무가설을 채택하는 것으로 해석한다.

제 1종 오류(α): 귀무가설이 참일 때 대립가설을 채택하는 경우
제 2종 오류(β): 대립가설이 참일 때 귀무가설을 채택하는 경우
검정력(1-β): 대립가설이 참일 때 대립가설을 채택하는 경우

 

 

34. K-means 군집분석에 대한 설명으로 옳은 것은?

군집에서 가장 중심에 위치한 객체를 사용하여 k개의 군집을 찾게 된다.

K-Medoids 알고리즘에 비해 노이즈 처리에 우수하고 연산량이 많다.

초승달 모양(Crescent Shaped) 데이터 셋에 적합한다.

군집 절차 수행 시 군집 수 K는 초기에 설정되어야 한다.

①: 군집의 평균 위치에 중심을 두고 k개의 군집을 찾는다.
②: 중앙값을 사용한 K-Medoids 알고리즘이 노이즈 처리에 더 우수하다.
③: 구(Circle) 모양 데이터 셋에 더 적합하다.

 

 

35. 아래 오분류표에서 재현율(Recall)로 가장 알맞은 것은?

① 3 / 10

② 2 / 5

③ 1 / 3

④ 7 / 11

재현율(민감도)은 실제로 True인 것 중에서 예측을 True로 한 비율이다.

 

 

36. 확률질량함수의 확률변수 X의 기댓값은?

① 10 / 6

② 11 / 6

③ 12 / 6

④ 13 / 6

1*(1/6) + 2*(3/6) + 3*(2/6) = 13/6

 

 

37. 군집분석 시 데이터의 단위가 다를 경우 사용하는 기법으로 알맞은 것은?

Elimination

Sampling

Averaging

Scaling

 

 

38. 다음 중 통계 용어에 대한 설명으로 옳지 않은 것은?

다른 변수의 영향을 받는 변수를 설명변수라고 한다.

모집단의 평균을 추정하기 위해 표본 평균을 계산한다.

표준 편차는 데이터가 평균으로부터 떨어진 정도를 나타내는 척도이다.

사분위수범위는 데이터의 25%, 50%, 75% 위치 중 75%에서 25%의 값을 빼준 값이다.

설명변수가 아니라 반응변수이다.

 

 

39. 다음 중 시계열 모형에 대한 설명으로 옳은 것은?

ARIMA의 약어는 AutoRegressive Improved Moving Average 이다.

ARIMA 모형에서 p=0일 때, IMA(d,q) 모형이라고 부르고, d번 차분하면 MA(q)모형을 따른다.

분해시계열은 일반적인 요인을 분리하여 분석하는 방법으로 회귀분석적인 방법과는 다르게 사용한다.

ARIMA 모형에서는 정상성을 확인할 필요가 없다.

①: ARIMA는 AutoRegressive Integrated Moving Average이다.
③: 잘 모르겠다.
④: ARIMA 모형은 비정상 시계열이기 때문에 정상성을 확인할 필요가 있다.

 

 

40. 다음 중 데이터의 정규성을 확인하기 위한 방법으로 알맞지 않은 것은?

Q-Q plot

결정계수

히스토그램

첨도와 왜도

결정계수는 회귀모형에서 설명변수가 얼마나 반응변수를 설명하는지를 나타낸 것이다.

 

 

41. 다음 중 선형회귀모형이 통계적으로 유의미한지 평가하는 통계량으로 옳은 것은?

F-Statistics

Chi-Statistics

T-Statistics

R-Square

 

 

42. 데이터의 양이 가장 많이 발생하는 유형의 척도로 알맞은 것은?

명목척도

순서척도

등간척도

비율척도

 

 

43. 상관계수에 대한 설명으로 옳지 않은 것은?

피어슨 상관계수는 두 변수 간의 선형적인 관계의 강도를 측정한다.

피어슨 상관계수는 두 변수의 원래 값을 사용하여 계산된다.

스피어만 상관계수는 모수적 관계에서 두 변수 간의 단조적인 관계의 강도를 측정한다.

피어슨 상관계수가 0이면 선형관계가 없다.

스피어만 상관계수는 비모수적 관계이다.

 

 

44. 시계열 데이터의 정상성(Stationary)에 대한 설명으로 옳지 않은 것은?

평균이 일정하다.

시계열 자료는 독립성을 충족해야 한다.

분산이 시점에 의존하지 않는다.

공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.

시계열 자료는 시간에 따라 변화하는 자료이므로 각 자료값이 완전히 독립적이지 않다.

 

 

45. 다음 중 회귀분석에서 모형의 설명력을 확인하기 위해 사용되는 결정계수의 특성으로 옳지 않은 것은?

결정계수는 0에서 1의 값을 가진다.

높은 값을 가질수록 측정된 회귀식의 설명력이 높다.

총 변동에서 추정된 회귀식에 의해 설명되는 변동의 비율로 나타낼 수 있다.

종속변수와 독립변수 사이의 표본 상관계수값과 같다.

결정계수는 표본 상관계수의 제곱과 같다.

 

 

46. 선형회귀모형의 오차항에 대한 가정조건으로 옳은 것은?

독립성, 선형성, 등분산성

독립성, 등분산성, 정규성

정규성, 효율성, 등분산성

정규성, 편의성, 독립성

선형회귀모형의 가정조건: 선형성, 독립성, 등분산성, 정규성
선형회귀모형의 오차항의 가정조건: 독립성, 등분산성, 정규성

 

 

47. 아래 설명에 해당하는 용어로 알맞은 것은?

다층 신경망 모형에서 은닉 층의 개수를 너무 많이 설정하면 역전파 과정에서 앞쪽 은닉층의 가중치가 조정되지 않아, 신경망에 대한 학습이 제대로 되지 않는 현상

기울기소실 문제

과적합

활성화 함수

신경망 레이어 소실

 

 

48. 아래 보기의 회귀모델에 대한 설명 중 옳지 않은 것은?

추정된 회귀식은 weight = 24.4654 + 7.9879*time 와 같다.

F 통계량: 232.7, p-: 2.974e-08 으로 보아 유의수준 5% 하에서 추정된 회귀 모형이 통계적으로 매우 유의하다.

time1 증가할 때, weight 5.99 만큼 증가한다.

결정계수 또한 0.9588 로 매우 높은 값을 보이므로 이 회귀식이 데이터를 약 96% 정도로 설명 하고 있다.

time이 1 증가할 때, weight는 7.9879 만큼 증가한다.

 

 

49. 카이제곱 통계량의 예측 표본과 실제 표본의 차이와 검정 통계량에 따른 유의확률의 변화로 옳은 것은?

카이제곱 통계량을 이용한 적합도 검정은 여러 범주형 변수에 대해 관측 값들이 어떤 이론이나 이론적 분포를 따르고 있는지를 검정하는 방법이다.

데이터의 정규성을 검정하기 위해 오차항이 정규분포를 추정하는지 알아보는 검정방법이다.

예측 표본과 실제 표본의 차이가 많을 때, 도수가 낮아지고 검정 통계량이 높아져 유의확률이 낮아진다.

각 데이터 포인트와 이론적인 분포 간의 차이를 측정하여 이 차이를 기반으로 검정 통계량을 계산한다.

①: 적합도 검정은 한 가지 범주형 변수를 검정한다.
②: 카이제곱 검정은 정규성 검정에 사용할 수 없다.
④: 관찰도수와 기대도수의 차이를 기반으로 검정통계량을 계산한다.

 

 

50. 인공신경망 함수에 대한 설명으로 옳지 않은 것은?

인공신경망 함수는 여러 개의 뉴런이 연결된 구조를 가지고 있으며, 각 뉴런은 입력값에 따라 비선형적인 변환을 수행한다.

쌍곡탄젠트함수는 0~1 사이의 값을 출력하며 시그모이드 함수와 관련이 있다.

인공신경망 함수는 활성화 함수를 사용하여 입력값을 출력값으로 변환한다.

대표적인 인공신경망 함수로는 시그모이드 함수, 쌍곡탄젠트 함수, 렐루 함수 등이 있다.

쌍곡탄젠트함수는 -1~1 사이의 값을 출력한다.