1. 다음 중 기업의 전략 도출을 위한 가치 기반 분석과 관련된 설명으로 옳지 않은 것은?
① 핵심적인 비즈니스 이슈에 답을 주는 분석은 기업의 경쟁전략과 밀접하게 연관된다.
② 다양한 대량의 데이터를 수집, 분석하여 새로운 정보나 인사이트를 도출하고, 이를 기반으로 비즈니스 가치를 창출하는 것이 중요하다.
③ 전략적 분석과 통찰력의 창출은 빅데이터 프로젝트에서 핵심적인 역할을 한다.
④ 기존 성과를 유지하고 업계를 따라잡는 것이 전략적 가치 기반 분석의 가장 중요한 목표이다.
기존 성과를 유지하는 것은 바람직하지 않다. |
2. 빅데이터 분석 활용의 효과 예시로 가장 옳지 않은 것은?
① 운송 비용의 절감
② 상품 개발과 조립 비용의 절감
③ 서비스 산업의 확대와 제조업의 축소
④ 새로운 수익원의 발굴 및 활용
제조업의 축소는 활용 효과가 아니다. |
3. 데이터베이스의 일반적인 특징으로 옳지 않은 것은?
① 데이터베이스는 다수가 공동으로 이용하는 공용 데이터이다.
② 데이터베이스는 응용프로그램의 종속성을 가진다.
③ 데이터베이스는 컴퓨터가 접근 가능한 저장매체에 데이터를 저장한다.
④ 데이터베이스는 동일한 내용의 데이터가 중복되지 않는 통합 데이터이다.
데이터베이스는 응용프로그램의 독립성을 가진다. |
4. 다음 중 기업 내부 데이터베이스 솔루션으로 알맞지 않은 것은?
① ERP
② ITS
③ SCM
④ CRM
ITS라는건 없다. |
5. 데이터의 특징에 대한 설명 중 옳지 않은 것은?
① 데이터는 객관적 사실이다.
② 데이터는 추론과 추정의 근거를 이루는 사실이다.
③ 데이터의 최소단위는 바이트로 0과 1의 이진수 하나로 이루어져있다.
④ 단순한 객체로서의 가치와 다른 객체와의 상호 관계 속에서의 가치를 갖는다.
데이터의 최소단위는 비트(bit)이다. |
6. 이미지, 로그, 영상, 텍스트 등의 데이터 형태로 알맞은 것은?
① Structured data
② Quantitative data
③ Unstructured data
④ Semi-structured data
이미지, 로그, 영상, 텍스트 등의 데이터 형태는 비정형 데이터이다. |
7. 다음 중 빅데이터 활용 기법에 관한 설명으로 옳지 않은 것은?
① 군집분석을 통해 고객의 개인신용평가에 활용한다. (신용예측에 활용한다.)
② 최적화 문제에 대한 해결방안으로 사용되는 빅데이터 분석은 유전알고리즘이다.
③ 특정 주제에 대해 사용되는 텍스트를 분석하는 것을 감정(성)분석이라 한다.
④ 최근 핀테크 기업들은 사회연결망분석을 활용하고 있다.
군집분석으로 예측은 수행 할 수 없다. |
8. 빅데이터가 만들어 낸 본질적인 변화로 옳지 않은 것은?
가. 사전처리 → 사후처리 나. 대면조사 → 표본조사 다. 질보다 → 양적으로 라. 상관관계 → 인과관계 |
① 가, 나
② 나, 라
③ 다, 라
④ 가, 라
빅데이터로 인한 본질적인 변화: 사전처리 → 사후처리, 표본조사 → 전수조사, 질 → 양, 인과관계 → 상관관계 |
9. 가트너가 본 데이터 사이언티스트의 요구 역량으로 알맞지 않은 것은?
① 데이터 관리
② 분석 모델링
③ 비즈니스 분석
④ 조직 관리
상식적으로 조직 관리는 경영쪽 업무이므로 데이터 사이언티스트의 요구 역량은 아니다. |
10. 다음 중 데이터 사이언티스트에게 요구되는 하드스킬로 알맞은 것은?
① 데이터 분석 기술
② 시각화를 활용한 설득력
③ 커뮤니케이션 기술
④ 창의적 사고
②, ③, ④는 소프트 스킬이다. |
11. 조직에 데이터 분석 문화를 자리 잡게 하기 위한 행동으로 알맞지 않은 것은?
① 경영진이 데이터에 기반 한 의사결정을 할 수 있는 기업문화 정착의 변화관리를 지속해야 한다.
② 분석적인 사고를 업무에 적용할 수 있도록 다양한 교육을 실시해야 한다.
③ 단순한 도구(Tool) 교육이 아닌 분석역량의 확보와 강화에 초점을 맞춰야 한다.
④ 경영진을 대상으로 한시적 속성 교육을 강화해야 한다.
한시적 속성 교육이 아닌 지속적 교육이 필요하다. |
12. 아래에서 설명한 데이터 분석 조직구조는?
- 전사 분석업무를 별도의 분석 전담 조직에서 담당 - 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능 - 현업 업무부서의 분석업무와 이중화/이원화 가능성이 높음 |
① 집중 구조
② 기능 구조
③ 확산 구조
④ 분산 구조
별도의 분석 전담 조직이 있으며 이중화/이원화 가능성이 높은 구조는 집중 구조이다. |
13. 빅데이터 분석방법론의 분석기획 단계 산출물인 프로젝트 범위 정의서(SOW)에 들어가는 내용으로 옳은 것은?
① 비즈니스 이해
② 데이터 정의
③ 데이터 스토어 설계
④ 탐색적 분석
14. 다음 중 CRISP-DM의 모델링 단계에서 수행하는 업무(태스크)로 옳지 않은 것은?
① 모델링 기법 선택
② 데이터 통합
③ 모델 테스트 계획 설계
④ 모델 평가
데이터 통합은 데이터 준비 단계에서 수행한다. |
15. 빅데이터 분석 절차는 빅데이터 분석 방법론을 토대로 5단계 절차로 수행된다. 절차로 옳은 것은?
① 분석 기획 → 데이터 준비 → 시스템 구현 → 데이터 분석 → 평가 및 전개
② 분석 기획 → 데이터 분석 → 시스템 구현 → 데이터 준비 → 평가 및 전개
③ 데이터 준비 → 분석 기획 → 데이터 분석 → 시스템 구현 → 평가 및 전개
④ 분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개
16. 분석과제 발굴 방법 중 상향식 접근법(Bottom Up Approach)에 대한 설명으로 옳지 않은 것은?
① 분석대상이 명확할 때 솔루션을 찾는 방식이다.
② 일반적으로 비지도 학습(Unsupervised Learning) 방식을 수행한다.
③ 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 문제를 도출하는 일련의 과정이다.
④ 하향식 접근 방식과는 달리 복잡하고 다양한 환경에서 발생하는 문제 해결에도 적합하다.
분석대상이 명확할 땐 하향식 접근법을 진행한다. |
17. 과제 중심적인 접근방식으로 진행되는 특징으로 알맞지 않은 것은?
① Speed & Test
② Quick-Win
③ Accuracy & Deploy
④ Problem Solving
과제 중심적 접근 방식 Speed & Test / Quick-Win / Problem Solving 장기적인 마스터 플랜 방식 Accuracy & Deploy / Long Term View |
18. 하향식 접근방식의 수행 내용으로 옳지 않은 것은?
① 문제탐색
② 프로토타이핑
③ 문제정의
④ 타당성검토
하향식 접근방법: 문제탐색 → 문제정의 → 해결방안 → 타당성검토 |
19. 빅데이터 분석 방법론의 분석기획 단계에서 수행하는 주요 task 로 옳은 것은?
① 비즈니스의 이해 및 범위 설정
② 필요 데이터 정의
③ 모델 적용 및 운영 방안 수립
④ 모델 발전 계획 수립
![]() |
20. 데이터 분석기획 유형에 관한 설명으로 옳지 않은 것은?
① 분석대상을 알고, 분석방식도 아는 경우 개선을 통한 최적화 유형을 적용한다.
② 최적화, 솔루션, 관찰, 발견의 4가지 분석 주제 유형으로 이루어져 있다.
③ 분석대상을 알고 분석방식을 모르는 경우 솔루션을 찾아내는 방식을 적용한다.
④ 발견은 분석대상을 모르고, 분석방식도 모르는 경우 적용한다.
관찰이 아니라 통찰이다. |
21. 다음이 설명하는 표본추출방법으로 알맞은 것은?
모집단을 상이한 집단으로 나누고 각 집단에서 무작위로 표본을 추출하는 방법 |
① 단순무작위 추출법
② 계통추출법
③ 군집추출법
④ 층화추출법
22. 주성분 수의 선택 방법에 대한 설명으로 가장 옳지 않은 것은?
① 주성분들이 설명하는 총 분산의 비율이 70~90% 사이가 되는 주성분의 개수를 선택할 수도 있다.
② 고유값이 1에 가까운 값을 선택 한다.
③ 스크리 플랏(Scree Plot)를 통해서 주성분의 분산의 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 미미한 지점에서 주성분의 개수를 정할 수 있다.
④ 전체변이 공헌도 방법은 고유값 평균 및 스크리 플랏(Scree Plot) 방법보다 항상 우수하다.
23. 의사결정나무 분리기준인 엔트로피 지수의 계산식은?

24. 확률에 대한 설명으로 가장 적합하지 않은 것은?
① 각 사건의 확률은 0~1 이다. (확률은 0이상의 값을 가진다.)
② 표본 공간(S)에서 발생 가능한 모든 사건의 확률의 합은 1이다.
③ A와 B가 독립사건인 경우, 각 독립사건들의 확률의 합은 합집합의 확률과 동일하다.
④ 전체 표본 중 독립적인 것을 근원사건이라 한다.
배반사건일 경우 합집합의 확률과 동일하다. |
25. 아래 데이터는 닭의 성장률에 대한 다양한 사료 보충제의 효과를 측정하고 비교하기 위한 사료 유형별 닭의 무게 데이터이다. summary 함수 결과에 대한 해석 중 옳지 않은 것은?

① feed는 범주형 데이터이다.
② feed의 사료 중 soybean 수가 가장 많다.
③ range(chickwts$weight)의 결과는 108 423이다.
④ weight의 평균값은 258.0이다.
weight의 평균값(Mean)은 261.3이다. |
26. 계층적 군집 방법으로 가장 알맞지 않은 것은?
① 단일연결법
② 완전연결법
③ 평균연결법
④ 편차연결법
편차연결법이라는 건 없다. |
27. 분해시계열의 요인으로 알맞지 않은 것은?
① 추세요인
② 계절요인
③ 환경요인
④ 순환요인
추세요인, 계절요인, 순환요인, 불규칙요인 (추계순불 암기) |
28. 다음 수식이 나타내는 데이터간 거리는?

① 유클리드 거리
② 표준화 거리
③ 마할라노비스 거리
④ 민코프스키 거리(민코우스키거리)
29. 다음 중 의사결정나무와 가장 관련 없는 용어는?
① 카이제곱 통계량(Chi-square Statistic)
② 지니 지수(Gini Index)
③ 엔트로피 지수(Entropy Index)
④ 퍼셉트론(Perceptron)
퍼셉트론은 신경망과 관련 있다. |
30. 두 개의 확률변수 X, Y 의 공분산에 대한 설명 중 옳지 않는 것은?
① 공분산이 양수이면 X가 증가할 때 Y도 증가한다.
② 공분산이 음수이면 X가 증가할 때 Y는 감소한다.
③ 공분산의 크기는 상관계수와 동일하게 - 1~1 사이의 범위를 갖는다.
④ 두 변수가 서로 독립이면 공분산이 0이다.
공분산의 범위는 -∞~+∞이다. |
31. 아래의 F-Beta Score(지표)에 대한 설명으로 옳은 것은?

① Beta 값이 1.0보다 크면 Precision 에 비중을 두고 계산한다.
② Beta 값이 1.0보다 작으면 Recall 에 비중을 두고 계산한다.
③ Beta 값이 0.5 일 경우 precision 에 2배 가중치하여 평균한다.
④ Recall 값과 Precision 값이 정확이 같다면 Beta 에 관계없이 다른 결과가 나온다.
32. 앙상블 기법에 대한 설명으로 알맞은 것은?
① 앙상블 기법을 사용하게 되면 각 모형의 상호 연관성이 높을수록 정확도가 향상된다.
② 대표적인 앙상블 기법은 배깅, 부스팅이 있다.
③ 전체적인 예측값의 분산을 유지하여 정확도를 높일 수 있다.
④ 랜덤 포레스트는 앙상블 기법 중 유일한 비지도학습 기법이다.
①: 상호 연관성이 낮을수록 정확도가 향상된다. ③: 분산을 줄여야 한다. ④: 랜덤 포레스트는 지도학습이다. |
33. 다음 중 통계적 가설검정에 대한 설명으로 옳지 않은 것은?
① 귀무가설이 사실일 때 이 귀무가설을 기각함으로써 발생하는 오류를 유의수준이라 한다.
② 귀무가설이 거짓일 경우, 이를 옳지 않다고 판단하는 확률을 검정력이라 한다.
③ 사실인 귀무가설을 기각했을 때 발생하는 오류를 제 2종 오류라 한다.
④ p-value (유의확률)이 클수록 귀무가설을 채택하는 것으로 해석한다.
제 1종 오류(α): 귀무가설이 참일 때 대립가설을 채택하는 경우 제 2종 오류(β): 대립가설이 참일 때 귀무가설을 채택하는 경우 검정력(1-β): 대립가설이 참일 때 대립가설을 채택하는 경우 |
34. K-means 군집분석에 대한 설명으로 옳은 것은?
① 군집에서 가장 중심에 위치한 객체를 사용하여 k개의 군집을 찾게 된다.
② K-Medoids 알고리즘에 비해 노이즈 처리에 우수하고 연산량이 많다.
③ 초승달 모양(Crescent Shaped) 데이터 셋에 적합한다.
④ 군집 절차 수행 시 군집 수 K는 초기에 설정되어야 한다.
①: 군집의 평균 위치에 중심을 두고 k개의 군집을 찾는다. ②: 중앙값을 사용한 K-Medoids 알고리즘이 노이즈 처리에 더 우수하다. ③: 구(Circle) 모양 데이터 셋에 더 적합하다. |
35. 아래 오분류표에서 재현율(Recall)로 가장 알맞은 것은?

① 3 / 10
② 2 / 5
③ 1 / 3
④ 7 / 11
재현율(민감도)은 실제로 True인 것 중에서 예측을 True로 한 비율이다. |
36. 확률질량함수의 확률변수 X의 기댓값은?

① 10 / 6
② 11 / 6
③ 12 / 6
④ 13 / 6
1*(1/6) + 2*(3/6) + 3*(2/6) = 13/6 |
37. 군집분석 시 데이터의 단위가 다를 경우 사용하는 기법으로 알맞은 것은?
① Elimination
② Sampling
③ Averaging
④ Scaling
38. 다음 중 통계 용어에 대한 설명으로 옳지 않은 것은?
① 다른 변수의 영향을 받는 변수를 설명변수라고 한다.
② 모집단의 평균을 추정하기 위해 표본 평균을 계산한다.
③ 표준 편차는 데이터가 평균으로부터 떨어진 정도를 나타내는 척도이다.
④ 사분위수범위는 데이터의 25%, 50%, 75% 위치 중 75%에서 25%의 값을 빼준 값이다.
설명변수가 아니라 반응변수이다. |
39. 다음 중 시계열 모형에 대한 설명으로 옳은 것은?
① ARIMA의 약어는 AutoRegressive Improved Moving Average 이다.
② ARIMA 모형에서 p=0일 때, IMA(d,q) 모형이라고 부르고, d번 차분하면 MA(q)모형을 따른다.
③ 분해시계열은 일반적인 요인을 분리하여 분석하는 방법으로 회귀분석적인 방법과는 다르게 사용한다.
④ ARIMA 모형에서는 정상성을 확인할 필요가 없다.
①: ARIMA는 AutoRegressive Integrated Moving Average이다. ③: 잘 모르겠다. ④: ARIMA 모형은 비정상 시계열이기 때문에 정상성을 확인할 필요가 있다. |
40. 다음 중 데이터의 정규성을 확인하기 위한 방법으로 알맞지 않은 것은?
① Q-Q plot
② 결정계수
③ 히스토그램
④ 첨도와 왜도
결정계수는 회귀모형에서 설명변수가 얼마나 반응변수를 설명하는지를 나타낸 것이다. |
41. 다음 중 선형회귀모형이 통계적으로 유의미한지 평가하는 통계량으로 옳은 것은?
① F-Statistics
② Chi-Statistics
③ T-Statistics
④ R-Square
42. 데이터의 양이 가장 많이 발생하는 유형의 척도로 알맞은 것은?
① 명목척도
② 순서척도
③ 등간척도
④ 비율척도
43. 상관계수에 대한 설명으로 옳지 않은 것은?
① 피어슨 상관계수는 두 변수 간의 선형적인 관계의 강도를 측정한다.
② 피어슨 상관계수는 두 변수의 원래 값을 사용하여 계산된다.
③ 스피어만 상관계수는 모수적 관계에서 두 변수 간의 단조적인 관계의 강도를 측정한다.
④ 피어슨 상관계수가 0이면 선형관계가 없다.
스피어만 상관계수는 비모수적 관계이다. |
44. 시계열 데이터의 정상성(Stationary)에 대한 설명으로 옳지 않은 것은?
① 평균이 일정하다.
② 시계열 자료는 독립성을 충족해야 한다.
③ 분산이 시점에 의존하지 않는다.
④ 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
시계열 자료는 시간에 따라 변화하는 자료이므로 각 자료값이 완전히 독립적이지 않다. |
45. 다음 중 회귀분석에서 모형의 설명력을 확인하기 위해 사용되는 결정계수의 특성으로 옳지 않은 것은?
① 결정계수는 0에서 1의 값을 가진다.
② 높은 값을 가질수록 측정된 회귀식의 설명력이 높다.
③ 총 변동에서 추정된 회귀식에 의해 설명되는 변동의 비율로 나타낼 수 있다.
④ 종속변수와 독립변수 사이의 표본 상관계수값과 같다.
결정계수는 표본 상관계수의 제곱과 같다. |
46. 선형회귀모형의 오차항에 대한 가정조건으로 옳은 것은?
① 독립성, 선형성, 등분산성
② 독립성, 등분산성, 정규성
③ 정규성, 효율성, 등분산성
④ 정규성, 편의성, 독립성
선형회귀모형의 가정조건: 선형성, 독립성, 등분산성, 정규성 선형회귀모형의 오차항의 가정조건: 독립성, 등분산성, 정규성 |
47. 아래 설명에 해당하는 용어로 알맞은 것은?
다층 신경망 모형에서 은닉 층의 개수를 너무 많이 설정하면 역전파 과정에서 앞쪽 은닉층의 가중치가 조정되지 않아, 신경망에 대한 학습이 제대로 되지 않는 현상 |
① 기울기소실 문제
② 과적합
③ 활성화 함수
④ 신경망 레이어 소실
48. 아래 보기의 회귀모델에 대한 설명 중 옳지 않은 것은?

① 추정된 회귀식은 weight = 24.4654 + 7.9879*time 와 같다.
② F 통계량: 232.7, p-값: 2.974e-08 으로 보아 유의수준 5% 하에서 추정된 회귀 모형이 통계적으로 매우 유의하다.
③ time이 1 증가할 때, weight 이 5.99 만큼 증가한다.
④ 결정계수 또한 0.9588 로 매우 높은 값을 보이므로 이 회귀식이 데이터를 약 96% 정도로 설명 하고 있다.
time이 1 증가할 때, weight는 7.9879 만큼 증가한다. |
49. 카이제곱 통계량의 예측 표본과 실제 표본의 차이와 검정 통계량에 따른 유의확률의 변화로 옳은 것은?
① 카이제곱 통계량을 이용한 적합도 검정은 여러 범주형 변수에 대해 관측 값들이 어떤 이론이나 이론적 분포를 따르고 있는지를 검정하는 방법이다.
② 데이터의 정규성을 검정하기 위해 오차항이 정규분포를 추정하는지 알아보는 검정방법이다.
③ 예측 표본과 실제 표본의 차이가 많을 때, 도수가 낮아지고 검정 통계량이 높아져 유의확률이 낮아진다.
④ 각 데이터 포인트와 이론적인 분포 간의 차이를 측정하여 이 차이를 기반으로 검정 통계량을 계산한다.
①: 적합도 검정은 한 가지 범주형 변수를 검정한다. ②: 카이제곱 검정은 정규성 검정에 사용할 수 없다. ④: 관찰도수와 기대도수의 차이를 기반으로 검정통계량을 계산한다. |
50. 인공신경망 함수에 대한 설명으로 옳지 않은 것은?
① 인공신경망 함수는 여러 개의 뉴런이 연결된 구조를 가지고 있으며, 각 뉴런은 입력값에 따라 비선형적인 변환을 수행한다.
② 쌍곡탄젠트함수는 0~1 사이의 값을 출력하며 시그모이드 함수와 관련이 있다.
③ 인공신경망 함수는 활성화 함수를 사용하여 입력값을 출력값으로 변환한다.
④ 대표적인 인공신경망 함수로는 시그모이드 함수, 쌍곡탄젠트 함수, 렐루 함수 등이 있다.
쌍곡탄젠트함수는 -1~1 사이의 값을 출력한다. |
'자격증 공부' 카테고리의 다른 글
SQLD 공부 (1과목 데이터 모델링의 이해, 제2장 데이터 모델과 성능) (0) | 2024.05.28 |
---|---|
SQLD 공부 (1과목 데이터 모델링의 이해, 제1장 데이터 모델링의 이해) (0) | 2024.05.28 |
ADsP 39회 기출 공부 (0) | 2024.05.10 |
ADsP 38회 기출 공부 (0) | 2024.05.10 |
ADsP 37회 기출 공부 (0) | 2024.05.10 |