자격증 공부

ADsP 35회 기출 공부

준코메 2024. 5. 10. 00:40

1. 다음 중 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위한 업무를 수행하는 직업은 무엇인가?

데이터 엔지니어

데이터 분석가

데이터 아키텍처

알고리즈미스트

알고리즈미스트: 데이터 사이언티스트, 데이터 분석가, 인공지능 전문가 등이 만들어낸 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업으로 이들이 만들어 낸 알고리즘을 해석하여 피해를 입은 사람을 구제하는 전문가

 

 

2. 다음 중 빅데이터의 영향에 대해 올바르지 않은 것은?

산업 전체의 생산성이 향상되었다.

사물인터넷이 발달할 수 있는 기반을 제공하였다.

추천 서비스의 질이 향상되었다.

사회 변화를 추정, 각종 재해 관련 정보 추출 및 예측이 가능해졌다.

사물인터넷(IoT)은 빅데이터가 등장하기 전부터 존재하던 개념으로 빅데이터가 사물인터넷의 기반을 제공한 것은 아니다.

 

 

3. 다음 중 빅데이터의 위기요인과 통제방안에 대한 내용과 관련이 없는 것은?

사생활 침해

데이터 오용

책임원칙의 훼손

데이터 변화 관리

- 사생활 침해: 정보 제공자의 동의제에서 정보 사용자의 책임제로
- 책임원칙의 훼손: 결과 기반 책임 원칙 고수
- 데이터 오용: 알고리즘 접근 권한 허용

 

 

4. 다음 중 사용자와 데이터베이스 중간에 위치하여 사용자의 요구사항에 따라 데이터베이스를 관리하는 소프트웨어는 무엇인가?

RPA

DBMS

SQL

ERD

DBMS(DataBase Management System): 다수의 사용자들이 데이터베이스 내의 데이터를 접근할 수 있도록 해주는 소프트웨어 도구의 집합이다. DBMS는 사용자 또는 다른 프로그램의 요구를 처리하고 적절히 응답하여 데이터를 사용할 수 있도록 해준다.

 

 

5. 다음 중 빅데이터 기술 활용에 관련된 설명으로 거리가 먼 것은?

적시에 필요한 정보를 획득하고 자유롭게 가공하여 기회비용을 절약할 수 있다.

기업의 원가절감, 제품 차별화, 기업 활동의 투명성 제공 등에 활용될 수 있다.

공공의 이익을 위해 개인의 정보는 자유롭게 활용될 수 있다.

미래 사회를 대비해 법적 제도 및 거버넌스 시스템, 미래 성장 전략 등에 대한 정보를 제공한다.

개인의 정보는 동의 없이 활용될 수 없다.

 

 

6. 다음 중 데이터베이스와의 통신을 위해 고안된 언어는 무엇인가?

① Python

② Java

R

SQL

SQL(Structured Query Language): 데이터베이스에서 데이터를 추출하고 조작하는 데에 사용하는 데이터 처리 언어

 

 

7. 다음 중 데이터 사이언티스트의 필요 역량으로 적절하지 않은 것은?

네트워크 최적화 능력

고객과의 공감 능력

데이터 처리 기술

비즈니스 도메인에 대한 이해

①번은 네트워크 엔지니어의 필요 역량이다.

 

 

8. 다음 중 사생활 침해 방지 기술에 해당하는 것으로 개인 식별 정보를 알아볼 수 없는 형태로 변환하는 것과 가장 유사한 것은?

데이터 범주화

데이터 마스킹

총계처리

데이터 값 삭제

데이터 마스킹이란 [홍길동]을 [홍**]으로 바꾸는 등의 과정을 말한다.

 

 

9. 문자, 기호, 음성 영상 등 상호간에 관계를 갖는 다수의 객체 및 컨텐츠 등을 한곳의 저장소에 체계적으로 수집, 축적하여 모아논 것으로 다양한 용도와 방법으로 활용될 수 있는 정보의 집합체를 무엇이라 하는가?

정답 : 데이터베이스

 

 

10. 최적화 메커니즘의 일종으로 최대의 시청률을 얻기 위해서는 어떠한 프로그램을 어떤 시간대에 방송해야하는가라는 질문에 답을 주기 위한 빅데이터 활용 테크닉을 무엇이라 하는가?

정답 : 유전 알고리즘

 

 

11. 다음 중 데이터 거버넌스의 구성요소가 아닌 것은?

원칙

방법

조직

프로세스

칙, 직, 프로세스 (원조 프로세스 암기)

 

 

12. 다음 중 분석 마스터 플랜의 과제 우선순위 결정과 관련된 내용으로 적절하지 않은 것은?

ROI 관점에서의 분석 과제 우선순위 평가 기준은 시급성과 난이도로 나누어서 살펴본다.

난이도 판단 기준은 데이터의 양/데이터의 유형/데이터의 변화 속도 등이 있다.

시급성의 판단 기준은 전략적 중요도가 핵심이다.

Value는 투자 비용 요소이다.

투자 비용 요소: Volume(규모), Variety(다양성), Velocity(속도)
비즈니스 요소: Value(가치)

 

 

13. 다음 중 분석 과제 우선순위 선정 시 난이도와 시급성 모두를 고려하였을 때 우선적으로 추진해야하는 분석 과제는 무엇인가?

난이도: 쉬움, 시급성: 현재

난이도: 어려움, 시급성: 현재

난이도: 쉬움, 시급성: 미래

난이도: 어려움, 시급성: 미래

상식적으로 쉬우면서 지금 당장 필요한걸 우선적으로 해야한다.

 

 

14. 다음 중 분석 과제 도출 방법 중 상향식 접근 방식의 절차로 알맞은 것은?

프로세스 분류 프로세스 흐름 분석 분석요건 식별 분석요건 정의

프로세스 분류 분석요건 식별 프로세스 흐름 분석 분석요건 정의

프로세스 흐름 분석 프로세스 분류 분석요건 식별 분석요건 정의

프로세스 흐름 분석 분석요건 식별 프로세스 분류 분석요건 정의

암기

 

 

15. 다음 중 기업의 분석 도입 수준을 파악하기 위한 분석 준비도와 관계가 적은 것은?

분석 인력 및 조직

분석 기법

분석 목표

분석 데이터

IT인프라, 분석 화, 분석 이터, 분석 법, 분석 력, 분석 업무 악 (IT문데기인파 암기)

 

 

16. 다음 중 데이터 분석을 위한 조직 구성 중 분석 조직 인력들을 현업부서로 배치하여 신속한 업무 수행이 가능한 조직 구조를 무엇이라 하는가?

집중형 조직 구조

기능 중심 구조

분산 조직 구조

혼합 조직 구조

현업부서로 배치하는 것은 분산 조직 구조

 

 

17. 다음 중 빅데이터 분석 기획 단계에서 프로젝트 위험 계획 수립 시 잠재된 위험에 대한 대응 방법으로 옳지 않은 것은?

관리

수용

전이

완화

피, 이, 화, 용 (회전완수 암기)

 

 

18. 다음 중 데이터 거버넌스 체계의 단계들 중 메타데이터와 데이터 사전의 관리 원칙 수립과 관련된 단계는?

데이터 표준화

데이터 관리체계

데이터 저장소 관리

표준화 활동

관리 원칙 수립과 관련된 단계니까 데이터 관리체계라고 연관지어 생각하기

 

 

19. 문제가 주어지고 해답을 찾기 위한 방법으로 각 과정이 체계적이고 단계화 되어 수행되는 분석 과제 도출 방식은?

정답 : 하향식 접근법

 

 

20. 아래에서 설명하고 있는 분석 조직 구조는 무엇인가?

- 별도의 독립적인 분석 전담 조직을 구성하여 회사 전사적인 분석 업무를 담당한다.
- 전략적 중요도에 따라 전사적 차원에서 우선순위를 정해 추진 가능하다.
- 일부 현업 부서와 분석 업무가 중복 또는 이원화가 될 가능성이 있다.

정답 : 집중형 조직 구조

 

 

21. 다음 중 자기 조직화 지도(SOM)에 대한 설명으로 옳지 않은 것은?

비지도 학습의 일종이다.

입력층과 출력층 사이에 은닉층이 존재하여 효율적인 군집화가 가능하다.

차원축소와 군집화가 동시에 수행되는 기법이다.

출력 뉴런들은 승자 뉴런이 되기 위해 경쟁하는 승자 독식 구조이다.

②번은 신경망에 대한 설명이다.

 

 

22. 다음 중 오분류표를 사용하여 특이도를 구하는 식으로 올바른 것은?

TN/(FP+TN)

TP/(TP+FN)

TP/(TP+FP)

(TP+TN)/(TP+FN+FP+TN)

정밀도(Precision): 예측을 P로 한 것 중에서 실제로 P인 비율
민감도(Sensitivity 또는 Recall): 실제로 P인 것 중에서 예측이 P인 비율
특이도(Specificity): 실제로 N인 것 중에서 예측이 N인 비율

 

 

23. 다음 중 의사결정나무에 대한 설명으로 적절하지 않은 것은?

비지도 학습으로 상향식 접근법을 이용한다.

구조가 단순하며 해석이 용이한 장점이 있다.

목표변수의 유형(이산형, 연속형)에 따라 적용되는 알고리즘은 다르다.

정지규칙, 가지치기 등을 통하여 분류나무를 최적화 할 수 있다.

의사결정나무는 지도 학습이며 하향식, 상향식과는 관계가 없다.

 

 

24. 다음 중 회귀분석의 결정계수에 대한 설명으로 올바르지 않은 것은?

결정계수는 0에서 1사이의 값을 갖는다.

결정계수의 값이 클수록 회귀모형의 설명력은 높다.

결정계수의 값은 회귀제곱합(SSR)/총제곱합(SST)의 값으로 계산된다.

2개 이상의 독립변수가 활용될 때 단위의 차이로 발생할 수 있는 오차를 제거한 것이 수정된 결정계수이다.

독립변수의 개수가 많아지면 모형의 설명력과는 관계 없이 결정계수가 커지는 단점을 보완한 것이 수정된 결정계수이다.

 

 

25. 다음 중 로지스틱 회귀모형에 대한 설명으로 옳지 않은 것은?

독립변수가 한 단위 증가할 때 e의 회귀계수승만큼 오즈값이 증가한다.

오즈값에 로그함수를 사용하여 회귀분석을 수행한다.

모형 검정에는 F 검정이 사용된다.

종속변수가 범주형인 경우에 활용가능한 회귀분석 모형이다.

로지스틱 회귀분석은 카이제곱(χ2) 검정이 사용된다.

 

 

26. 두 좌표 A, B에 대해서 맨해튼 거리를 바르게 계산 한 것은?

  A B
X 160 165
Y 70 80

5

10

15

55

(a1,a2),(b1,b2) 사이의 거리
유클리드 거리: (a1b1)2+(a2b2)2
맨해튼 거리: |a1b1|+|a2b2|

 

 

27. 다음 중 데이터 마이닝 프로세스를 올바르게 나열한 것은?

() 목적 정의
() 데이터 준비
() 데이터 가공
() 데이터 마이닝 기법 적용
() 검증

() - () - () - () - ()

() - () - () - () - ()

() - () - () - () - ()

() - () - () - () - ()

암기

 

 

28. 다음 중 목표변수가 연속형인 회귀나무의 분류 기준값을 선택하는 기준으로 구성된 것은?

F통계량, 분산 감소량

F통계량, 엔트로피 지수

엔트로피 지수, 지니 지수

지니 지수, 분산 감소량

연속형인 회귀나무: F통계량, 분산 감소량
범주형인 회귀나무: 엔트로피 지수, 지니 지수

 

 

29. 아래는 확률분포 X의 확률분포표이다. 다음 중 그 설명이 잘못된 것은?

X 1 2 3
  1/6 1/2 1/3

확률변수 X의 확률의 합은 반드시 1이다.

확률변수 x0일 확률은 0이다.

확률변수 x1또는 2일 확률은 1/12이다.

확률변수 x의 기댓값은 13/6이다.

1/6 + 1/2 = 2/3이다.

 

 

30. 다음 중 혼합분포 군집의 특징으로 적절하지 않은 것은?

복잡한 형태를 가진 분포의 경우 선형 결합된 여러 개의 확률분포로 설명할 수 있다.

군집을 몇 개의 모수로 표현할 수 있으며, 각각의 군집은 확률분포로 나타내어진다.

모수 추정에서 데이터가 커지면 군집수행을 위한 반복횟수가 커진다.

군집의 크기가 작을수록 추정이 쉽고 정밀한 추정이 가능하다.

군집이 작을수록 추정이 어렵다.

 

 

31. 다음 중 EM알고리즘을 사용한 혼합분포 모형의 결과에 대한 해석으로 잘못된 것은 무엇인가?

반복 횟수 2회 만에 로그 가능도함수가 최대가 됨을 알 수 있다.

로그 가능도 함수의 최댓값은 1035보다 크다.

2개의 정규분포가 혼합된 모형임을 알 수 있다.

summary 함수를 활용하여 두 분포의 평균과 표준편차 비율 정도를 알 수 있다.

반복 횟수 2회 이후에도 로그 가능도함수 값이 조금 더 증가한다.

 

 

32. 아래의 확률변수 x의 기댓값을 바르게 계산한 것은?

X 1 2 3 4
  1/8 1/4 1/4 3/8

20/8

21/8

22/8

23/8

기댓값: 1*(1/8) + 2*(1/4) + 3*(1/4) + 4*(3/8) = 23/8

 

 

33. 다음 중 홀드아웃에 대한 설명으로 올바른 것은 무엇인가?

전체 데이터를 학습데이터와 테스트 데이터 두 세트로 나누는 방법이다.

과대적합을 방지하기 위해 고안된 방안이다.

회귀분석에서 다중공선성으로 인해 발생하는 문제를 해결하기 위해 고안된 방법이다.

하나의 모형이 아닌 여러 개의 모형을 생성 및 조합하여 예측력이 높은 모형을 만드는 방법이다.

②번은 교차검증에 대한 내용이다.
③번은 주성분 분석에 대한 내용이다.
④번은 앙상블 학습에 대한 내용이다.

 

 

34. 다음 중 입력신호를 받아 출력신호로 연결하기 위한 활성화 함수로 로지스틱 회귀모형에서 주로 사용하는 활성화 함수는?

Softmax

Relu

Sign

Sigmoid

로지스틱 회귀모형에서 주로 사용하는 활성화 함수는 시그모이드(Sigmoid) 함수이다. (다른 함수 정보는 구글에 검색)

 

 

35. 다음 중 군집의 수를 미리 지정하지 않으며 탐색적 기법에 적합한 군집 방법은?

혼합분포 군집

K means 군집

계층적 군집

다차원 척도법

계층적 군집은 덴드로그램을 그려서 군집화를 수행하며 군집의 수를 미리 지정하지 않아도 된다는 점과 고립된 군집을 쉽게 찾을 수 있다는 장점이 있다.

 

 

36. 다음 중 선형 회귀 모형의 통계적 유의성 검증을 위해 사용하는 것은?

F 통계량

결정계수

T 통계량

p-value

선형 회귀 모형의 유의성 검정에는 F검정을 사용하며 F 통계량을 계산한다.

 

 

37. 다음 중 연관규칙 A B일 때 지지도에 대한 식으로 올바른 것은?

① P(A ∩ B)

② P(B) / P(A  B)

③ P(A) / P(A  B)

④ P(A  B) / P(A + B)

연관규칙 A  B일 때
지지도: P(A  B), 신뢰도: P(B | A), 향상도: P(A  B) / P(A)P(B)

 

 

38. 다음 중 Lasso 회귀 모형의 정의에 대한 설명으로 올바른 것은?

가중치의 절대값의 합과 제곱합을 동시에 제약조건으로 갖는 모형이다.

일부 가중치 파라미터를 제한하지만 0이 아닌 0에 가깝게 만든다.

L2 penalty를 활용한다.

가중치들의 절대값의 합을 최소화하는 것을 제약 조건으로 추가한다.

①번은 엘라스틱 넷(Elastic Net)에 대한 설명이다.
②, ③번은 릿지(Ridge) 회귀 모형에 대한 설명이다.

 

 

39. 아래 산점도는 차량 392대의 연비(mpg)와 마력(horsepower)의 관계를 나타내고 있다. 다음 중 그 아래 산점도에 대한 설명으로 잘못된 것은?

마력이 증가할 때 연비는 감소하는 경향이 있다.

위 데이터의 상관성을 알기 위해서는 스피어만 상관계수를 구하는 것이 바람직하다.

두 변수는 뚜렷한 음의 상관관계를 보이고 있다.

어느정도의 선형성을 보아 선형회귀모형을 통해 연비를 추정할 수 있다.

위의 데이터는 연속형 데이터이기 때문에 피어슨 상관계수를 구하는 것이 바람직하다. (스피어만은 순위 상관계수이다.)

 

 

40. 다음 중 분류 모형에 대한 설명으로 적절한 것은?

과거부터 지금까지 발생된 현상들에 대해 특징을 찾고 새로운 데이터에 대한 분류 혹은 미래에 대한 예측을 위해 활용된다.

카탈로그 배열, 교차판매, 효율적인 마케팅 등을 위해 사용되는 기법이다.

여러 자료들 사이의 유사성을 측정하고 유사한 자료들을 그룹화하여 각 그룹의 특성을 찾는 분석기법이다.

일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 가까운 미래를 예측하는 분석방법이다.

②번은 연관분석이다.
③번은 군집분석이다.
④번은 시계열분석이다.

 

 

41. 아래는 ISLR 패키지의 Default 데이터를 활용하여 회귀분석을 수행한 결과이다. 다음 중 그 결과를 잘못 해석한 것은?

로지스틱 회귀분석을 수행한 결과이다.

위 분석을 수행하는데 활용된 데이터는 10000개이다.

incomedefault를 설명하는데 통계적으로 유의미한 변수이다.

balancedefault를 설명하는데 통계적으로 유의미한 변수이다.

①: family = "binomial" 이므로 로지스틱 회귀분석이 맞다.
②: 잔차 편차(Residual deviance)의 자유도는 (nk1)k=3이므로 n10000이다.
③: income의 z검정 유의확률은 0.71152로 유의수준 0.05 하에서 통계적으로 유의하지 않다.
④: balance의 z검정 유의확률은 2e-16으로 유의수준 0.05 하에서 통계적으로 유의하다.

 

 

42. 다음 중 군집분석에 대한 설명으로 잘못된 것은?

군집분석은 이상치에 민감하다.

군집분석이 수행된 후에는 결과를 판단하기 위해 오분류표를 활용한다.

각 객체간의 유사성을 판단하여 객체들을 몇 개의 집단으로 그룹화하는 기법이다.

자기 조직화 지도는 군집분석이면서도 동시에 시각화가 가능한 기법이다.

오분류표는 분류분석에서 사용한다.

 

 

43. 다음 중 시계열 분석에 대한 설명으로 잘못된 것은 무엇인가?

데이터가 추세를 보일 경우 차분을 통해 정상 시계열로 만들 수 있다.

시계열 데이터는 대부분 비정상 시계열이기 때문에 정상 시계열로 만든 후에 분석을 수행할 수 있다.

시계열 그래프를 통해서 정상성 여부는 확인할 수 있으나 이상 여부는 확인할 수 없다.

정상 시계열인 경우 평균값 주변에서 변동의 폭은 대체로 일정하다.

정상성 여부와 이상 여부 모두 확인 가능하다.

 

 

44. 다음 중 연관분석에 대한 설명으로 옳지 않은 것은?

품목의 세분화가 많이 될수록 좋은 결과를 도출한다.

분석 대상이 되는 품목의 수가 증가하면 계산량은 기하급수적으로 증가한다.

조건반응으로 A 라면 B이다 로 해석되어 누구나 쉽게 결과를 이해할 수 있다.

목적변수가 없으므로 데이터 탐색에 유용하다.

품목의 세분화가 너무 많으면 계산량이 기하급수적으로 증가하여 좋은 결과를 도출 할 수 없다.

 

 

45. 차원축소 기법 중 하나로, 객체들 사이의 유사성, 비유사성을 2차원 혹은 3차원 공간상에 점으로 표현하여 개체 사이 군집을 시각적으로 표현하는 기법은?

정답 : 다차원 척도법

 

 

46. 군집분석에서 두 군집간의 거리를 측정하기 위한 방법으로 각 군집간의 가장 먼 데이터를 두 군집의 거리로 정의하는 방법은?

정답 : 최장연결법

 

 

47. 설명변수 선택 방법 중에서 독립변수 후보를 모두 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 모형은?

정답 : 후진 제거법

 

 

48. 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법으로 하나는 모형 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법은?

정답 : 홀드 아웃

 

 

49. 다단위 시간이나 단위 공간에서 특정 사건이 몇 번 발생하는지를 표현하는 기댓값과 분산이 같을 확률분포는 무엇인가?

정답 : 포아송 분포

 

 

50. P(A)=0.4, P(B)=0.3이고, 사건 A와 사건 B가 독립사건일 경우 P(B|A)를 계산하시오.

정답 : 0.3

두 사건이 독립이면 P(A ∩ B) = P(A)P(B)
따라서, P(B|A) = P(B ∩ A) / P(A) = P(B)P(A) / P(A) = P(B) = 0.3