입시컨설턴트 입시상담 대학입학 정유희대표
입시컨설턴트 입시상담 대학입학 정유희대표

빅데이터는 무엇일까요? 우린 빅데이터를 굿데이터로 활용할 수 있는 방법을 알고 있을까요?

통계학과(빅데이터학)를 입학하기 위해서는 필수선택 교과목으로 확률과 통계를 듣고, 3학년 때 경제수학을 이수는 경우가 많은데 미적분을 이수하는 것을 추천합니다. 그 이유는 미적분학은 우리 주변에서 일어나는 모든 변화를 계량하는데 활용하기 때문입니다. 대학에서 회귀분석, 시계열분석, 다변량분석 등 변화를 이해하고 이를 활용하여 분석할 때 미적분을 알고 있다면 다양한 분석을 보다 쉽게 할 수 있습니다. 또한 데이터를 활용한 통계적인 분석을 하기에 정보, 정보과학, 데이터마이닝, 빅데이터와 관련된 과목을 이수하는 것도 추천합니다. 

단순히 학점만을 위한 공부가 아니라, 전공학문에 대한 흥미와 호기심을 바탕으로 창의적인 질문을 생각해 내고 그에 대한 해답을 찾기 위해 끊임없이 탐구하는 학생을 선호합니다.  또한 탐구를 혼자하기 힘들기에 원활한 의사소통능력을 통한 팀워크 능력이 필요하기에 심리학, 경영경제학, 이공계를 희망하는 학생들과 함께 탐구하면서 수학적으로 문제를 해결하는 모습을 보여주는 것이 더 좋은 활동이라고 생각합니다.

 


이제 통계학·빅데이터공학 합격생들의 학생부를 확인하고 면접 예상문제를 만들어 볼까요?

첫 번째 사례 [미적분학]
미적분을 활용한 진로 탐색활동에서 데이터공학에 필요한 딥러닝에 미적분이 사용된다는 것을 알고 ‘딥러닝에서 어떻게 미적분이 사용될까’라는 의문을 가지고 관련 탐구를 진행함. 이에 밑바닥부터 시작하는 딥러닝‘을 읽고 활동지를 제출함. 신경망과 딥러닝의 정의를 서술하고, 신경망 학습에서 지표가 되는 손실함수를 오차 제곱합과 교차엔트로피 오차로 나누어서 서술함. 신경망 학습 방법인 경사하강법의 원리를 활용해 배치, 손실계산, 매개변수 갱신 등을 설명할 수 있음. 이를 기반으로 딥러닝을 활용한 AI제작에 관심을 온라인 공개강좌를 참고하여 데이터기반 결과 예측 AI를 구현하여 활동지로 제출함.  

1. 데이터공학에 딥러닝이 필요한 이유에 대해 설명해 주세요.
답변> 우리가 알고 있는 데이터공학은 데이터 마이닝기술과 비슷하게 정형 또는 비정형된 데이터를 활용하여 결론을 만드는 과학적 프로세스, 알고리즘, 시스템을 이용하는 융합분야입니다. 이때 데이터를 분석하는 과정에 Overfitting과 Gradient Vanishing을 완화 시킬 수 있는 딥러닝을 활용하면 예전에 비해 수십 배 이상 빠른 속도로 딥러닝 연산 이용하여 데이터를 분석할 수 있기 때문입니다. 

2. 손실함수에서 활용되는 오차 제곱합과 교차 엔트로피 오차를 설명해 주세요.
답변> 평균 제곱 오차는 신경망 모델이 각 분류 기준들에 대해 확률적으로 추정한 값과 기존 정답 라벨의 값 사이의 차를 제곱합하여 2로 나눈 값입니다. 분류 기준의 개수는 최소 2개 이상이고 정답은 1개지만 원하는 인코딩으로 분류 개수를 맞춰준다면, 서로 뺄 수 있으며 그 값들을 제곱하고 모든 분류기준들에 대한 값들을 더하고 2로 나누어주면 평균제곱오차를 구할 수 있습니다.

교차 엔트로피 오차는 로그 값을 이용합니다. 정답이라 추정하는 값에 로그 값과 정답 라벨 값을 서로 곱하여 합한 값에 -1을 곱해주면 됩니다.

교차 엔트로피 오차 역시 손실 함수로서 평균 제곱 오차와 마찬가지로 모델이 정답을 맞춘 경우와 그렇지 못한 경우를 살펴보면, 정답을 맞추지 못한 경우에 그 값이 더 크게 됨을 알 수 있습니다.

 

두 번째 사례 [수학적 사고와 통계]

통계 단원을 학습하면서 데이터 수집과 집계 결과가 모두 통계적 분석으로 이루어진다는 것을 알게 되어 ‘축구와의 통계’라는 주제로 발표 수업을 진행함. 해외 축구 동영상 장면들을 편집하여 선수들의 움직임과 공의 흐름 등 데이터 기반으로 전술을 분석함. ‘세상에서 가장 쉬운 베이즈 통계학 입문’을 읽고, 베이즈 확률론과 베이즈 정리가 자신이 분석한 축구의 전술과 비슷하다는 것에 놀랐다고 함. ‘정보를 얻으면 확률은 변한다’는 베이즈 정리와 조건부 확률의 개념을 비교분석하고 도서에서 이야기하는 직사각형 넓이를 개념을 설명하여 축구에 적용하여 변수에 따른 전술을 정리하여 친구들의 격렬한 호응을 받음. 이후 교과에서 배운 내용을 바탕으로 수학 창작물 활동에 활용하는 좋은 결과를 얻음. 

1. 베이즈 정리와 베이즈 확률론를 공부했는데 어떤 내용인가요?
답변> 베이즈 정리는 P(A|B)와 P(B|A) 사이의 비율을 보여주는 정리입니다. 우리가 교과에서 배운 조건부 확률을 말하는데 어떤 사건이 만들어 놓은 상황에서, 그 사건이 일어난 후 앞으로 일어나게 될 다른 사건의 가능성을 구하는 것입니다. 베이즈 확률은 베이즈 정리를 바탕으로 한 확률 해석에 기반한 것입니다. 어떠한 사건이 일어날 것이라는 합리적 기대의 척도로 해석하여 어떠한 지식에 대한 신뢰나 논리적 추론의 결과로 해석합니다. 

2. 교과에서 배운 내용을 활용하여 수학 창작물 활동을 했다고 했는데 어떤 활동인가요?
답변> 수학 창작물 활동에 당시 유행하던 소셜 그래프 도박의 위험성을 증명하였습니다. 큰수의 법칙에 따라 통계자료의 신뢰성을 높이기 위해 1000개 이상 시행의 표본 집단을 만들기 위해 학생들을 섭외하고 밤을 세워 데이터를 모았습니다. 축을 돈 배율로 설정하여 그래프로 나타내자 0~1배율 구간에 원소들이 가장 많았고, 배율이 커질수록 원소 수가 급격히 감소하는 와 같은 개형을 관찰한 내용을 보고서에 작성하여 제출 후 발표를 했습니다. 총수익은 손익분기점을 넘지 못하여 시행을 반복할수록 돈을 잃을 수밖에 없다고 결론지었고, 이 사실을 알리는 UCC를 제작하여 학생들에게 도박의 허무함을 알려주는 활동을 진행을 했습니다. 


[학생부종합전형 활용한 수학·통계학·빅데이터공학 면접 예상문제 - 체크리스트를 활용한 면접 연습] 

각 항목별 1점에서 5점으로 계산하면 됩니다.

1. 유튜브 영상 조회수 예상 모형을 동아리 활동을 통해 만들어 보았는데 본인의 역할을 중심으로 구체적인 활동 내용에 대해서 설명해주세요.
2. 진로희망에 빅데이터 전문가, 데이터과학자 등을 쓰셨는데, 어떤 일을 하는 사람인지 설명해주세요.
3. 피글라우치의 종의 정의와 통계학의 군집 분석의 연관성에 대해 보고서를 작성했다고 하는데, 이 종의 정의가 무엇인지 설명해주세요.
4. 사회문화 시간에 언론에서 제시하는 통계의 오류에 관해 발표했는데, 구체적 사례를 들어 설명해주세요.
5. 활동 내용 중에 카이제곱검정에 대해 탐구한 내용이 있는데, 이 개념에 대해서 설명해주세요.
6. 기업컨설팅 상담가도 있는데 기업의 경영과 의사결정의 도움을 주는 데 있어서 빅데이터를 사용해야 하는 이유에 대해 설명해 주세요.  
7. 동아리 활동 중에서 신소재 관련 활동을 많이 했는데 가장 기억에 남는 활동에 대해 소개해주세요.
8. 학교 전체의 선호도 조사를 위해서 한 학급의 선호도 조사를 했는데 이 한 학급의 선호도 조사가 의미가 있을까요?
9. 정규분포 실생활 적용 할 수 있는 사례에 대해 설명해주세요.
10. 4차 산업혁명 시대에서 통계학의 중요성에 대해 설명해주세요.

위의 체크리스트처럼 자신의 학생부에서 면접 예상문제를 만들어 연습하세요. 

다음 시간에는 로봇·기계공학 면접 노하우 1편에서 예상문제를 확인해 보겠습니다. 

 

경력 : 
메타교육그룹 기획이사
EBS 학생부 심화편·탐구보고서 교원연수 강사
AI·SW·반도체 계열 진로로드맵 심화편 저자

 

 

관련기사