모두의 인공지능 기초수학 리뷰

dongwon kim
9 min readJan 7, 2021

처음으로 개발자 리뷰어에 선정되어 책을 받았다. 개인적으로 쎄복이 있는 편이라 생각하는데 실제로 인공지능 공부하는데 마침 읽고 싶었던 책 “모두의 인공지능 기초수학”의 리뷰어로 선정되어 생각보다 기뻤다. 책을 12월 중순에 받았지만 연말 이벤트들이 있어 1월 2일 저녁이 되어서야 첫 페이지를 열었다. 책을 읽기 전에 머릿말과 목차를 읽어 어떤 책인지 파악하는 편인데 확실히 길벗 책 답게 간결하고 읽고싶게 잘 적혀있었다. 대략 4일정도 책을 붙잡고 있어 생각보다 오래 걸렸고 현 상황에서 받고 싶었던 AI 부스트 캠프 코딩테스트에 불합격하여 인공지능은 다시 취미로 돌아가게 되어 큰 부담을 가지지 않고 읽었다.

“모두의 인공지능 기초수학” 책은 말 그대로 인공지능 개발하기 위한 선수지식으로 요구되는 수학 개념을 정리한 책이며 고등학교부터 대학교 기초 수학까지 포함되어 있다. 사실 20대 중반까지 고등학교 수학 과외를 했었어서 고등학교 범위는 기억이 나는데 대학교 범위는 1학년 때 미적분학과 선형대 수학을 공부한 게 전부 이므로 기억이 잘 나지 않는다. 그리고 필자 같은 경우는 수리 가형에서 나형으로 바꾼 케이스이고 수리가형은 4등급, 나형은 1등급을 받은 어느정도의 선수지식을 가지고 학습을 했다.

아는 내용이라지만 내용이 상당히 많았고(약 400페이지) 처음에는 실제 노트에 써가면서 문제를 다 풀었고 파이썬으로 직접 코드를 쳐 가면서 진행하다가 백터부분에서 이해가 안되기 시작하여 나중에는 읽고 이해하는 식으로 읽고 넘어갔다. 책의 내용을 간단히 정리하자면(간단하진 않다.)

책은 크게 총 4마당으로 구분되어 있으며

  1. 기초수학
  2. 미분
  3. 선형대 수학
  4. 확률과 통계

로 분류되어있다.

기초 수학은 말 그대로 수학을 학습하기 위한 방정식, 부등식, 함수, 기울기, 기하학, 지수함수, 로그함수 등으로 구성되어있다. 중학교 개념부터 고등학교 개념이 정리되어 있으며 대학교 미적분학, 선형대수학의 개념은 없었다.

두번째 장 미분도 크게 어려운 개념은 없었으며 함수의 극한과 연속, 다항함수의 미분, 도함수의 활용에서의 오차역전파를 사용한 인공지능 등을 설명하였다.

역전파는 인공지능의 오차 역전파를 이용한 가중치와 편향 값을 조정하는 것으로 가중치 및 편향 값을 조정하는 과정을 ‘최적화’라고 한다. 이 최적화 정도는 기초수학을 어느정도 이해하는지에 달려있다.

세번째 장 선형대 수학은 내가 대학교 때 하긴했지만 그때도 미지의 세계였던 것으로 기억을 한다. 행렬도 생각보다 어렵고 특히 수리 가형에서 포기한 백터가 나오기에 이해가 정말 안 되서 여기서 부터는 많은 부분 완벽히 이해하고 넘어가지 못하였다. 가장 중요한 부분을 이해하지 못하고 넘어가서 다시 공부할 때 이곳을 중점적으로 볼 생각이다.

네번째 장 확률과 통계는 개인적으로 좋아하는 과목이다. 통계는 우리 생활에 밀접하게 관련이 있기 때문에 평소에도 좋아하는 편이다. 하지만 고등학교 공부하고 한적이 없어서 기초 지식에 대한 갈증이 있었는데 개념이 잘 정리되어있어서 “응 맞어 이랬었지” 하면서 술술 넘어갔다. 이 부분도 아직 코드로는 확인을 못하였기에 다시 공부할 때확인하고 넘어가야겠다.

각 마당에 대한 정리를 간단하게 했는데 내용에 대한 부분이 전혀 없어 읽으면서 밑줄 친 부분들을 아래 정리하고 넘어갈 생각이다.

미분

  • 인공지능에서 미분은 역전파에서 활용된다. 정확히는 가중치와 편향의 값을 조절할 때 사용한다.
- 입력층 : 데이터가 입력되는 계층이다.
- 은닉 층 : 입력층과 출력층 사이에서 위치하여 복잡한 분류 문제에서 판별 경계를 찾는데 사용한다.
- 출력층 : 활성화 함수 값을 계산하여 출력을 결정한다.
- 가중치(weight) : 각 신호가 결과에 주는 영향력을 조절하는 요소로 가중치가 클수록 해당 신호가 그만큼 더 중요하다는 뜻이다.
- 가중합 : 입력값과 가중치의 곱을 모두 더한 후 그 값에 편향을 더한 값이다.
- 편향(vias) : 가중합에 더하는 상수로, 하나의 뉴런에서 활성화 함수를 거쳐 최종으로 출력되는 값을 조절하는 역할을 한다.
- 활성화 함수 : 가중합의 결과를 놓고 1 또는 0으로 출력해서 다음 뉴런으로 보내는데, 이때 0과 1을 판단하는 함수가 활성화 함수이다.
활성화 함수로는 시그모이드 함수, 렐루 함수(ReLU)등이 있다.
  • 인공지능에서 학습이란 신경망에서 원하는 결과를 얻기 위해 뉴런 사이의 적당한 가중치를 알아내는것, 즉 가중치를 최적화 하는 것이라고 할 때 미분은 인공지능의 가중치 계산에서 핵심이다.
  • 미분이란 한점에서의 기울기를 의미한다.
  • 여러 변수중 하나를 상수로 보고 미분하는 것을 편미분이라고 한다.
  • 역전파는 계산 결과와 정답의 오차를 구해서 이 오차에 관여하는 노드 값들의 가중치와 편향을 수정한느데, 이때 오차역전파는 오차가 작아지는 방향으로 반복해서 수정한다.

선형대 수학

  • 인공지능은 본질적으로 컴퓨터가 이해할 수 있는 대량의 데이터, 즉 숫자를 이용하여 복잡한 계산을 수행하는 것이다. 복잡한 계산을 수행한다는 것은 수식을 풀어서 해를 구하는 과정을 반복한다는 의미이다. 이때 **수식을 쉽게 효율적으로 풀 수 있도록 도와주는 것이 선형대수학**이다. 즉, 선형대수학을 이해할 수 있어야 컴퓨터가 인공지능을 처리하는 과정을 이해할 수 있는 것이다.
  • 인공지능은 3차원 이상의 고차원 문제를 다룬다. 이를 쉽게 해결하기 위해 벡터 개념을 이용한다.
  • 벡터는 숫자 여러 개가 특정한 순서대로 모여 있는 것을 의미한다.
  • 벡터는 크기와 방향을 가진 물리량이다. 그렇기에 벡터는 수치적 개념보단 기하학적 혹은 시각적으로 이해해야 한다.
  • 인공지능을 하려면 데이터에 어떤 특징이 있는지 찾아 벡터로 만들어야 한다. 즉 데이터를 벡터로 만드는 것(텍스트→숫자데이터)이 인공지능의 시작이라고 할 수 있다.
  • 선형 결합은 백터의 스칼라 곱과 덧셈을 조합하여 새로운 백터를 얻는 연산이다.
  • 백터가 모여 공간을 형성한 것을 좌표 공간 혹은 벡터 공간이라고 한다. 이때 같은 공간상에 존재하는 벡터 사이에는 선형 결합 연산이 가능해야 한다.
  • 선형대 수학에서 기저(base)란 벡터 공간을 생성하는 일종의 뼈대라고 할 수 있다. 벡터 공간 V를 생성할 때 최소한으로 필요한 것의 집합을 기저라고 한다.
  • 선형대 수학적 차원에서 차원은 기저 벡터의 개수를 의미한다.
  • 내적은 벡터를 숫자처럼 곱하는 것으로, 한 벡터의 크기를 구하거나 두 벡터 사이의 거리를 측정하는 데 이용한다.
  • 벡터의 외적은 3차원 공간에 있는 벡터 간 연산 중 하나이다. 벡터 간 연산의 결과이기 때문에 벡터곱이라고 한다. 이때 두 3차원 벡터의 결과가 3차원인 경우를 벡터곱이라고 하며, 외적 결과가 행렬인 경우를 외적이라고 한다.
  • 유클리드 거리, 맨해튼 거리, 코사인 거리는 추천 시스템 및 문서의 유사도를 구하는데 사용한다. 추천 시스템은 아이템이나 사용자 간 유사성 개념을 기반으로 동작한다.예를 들어 등산화를 구매한 고객에게 등산 장비를 추천하려고 물품 사이의 유사성을 측정할 때 사용한다. 또 자연어 처리 분야에서 사용하는 문서 간 유사도는 검색 엔진이나 클러스터링 모델에서 많이 사용한다. 즉, 유사 단어 검색을 지원하거나 데이터 분류에서 문서의 유사도를 측정하는데 사용한다.
  • 행렬식이란 행 개수와 열의 개수가 같은 행렬, 즉 정사각행렬에 수를 대응시키는 함수를 의미한다.
  • 고유벡터는 선형 변환을 취했을 떄 방향은 변하지 않고 크기만 변하는 벡터를 의미한다.

확률과 통계

  • 인공지능의 궁극적 목적은 어떤 데이터를 분류하거나 값을 예측하는 것이다. 이때 분류나 값의 예측은 확률과 통계를 토대로 한다. 따라서 확률과 통계는 인공지능으로 결과(분류,예측)를 도출하는 과정을 이해하는 것이 기본이라고 할 수 있다.
  • 통계적으로 인공지능을 공부하려면 확률의 두 축인 빈도 확률과 베이지안 확률을 이해해야 한다.
  • 빈도 확률은 그 사건이 반복되는 사건의 빈도를 다룬다. 즉, 측정 사건이 얼마나 빈번하게 반복해서 발생하는지 관찰하고 이를 기반으로 가설을 세워 모델을 검증한다.
  • 베이지안 확률은 일어나지 않았거나 불확실한 사건에 대한 확률로 주관적인 가설의 사전 확률을 저앟고 관찰된 데이터를 기반으로 가능도를 계산해서 처음 설정한 주관적 확률을 보정한다.
  • 베이지안 확률은 두 확률 변수의 사전 확률과 사후 확률 간 관계를 나타내는 정리로, 사전 확률P(A)를 와 우도 확률 P(B|A)를 안다면 사후 확률 P(A|B)를 알 수 있다. 즉 베이지안 확률은 다음과 같이 조건부 확률로 나타내며, 정보를 업데이트하면서 사후 확률 P(A|B)를 구하는 것이다.
  • 확률변수는 실험 결과에 따라 표본 공간의 각 원소에 실수 값 하나를 대응시켜 주는 것.
  • 확률함수는 확률 변수가 일어날 확률을 나타내는 함수이므로 특정 확률변수의 확률함수를 알고 있다면 특정 사건이 일어날 확률을 예측할 수 있다.
  • 확률밀도함수는 특정 구간에 속할 확률을 계산하는 함수이며, 함수가 나타내는 그래프에서 ‘특정 구간에 속한 넓이 = 특정 구간에 속할 확률’이 되는 함수이다.
  • 정규분포는 평균에 가까울수록 발생할 확률이 높고, 평균에서 멀어질수록 발생할 확률이 낮게 나타나는 분포를 의미한다.
  • 정규분포의 평균을 0으로 만들고 표준편차를 1로 만들면 표준화할 수 있다.
  • 이항분포는 예, 아니요 처럼 결과가 두가지인 시험을 시행한 분포.
  • 회귀 : 평균으로의 회귀를 의미하며, 두 변수 관계가 일반화된 선형 관계의 평균으로 돌아감을 의미한다.
  • 모집단 전체에 대한 데이터 수집에는 시간과 비용이 든다. 적당히 수용할 수 있는 비용과 시간을 투자할 수 있는 표본을 추출해야 하는데, 이때 추출 방법은 정화곧를 높이는 방향으로 결론을 도출할 수 있어야 하기에 확률을 사용한다.
  • 통계적 가설 검정은 통계적 추측의 하나로, 모집단의 실제 관측 값이 어느 정도일 것이라는 가설에 근거하여 표본 정보를 사용해서 가설의 합당성 여부를 판정하는 과정이다. 쉽게 말해 가설을 맞는것이라 가정하고 참인지 거짓인지 판정하는 과정이다.
  • 귀무가설은 입증하고자 하는 가설로, 증명하고 싶은 가설이라고 생각하면 된다. 발생할 확률이 높은 쪽을 선택한다.
  • 대립가설은 귀무 가설과 반대로 발생 확률이 낮은 것을 선택한다.
  • 신뢰구간은 모수가 포함될 것이라고 예상되는 구간, 즉 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법이다.
  • 인공지능은 데이터를 기반으로 모델을 만드는데, 이때 모델 성능에 따라 데이터 분류에 대한 정확도가 달라지기 때문에 성능측정이 매우 중요하다.

현재 인공지능 공부를 이정도로 하고 넘어가고 본업으로 돌아가야 할 것 같다. 이 책은 또 다시 인공지능 공부가 필요할 때 유용하게 사용될 겉 같다.

--

--