본문 바로가기
책과 독후감

[책 독후감] 세상을 읽는 새로운 언어, 빅데이터 by 조성준

by 우기부기007 2020. 5. 16.
반응형

코로나 바이러스로 어디 돌아다닐수 없는 상황. 에라이 ~~^^

집안에서 책이나 읽기로 합니다. 요즘 2~3년사이 빅데이터, AI 이런 말들을 많이들 언급합니다. 뭐 대충은 무슨 의미인지는 알겠는데 정확한 뜻은 나도 모르겠다는~~

 

 

자금마한 책을 우연히 발견하고 읽어보려고 했지만 계속 미루다 오늘에서야 쭉 일독해봅니다. 저자는 조성준 교수, 서울대학교 산업공학과 교수로 서울대 데이터마이닝센터 센터장과 정부 공공데이터전략위원회 공동위원장을 맡고 계시는 분이라고 소개되었습니다. 세계적은 모르겠지만 우리나라에서 데이터 관련해서는 한가닥 하시는 분으로 보여지네요. ^^

전체적인 내용은 빅데이터 개론과 같은 내용으로 보입니다. 어렵지 않고 숫자관련된 내용도 거의 없습니다. [대학교 1학년에 입학하면 무슨무슨개론하는 과목과 비슷한 내용입니다. ]

전혀 어렵지 않고 약간의 흥미를 불러일으킬 정도의 내용이랄까요? 혹시 빅데이터에 대한 내용은 궁금하다면 일독 추천드립니다.

읽은 내용중 중요하다고 생각하거나 나중에 필요해보이는 내용만 간략히 요약해봅니다. 순전히 저의 관점이니 참고만해주세요. ~~

[빅데이터를 이용한 서비스 기획 분야의 접근 방법]

▶기술 중심의 기획: 일단 원천이 되는 기술을 개발해놓고 이걸 어떻게 상품화할지 고민하는 방식, 주로 원천 기술을 개발하는 사람들이 주로 많이 일하는 스타일, 주로 제품을 만들어 놓고 이후에 적용 분야을 고민하는 경우임

▶사용자 중심의 기획: 애초 발상이 사용자의 니즈(needs)에서 시작하는 경우임

주로 빅데이터를 이용한 기획분야가 존재하기 전에는 리서치를 통해 이를 해결하려고 노력했지만 이는 시간, 비용등이 너무 많이 드는 비효율적인 방법이었다고 한다. 하지만 요즘은 SNS등의 발달된 방법을 통해 이를 해결하려고 하고 있고 그 방법의 하나로 빅데이터를 이용한다고 한다.

[소비자의 관심은 제품이 아닌 서비스다]

이런 변화에 힘입어 이제는 소비자는 제품보다는 서비스를 원하고 있고 이는 "제품의 서비스화"라는 새로운 트렌드를 만들어내고 있다. 책에서는 예를 들기를 우리가 에어컨을 구매할 경우 실외기,실내기가 배달 설치됩니다. 하지만 소비자는 실제로 원하는 것은 기계가 아닌 여름동안 시원한 바람, 겨울에는 따뜻한 바람을 원하는 것이다. 이런 트렌드로 인해 4차 산업 혁명이 한창인 요즘의 기업들은 제품 자체보다는 자신이 판매한 제품에 대한 유지, 보수등의 서비스를 하는 방향으로 바뀌고 있다. 이를 "제품과 서비스의 패키지"라고 명명한다.

본인도 제품을 만드는 일을 하고 있지만 요즘은 거의 모든 기술은 상향 표준화 되어 있고 너무나 쉽게 저렴한 가격에 글로벌 소싱이 가능하다. 이런 시기에 똑같은 제품으로 동일한 서비스를 제공한다면 그 어느 누구도 경쟁이 될 수 없으며 기업들은 더이상 성장할 수 없을 것 같다. 동일한 문제를 바로 나의 회사에서도 느끼고 있지만 이를 타개할 만한 아이디어는 아직 없어 보여 안타까운 심정이다.

[와인의 품질 예측 공식이 주는 인사이트]

프랑스 최고급 와인의 생산 과정을 살펴보면 포도는 봄부터 늦은 여름까지 밭에서 자라고, 수확된 후 오크통에서 6개월 동안 포도의 과당이 알코올로 바뀌는 발효 과정을 겪고 이후 병입되어 다시 1년 6개월정도 보관된후 출고된다고 한다.

이후 저명한 와인 평론가들이 이듬해 봄에 보르도를 방문해 직접 맛을 본후 해당 와인의 품질을 점수로 매긴다고 한다. 그런데 사실 그들이 맛보는 와인의 수년간 숙성된 와인이 아닌 초기 상태의 와인이다. 결국 미완성 와인의 맛을 보고 이 와인의 미래, 완전히 성숙된 상태의 맛을 추정하게 되는 것이다.

이에 아센펠터라는 프린스턴대학교의 교수는 와인의 품질 예측을 혀가 아닌 데이터로 시도해본다. 프랑스 기상청으로부터 날씨 요인, 즉 온도, 일조량, 강수량등을 데이터 형태로 확보하고 더불어 과거 30년동안 보르드 와인들의 가격을 구하고 이들의 평균 가격을 계산한다. (일반적으로 알고 있는 내용은 여름에 더우면 보통 포도의 품질이 좋아서 와인도 좋다는 식의 내용만 알고 있던 차였다. )

날씨 데이터와 가격 데이터를 일대일로 놓고 회귀분석이라는 비교적 단순한 예측분석 방법을 통해 다음과 같은 인사이트를 공식으로 추출했다고 한다.

품질 = 12.145 + 0.00117 X 전년도 강수량 + 0.06140 X 당해 연도 평균 기온 - 0.00386 X 수확기 강수량

위의 공식은 전년도 겨울에 눈이 많이 올수록, 여름에 더울수록, 수확할때 비가 적을수록 와인의 품질 즉, 가격이 높아진다는 의미이다. 결국 아센펠터교수는 개인의 주관적인 의견이 아닌 그 해의 날씨 요인이라는 구체적이며 객관적인 숫자에 의해 와인의 품질도 역시 구체적이며 객관적인 수치로 예측이 가능하다는 이야기였다.

[장비의 이상을 데이터로 간파한다.]

데이터를 이용하여 건물을 유지하는 장비나 제품을 만드는 CNC 등과 같은 장비의 이상 작동 유무를 미리 알아낼 수 있다.기계 장비 자체에 문제가 생겨 작동을 멈추거나 이상 작동 현상이 나타나기 전에 상황을 미리알 수 있고 미리 액션을 취해 장비가 멈춰 있는 동안 발생할 수 있는 손실등을 미연에 막을 수 있는 것이다.

 

 

위의 도표는 센서를 각장에 부착하고 센서에서 나오는 데이터를 컴퓨터에 저장한후 "가우시안 혼합 모형"으로 분석한 표라고 한다. 평소 상태와 다를 때는 큰값, 평소 상태와 다르지 않을 때는 작은 값을 나타내는데 물론 이상이 발생했다고 하여 모두 고장은 아니라고 한다. 그리고 그에 대한 판단은 결국 인간인 관리자가 해야 한다고 한다.

본인의 회사에서도 전세계에 장비를 설치하고 관리하고 있다. 대략 700곳 이상인데 이 장비들의 관리는 고장이 발생했을 경우에만 고객사의 요청에 의해 수리를 진행하고 있다. 만약 이런 센서 추가를 통해 데이터를 관리하고 이를 사전에 방지할 수 있는 방법을 찾는다면 새로운 사업 분야를 창출해 낼 수 있을 듯하긴 하다. 문제는 비용이지만~~ 고객이 이에 대한 비용 대비 수익을 동의하고 지불을 해야 하는데 이런 경우는 드물듯하다.

[영화 관객수를 개봉전에 알 수 있다.]

정말 이게 가능할까? 나는 이 부분을 읽으면서 회의적이라고 생각한다. 어떻게 보면 주식에서 오늘 올라갈 주식을 골라보라는 내용과 일맥 상통하지 않을까? 그것도 과거의 데이터를 가지고서 미래를 예측하라는 내용을 말이다. 하지만 저자는 이미 이런 프로젝트를 진행했고 현업에서 잘 사용하고 있다고 한다.

내가 보기에는 조금 과장과 허구가 많이 들어가 있어 보인다. ^^ 계속 설명을 읽어 본다.

과거 수년간 한국에서 개봉된 모든 상업 영화의 장르, 국가, 제작사, 배우, 감독, 제작비, 대중의 인지도, 선호도 등의 데이터를 확보하고(이것은 영화진흥 위원회의 공공데이터, 일별 박스오피스 데이터, 네이버에 있는 영화 정보등을 크롤링함) 이를 통해 개봉후 첫주 토요일의 관객수를 예측했다고 한다. 이를 통해 개발된 인사이트는 시스템화되어 수년째 해당 업체에서 사용되고 있다고 표현했다. (CGV, 롯데시네마 요 2업체가 메인이라 둘중하나일 듯한데~~)

난 이런 정보를 통해 얻은 인사이튼 정말 단순 참고용이라고만 생각된다. 만약 엉뚱한 데이터로 인해 엉뚱한 결과가 나온다면 ? 정말 궁금하다. 현실에 적용이 명확하게 가능할지가?

[데이터가 아는 것은 인과관계가 아닌 상관관계]

상관관계와 인과 관계의 차이는 다음과 같이 설명이 가능하다. 예를 들어 세차면 하면 하루 이틀 후면 비가 온다. 이경우에는 내가 오랜 시간 관찰하여 생긴 인사이트이고 이는 둘 사이에 인과 관계가 있는 것은 아니고 단순히 상관 관계만 있는 것이라 한다. 서로 오인을 해서 잘못 사용하면 안되겠다.

[애널리틱스의 4단계]

 

 

제일 우선하는 방법은 시각화라고 한다. 시각화는 비즈니스 인텔리젼스(business intelligence)라고 하는데 데이터를 그림으로 보여주는 것이라 한다. 가장 중요한 것은 무엇을 볼 것인가를 결정하는 것으로 가치를 보여줄 수 있는 인사이트를 결정하는 것이라고 한다. 이는 의사 결정자가 기획 단계에서 결정해야 한다.

 

 

[튜링 테스트]

20세기 초 영국인 앨런 튜링이 기준을 제안한다. 일명 튜링 테스트라고 하는데 1호실에는 컴퓨터, 2호실에는 사람이 있는데 밖에서 판정관이 이 둘과 온라인 채팅을 하면서 누가 사람이고 누가 컴퓨터인지 구별할 수 없을 경우에 그 컴퓨터를 인공지능이라고 하자는 것이다. 이 튜링 테스트의 특징은 컴퓨터가 사람처럼 인지하고 행동하면 되는 것이지, 사람처럼 생각할 필요가 없다는 것이다. 특 비행체는 하늘을 나는 것이라고 정의하는 것과 같다. 날기만 하면 새처럼 날든 다른 방식으로 날든 상관없이 비행체라고 부르는 것이다. 즉, 결과 위주의 사고인것이다.

[기획이 없으면 인사이트도 없다]

 

 

빅데이터의 최종 분석 목표는 인사이트가 아니다. 최종 목표는 가치 만들기이다. 그냥 눈앞에 있는 구하기 쉬운 데이터를 가지고 무작정 분석해서 인사이트를 도출하고, 이를 의사 결정자에게 던져주는 접근법은 100%실패한다고 한다. (오~~-.- 내가 일했던 방식이 이런 방식이었네 우~~쒸~~~)

미리 어떠한 가치를 위해 어떠한 인사이트가 필요한지 가르쳐주지 않고 그저 데이터만 주면서 뭐든지 분석해보라고 하는 것은 셰프에게 무얼 먹고 싶은지 말하지 않고 그냥 내가 맛있게 먹을 수 있는 것을 만들어 오라는 것과 똑같고 결국 100% 실패하게 된다.

[가치 창출의 4단계]

 

 

모든 시작은 기획에서 시작하고 이를 통해 기획은 가치->인사이트->데이터 순으로 계획을 만드는 단계, 분석은 데이터로 인사이트를 만든 단계, 확인은 인사이트의 의미를 검증하는 단계, 끝으로 실행은 인사이트를 비즈니스 가치로 만드는 단계다. 실행이 끝나게 되면 다시 새로운 기획이 자연스럽게 떠오르고 다시 4단계는 반복된다.

이런 과정으로 진행되는 것은 데이터 분석뿐 아니라 모든 업무에 적용되는 것으로 생각된다. 이 과정은 단순히 외운다고 되는 것은 아닌것 같고 실제 업무에 적용해보면서 스스로 upgrade가 되어야 하지 않을까 한다.

빅데이터 분석을 위한 "데이터 사이언스 석박사" 과정이 2020년부터 설치된다고 하니 관심있는 사람은 지원을 해보는 것도 좋을 듯 하다.

 

반응형

댓글