고대 사람들은 원자론(Atomism)이 나오기 전까지 만물의 근원이 물, 공기, 불, 흙이라고 주장하는 엠페도클레스라는 그리스 철학자의 4원 소설을 믿었다. 현재는 세계의 모든 물질은 쪼갤 수 없는 입자인 원자로 이루어져 있다는 원자론을 믿는다. 원자는 미세해서 그 성질과 양태(樣態)를 이해하기 위해 양자 역학을 이용한다. 이때 빛이 물질의 세계에 일반 원소와는 다른 양자역학적 특성을 가진다. 19세기 물리학자 맥스웰(James Clerk Maxwell)은 빛을 입자인 광자이자 전자기파인 양자적 특성을 띈다고 주장했다. 이러한 빛의 양자적 성질은 규소(Si:실리콘)라는 물질과 결합해서 현대의 데이터과학과 공학을 발전시키는 데 큰 역할을 했다. 이 물질은 빛과 전기를 제어해 물질의 성질을 도체 또는 반도체로 바꿀 수 있도록 만들었으며, 빛(전기)의 흐름을 통제함으로써 데이터를 저장하고 연산할 수 있는 기능을 제공하는 반도체의 주 원재료가 됐다. 
 코로나19와 같은 팬데믹(pandemic) 상황에서 비대면 커뮤니케이션의 증가로 인류의 디지털 미디어 이용이 확산돼 소통으로 발생하는 데이터의 양이 급증하게 됐다. 그 데이터가 바로 물질 간의 소통에서 발생하는 데이터(chip to chip, IoT data) 물질과 인간 간의 소통에 의해 발생하는 데이터다. 우리는 이때 발생하는 거대한 데이터를 빅데이터로 정의하고, 이는 디지털화를 거쳐 반도체에 저장돼 빛의 핵심 성질이 데이터로 변환된다. 빛으로 만들어진 빅데이터는 데이터 양(Volume), 데이터 생성 속도(Velocity), 데이터 형태의 다양성(Variety) 등 3V로 요약된다. 이 데이터들은 정형데이터(Structured Data), 반정형 데이터(Semi-Structured Data), 비정형데이터(Unstructured Data)로 분류한다. 정형데이터는 고정된 컬럼에 저장되는 데이터와, 파일로 지정된 행과 열에 의해 데이터의 속성이 구별되는 스프레드시트 형태를 말한다. 비정형데이터는 데이터 세트가 아닌 하나의 데이터 수집 데이터로 객체화돼 있어 언어 분석이 가능한 텍스트 등이 그 예다. 반정형데이터는 그 속성과 정형데이터의 속성을 동시에 가지고 있는 로그, 쿠키, HTML 등과 같은 메타데이터가 대표적이다. 그러나 데이터 수집만으로는 지식이 될 수 없다. 빅데이터의 가공과 빅데이터 간의 상관관계 분석, 패턴 인식, 그 패턴에 의미를 부여, 그리고 상호 연결된 정보 패턴 이해 등의 일련의 과정을 통해 비로소 정보를 얻을 수 있다. 
 빛나는 데이터는 빅데이터를 수집할 수 있는 기술과 이러한 데이터를 저장하고 정제한 후 가공해서 지혜를 얻을 수 있는 분석 기술이 필요하다. 분석 기술 알고리즘의 대표적인 예로는 통계, 지도학습, 비지도학습, 뉴럴 네트워크 알고리즘 등이 있다. 이러한 알고리즘들은 인간에게 반드시 필요한 언어능력이라고 할 수 있는 컴퓨터 프로그래밍, 코딩(coding) 기술이라고 한다. 코딩은 하드웨어와는 반대의 개념인 소프트웨어이자 대표적인 첨단 기술 중의 하나로써 과학과 기술을 통해 발견한 성과물이자 발명과 특허, 저작권에 의해 법적인 보호를 받고, 나아가 개인과 국가에 큰 경제적 부를 가져다줄 수 있는 무형 자산이 된다.
 결국 빛나는 데이터에 도달하기까지의 과정은 결코 단순치 않다. 윤석열 대통령 취임사에서 강조한 것과 같이 대한민국을 과학과 기술의 융합으로 혁신 국가를 만들기 위해서는 수학, 물리, 화학, 생물과 같은 기초과학에 기초한 기술 발전이 이루어져야 하며, 전기, 전산, 컴퓨터 공학, 통계, 신문방송학과 같은 응용과학과의 융합을 통해 이를 더욱 발전시킬 수 있다. 이로써 빛나는 데이터는 인류의 문명을 한 단계 발전시킬 수 있는 AI, 로봇, 6G, 메타버스 기술을 개발에 사용되는 기초 재료(원유, 원석)로써 활용될 것이다. 따라서 우리도 빛나는 인생을 살기 위해서 빛나는 데이터를 잘 활용해야 우리가 꿈꾸는 일을 성취할 수 있을 것이다.

황갑신 교수(행정언론학부)

 

저작권자 © 원광대학교 신문방송사 무단전재 및 재배포 금지