[ Technical Papers ]

Journal of the Korean Society of Manufacturing Technology Engineers - Vol. 34, No. 1, pp.64-71

ISSN: 2508-5107 (Online)

Print publication date 15 Feb 2025

Received 30 Sep 2024 Revised 22 Dec 2024 Accepted 14 Jan 2025

DOI: https://doi.org/10.7735/ksmte.2025.34.1.64

설계 문서 접점을 이용한 개선 업무용 사용자 수정형 AI 인과 예측 모델 개발

이창선^a^{, *} ; 이상철^b

User-Modified Artificial Intelligence Causal Prediction Model for Process Improvement Using Design Document Interface

Chang Sun Lee^a^{, *} ; Sang Chul Lee^b

aInha Manufacturing Innovation School, Inha University
bDA Consult

Correspondence to: ^*Tel.: +82-32-720-9051 E-mail address: smartai4ir@gmail.com (Chang Sun Lee).

Abstract

Machine learning a artificial intelligence (AI) derives correlations between manufacturing variables from the data. These correlations can be classified into causal and noncausal relationships. In the design for manufacturing, only causal relationships are applicable because control based on causality is necessary to produce the desired product. Domain knowledge is required to confirm the causality and develop a predictive model based on causal relationships. However, domain experts often lack the AI-related knowledge necessary to develop such models, including the skills in AI, coding, and data mining. To overcome this challenge, we developed an AI system that leverages a design document interface (DDI), allowing domain experts to easily create AI models tailored to their tasks even without extensive AI expertise.

Keywords:

User-modified AI, MG AI(model generation AI), DDI(design document interface), Understandable and modifiable AI, AI chef

1. 서 론

1.1 고객 활용 관점 AI의 분류

신경망 AI(artificial intelligence, 인공지능)의 발전으로 컴퓨터가 영상과 소리를 더욱 정확하게 인식할 수 있게 되면서 AI의 활용 범위가 확장되고 있다. AI는 의료 진단, 자율 주행, 이미지 인식, 신물질 합성, 제조 기술, 금융 통계, 부동산 가격 예측, 대형 언어 모델 등 다양한 분야에서 문제 해결 도구로 널리 적용되고 있다^[1-3]. 그러나 AI는 윤리적 문제, 기술적 한계, 사회적 영향, 데이터 의존성, 의사 결정의 불투명성 등 여러 한계를 동시에 가지고 있다. 제조 분야에서의 기술적 한계는 제조 전문가들이 해결해야 하며, 이를 위해 제조 전문가들은 AI의 세부적인 내용을 모두 알지 못하더라도 AI의 다양한 종류와 그 한계를 이해할 필요가 있다.

제조 산업에서의 AI 활용을 확대하기 위해서는 고객 활용 관점에서 AI를 분류할 필요가 있다. 다양한 관점의 분류가 가능하지만, 업무 단계별 관점의 분류에 대해 설명한다. 제조 업무는 문제와 상황의 감지 단계, 관계 판단 단계, 대책 실행 단계로 구성된다. 업무 단계별로 활용하는 AI를 감지 AI, 관계 AI, 실행 AI로 나눌 수 있다. 감지 AI는 센서와 IoT(internet of things) 등과 밀접하게 연관되어 있으며, AI 관련 지식이나 코딩 지식의 비중이 도메인(domain) 지식에 비해 월등히 높다. 대표적인 사례로는 영상 인식 AI, 음성 인식 AI, 설비 예지 정비 AI 등이 있다. 감지 AI는 일반적으로 개별 검사 설비 또는 생산 설비의 데이터를 처리한다.

도메인은 맥락에 따라 다양한 의미를 가질 수 있지만, 본 논문에서는 주로 특정 산업 분야를 지칭하는 의미로 사용된다. 도메인 지식은 해당 분야에서 이해되는 고유한 개념과 문제 해결 방법을 의미한다.

관계 AI는 다양한 생산 설비와 측정 설비에서 생성된 제조 데이터를 분석하고, 이를 바탕으로 불량 감소 등의 목표를 달성하기 위한 최적의 제조 조건을 도출한다. 변수 간 관계를 분석 및 예측하기 위해서는 데이터의 연계가 기본 조건이다. 관계 AI의 데이터 공간은 감지 AI의 데이터 공간에 비해 더 크다. 따라서 데이터 간의 관계가 복잡하다. 감지 AI에 비해 도메인 지식이 중요하다.

실행 AI는 실시간 감지와 판단을 통해 제어를 수행한다. 신속한 판단을 위해 임베디드 AI 형태로 많이 사용된다. 지능형 자율 주행차, 드론, 3D 프린팅, AI 로봇 등에는 실행 AI가 탑재되어 있다. 그러나 실행 AI는 아직 제한적으로 사용되며, 많은 제조 업무에서 복합적인 판단 과정이 필요하기 때문에 실행은 주로 도메인 전문가가 담당한다. 도메인 전문가는 감지 AI와 판단 AI의 도움을 받아 복잡한 판단을 더 효율적으로 할 수 있다. 본 논문은 관계 AI가 대상이다.

1.2 디지털 전환과 AI 셰프

성공적인 디지털 전환을 위해서는 Fig. 1과 같이 네 가지 요소가 필요하다. 데이터, AI, AI 셰프, 그리고 명확한 목표이다. 데이터와 AI를 활어 수조의 물과 활어로 비유할 수 있다. 활어가 물의 상태에 따라 반응하는 것처럼, AI 모델도 데이터를 처리하면서 그 품질과 상태에 따라 성능이 달라진다. 셰프는 생선을 잘 다루고 이를 맛있는 요리로 만들어내는 전문가이듯이, AI 셰프는 데이터를 이해하고 AI 도구를 이용해 도메인에 맞는 솔루션을 만들어낸다. AI 셰프는 AI에 대한 전문적 지식이 부족할 수 있지만, AI에 대한 기본 이해를 바탕으로 도메인 문제를 해결해 수익을 창출한다

Fig. 1

Elements of digital transformation

AI 셰프는 제조 전문가로서 AI 기술을 실무 환경에 적용하고, 현장에서 사용하는 인력이다. 이들은 도메인 지식을 활용해 AI 솔루션을 도입하고 응용하며, 비즈니스 문제 해결을 위해 AI 도구와 플랫폼을 사용한다. 현장 데이터를 수집하여 AI 모델에 적용하고, 이를 통해 생산성과 품질을 향상시키며, 수익을 창출한다.

본 논문은 AI 셰프가 사용할 수 있는 다양한 AI 도구 중 하나로, 도메인 지식이 융합된 예측 모델을 직접 개발할 수 있는 AI 도구인 모델 생성(MG: model generarion) AI에 대한 내용을 다룬다.

2. 인과 예측 모델 개발

2.1 관계 AI의 분류와 환각

상관관계는 비인과 관계와 인과 관계로 분류할 수 있다. 예를 들어, Fig. 2는 공통 인자, 데이터 불균형 등의 발생 원인에 따른 비인과 관계의 발생을 설명한다. Fig. 2(a)와 같이 인자 A와 인자 B가 각각 은닉된 공통 인자 C와 인과 관계를 가질 때, A와 B 사이에 비인과 관계가 발생할 수 있다. 예를 들어, 아이스크림 판매량과 범죄율 사이에는 상관관계가 있지만, 인과 관계는 아니다. 여름철 기온이 상승하면 아이스크림 판매량이 증가하고, 동시에 불쾌지수 상승으로 인해 폭력 등 범죄율도 증가한다. 이때 여름 기온이 은닉된 공통 인자로 작용한다. 따라서 아이스크림 판매량과 범죄율은 기온이라는 은닉된 공통 인자로 연결된 비인과 관계를 형성한다. 반면, 봄이나 가을에 아이스크림 가격이 인하되어 판매량이 증가하더라도 범죄율에는 변화가 없을 것이다. 이는 인과 관계가 아닌 비인과 관계임을 보여준다. 여름 기온은 아이스크림 판매량과 인과 관계를 갖는 여러 인자 중 하나일 뿐이므로 이러한 현상이 발생하는 것이다.

Fig. 2

Non-causal relationship

Fig. 2(b)의 경우처럼, 인자 D와 인자 F 사이에 은닉 인자 E가 존재할 때, D와 F 사이에는 비인과 관계가 발생할 수 있다. 예를 들어, 미국에서는 인종과 범죄율 사이에 상관관계가 존재하지만, 이는 인과 관계가 아니다. 역사적 배경으로 인해 미국에서 흑인의 빈곤율이 상대적으로 높으며, 이로 인해 생계형 범죄율이 높게 나타난다^[4]. 빈곤은 생계형 범죄를 유발할 수 있으므로, 빈곤과 범죄는 인과 관계에 해당한다. 그러나 북유럽 국가와 같이 인종에 따른 빈부 격차가 작은 나라에서는 인종과 범죄율 사이의 상관관계가 존재하지 않기 때문에, 이 상관관계는 사라진다^[5]. 따라서 인종과 범죄율 간의 관계는 비인과 관계라고 할 수 있다.

관계 AI는 비인과 AI와 인과 AI로 대별된다. 비인과 AI는 데이터 간의 높은 상관관계만을 추구하며, 인과 관계에는 관심을 두지 않는다. 예를 들어, 넷플릭스는 특정 시청자가 왜 스포츠 프로그램이나 SF 영화를 좋아하는지 이유를 알 필요 없이, 단순히 시청 데이터를 기반으로 관련 콘텐츠를 추천한다. 비인과 AI에서는 결정계수 혹은 분류 정확도와 같은 통계적 설명력만 높으면 비인과 AI로서 충분히 유용하게 작동한다. 불량 선별, 품질 검사 등의 후처리 효율화를 위해 사용되는 제조 후 품질 예측 AI는 비인과 AI이다. 제조 중에 발생한 온도 이미지, 압력과 속도 프로파일 등을 이용하여 예측 정확도를 높이는 것이 중요하다. 위조나 오류에 의한 허위 데이터를 학습하는 경우에 잘못된 상관관계인 상관 오류 AI 환각이 발생한다. 대형언어모델에서의 AI 할루시네이션은 상관 오류 AI 환각이다.

반면, 인과 AI는 상관관계뿐만 아니라, 데이터 간의 인과 관계를 밝혀내고 이를 기반으로 활용하는 AI이다. 기계학습은 상관관계를 도출하기 위해 사용되며, 인과 관계 여부는 고려되지 않는다. 인과 관계를 기반으로 한 제어를 통해 품질을 확보하는 제조 전 예측 AI는 인과 관계를 기반으로 개발되어야 한다. 인과 AI는 통계적 설명력과 더불어 물리적 인과성이 중요하다.

허위 데이터가 없더라도 데이터에 편향이 존재하면 비인과적 상관관계를 도출할 위험이 높아진다. 인과 관계를 활용하려는 상황에서는, 반드시 해결해야 하는 문제이며, 이를 인과 오류 AI 환각이라고 부른다.

제조에서는 비인과 AI와 인과 AI가 모두 사용된다. 제조 후에 발생하는 이미지 등의 데이터까지 포함하여 품질을 예측하는 AI와 감지 AI 등이 비인과 AI에 속한다. 일차적 관심은 인과 여부가 아니라, 통계적 설명력이다. 반면에 설계를 최적화하기 위해 사용되는 제조 전 품질 예측 AI는 인과 AI이다. 본 논문은 인과 AI 예측 모델에 대해 설명한다.

2.2 인과 오류 AI 환각 극복

현장 양산 데이터는 실험 데이터와는 달리 항상 데이터 편향이 존재한다. 데이터 편향에 기인하는 인과 오류 AI 환각을 극복하기 위해 도메인 지식과 AI 기계학습을 융합하기 위한 다양한 방법론이 활용되고 있다. 특징 공학(feature engineering)의 파생 변수 활용^[6-8], 물리학 기반(PI: physics-informed) AI^[9], 신경-기호(neuro-symbolic) AI^[10,11] 등이다.

데이터 편향에 의한 AI 환각을 극복하기 위해서는 편향 완화가 필요하다. 일반적으로 표준 점수 Z가 기준값보다 큰 이상치 데이터를 제거하여 데이터 편향을 완화한다. 때로는 이런 일반적 방법이 예측 영역 축소라는 문제를 일으킨다. Fig. 3에서 X값이 큰 영역의 표준 점수는 8 이상이다. 이 영역을 제거하면 해당 X 인자의 예측 영역이 지나치게 축소되는 문제가 있다. 따라서 항상 X-Y 산점도 그래프를 그려서 데이터 분포를 확인한 후에 이상치를 제거해야 한다. 데이터 편향을 완화하는 다른 방법은 예측 변수 영역을 분할하는 것이다.

Fig. 3

X-Y graph

변환 변수 도입은 데이터 편향에 의한 AI 환각을 극복하는 중요한 방법이다. 특징 공학은 원시 변수로부터 두 가지의 파생 변수를 생성한다. 기계학습 기반 파생 변수와 도메인 기반 파생 변수이다. 도메인 지식에 기반하여 생성된 파생 변수를 변환 변수로 부른다. 물리적, 화학적 가공 공정 설비의 설정 변수는 소재 변수로 변환되어야 한다. 예를 들어 열처리나 냉각 설비의 원시 변수는 소재가 받게 되는 온도 변수로 변환되어야 한다. 열처리 설비 설정 온도, 냉각 설비 수량 등에 의해 소재가 경험하게 되는 열 이력이 결정되며, 소재의 열 이력에 의해 소재의 품질이 정해진다. 설비 변수가 원시 변수이고, 소재 변수가 변환 변수이다.

변환 변수의 도입은 세 가지 효과를 가진다. 첫째, 데이터 편향에 기인한 인과 오류 AI 환각을 감소시킨다. 둘째, 물리적 설명력을 개선한다. 셋째, 문제 분할에 의해 효율적으로 문제를 해결할 수 있다. 설비 변수와 소재 품질의 관계를 직접 규명하는 것은 복잡한 문제이다. 설비 변수와 소재 변수의 관계를 규명하고, 소재 변수와 소재 품질의 관계를 규명하는 것은 덜 복잡한 두 개의 문제이다.

인과 관계를 내재한 도메인 지식은 암묵지, 정성적 도메인 지식, 공식, 방정식 등 4가지 형태로 분류할 수 있다. 일반적으로 방정식은 유체역학의 나비에-스토크스 방정식과 같은 편미분 연립 방정식에 해당한다. 편미분 연립 방정식의 해를 해석적(analytic) 모델로 정확히 구하기 어려운 경우, 유한 차분법(FDM: finite difference method) 또는 유한 요소법(FEM: finite element method)과 같은 수치적(numeric) 모델을 사용하여 근사해를 구한다. PI AI를 개발하기 위해서는 편미분 연립 방정식에 대한 수치 해석 전문 지식과 기계학습 전문 지식이 모두 필요하다. 신경-기호 AI는 기호적 논리와 신경망 학습의 장점을 결합한 것이며, 명확하고 논리적인 해석이 가능하다.

인과 오류 AI 환각을 인지하고 극복하기 위해서는 도메인 지식을 보유하고 있는 AI 셰프가 인과 예측 모델을 개발하여야 한다. 문제는 데이터가 있어도 도메인 전문가는 기계학습 예측 모델을 개발하는데 필요한 AI 관련 지식이 부족하다는 것이다. 이러한 문제를 해결하기 위해 MG AI를 개발하였다.

2.3 AI 예측 모델 설계와 구현의 분업화

기계학습 AI로 예측 모델을 개발하는 기존의 방법은 크게 세 가지가 있다. 첫째는 파이썬, R 등의 언어를 사용하여 통합 분석 환경(IAE: integrated analytics environment)을 이용해 예측 모델을 개발하는 방법이다. Jupyter Notebook, Google Colab, Microsoft Azure Machine Learning, RStudio 등이 많이 사용되는 IAE에 해당한다.

둘째는 시각적 분석 환경(VAE: visual analytics environment)이다. AI 코딩을 위해서는 방대한 학습이 필요하기 때문에, 학습량을 줄이고 개발 생산성을 높이기 위해 Low 코드-노 코드 워크플로우 다이어그램 분석 환경이 개발되었다. 그러나 이러한 VAE 또한 워크플로우 다이어그램을 그리기 위한 데이터 마이닝 지식 등 일정한 학습이 필요하다. VAE에는 기계학습 예측 모델 개발을 지원하는 부류와 지원하지 않는 부류가 있다. 지원하는 부류로는 KNIME, Alteryx, RapidMiner, Orange, SAS Enterprise Miner, Tableau, Microsoft Power BI, Qlik Sense 등이 있으며, 제한적으로 지원하는 부류로는 Microsoft Power Automate, AppSheet, Google Data Studio, Tableau Public 등이 있다. 일부 분석 환경은 IAE와 VAE를 함께 제공하기도 한다.

셋째는 LLM(large language model) AI이다. OpenAI의 ChatGPT와 같은 LLM 모델을 이용하여 AI 분석을 진행할 수 있다. ChatGPT를 효과적으로 활용하기 위해서는 데이터 분석 알고리즘을 이해해야 한다. 이를 통해 ChatGPT와 적절한 질의응답을 수행하고 AI 분석과 예측 모델 개발을 효율적으로 진행할 수 있다.

AI를 이용한 예측 모델 개발은 사용 용이성을 개선하는 방향으로 발전하고 있다. AI 코딩, 워크플로우 다이어그램, 그리고 대화형 인터페이스는 인간과 AI 간의 소통 방식 발전의 순서를 나타낸다. 기존의 세 가지 소통 방식은 방대한 학습이 필요하기 때문에, 예측 모델 개발의 주체는 AI 분석 전문가이며, 도메인 전문가는 도메인 지식을 활용하여 도움을 주고 있다. 이질적 분야 전문가 간의 긴밀한 협력이 이루어지지 않으면, 인과 오류를 포함한 예측 모델이 개발될 수 있다.

최근 AutoML 등 기계학습 자동화 기술이 많은 발전을 이루었다. 이러한 발전을 기반으로 도메인 전문가가 예측 모델 개발의 주체가 되는 AI가 개발될 수 있다. MG AI는 도메인 전문가가 예측 모델을 설계하면 AI 엔진이 자동으로 해당 설계를 구현하여 모델을 개발한다. 데이터 분석 알고리즘에 대한 지식이 없어도 AI와 소통하며 예측 모델을 설계할 수 있는 설계 문서 접점(DDI: design document interface)이 개발되었다. DDI를 이용하면 메뉴 선택과 버튼 클릭만으로 예측 모델을 개발하고 출력 결과를 생성할 수 있다. 많은 도메인 전문가가 MS Excel 등 스프레드시트 프로그램에 익숙하기 때문에, xlsx 파일을 DDI로 사용하는 경우가 많다.

MG AI는 AI 코딩 전문가에 의해 초벌 맞춤 상태로 제공된다. 초벌 맞춤 AI는 MS PowerPoint 템플릿처럼 도메인 전문가가 쉽게 AI 예측 모델을 개발할 수 있는 기본 틀을 제공한다. 도메인 전문가는 초벌 맞춤 AI의 DDI를 수정하여 자신의 문제 해결에 필요한 도메인 지식을 탑재한 맞춤형 예측 모델을 완성할 수 있다. DDI 수정만으로도 다양한 예측 모델이 자동으로 신속하게 개발된다.

IAE와 VAE에서는 각각 코드와 워크플로우 다이어그램을 사용하고, LLM과 DDI 개발 환경에서는 각각 채팅과 DDI를 통해 AI 분석 및 예측 모델 개발을 한다. IAE, VAE, LLM 등에서는 예측 모델 개발을 위해 데이터 전처리, 시각화, 기계 학습, 예측 모델 개발 등이 순차적으로 진행되어야 한다. 가장 복잡한 단계인 전처리부터 학습해야 한다는 점에서 진입 장벽이 높다고 할 수 있다. MG AI는 기계학습 예측 모델 개발부터 시작하여 사용할 수 있다. LLM의 pre-trained 모델과 유사하게 초벌 맞춤 상태로 제공된다. 초벌 맞춤 상태이기 때문에 예측 모델 개발부터 시작하여 즉시 업무에 활용할 수 있으며, 활용하면서 필요한 부분만 추가로 학습하여 AI 리터러시를 향상시킬 수 있는 장점이 있다.

도메인 전문가가 GUI 또는 제조 현장 작업 지시서와 같은 엑셀 DDI를 사용하여 예측 모델 설계를 하면, AI 솔루션 엔진이 해당 설계에 따라 예측 모델을 개발한 후, 평가와 활용을 위한 다양한 출력을 자동 구현한다. 설계와 자동 구현이 분리된 상황에서는 AI 코딩 지식이 없는 도메인 전문가도 자신의 필요에 맞는 예측 모델을 스스로 개발할 수 있다는 장점이 있다. 또 다른 장점은 설계만 변경함으로써 새로운 예측 모델을 신속하게 평가하고 개발할 수 있어, 예측 모델 개발의 생산성이 높아진다는 점이다

AI 엔진은 AI 분석 관련 지식을 보유한 AI 엔진 개발 전문가에 의해 개발되어야 한다. MG AI에서는 설계와 구현을 분리하기 위해 추가적인 코딩 작업이 필요하다. 본 연구에서는 R 개발 통합 환경인 RStudio를 이용하여 MG AI 엔진을 개발하였다[12].

2.4 MG AI 엔진 구조

MG AI는 실제 데이터, 설계 데이터, 설계 구현 엔진으로 구성된다. 설계 구현 엔진은 체계적으로 관리되는 프로그램 코드 집합으로 이루어져 있으며, 최소 단위는 함수이다. 함수들이 모여 하나의 파일을 구성하고, 각 기계학습 알고리즘 모듈별로 9개의 파일이 하나의 모듈 폴더를 구성한다.

(1) 윈도우 처리 파일: 윈도우 화면 생성 및 사용자 이벤트 처리와 관련된 DDI 처리, GUI 처리, 모니터 출력 처리, HTML 파일 출력 처리 핸들러 등 총 4개의 최상위 이벤트 핸들러를 포함한다.

(2) Core 파일: 선형 회귀 함수(lm), 일반 선형 회귀 함수(glm), 랜덤 포레스트 함수(randomForest), autoML 함수(train) 등의 기계 학습 함수가 포함된다.

(3) Base 파일: 설계 데이터 리스트을 포함하며, core 파일의 함수를 이용해 예측 모델을 총괄적으로 개발하는 함수를 포함한다

(4) DDI 처리 파일: 최상위 DDI 핸들러 아래에서, DDI 엑셀 파일 시트의 내용을 읽어 설계 데이터 리스트에 입력한다. 기계 학습을 위한 DDI 파일에는 ‘변수 시트’, ‘옵션 시트’, ‘변수 생성 시트’, ‘예측 조건 시트’ 등 4개의 시트가 있다. 변수 시트에서는 예측 대상 변수와 예측 변수 등의 변수를 설계한다. 옵션 시트에서는 알고리즘 선정과 다양한 출력 옵션 등을 설계하며, 초벌 맞춤의 옵션을 사용하면 기본값(default)이 적용된다. 변수 생성 시트에서는 필요에 따라 실험식과 이론식 등 도메인 지식을 기반으로 새로운 변수를 생성하며, 예측 조건 시트에는 영향 예측 그래프 생성 시의 기준 제조 조건을 입력한다.

(5) GUI 처리 파일: GUI 설계 입력을 처리하고, 설계 데이터 리스트의 내용을 화면에 출력한다.

(6) 모니터 출력 파일: base 파일의 함수를 이용하여 예측 모델을 개발하고, 개발된 모델을 평가하기 위한 출력 페이지를 생성한다.

(7) HTML 출력 파일: HTML 파일로 출력을 생성하기 위한 R 코드 파일.

(8) Rmarkdown 파일: HTML 파일로 출력을 생성하기 위한 Rmarkdown 코드 파일.

(9) 종합 파일: 코드 파일들을 종합하는 파일.

코드 파일들이 기능별로 구조화되어 있어 코딩 업무의 분담이 용이하다. 모든 기계학습 모듈 폴더는 동일한 파일 구조로 표준화되어 있어 새로운 기계학습 모듈 개발, 관리, 및 버전업이 용이하다. 파일 구조는 기계학습 메뉴 폴더 → 모듈 폴더 → 9개의 파일로 구성되며, 모든 모듈에서 공통으로 사용되는 함수들은 메뉴 폴더 아래의 파일에 저장되어 있다.

3. 인과 예측 모델 활용

3.1 공학적 유효성

공학적 유효성(engineering significance)은 예측 결과가 실질적이고 중요한 영향을 미치는지 여부를 평가하는 개념이다. 예측 결과가 현장에서 적용 가능하고 실무에서 의미 있는 변화를 가져올 수 있는지를 중점적으로 평가한다. 주요 평가 요소로는 실질적 영향, 도메인 지식과의 정합성, 종합적 품질, 비용 효율성, 기술적 가능성과 한계, 안전성, 환경적 영향, 법적 및 규제 준수, 시장 수용성 등이 있다.

최적의 설계를 위해서는 다양한 품질 요소를 판단해야 한다. 품질은 기능 품질, 사용성 품질, 유지보수 품질, 내구성 품질, 미적 품질, 호환성 품질 등으로 세분화할 수 있다. 각 품질은 여러 특성으로 구성되며, 예를 들어 기능 품질은 기계적 특성, 자기적 특성, 전기적 특성, 광학적 특성, 화학적 특성, 열적 특성 등으로 세분화할 수 있다.

공학적 유효성을 종합적으로 판단할 수 있는 강인공지능은 아직 존재하지 않기 때문에, 현재로서는 도메인 전문가만이 이러한 종합 판단을 할 수 있다. 특정 품질을 예측하는 인과 예측 모델을 활용하기 위해서는 공학적 유효성 지식이 필요하다. 물리적, 화학적 가공을 통해 제품을 생산하는 가공 산업이 조립 산업보다 더 많은 도메인 지식이 필요하다.

3.2 MG AI 활용 절차

DDI 설계 파일을 읽어 들인 후, 기계학습 메뉴 아래의 다양한 기계학습 알고리즘 모듈 중에서 '로지스틱 회귀'와 같은 특정 모듈을 선택한다. 필요시 GUI(그래픽 사용자 인터페이스)를 이용하여 휘발성 설계 변경을 할 수 있다. DDI와 GUI를 이용한 설계가 완료되면 '모니터 출력' 버튼을 클릭하여 통계적 중요성 평가와 공학적 유효성 평가를 위한 다양한 출력 페이지를 생성할 수 있다. 이처럼 간단한 윈도우 조작으로 설계 구현이 가능하다.

Fig. 4는 KAMP(Korean AI manufacturing platform)에서 제공하는 다이캐스팅 관련 오픈 데이터를 이용하여 개발된 불량 예측 모델 출력 화면의 종합 페이지 사례이다^[13]. 기계학습 모듈의 출력 페이지로는, ‘종합 페이지’, ‘예측 그래프 모음 페이지’, ‘ROC(receiver operating characteristic) 페이지’, ‘모델 수식 페이지’ 등이 있다. Fig. 4(a)로부터 상관관계에 대한 통계적 평가를 할 수 있다. 왼쪽 위의 밀도 그래프를 보면 합격 제품과 불합격 제품의 예측 불량 확률 밀도 곡선이 비교적 잘 분리되어 있음을 확인할 수 있다. 그러나 왼쪽 아래에는 예측 불량 확률이 낮은 불량 제품(파란색)이 존재하며, 이는 예측 모델에서 고려되지 않은 예측 변수가 있을 가능성을 시사한다. 막대그래프의 높이는 통계적 변수 중요도를 나타낸다.

Fig. 4

Summary page of binomial prediction model

Fig. 4(b)에는 인과 관계에 대한 도메인 평가용 그래프들이 위치해 있다. 위쪽의 영향 예측 그래프를 통해 X값이 증가할 수록 불량률이 감소하는 것을 알 수 있다. 검은 점들은 실적 데이터를 나타내며, 파란 점들은 실적 제조 조건에서 예측한 불량 확률을 나타낸다. 아래쪽의 막대그래프는 도메인 변수 중요도를 나타내며, 이는 각 예측 변수의 데이터 범위 내에서 예측 최대값과 최소값의 차이를 나타낸다.

모든 예측 변수의 물리적 합리성을 평가하기 위해서는 모든 예측 변수에 대한 영향 예측 그래프를 검토해야 한다. Fig 4(b)와 같은 영향 예측 그래프를 1 페이지에 4개씩 배열하여 여러 페이지에 걸쳐 변수 중요도 순서대로 서열화하여 출력한다.

“ROC 페이지”에는 ROC 커브와 함께 혼동 행렬, 민감도, 특이도, 정밀도, 정분류, AUC(area under curve) 등 통계적 중요성 평가를 위한 지표들이 포함되어 있다. ‘모델 수식 페이지’에는 모델 수식과 각 계수의 통계적 유의성을 평가하는 p-value 등이 포함되어 있다.

변환 변수를 사용하는 경우, 원시 변수와 변환 변수의 관계를 보여주는 그래프를 제공한다. 그리고, 변환 변수와 예측 목표 변수의 관계를 보여주는 그래프를 제공한다. 도메인 전문가가 DDI로 인과 예측 모델을 설계하면 AI 엔진이 모델을 개발한 후, 모델을 이해하고 평가하기 위한 다양한 출력을 제공한다.

3.3 글로컬 예측 모델 사례

동일 제품군을 생산하는 1공장, 2공장, 3공장의 경우, 하나의 글로벌(global) 예측 모델을 구축할지, 혹은 3개의 글로컬(glocal) 모델을 구축할지는 상황에 따라 달라질 수 있다. 설비 특성, 제품, 제조 조건 등의 차별성이 미미하고 유사성이 강한 경우에는 글로벌 모델이 보다 유리하다. 반면, 차별성이 큰 경우에는 글로컬 모델이 더 적합한 선택이 될 수 있다. 공장 간 차별성이 매우 커 완전히 이질적인 경우에는 3개의 글로벌 모델을 구축하는 것이 필요할 수 있다. 따라서 선택 가능한 옵션은 1개의 글로벌 모델, 3개의 글로벌 모델, 혹은 3개의 글로컬 모델 중 하나로 구분된다.

동일 공장에서 설비를 주기적으로 교체하는 경우, 설비 간 차이가 무시할 수 있을 정도로 작다면 글로벌 모델로 대응할 수 있다. 그러나 설비 간 차이를 무시할 수 없는 경우에는 글로컬 모델이 요구된다. 예를 들어, 합금철 용해 공장에서는 정련로를 정기적으로 교체하며, 다이캐스팅 공장에서는 금형을 주기적으로 교체한다. 이러한 상황에서는 글로컬 모델 개발이 필요할 수 있다.

동일 공장에서 유사한 제품군 A, B, C를 생산하는 경우에도 글로컬 모델이 필요할 수 있다. 제품군 간에 무시할 수 없는 차별성이 존재하는 경우, 글로컬 모델을 개발해야 한다. 설비, 제품, 제조 조건 등의 특성이 본질적으로 유사하더라도, 세부 사항에서 차이가 있는 경우에는 글로컬 모델의 필요성을 신중히 검토해야 한다.

로컬 모델에서 각 범주는 전혀 다른 예측 변수를 가지게 된다. 즉 전혀 별개의 모델이다. 글로벌 모델과 글로컬 모델에서는 모든 범주가 동일한 예측 변수를 가진다. 글로벌 모델에서는 범주형 변수의 범주가 달라질 때 예측 목표 변수의 예측값이 달라지지만 연속형 변수의 모델 계수는 변함이 없다. 하지만 글로컬 모델에서는 범주가 달라지면 연속형 변수의 모델 계수가 달라진다.

KAMP의 다이캐스팅 데이터^[13]를 이용하여 금형에 따른 글로컬 모델을 개발하였다. MG AI에서 글로컬 모델을 개발하기 위해 ‘옵션 시트’에서 도메인을 분할 하기 위한 글로컬 범주형 변수로 금형 번호를 입력하였다. 범주형 변수를 입력하지 않을 경우, 데이터 도메인 분할 없이 글로벌 모델이 생성된다. Fig. 5는 글로컬 모델의 영향 예측 그래프 사례를 보여준다. X 축은 주조압이고, Y축은 불량 확률이다. 모든 금형에서 주조압이 증가하면 불량 확률이 감소하지만 금형별로 차이가 있음을 알 수 있다. 이러한 금형별 차이가 발생하는 이유에 대해서는, 추가 연구를 통해 규명할 필요가 있다.

Fig. 5

Impact forecast graphs of glocal models

3.4 반복적 분할 예측 모델 사례

크고 복잡한 문제를 해결하기 위해서는 문제를 분할하여 접근하는 것이 필수적이다. 밸류 체인 상의 소재 기업과 가공 기업의 공정 데이터를 수집하여, 가공 기업의 불량 발생을 예측하는 랜덤포레스트 기반 1차 예측 모델을 개발하였다. 362개의 제품 중 21.5%에서 불량이 발생하였다. 영향 예측 그래프(Fig. 6)를 통해 4개의 개선 영역을 도출할 수 있었다. 도메인 평가를 통해, 4개의 개선 영역 후보 중 가장 공학적 유효성이 높은 영역(Fig 6(c))을 선정하였으며, 나머지 후보들은 목표 달성 미흡, 설비 관리 비용 증가, 원재료 비용 증가 등의 공학적 유효성 평가에 따라 배제되었다.

Fig. 6

Impact forecast graphs of first model of iterative prediction

1차로 선택된 개선 공간에서는 106개의 제품 중 13.2%에서 불량이 발생하였다. 이 1차 개선 공간 데이터를 바탕으로 2차 예측 모델을 개발하여 2차 개선 공간을 도출하였다. 2차 개선 공간에서는 30개의 제품 모두가 합격하였다. 이후 2차 개선 공간에서 양산을 진행하며 추가 데이터를 수집한다. 만약 2차 개선 공간에서도 불량이 발생한다면 3차 예측 모델을 개발할 예정이다. 이러한 반복적 분할 예측 모델 접근법은 점진적 개선(iterative improvement) 방식으로, 일괄 개선(batch improvement) 방식과 대비된다.

일괄 개선 방식에서는 열위한 제조 공간에서 추가 데이터를 수집하는 비효율이 발생할 수 있으므로, 공학적 유효성이 우수한 제조 공간을 찾기 위해 점진적 개선 방식을 사용하는 것이 효과적이다. 점진적 개선 방식에서는 1차 모델을 통해 넓은 범위에서 대체적으로 우수한 공간을 대략적으로 파악한 후, 2차 모델을 통해 더욱 세밀한 탐색을 진행하여 우수 공간을 찾는다. 이어서 3차 모델에서는 매우 좁은 폭의 가장 우수한 공간을 식별하는 방식이다. 이러한 접근법은 비옥한 토지를 찾기 위해 사막 지형을 포기하고 초원 지형에서 정밀한 탐사를 진행하는 것과 유사하다. 각 모델 개발 단계에서 여러 개선 공간 후보가 생길 경우, 공학적 유효성 평가를 통해 최적의 개선 공간을 선택해야 한다. 반복적 예측 모델 개발, 즉 점진적 접근 방식을 위해서는 공학적 유효성과 관련된 도메인 평가가 필수적이며, 이는 도메인 전문가가 예측 모델 개발의 주체가 되어야 하는 이유를 잘 설명한다.

4. 결 론

인과 예측 모델을 개발하기 위해서는 통계적 평가와 더불어 도메인 평가가 중요하다. AI 예측 모델 개발 지식이 부족한 도메인 전문가가 인과 예측 모델을 직접 개발할 수 있는 MG AI를 개발하였다. MG AI를 사용하면 도메인 전문가의 예측 모델 개발에 대한 진입 장벽이 완화되며, 설계와 구현 업무의 분업화에 의해 모델 개발 속도가 빨라지고 개발 비용이 감소한다.

도메인 전문가는 복잡한 문제를 해결하기 위해 글로컬 모델 또는 반복적 분할 예측을 통해 종합적 최적화를 수행할 수 있다. MG AI를 이용한 도메인 전문가의 예측 모델 개발로 모델 지속 가능성(sustainability)이 향상된다. 아무리 우수한 모델도 새로운 센서, 신설비, 신제품, 신공정 등에 의해 새로운 변수가 도입되면 재개발되어야 한다. 모델 재개발을 위해 항시 AI 전문가에게 의존하는 것은 시간적, 금전적으로 여러 문제를 발생시킨다.

DDI 설계를 자동으로 구현하는 MG AI 엔진은 AI 코딩 전문가에 의해 개발된다. MG AI 엔진은 설계와 구현의 분리를 전제로 개발되었기 때문에 초기에는 추가적인 코딩 작업이 필요하다. 그러나 이러한 초기 추가 노력은 AI 예측 모델 개발의 생산성을 향상시키고, 도메인 전문가가 직접 예측 모델을 개발할 수 있도록 하는 두 가지 효과를 가져와 장기적인 효율성을 제고할 수 있을 것으로 기대된다.

Acknowledgments

이 연구의 “사용자 수정형 AI”는 한국산업기술진흥원의 “밸류체인 디지털화 선도 R&D 사업”(P0017838), 한국산업기술기획평가원의 “전기로 제강공정 디지털화를 통한 고효율 조업기술 개발 사업” (00155473), 현대자동차, ㈜코다코 등의 지원을 받아 개발되었습니다. 유튜브 채널 “왕초보 AI 셰프”로 검색하면 관련 동영상을 시청할 수 있습니다.

References

Kim, Y. S., 2024, Review Paper for Key Algorithms of Machine Learning and its Application to Material Processing Problems, Transactions of Materials Processing, 33:1 55-72.
Kim, Y. S., 2024, Key Algorithms of Machine Learning and its Application to Material Processing Problems II, Transactions of Materials Processing, 33:2 132-150.
Kim, Y. S., 2024, Machining Learning and Its Application to Material Processing Problem III - RNN, LSTM, CNN, Transactions of Materials Processing, 33:3 214-230.
Peterson, R. D., Krivo, L. J., 2010, Divergent Social Worlds: Neighborhood Crime and Racial-Spatial Divide, Russell Sage Foundation, USA.
Bucerius, S. M., Tonry, M., 2014, The Oxford Handbook of Ethnicity, Crime, and Immigration, Oxford University Press, USA.
Kuhn, M.., Johnson, K., 2019, Feature Engineering and Selection: A Practical Approach for Predictive Models, Taylor & Francis Group, USA. [https://doi.org/10.1201/9781315108230]
Duboue, P., 2020, The Art of Feature Engineering, Cambridge University Press, UK. [https://doi.org/10.1017/9781108671682]
Zheng, A., Casari, A., 2018, Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists, O'Reilly Media, USA.
Kamiadakis, G. E., Kevrekidis, I. G., Lu, L., Perdikaris, P., Wang, S., Yang, L., 2021, Physics-informed Machine Learning, Nat. Rev. Phys., 3:6 422-440 [https://doi.org/10.1038/s42254-021-00314-5]
Dingli, A., Farrugia, D., 2023, Neuro-Symbolic AI, O'Reilly Media, USA .
Hitzler, P., Sarker, M. K., 2021, Neuro-Symbolic Artificial Intelligence : The State of the Art, IOS Press, Netherlands. [https://doi.org/10.3233/FAIA342]
R Core Team, 2020, viewd 15 April 2020, R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, <https://www.R-project.org/, >.
Korea AI Manufacturing Platform(KAMP), 2022, viewd 10 January 2022, AI Dataset for Casting Process Optimization, <https://www.kamp-ai.kr/aidataDetail?DATASET_SEQ=53&page=1, >.

Chang Sun Lee

Professor in Inha Manufacturing Innovation School.

His research interest is AI.

E-mail: smartai4ir@gmail.com

Sang Chul Lee

Researcher in DA Consult.

His research interest is AI & Mechanics.

E-mail: rellygenius@naver.com