인간 지성의 방주가 되기까지

#인간이 #생성하는 #데이터 #내 글도 #학습하렴

AI의 시대를 항해하는 모든 위버맨쉬(Overman)들을 위한,
인간이 작성하는 블로그.
더 멋진 글을 쓸 수 있도록
노력하겠습니다.
오늘도 잘 부탁드립니다.

  • 사람마다 제각기 노하우는 다르지만,
    프롬프트를 잘 작성하면 LLM 모델의 결과물의 질이 좋아지는 것은 대체로 동의하는 것 같다.
    (여담이지만, 이번에 나온 제미니 3.0을 보면 프롬프트를 건드리지 않아도 정말 좋아진 것이 느껴진다.. 정말 LLM 모델 개발 속도란…)

    LLM 모델이 인간과 같아지기 위해서 가장 중요한 키워드를 인식과 추론이라고 생각해본다면, 오늘은 추론에 대해서 좀 더 깊게 들어가는 글의 시작점이 될 것 같다.

    LLM 모델에게 질문하고 답변을 받을 때, 답변이 도출되는 과정을 추론(inference, reasoning)하고 이를 설명하도록 요청하는 것은 복잡한 질문에 대한 답변 성능을 엄청나게 끌어올린다. (아직도 chatGPT나 Gemini 를 검색 엔진처럼 쓰시는 분들은, 꼭 “Let’s think step by step” (단계별로 생각해 보자) 이거라도 추가해보길!!!)

    비교 항목표준 프롬프팅 (Standard)Chain of Thought (CoT)
    방식질문 $\rightarrow$ 정답질문 $\rightarrow$ 논리적 추론 단계 $\rightarrow$ 정답
    비유수학 시험에서 답만 적는 것수학 시험에서 풀이 과정을 함께 적는 것
    장점속도가 빠름복잡한 문제의 정답률이 크게 올라감
    단점논리적 비약이 발생하기 쉬움답변이 길어지고 리소스가 더 듦

    이 논리적 추론 과정을 거치는 것을 멋진 단어로 chain of thought 라고 하는데, 기억만 해놓자.
    중요한 것은 추론 과정을 LLM 에게 요청하면 다음의 장점이 있다는 것이다.

    • 복잡한 문제 해결: 산술, 상식, 기호 추론 등 단순 패턴 매칭으로는 풀기 어려운 문제에 강하고,
    • 해석 가능성 (Interpretability): AI가 왜 그런 결론을 내렸는지 사용자가 과정을 들여다보고 오류(hallucination 등)를 파악할 수도 있고
    • 모델 성능 최적화: 모델의 파라미터(크기)를 늘리지 않고도, 프롬프트 방식만 바꾸어 성능을 높일 수 있는 직관적인 방법이다.

    LLM 의 성능이 좋아진다는 피상적인 결과 이면에는 Chain of Thought 을 통해 LLM 모델이 단순 상관관계가 아닌 인과관계(correlation -> causal inference)를 설명할 수 있게 도와준다는 다소 통계학적인 설명도 있는데,
    가설을 세우고 실험을 해서 결과를 통계분석 해보신 분들은 상관관계와 인과관계의 차이와 그 중요성에 대해서 공감하실 수 있으리라 생각된다.

    현재는 많이 개선되었지만, 토큰의 패턴 매칭 기반의 LLM 모델이 가지고 있는 문제인 할루시네이션 해결에도 이 중간단계 추론과정은 꼭 필요해 보인다.
    글을 적으며 떠올려보니, LLM 이전의 모델들이 training set 에 과적합되어 새로운 데이터 셋에 대한 모델 성능이 떨어지는 것과 할루시네이션이 개념적으로 유사하다는 생각도 든다.
    추론 능력은 기억(또는 training set)에 의존하지 않고, 논리(Logic)를 통해 새로운 상황에서 정답을 도출하는 알고리즘이 될 수 있을 것 같다.

    일단 관련 글에서는 아래 논문과 키워드를 차근 차근 리뷰해볼 계획이다(아래).

    https://arxiv.org/abs/2305.15408
    whole-slide base genotype prediction
    https://www.nature.com/articles/s41591-024-03141-0
    https://www.nature.com/articles/s41591-024-02857-3
    https://www.biorxiv.org/content/10.1101/2024.11.11.623004v1.full.pdf
    https://arxiv.org/abs/2412.10849
    https://ai-2027.com
    https://microsoft.ai/news/towards-humanist-superintelligence/

  • 그래프 자료구조에 대한 이해

    그래프 (Graph): 그래프 정점(Vertex, 노드라고도 함)의 집합과 간선(Edge)의 집합으로 구성된 자료구조

    • 각 정점은 고유한 특성(Node Feature)을 가집니다 (예: 특정 시점의 유전자 발현량, 돌연변이 정보).
    • 간선 (Edge / Link): 정점(유전자/단백질) 간의 관계를 나타냅니다. (예: 단백질-단백질 상호작용(PPI), 유전자 조절 관계, 게놈 상의 물리적 인접성).

    이 정도는 알아두어야 할 그래프의 대표 특성:

    1. 동종 vs. 이종 (Homogeneous vs. Heterogeneous): 모든 정점과 간선이 동일한 유형(예: 오직 ‘유전자’ 정점과 ‘조절’ 간선)이면 동종 그래프입니다. 만약 ‘유전자’, ‘단백질’, ‘마이크로RNA’ 등 다양한 유형의 정점과 ‘조절’, ‘상호작용’, ‘전사’ 등 다양한 유형의 간선이 공존한다면 이종 그래프(Heterogeneous Graph)입니다. 게놈 데이터는 본질적으로 이종 그래프일 가능성이 높습니다.
    2. 방향성 vs. 무방향성 (Directed vs. Undirected): 유전자 A가 B를 조절(A→B)하는 관계는 방향성 그래프입니다. 단순히 A와 B가 상호작용(A-B)한다는 정보만 있다면 무방향성 그래프입니다. GNN 모델은 이 방향성을 고려하여 정보를 전파할 수 있습니다.
    3. 가중치 vs. 비가중치 (Weighted vs. Unweighted): 간선에 ‘상호작용의 강도’나 ‘관계의 신뢰도’ 같은 실수 값을 부여하면 가중치 그래프가 됩니다. 이는 GNN이 더 풍부한 정보를 학습하는 데 도움이 됩니다.

    그래프의 행렬 표현(Matrix): GNN 모델, 즉 컴퓨터가 그래프를 이해하고 계산하기 위해 그래프를 행렬(Matrix) 형태로 표현하는 것이 가장 일반적임.


    그래프와 그래프 이론 응용, 네트워크 분석을 이해하기 위해서 필요한 라플라시안, 스펙트럴 이론 등에 대해서 다음 시간에 정리 예정. (메시지 전달 / 이웃 집계 (Message Passing / Neighborhood Aggregation), 수용 영역 (Receptive Field) 포함)
    그래프 이론이 뜬금없이 왜 유전체학에서 튀어나왔나? -> 다다음 시간에 논의해볼 예

  • [들어가기 앞서]
    ‘Overman'(오버맨)은 고전 철학, 특히 프리드리히 니체(Friedrich Nietzsche)의 철학에서 등장하는 핵심 개념인 ‘위버멘쉬(Übermensch)’를 영어로 번역한 것입니다. 이는 단순한 ‘슈퍼맨’이나 영웅이 아니라, 인류가 도달해야 할 다음 단계의 이상적 인간상을 의미합니다.

    니체가 말하는 ‘Overman(초인)’은 ‘신은 죽었다’ 라고 선언된 시대, 즉 전통적인 종교와 도덕적 가치 체계가 무너진 허무주의(Nihilism) 시대를 극복하기 위한 대안입니다.
    이 ‘신은 죽었다’ 라는 유명한 문장이 등장한 시기는 19세기 후반, 이 때 유럽은 계몽주의(Enlightenment)의 절정이었습니다. 과학적 이성과 합리주의가 종교적 믿음을 대체하기 시작했습니다.

    ‘신은 죽었다’ 에서 ‘신(God)’은 단순히 종교적 신앙의 대상을 넘어, 지난 2천 년간 서구 문명의 가치관, 도덕, 진리의 절대적 근원을 상징했습니다.

    ——————-

    니체의 200년 전 선언을 2025년 지금, 30대 중반, 국적 한국, 남자, 미혼, 서울에 자가 없는, 모아 놓은 돈 9000인 박사과정생 입장에서 곱씹어봅니다.

    인본주의적 가치는 ‘돈’ 앞에 무너지고 있고, 미국과 우리나라 뿐만 아니라 전 세계의 정세를 살펴보면 정치적 신념 또는 국가나 종교 등의 사상이 점점 극단화 되고 있는 것 같습니다. 소셜 미디어는 이제 개인의 정체성을 정의하고, 삶의 의미와 가치 판단의 기준이 된 것 같습니다.

    돈, 이데올로기, 타인의 시선이 과연 ‘나의 삶’의 궁극적인 의미나 목적이 될 수 있을까요? 이 질문에 당당하게 Yes 라고 답하는 사람은 거의 없을 것 같습니다. 그러면 왜 많은 사람들은 이것을 쫓을까요? 왜 그 수많은 사회심리학자 분들과 관계전문가, 인류학자들과 저명한 인사들은 그에 대한 해결책을 만들지 못했을까요? 삶이 팍팍해서? 알지만 하기 어려워서?

    니체는 ‘신의 죽음’을 인류가 스스로의 가치를 창조할 수 있는 ‘기회’로 삼으라고 합니다.

    낡은 가치에 의존하지도 말고, 너무 허무하게 무너져 쉽게 얻을 수 있는 자극적인 쾌락에 인생을 맡기지 말고, 내가 나의 인생을 정의하고, 나의 삶의 의미를 창조할 수 있는 사람들이 점점 많아졌으면 좋겠습니다. 우리는 그런 사람들을 ‘초인(Overman)’ 이라고 부르려 합니다.

    이 글을 읽는, 이 블로그의 다른 글을 읽는 과거, 현재, 미래의 모든 분들을 응원합니다.

    아직 저도 많이 서툴지만, 차근차근 함께 ‘나’ 를 세워봅시다.

  • [통계실전] 1. FDR 분석

    말이 통하려면 알아야 하는 것

    1. FDR: False Discovery Rate, 말 그대로 ‘False를 선택하는 비중’인데,
      이를 조금 더 쉽게 풀어서 써보자면 ‘다중 검정’ 에서 ‘유의미하다고 잘못 평가된 검정’ 의 비율을 전체 ‘유의미한 검정’ 대비 일정 이하로 통제하겠다는 말이다.
      (여전히 어려워 보인다…)
      예를 들어 FDR 을 0.05로 통제하겠다는 말은, 일반 통계 검정에서 쓰는 p-value 가 0.05 이하로 나온 전체 요인 중에

    • 귀무가설: null hypothesis. 새로운 치료법은 효과가 없고 차이도 없다.
      “다른 상황을 생각하게 하는 현저한 근거가 없는 한 현상적인 모든 차이는 0(무) 이다” 는 이 명제로부터 모든 통계 분석이 출발한다.
      p < 0.01이라는 의미는 귀무가설이 참이라면 이 결과가 나올 확률이 1% 보다 낮다는 의미이다. 즉 귀무가설이 거짓이다. 즉! 새로운 효과법은 효과가 있을 확률이 99% 보다 높다고 말할 수 있는 것이다.(그리고 이게 바로 대립가설이다.)
    • 대립가설: 위의 설명과 함께 이해하기.

    • 회귀분석: 두 변수 사이의 검정을 하면 연관관계가 나오는거지 인과관계가 나오는건 아니다! > 그 때 두 변수 사이의 인과를 밝히는 분석을 말함.
      이 때 투입되는 변수는 공변량(연속일때)이나 요인(범주형일때) 로 부르기도 함.

    • 우위성 검정: 카이 제곱 검정, 대조군에 비해 비교군이 더 많은 비율로 좋아진 경우(ex. 약물에 더 많이 반응하는 경우)
    • 동등성 검정: **이거 어렵다** 동등성 검정이라는 말을 쓰려면 흔히 아는 것 처럼 ‘귀무가설:효과가 없다, 대립가설:효과가 있다’ 의 반대로 설정이 되어야 한다.
      (ex. 귀무가설: 두 치료법은 효과의 차이가 있다.)
      • 왜? 귀무가설을 기각하지 못한다고 해서 귀무가설이 항상 참인 것은 아니기 때문이다. (ex. p-value = 0.2 이면 귀무가설이 참이라면 이 결과가 나올 확률이 20% 라는 얘기다. 애매~ 하지?)
      • 그렇기 때문에 그룹간의 ‘동등성’ 을 검정하기 위해서는 두 그룹간의 효과가 ‘차이가 있다를 귀무가설로 놓고 충분히 낮은 p value 로 귀무가설을 기각시켜서 ‘두 그룹간에 차이가 없다’ 는 대립가설을 채택하는 각으로 가야 한다.

    • 제 1종 오류(alpha): 실제로는 효과가 없는데 “효과가 있다고 잘못 나오는 오류
      결과가 적용되었을 때의 문제의 심각도가 높기 때문에 가장 문제가 되는 오류(0.05 미만으로 통제하는 것이 기본)
    • 제 2종 오류(beta): 실제로는 효과가 있지만 “효과가 없다고 잘못 나오는 오류“.
      1-beta“검정력(power)” 라고 따로 부르고 통계 기법이나 설계가 얼마나 좋은지를 따지는 척도로 사용함. (power = 실제 효과가 있는 것을 효과가 있다고 증명할 수 있는 (도구나 설계의)능력!)

  • 연구에서 젠더혁신, 무엇이 필요할까? 필요한가…?

    AI 시대를 표류하는 모든 위버맨쉬에게 이 글을 바…..칠 정도의
    멋진 글들을 쓸 수 있는 날이 오길 바라며
    – 오류에 대한 정정, 의견, 그 외 건의 사항 등 언제나 환영입니다 –

    들어가기 앞서…

    성별 특성을 반영한 의과학 연구를 설계할 때에는 무엇이 필요할까? 언제 성별 특성을 반영해야 할까? 성별 특성을 반영하는 방법론에는 무엇이 있는가? 단순히 n 수를 반반으로 하는것 외에?

    아니, 애초에 성별 특성을 반영하는 것을
    연구자들이 안하고 있었나?
    잘 하고 있는거 아니였어? Isn’t it good enough?

    1. 젠더 혁신(gender innovation)과 젠더 밸런스(gender balance)는 다른 것이다

    • 젠더 밸런스: 기계적인 중립, 평균(임상 시험을 설계할 때에 남성과 여성이 반반을 맞추는 것)
    • 젠더 혁신

    2. 젠더 혁신을 하는 것은 어렵고 불편하다

    • 동물시험을 수행할때에도 성을 통제해서 기르고 동물시험실을 운영하는것부터 추가적인 버든이다.
    • 이미 기존의 연구들이 너무 많이 white, male 을 대상으로 진행되고 있다. 꼭 의학 임상 연구가 대상이 아니라, 이미지 인식, 음성 인식부터도 백인 남성의 데이터를 가장 많이 사용한다(google, 아마존)
    • 생성형 AI 한테 먹여봤더니 아직 젠더 관련한 학습은 충분히 되지 않은것 같다(센터 소장님). 우리가 이런 데이터를 많이 만들어야 거대 AI 가 학습을 하지 않을까? (That’s what I’m talking about)
    • (gender bias 의 대표적인 예시) AI Face recognition algorithm 을 보아도 백인 남성은 99% 수준으로 인식하는 반면, 여성은 더 잘 인식 못하고(error 10~20%), 유색인종은 더하다 (+ 10%p), 음성 인식도 마찬가지였음.

    3. 자살률과 성별간 차이(Health equity)

    • 캐나다 사망률 1:3, 한국 사망률 15.9:35.5 (10만명 당, 남성:여성)
    • 남자와 여자의 자살 원인이 매우 차이가 남(emotional vs 사회적 관계, 경제적 빈곤)
    • 만약 우리가 자살 방지 스마트앱을 만든다고 하면, 남자와 여자를 다르게 공략해야 하는거 아닌가?
    • Health care 관련 챗봇도 마찬가지임

    4. 심혈관질환의 유병률 및 사망률에 대한 오해

    • 바빌론 헬스케어 챗봇(헬스케어 챗봇 중 가장 선도주자였던 것)에 동일한 조건(심근경색 risk 가 있는 것 처럼 상황을 설명)의 남성/여성을 넣었더니 남자는 응급실을 가라고 하고, 여자는 집에서 쉬어보라고 하더라
    • Why? 전통적으로 남자가 심혈관질환 위험요인이 더 높다는 연구가 많아서.
    • 사실은 마냥 그렇지는 않다. 실제 심혈관질환 유병률 및 사망률을 비율로 보면 남자가 여자보다 2배 가량 높지만, 사망자 수를 보면 남성보다 여성이 수 배 까지도 높다(통계의 오류??)

    5. 우리나라는 올해(2025) Horizon Europe 준 회원국이 되었다. 이 때 성별 특성을 반영하는 연구설계가 반드시 명시되어야 해서, 국가과학기술법이 개정되었다. 잘 알아둬야 기회가 또 생기겠지?

    >> 과학을 하는 이유는 세상을 이해하기 위해서인데, 세상의 구성대로 연구하는것이 좋지 않겠냐


    보건의학분야에서 제안할 수 있는 연구방법론은 어떤게 있을까!

    코호트 연구 사례와 함께(다음 시간에…)
  • 역학조사 방법론

    AI 시대를 표류하는 모든 위버맨쉬에게 이 글을 바…..칠 정도의
    멋진 글들을 쓸 수 있는 날이 오길 바라며
    – 오류에 대한 정정, 의견, 그 외 건의 사항 등 언제나 환영입니다 –

    들어가기 앞서…

    특정 이차 자료원을 이용한 역학 연구를 설계하여 제안해 달라는 요청을 받았다.

    그런데 문제는 아직 아무것도 모른다…? (털썩)

    Q. 역학(epidemiology)이 뭐지?

    A. 다양한 정의가 머나먼 옛날부터 있어 왔으나,
    그 핵심과 맥락을 취합해보니 “인간사회 집단”을 대상으로, “질병의 발생, 분포 및 경향과 양상”을 다루며, “그 원인을 탐구” 하는 것으로 정리할 수 있겠음.

    일반적인 의학 연구와 구분하자면
    1. 대상이 건강인을 포함한 인구 집단
    2. 지역 사회의 규모 및 건강수준(거시적)을 지표로 활용하며
    3. 질병의 빈도와 분포를 파악하며
    4. 건강에 영향을 미치는 다양한 요인과 질환의 상관관계를 연구하는 것으로 말할 수도 있겠다.

    Q. 그렇다면 역학 연구는 어떻게 수행하는가?

    1. 적절한 데이터를 구할 수 있나?
    2. ‘요인’과 ‘질병’ 간에 어떠한 경향성(관련성) 이 있는지를 파악하라.
    3. 2번에서 발견된 관련성에서 무작위 오류(우연)에 의한 것과 바이어스(교란변수, 비통계적 연관성)를 배제하라
      • 위험요인과 예방요인
    4. 높은 상관관계를 가지는 요인과 질병간의 인과관계가 앞뒤가 맞는지 확인(인과 추론, causal inference)
      • 필요충분, 시간적 선후관계, 연관강도(odd ratio?), 일관성, 특이성, 용량 반응관계, 선행연구와 일치, 생물학적 스토리를 따질 수 있음

    그렇다면 나는?


    순서 1. 경향성이 있는지를 파악하자

    • 접근 가능한 요인(문진, demographic)중 일부를 선별해서 타겟 질환 유무로 유의성 검정(범주형)

    순서 2. 유의하게 나온 애들 중에 우연과 바이어스 통제

    • 선택바이어스, 정보바이어스는 일단 고려하지 않음(제공되는 자료원 전수 사용)
    • 데이터를 뜯어보고 바이어스가 있다면 배제 방법론 수립
    • 교란바이어스에 대해서 타겟 질환에 대한 선행조사를 토대로 가능한 교란변수 candidate 확정하고 이를 분석 단계에서 검증
    • **무작위 오류는 어떻게 배제하지?** (공부해서 추후 업데이트 예정)

    순서 3. 걸러진 candidate 들이 실제로 인과관계가 성립하는지를 최종 검증!

    • 인과성 검증(회귀분석?)
    • 대조군을 설정하여 연관강도 비교(odd ratio?)
    • 일관성과 특이성을 볼 수 있는 데이터셋인지 확인하기
    • 용량 반응 관계는 어려울 수도 있음(질환 유무 binary type)
    • 관련 질환의 선행 지식과 생물학적 설명가능성 검토

  • [통계학개론] 0. 이것도 헷갈리면 안된다

    AI 시대를 표류하는 모든 위버맨쉬에게 이 글을 바…..칠 정도의
    멋진 글들을 쓸 수 있는 날이 오길 바라며
    – 오류에 대한 정정, 의견, 그 외 건의 사항 등 언제나 환영입니다 –

    말이 통하려면 알아야 하는 것

    • 독립변수: 두 개의 변수가 있고, 이 변수가 다른 변수의 원인이 된다면 그 원인에 해당하는 것, 위험인자.
    • 종속변수: 결과가 되는 변수. 그래서 결과변수, 반응변수 라고 부름

    • 귀무가설: null hypothesis. 새로운 치료법은 효과가 없고 차이도 없다.
      “다른 상황을 생각하게 하는 현저한 근거가 없는 한 현상적인 모든 차이는 0(무) 이다” 는 이 명제로부터 모든 통계 분석이 출발한다.
      p < 0.01이라는 의미는 귀무가설이 참이라면 이 결과가 나올 확률이 1% 보다 낮다는 의미이다. 즉 귀무가설이 거짓이다. 즉! 새로운 효과법은 효과가 있을 확률이 99% 보다 높다고 말할 수 있는 것이다.(그리고 이게 바로 대립가설이다.)
    • 대립가설: 위의 설명과 함께 이해하기.

    • 회귀분석: 두 변수 사이의 검정을 하면 연관관계가 나오는거지 인과관계가 나오는건 아니다! > 그 때 두 변수 사이의 인과를 밝히는 분석을 말함.
      이 때 투입되는 변수는 공변량(연속일때)이나 요인(범주형일때) 로 부르기도 함.

    • 우위성 검정: 카이 제곱 검정, 대조군에 비해 비교군이 더 많은 비율로 좋아진 경우(ex. 약물에 더 많이 반응하는 경우)
    • 동등성 검정: **이거 어렵다** 동등성 검정이라는 말을 쓰려면 흔히 아는 것 처럼 ‘귀무가설:효과가 없다, 대립가설:효과가 있다’ 의 반대로 설정이 되어야 한다.
      (ex. 귀무가설: 두 치료법은 효과의 차이가 있다.)
      • 왜? 귀무가설을 기각하지 못한다고 해서 귀무가설이 항상 참인 것은 아니기 때문이다. (ex. p-value = 0.2 이면 귀무가설이 참이라면 이 결과가 나올 확률이 20% 라는 얘기다. 애매~ 하지?)
      • 그렇기 때문에 그룹간의 ‘동등성’ 을 검정하기 위해서는 두 그룹간의 효과가 ‘차이가 있다를 귀무가설로 놓고 충분히 낮은 p value 로 귀무가설을 기각시켜서 ‘두 그룹간에 차이가 없다’ 는 대립가설을 채택하는 각으로 가야 한다.

    • 제 1종 오류(alpha): 실제로는 효과가 없는데 “효과가 있다고 잘못 나오는 오류
      결과가 적용되었을 때의 문제의 심각도가 높기 때문에 가장 문제가 되는 오류(0.05 미만으로 통제하는 것이 기본)
    • 제 2종 오류(beta): 실제로는 효과가 있지만 “효과가 없다고 잘못 나오는 오류“.
      1-beta“검정력(power)” 라고 따로 부르고 통계 기법이나 설계가 얼마나 좋은지를 따지는 척도로 사용함. (power = 실제 효과가 있는 것을 효과가 있다고 증명할 수 있는 (도구나 설계의)능력!)