연사 : 숭실대학교 신하영 교수, 서울대학교 김지수 교수
일시: 2025년 6월 13일 10:00 - 11:40 AM
장소: 310관 413호
신하영 교수 숭실대학교 정보통계보험수리학과
Statistics with the boundary at infinity on Hadamard spaces
All data exist in some space and possess geometric properties. Thus geometry can be exploited to perform statistical analyses. Traditional statistics mostly deals with data that lie in linear spaces with no curvature, possessing Euclidean geometry. However, many interesting modern data sets - from diverse fields like computer vision, natural language processing, computational biology and healthcare - lie in curved spaces; that is, they are non-Euclidean. An especially useful class of such spaces is that of Hadamard spaces, also called spaces of global non-positive curvature (as opposed to the zero curvature of Euclidean spaces). Examples of such spaces are the spaces of symmetric positive definite matrices and in particular hyperbolic spaces, which have been receiving great interest from statisticians and machine learning researchers as natural homes for hierarchical data. Hadamard spaces possess a very useful property called the boundary at infinity, which can be used to define directions and thus generalize various Euclidean statistical methods to Hadamard spaces. This talk will present one such example, defining quantiles on Hadamard spaces using the boundary at infinity. It will cover some theoretical properties, uses, and demonstrate applications on various real data sets, including single-cell RNA sequencing data and embryological data.
김지수 교수 서울대학교 통계학과
위상 자료 분석(Topological Data Analysis)의 통계적 추정 및 기계 학습에의 응용
본 발표에서는 위상 자료 분석(Topological Data Analysis, TDA)의 기본 개념과 이를 기계 학습에 응용하는 방법을 소개합니다. TDA는 포괄적으로는 자료에서 위상학적인 특성을 추출하고 분석하는 방법론입니다. 주요 기법으로는 Persistent Homology가 있는데, 자료를 다양한 해상도에서 관측하고 지속적으로 나타나는 위상 특성을 도출합니다. 이러한 위상 자료 분석은 자료의 과학적인 정보를 전달해 주기도 하고, 자료의 추가적인 특성으로 학습 문제에 활용할 수도 있는데, 특히 기계 학습(machine learning)에 유용함이 입증됐습니다.
발표의 첫째 부분에서는 TDA를 어떻게 통계적으로 추정하는지 소개합니다. 자료 분포의 임의성으로 인해 TDA 결과물에 오차가 생기는데, 이를 통계적으로 정량화할 수 있습니다. 우선 persistent homology의 개념을 살펴보고, 자료의 임의성에 따른 persistent homology의 불확실성을 신뢰 집합(Confidence Set)으로 정량화하며 유의미한 위상 특성을 선택하는 방법을 살펴봅니다.
발표의 둘째 부분에서는 TDA를 기계 학습에 응용하는 두 가지 접근 방식을 소개합니다. 첫째는 특성화(featurize)로, 복잡한 수학적 구조를 가진 persistent homology를 유클리드 벡터나 함수 형태로 변환하여 기계 학습에 활용합니다. 둘째는 평가(evaluation)로, 자료나 모형의 품질을 위상 특성을 통해 평가합니다. 본 발표에선 이런 두 가지 접근법을 적용한 실제 사례들을 통해 TDA가 기계 학습에서 가지는 잠재력을 조명합니다.