Computer Science(8)
-
[데이터베이스] 1. Data Model
1. Introduction현실 세계 → 컴퓨터 세계 : 현실 → 이해 → 형식화(Formalism) → 설계/코딩 → 응용/운영 - 왜 형식화가 필요한가? : 검증 가능(verifiable), 구현 가능(machine understandable) ex) 수식, 다이어그램(UML), 대수(Algebra) SW 생명주기 vs DB 생명주기SW life cycleDB life cycle요구사항 분석요구사항 분석기능 명세모델링설계스키마 설계구현DB 환경 구축테스트데이터 입력, 품질관리유지보수질의 및 관리 DB의 2가지 관점- 논리적(Logical or Conceptual): 정보 구조 중심 - DB 설계, 모델- 물리적(Physical): 파일 구조, 인덱스 등 - DBMS 관련→ 논리/물리 독립성 중..
2025.04.15 -
[데이터베이스] 2. Relational Model
1. 관계형 모델이란?- 수학 기반 모델 (수리적 표현): 다이어그램(UML) 같은 시각 표현이 아니라, 수학적 기호와 개념을 통해 데이터 구조를 표현- 핵심 구조- 데이터베이스: 여러 개의 테이블(관계) 집합- 관계 R: 속성들의 카티시안 곱의 부분집합- Ai: 속성 (attribute, 도메인, 필드)- ai: 속성 값- 스키마: R(A₁, A₂, ..., Aₙ) - 튜플: (a₁, a₂, ..., aₙ) 2. Relation as Table : 테이블로 표현된 관계Attributes: 열 (column)Tuples: 행 (row)Relation schema : 테이블 이름 + 속성 목록 + 타입 + 제약조건 (키)Movie(title, year, length, genre) 왜 관계형 모델인가?- 단..
2025.04.15 -
[의생명정보학]
1. 생명 정보학 생명정보학:생명과학적 데이터, 특히 대규모의 복잡한 데이터셋을 이해하기 위한 방법론과 소프트웨어 도구를 개발하는 분야→ 즉 생명과학 빅데이터를 다루기 위한 방법론과 도구를 개발 현대 생명정보학: 단순히 분석 지원을 넘어서 연구의 중심 있기 시작했다. 공간 전사체학 (Spatial Trancriptomics): 세포의 위치 정보를 포함한 전사체 분석, 세포 유형별 RNA를 공간상에서 측정- SpaceTx 컨소시엄: 공간 전사첵학 실험 빛 분석 방법론 비교 분석 연구주제1: Deep Adversarial Autoencoder - 오토인코더와 adversarial learning을 결합한 분류기연구주제2: CRISPER 유전자 가위- 유전자편집기술(질병치료, 신약개발, 신품종개발)연구주제3..
2025.04.14 -
6. Introduction to Statistical Learning
6.1. Statistical Learning [ Learning에서는 Nonlinearity, X들 사이의 interaction (비선형끼리도) ]1. 정의 데이터를 이해하기 위한 vast/huge 도구들의 집합데이터를 조사하는 모든 과정은 통계적 학습의 과정으로 볼 수 있다. 항상 "예측"만이 목적인 것은 아니다.2. 지도 학습 vs 비지도 학습Supervised LearningXs=Ypredict y with Xs하나 이상의 입력에 기반하여 출력을 예측하거나 추정하기 위한 통계 모델을 구축한다.즉, 입력과 출력 간의 상호 관계를 다룬다.ex) 회귀 모델 (regression models)Unsupervised LearningCorrelations among Xs (cluster y)입력만 존재하고,..
2024.12.04 -
4. Categorical data analysis & Logistic regression
4.1. Categorical variable 1. 범주형 변수: 데이터를 분류하거나 카테고리로 구분하는 데 사용되는 변수로, 숫자로 표현되더라도 해당 숫자는 크기나 순서와는 관련이 없을 수 있다. Binary Variables(이진 변수): yes/no, success/failNominal Variables (순서 없음): sunflower, cherry blossom, pansyOrdinal Variables (순서 있음) : severe, moderate, mildDiscrete Interval : [1-20), [20-30), [30-100)2. 범주형 변수의 분포Binomial Distribution (이항 분포) : 이진 변수에 사용y = 성공횟수의 총합, y1,y2,…,yn는 독립적이고..
2024.12.02 -
5. Survival analysis
5.1. Survival Data1. Survival data : 특정 사건이 발생하기까지의 시간은 관심 대상으로 하는 데이터. 응답변수는 종종 failure time, survival time, 또는 event time으로 불린다. 2. Survival Time Response -> 정규분포 아니다.보통 연속형 데이터이다.일부 대상에서는 완전히 관측되지 않을 수 있으며, 이 경우 censoring(검열)된 응답으로 간주한다.항상 0이상의 값을 가진다. 표준회귀분석의 한계검열이 없을 경우, 표준 회귀 분석을 사용할 수 있다. 하지만 생존 데이터의 특성상 적절하지 않을 수 있다. 왜냐하면a. 이벤트 시간이 항상 양수이고 비대칭이다.b. 특정 시점을 넘어 생존할 확률이 이벤트의 기대시간보다 더 중요한 경..
2024.11.25