몸과 마음이 건전한 SW 개발자

ADSP 데이터분석 준전문가 (1) 본문

자격증

ADSP 데이터분석 준전문가 (1)

스위태니 2024. 2. 19. 02:00
  1. 데이터의 이해
    1. 데이터와 정보 
      1. 정의
        1. 재료 혹은 자료
      2. 특성
        1. 존재적
          1. 있는 그대로의 사실
            1. 홍길동 : 키 183 cm
            2. 임꺽정 : 키 182 cm
            3. 강감찬 : 키 184 cm
        2. 당위적
          1. 추론, 추측 등을 위한 근거
            1. 위 세 명의 평균 키 : 183 cm
      3. 유형
        1. 정성, 정량 
          1. 정성적
            1. 언어, 문자 등
          2. 정량적
            1. 도형, 기호, 수치 등
        2. 정형, 비정형, 반정형
          1. 정형
            1. 틀 O
            2. 연산 O
            3. 고객 정보 데이터베이스, 온라인 상점의 주문 정보, 직원 관리 시스템 등
          2. 비정형
            1. 틀 X
            2. 연산 X
            3. 소셜 미디어 게시물, 이메일 본문, 과학 연구 데이터 등
          3. 반정형
            1. 형태 O
            2. 연산 X
            3. XML, JSON, 이메일 헤더 등
        3. 암묵지, 형식지
          1. 암묵지
            1. 서류로 표현하기 어려움
            2. 경험적인 지식, 직관 노하우 등
          2. 형식지
            1. 명확하고 구조화된 정보
            2. 조직의 정책, 절차, 규정 등
          3. 공통화, 표출화, 내면화, 연결화 (SECI 모델)
            1. 공통화(Socialization)
              1. 개인간 지식 공유 => 조직에서 공통된 지식으로 변환하는 과정
              2. 경험 공유
              3. 토론, 면담, 회의 등을 통한 경험 공유와 학습
            2. 표출화(Externalization)
              1. 개인 지식을 공유 가능 형태로 변환하는 과정
              2. 경험, 아이디어, 노하우 등
              3. 문서, 회의 프레젠테이션 등을 통해 표현
            3. 내면화(Combination)
              1. 외부 지식을 통합해서 새로운 지식을 형성하는 과정
              2. 문서, 데이터베이스, 표준화된 절차 등
            4. 연결화(Internalization)
              1. 외부에서 획득한 지식을 개인의 내적 지식으로 변환
              2. 개인적 지식 확장되는 과정
      4. 데이터와 정보
        1. DIKW 피라미드
          1. Data
            1. 오늘(7월 2일) 기온 32.8도, 어제(7월 3일) 기온 31.6도
          2. Information
            1. 오늘이 더 덥다.
          3. Knowledge
            1. 7월은 여름이라 덥다.
          4. Wisdom
            1. 더운 여름에는 에어컨을 틀자.
        2. 비트와 바이트
          1. 1바이트(byte) = 8비트(bit)
          2. 1킬로바이트(KB) = 1024(byte)
          3. byte < KB < MB < GB < TB < PB < EB < ZB < YB
          4. 바킬메기테 // 페엑제요
          5. 페타 < 엑사 < 제타 < 요타
    2. 데이터베이스
      1. 개요
        1. 정의
          1. DB System
            1. DB (Data-Base)
              1. 정리된 정보
            2. DBMS (Data-Base Management System)
              1. 소프트웨어
        2. 특징
          1. 일반적
            1. 통합 Data
              1. 중복 X
            2. 저장 Data
              1. 저장매체에 저장
            3. 공용 Data
              1. 여러 사용자
              2. 공동 이용
              3. 대용량
            4. 변화 또는 운영 Data
              1. CUD(Create, Update, Delete)를 통한 데이터 최신화
          2. 다양성
            1. 정보의 축적 및 전달
              1. 정보 수집과 저장 => 이해관계자에게 전달
              2. 기계가독성
                1. 컴퓨터나 다른 자동화된 시스템이 정보를 처리하고 분석하기 쉽도록 구조화된 형식으로 정보를 제공하는 것
                2. XML, JSON, CSV 등의 형식
              3. 검색가능성
                1. 정보가 효과적으로 검색되고 찾아질 수 있는 특성  
                2. 정보 시스템이나 디지털 콘텐츠에서 사용자가 특정 정보를 쉽게 찾고 접근할 수 있도록 하는 능력
              4. 원격조작성
                1. 시스템이나 장치를 원격에서 조작하고 제어할 수 있는 특성
                2. 사용자가 지리적으로 떨어진 장소에서도 시스템이나 장치를 원격으로 액세스하고 제어할 수 있는 능력
            2. 정보 이용
              1. 수집된 정보를 활용하여 의사 결정을 지원하거나 문제 해결에 활용하는 과정
              2. 정보를 분석하고 해석하여 가치 있는 통찰력을 얻는 과정을 포함
            3. 정보 관리
              1. 정보의 수집, 저장, 분석, 전달 및 보존에 대한 체계적인 접근 방법
              2. 조직이 자산으로서의 정보를 효율적으로 관리하고 활용하기 위한 전략 및 프로세스를 개발하고 실행하는 것을 목표
              3. 데이터베이스 설계, 정보 시스템 개발, 정보 보안 및 개인 정보 보호, 지식 관리 등을 포함하는 다양한 활동
            4. 정보 기술 발전
              1. 정보기술은 컴퓨터 하드웨어, 소프트웨어, 네트워크, 데이터베이스 등과 같은 기술
              2. 컴퓨터와 인터넷 기술 등의 혁신적인 발전
              3. 컴퓨팅 성능의 향상, 빅데이터 기술의 발전, 인공지능 및 기계 학습 기술의 발달, 사물인터넷 기술의 진보 등
            5. 경제적 산업적
              1. 정보기술의 발전은 산업의 디지털화와 변화를 이끌어내며, 새로운 비즈니스 모델과 기회를 제공
      2. 활용
        1. 기업 
          1. 인하우스 DB
          2. OLTP
            1. Online Transaction Processing
            2. 단순 자동화 중심
            3. 거래 단위에 초점
          3. OLAP
            1. Online Analytical Processing
            2. 데이터 마이닝 등의 기술 등장
            3. 분석 중심
          4. CRM, SCM
            1. Customer Relationship Management : 고객 관계 관리
            2. Supply Chain Management : 공급 망 관리
          5. KMS
            1. Knowledge Management System
            2. 지식 경영 시스템
            3. 지식, 경험, 사례 등을 조합하여 문제 해결
          6. ERP
            1. Enterprise Resource Planning
            2. 기업 내부의 다양한 기능과 프로세스를 통합하여 효율적으로 관리하는 소프트웨어 시스템
            3. 기업 자원 관리 시스템
            4. 자재 관리 및 구매 관리, 생산 관리, 품질 관리, 자산 관리, 생산 비용 관리, 판매 및 유통 관리 등
          7. RTE
            1. Real Time Enterprise
            2. 기업이 실시간으로 데이터를 수집, 처리 및 분석하여 즉각적인 의사 결정을 내리고 비즈니스 프로세스를 최적화하는 데 중점
            3. 실시간 기업
            4. 실시간 데이터 수집 및 모니터링, 빠른 의사 결정, 생산 공정 최적화, 고객 요구 사항 충족, 품질 관리 및 향상 등
          8. DW
            1. Data Warehouse
            2. 기업이 여러 소스에서 수집한 데이터를 통합, 저장, 분석하는 중앙 데이터 저장소
            3. 데이터 웨어하우스
            4. 데이터 통합, 시간 상세성, 주제 지향성, 집계 및 요약, 액세스 및 쿼리, 비즈니스 인텔리 전스 지원 등
            5. 보통 ETL(Extract, Transform, Load) 과정을 통해 다양한 소스에서 데이터를 추출하고 변환하여 DW에 적재
          9. DM
            1. Data Mart
            2. 특정 부서나 사용자 그룹을 위해 구축된 작은 규모의 데이터 저장소
            3. 주로 특정 주제나 비즈니스 영역에 관련된 데이터만을 포함
            4. 일반적으로 DW에서 데이터를 추출하여 세부적으로 가공하거나 필요한 경우 독립적으로 구축
          10. BI
            1. Business Intelligence
            2. 기업이 데이터를 수집, 저장, 분석하여 전략적인 의사 결정을 내리고 비즈니스 성과를 향상시키는 데 사용되는 기술과 프로세스
            3. 업이 데이터를 수집, 저장, 분석하여 전략적인 의사 결정을 내리고 비즈니스 성과를 향상시키는 데 사용되는 기술과 프로세스
            4. 비즈니스 인텔리전스
            5. 데이터 수집 및 통합, 데이터 분석, 시각화 및 대시보드, 실시간 분석, 예측 분석, 자동화된 보고서 등
          11. EAI
            1. Enterprise Application Integration
            2. 기업 내의 다양한 응용 프로그램, 시스템 및 데이터베이스를 통합하여 효율적으로 상호 운용할 수 있도록 하는 기술과 방법론
        2. 산업
          1. 제조
            1. RTE, ERP, DW, CRM, BI 
          2. 금융
            1. EAI, ERP, e-CRM, DW, EDW(Enterprise Data Warehouse)
          3. 유통
            1. CRM, SCM, KMS, 균형성과관리(BSC), 핵심성과지표(KPI), 웹리포팅, 전자태그(RFID)
        3. 사회기반구조
          1. 물류
            1. CALS
              1. Commerce At Light Speed
            2. CVO, EDI, PORT-MIS, KROIS
          2. 지리
            1. GIS
              1. Geographic Information System
            2. LBS
              1. Location-Based Service
            3. SIM
              1. Spatial Information Management
          3. 교통
            1. ITS
              1. 지능형 교통 정보 시스템
          4. 의료
          5. 교육
            1. NEIS
              1. 교육 행정 정보 시스템
  2. 종류
    1. RDB
      1. 관계형 데이터베이스
      2. 모델
        1. 데이터는 테이블(table) 형태로 저장되며, 각 테이블은 레코드(record)로 구성되고, 레코드는 여러 개의 속성(attribute)으로 이루어짐
        2. 테이블 간의 관계는 외래 키(foreign key)를 사용하여 정의
      3. 스키마 설계
        1. 데이터의 구조를 사전에 정의한 스키마(schema)에 따라 저장
          1. 스키마는 테이블의 구조, 속성의 데이터 유형, 제약 조건 등을 정의
      4. 확장성
        1. 수직적 확장(vertical scaling)을 주로 지원
          1. 단일 서버의 성능을 향상시키는 방식으로 확장
      5. 트랜잭션 처리
        1. ACID 속성(원자성, 일관성, 고립성, 지속성)을 준수
        2. 데이터의 일관성과 무결성을 보장
    2. NoSQL
      1. 비구조화된 데이터나 복잡한 데이터 구조를 저장하고 관리하는 데 유연성을 제공하며, 대규모 데이터 처리와 분산 시스템에서 확장성을 강조
      2. 모델
        1. 다양한 데이터 모델
        2. 대표적으로 키-값 스토어(key-value store), 문서형 데이터베이스(document store), 열 지향 데이터베이스(column-oriented database), 그래프 데이터베이스(graph database) 등
        3. 비구조화된 데이터나 복잡한 데이터 구조를 처리하는 데 유연성을 제공
      3. 스키마 설계
        1. 전통적인 RDB와 달리 NoSQL은 스키마가 유연  
          1. 새로운 필드나 구조를 손쉽게 추가하거나 변경 가
      4. 확장성
        1. 수평적 확장(horizontal scaling)을 주로 지원
          1. 여러 대의 서버에 데이터를 분산하여 처리함으로써 시스템의 성능과 용량을 증가
      5. 트랜잭션 처리
        1. BASE 속성(기본적 가용성, 역변적 일관성, 소폭의 가용성, 유연한 일관성)
        2. 소프트웨어 수준에서 트랜잭션 처리를 관리
    3. 계층형
    4. 네트워크형
    5. 분산형
    6. 객체지향
  3. SQL
    1. DDL
      1. 정의어
        1. CREATE
        2. ALTER
        3. RENAME
        4. DROP
    2. DML
      1. 조작어
        1. SELECT
        2. INSERT
        3. UPDATE
        4. DELETE
    3. DCL
      1. 제어어
        1. GRANT
        2. REVOKE
    4. TCL
      1. 트랜젝션 제어어
        1. COMMIT
        2. SAVEPOINT
        3. ROLLBACK
  4. 구성 요소
    1. 인스턴스
      1. 하나의 객체
      2. 모든 것이 인스턴스가 될 수 있음
    2. 속성
      1. 객체를 표현하기 위한 값
      2. 생년월일, 이름, 키 등
    3. 엔터티
      1. 2개 이상의 인스턴스와 1개 이상의 속성
      2. 데이터 집합
    4. 메타데이터
      1. 데이터의 설명을 위한 추가적인 데이터
    5. 인덱스
      1. 데이터 저장 시 자동적으로 부여되는 데이터의 이름