데이터 관리


data-management

데이터 관리

 

데이터 불러오기/내보내기

n   Excel 파일 불러오기/내보내기

n   CSV 및 구분자 데이터 불러오기/내보내기

n   스프레드시트로부터 데이터 복사/붙여넣기

n   스프레드시트 편집기 내에 데이터 입력

n   ODBC 드라이버를 이용해 SQL로 읽기/쓰기

n   사전을 이용한 고정-서식 데이터 불러오기/내보내기

n   모든 타입의 텍스트 데이터 불러오기/내보내기

n   확장 ASCII에서/확장 ASCII로의 변환을 포함한 유니코드(UTF-8) 지원

n   EBCDIC 데이터 가져오기 및 EBCDIC ASCII로 변환

n   SAS 파일 불러오기

n   SPSS 파일 불러오기/내보내기

n   NDA 제출을 위해 FDA에서 요구하는 형식의 데이터 불러오기/내보내기

n   SAS Transport XPORT 파일 불러오기/내보내기

n   FRED(미 연방준비제도 경제 데이터) 불러오기

n   Haver Analytics 데이터베이스에서 불러오기

n   JDBC를 통해 WRDS(와튼 연구 데이터 서비스)에서 데이터 불러오기

n   dBase 파일 불러오기/내보내기

n   전체 Excel 워크시트의 높은 수준 불러오기/내보내기

n   그래프, 공식, 날짜 형식, 통화 형식, 굵은 글씨, 이탤릭체 등의 데이터를 Excel에 기록하고 읽을 수 있는 낮은 수준의 셀 단위 액세스

시청하기: FRED(미 연방준비제도 경제 데이터) 불러오기

시청하기: 간단한 데이터셋 불러오기

시청하기: 인터넷을 통해 데이터셋 불러오기

시청하기: Excel® 데이터 불러오기

시청하기: Excel®에서 Stata에 데이터 복사/붙여넣기

시청하기: 구분자 데이터 불러오기

시청하기: SAS 데이터셋 불러오기

시청하기: SPSS SAS 데이터 불러오기

 

JDBC 지원

n   Oracle, Microsoft SQL Server, MySQL, Amazon Redshift, Snowflake 및 기타 DB에서 데이터 가져오기

n   기존 데이터베이스 테이블로 데이터 내보내기

n   데이터베이스에서 SQL 구문 실행

n   연결 설정을 저장할 데이터 원본 이름 만들기

n   CLOBs, BLOBs 및 유니코드 지원

n   GUI를 이용하여 데이터 불러오기

 

ODBC 지원

n   Oracle, Microsoft SQL Server, Access, Excel, MySQL DB2와 같은 ODBC 데이터 소스에서 데이터 가져오기

n   ODBC 테이블 또는 기존 ODBC 테이블로 데이터 내보내기

n   개별적으로 또는 일괄적으로 사용자 지정 SQL 명령 실행

n   ODBC 연결 문자열 사용자 지정

n   ODBC 지원

n   VARCHARs/CLOBs BLOBs 지원

n   유니코드 지원

 

내장 스프레드시트 편집기

n   클립보드 미리보기 도구를 사용하여 데이터 붙여넣기

n   변수 도구를 사용하여 변수 관리

n   Windows , Mac Linux 지원

n   행 및 열 틀고정

n   셀 편집기를 통해 문자열 데이터 크기 조정

n   잘린 텍스트에 대한 툴 팁

n   비례 너비 글꼴 지원

n   데이터셋의 열 크기 조정 및 저장

n   열 머리글에 변수라벨 표시 만들기

n   값라벨을 숨기고 표시하기 위한 바로가기

시청하기: 데이터 편집기의 새로운 특징

 

속성창

n   변수 관리

n   데이터 속성 관리

n   Windows , Mac Linux 지원

 

변수 관리자

n   저장 타입, 이름 및 형식 변경

n   값라벨 추가 및 편집

n   변수에 노트 추가

n   변수 필터링

n   Windows , Mac Linux 지원

시청하기: 변수라벨 관리

시청하기: 범주형 변수의 값라벨 관리

시청하기: 변수의 표시서식 변경

시청하기: 변수에 노트 추가

 

함수

n   통계 함수

n   수학 함수

n   삼각 함수

n   문자 함수

n   유니코드 함수

n   정규 표현식

¡  향상된 정규 표현식 함수

n   날짜 및 시간 함수

¡  경과기간, 상대 날짜, 날짜시간 구성요소

¡  -관련 함수

n   시계열 함수

n   난수 함수

¡  25개 함수

¡  난수 스트리밍

n   행렬 함수

n   프로그래밍 함수

시청하기: 연속형 변수의 반올림

 

데이터 개편

n   -열 바꾸기

n   데이터 재구성

n   변수 쌓기

n   평균, 총계 등으로 축소

시청하기: 와이드 타입을 롱 타입으로 데이터 재구성

시청하기: 롱 타입을 와이드 타입으로 데이터 재구성

 

유니코드 지원

n   UTF-8

n   확장 ASCIIUTF-8로 변환

n   유니코드 문자열 인식

n   로케일 기반 정렬 및 문자열 비교

시청하기: 유니코드 처리

 

라벨

n   데이터셋 라벨 처리

n   변수 라벨 처리

n   값라벨 처리(: 남자 1, 여자 0)

n   여러 데이터, 변수 및 값 레이블 간 전환

n   결측치 라벨 처리

n   유니코드 지원을 포함한 여러 언어 지원

시청하기: 변수 라벨링

시청하기: 범주형 변수의 값라벨 처리

 

노트

n   데이터셋에 광범위한 메모 첨부

시청하기: 변수에 노트 추가

 

데이터 스냅샷

n   수정된 데이터셋에 대해 여러 단계로 변경 처리

 

메모리의 다중 데이터셋(프레임)

n   프레임 링크

n   프레임간 데이터 복사

n   다른 프레임에서 데이터 접근

n   시뮬레이션 결과를 프레임에 게시

n   다중 프레임

n   Mata에 프레임 접근

n   다중 프레임 저장, 불러오기 및 설명

시청하기: 메모리에서 다중 데이터셋 작업하기

시청하기: 프레임간 별칭 변수이용

시청하기: Stata 블로그 읽기- Fun with frames

 

자동화된 메모리 관리

n   테라바이트 램 사이즈 지원

n   120,000개 변수 지원(Stata/MP) / 32,767개 변수 지원(Stata/SE)

n   200억개 이상의 관측치 지원(Stata/MP)

n   Up to 2.1 billion observations in Stata/SE and Stata/BE

 

정렬

n   오름차순 혹은 내림차순 정렬

n   다중-키 정렬

n   숫자 및 문자 정렬

n   로케일-인식 유니코드 문자열 정렬 및 비교

 

데이터 조합

n   데이터셋 병합

n   변수 키 기준 데이터 조합

n   관측치 기준 데이터 조합

n   데이터셋 결합

n   Outer join

n   데이터셋 쌓기

n   시계열 데이터셋 쌓기

시청하기: 단일 데이터셋에 파일들을 병합하는 방법

시청하기: 단일 데이터셋에 파일들을 쌓는 방법

 

특별한 데이터셋

n   종단 데이터/패널 데이터

n   생존/경과 데이터

n   시계열 데이터

n   조사 데이터

n   다중 대체

n   이산 선택 데이터

n   공간 데이터

 

유틸리티

n   지정된 조건을 만족하는 관측치 수 계산

n   포맷 및 포맷되지 않은 디스크 입출력

n   Zip 압축 지원

n   유니코드와 확장 ASCII간 변환

n   텍스트 파일을 조작하기 위한 사용자정의 필터

 

변수 관리

n   새로운 변수 생성

n   기존 변수 대체

n   변수명 변경

n   문자변수 엔코딩 및 디코딩

n   데이터셋의 변수 순서 변경

n   변수 관리자

시청하기: 새로운 변수 생성

시청하기: 범주형 문자변수를 라벨링된 숫자변수로 변환

시청하기: 연속형 변수로부터 범주형 변수 생성

시청하기: 문자변수를 숫자변수로 변경

시청하기: 비정상적인 데이터의 값 식별 및 대체

시청하기: 결측치 코드를 결측치로 변환

 

데이터셋 유틸리티

n   변수, 라벨 및 타입에 대한 유연한 설명

n   변수의 값 출력

n   데이터셋의 무결성을 확인하기 위한 데이터 서명

n   변수의 코드북

n   값라벨 보고

n   중복 및 결측치 표 출력

n   압축(정확도 손실없이 데이터셋을 최소 사이즈로 압축)

시청하기: 변수의 저장 최적화

시청하기: 중복 관측치 식별 및 제거

 

변수 타입

n   숫자 저장타입

¡  Byte

¡  Integer (int)

¡  Long

¡  Float

¡  Double

n   문자열(유니코드, 매우 긴 문자열 및 BLOBs 포함)

n   날짜와 시간

n   영업일 캘린더

시청하기: 문자열로 저장된 날짜에서 날짜 변수 만들기

 

긴 문자 지원

n   최대 20억 문자열 지원

n   메모리를 저장하기 위해 중복 값 통합

n   이진 'strings' (BLOBs)

n   전체 파일을 긴 문자열/BLOBs로 불러오기/내보내기

n   유니코드(UTF-8) 문자열

 

저장된 결과

n   나중에 사용할 수 있도록 수행 결과를 디스크에 저장

n   추정 결과를 메모리에 저장

n   결과 비교표 생성

n   사용자정의 표 생성

 

추가적인 리소스