164. AWS Snow Family 개요
AWS Snow Family
데이터를 마이그레인셔 또느 엣지 컴퓨팅에 Snow 제품군이 사용된다.
Data Migrations with AWS Snow Family
네트워크를 통해서 데이터를 전송하려면 아주 오랜 시간이 걸린다.
초당 1GB의 네트워크 회선을 이용해 100TB의 데이터를 전송하려면 12일이 걸린다.
데이터 전송의 문제점
- 제한된 연결성
- 낮은 대역폭
- 높은 네트워크 비용
- 대역폭 공유 문제 ( 사무실 전체가 다운 될 수도 있다)
- 연결 안정선
AWS 에서 제공하는 물리적 장치를 이용해 AWS로 데이터를 전송한다.
Snow Family 와 S3 비교
S3 를 이용하는 경우 클라이언트의 데이터를 버킷으로 전송한다.
Snow Family인 경우 클라이언트가 snowball 에 데이터를 복제한다.
다시 aws 측에 장치를 반납하고 aws 인프라에 직접 연결한다.
네트워크 경로가 아닌 물리적인 경로를 이용한다.
Snowball Edge( for data transfers)
TB 혹은 PB 크기의 데이터를 전송 가능하다.
물리적 or 네트워크 를 통해 데이터 전송도 가능하다. ( 네트워크 비용이 청구됨)
블록 스토리지를 제공하거나 S3 호환 객체 스토리지를 제공한다.
Snowball Edge Storage Optimized
80 TB 의 하드웨이 디스크 용량 제공
Snowball Edge Compute Optimized
42 TB 의 하드웨어 디스크 용량 제공
Usage:
데이터 전송, DR, 데이터 폐쇄를 위한 데이터 복제
AWS Snowcone
부피가 작다. snowball edge 보다 훨씬 작고 휴대용 장치
8TB 를 저장가능
공간의 제약을 받는 경우
드론에 설치도 가능하다.
배터리와 케이블은 직접 준비해야함.
aws로 물리적으로 보내지거나 AWS DataSync를 이용해서 데이터를 보낼 수 있음.
AWS Snowmobile
전송단위는 EB (엑사바이트)이다.
1EB는 1,000PB 1,000,000TB 이다.
Snowmobile 한대에 100PB 이다.
1EB를 보낼려면 10대가 필요하다.
보안성이 뛰어나고 온도 조절이 가능하며 GPS 추적 및 연중 무휴 비디오 감시로 안전함.
10PB 이상 보낼려면 snowmobile이 이득이다.
AWS Snow Family for Data Migrations
8TB, 80TB, 10PB 이다.
권장하는 마이그레이션 사이즈는
24TB~, PB, EB 이다.
snowcone에는 DataSync 가 미리 설치되어 있어서 AWS 네트워크로 데이터를 전송할 수 있다.
Snowball Edge는 15까지 모아서 클러스터링을 구축할 수 있다.
Snow Family - Usage Process
1. aws 콘솔에서 배송 요청하기
2. 온프레미스 서버에 AWS OpsHub 설치
3. Snowball을 서버에 연결하고 파일을 복제한다.
4. 장치를 다시 aws 시설로 보낸다.
5. s3 버킷에 옮겨진다.
6. snowball 은 후에 완전히 지워진다.
What is Edge Computing?
엣지 로케이션에서 데이터가 생성될 때 실시간으로 처리하는 방식이다.
엣지 로케이션: 인터넷이 없는 곳이나 클라우드에서 멀리 있는 곳
트럭, 배, 지하 등등
연결이 제한되거나 액세스가 없거나 컴퓨팅을 할 수 없는 곳
Snowball Edge, snowcone 을 주문해서 엣지 로케이션에 장착시키면 엣지 컴퓨팅이 가능해진다.
usage
데이터 전처리, 엣지에서 머신 러닝하는 경우
사전 미디어 스트림 트랜스코딩
데이터를 aws로 재전송해야 하는 경우 Snowcone이나 snowball Edge 장치로 보내면 된다. (물리적)
Snow Family - Edge computing
Snowcone
4GB 메모리, 유무선 액세스 wi-fi
USB-C 또는 배터리로 작동
Snowball Edge - Compute Optimized
52vCPU, 208GB 의 RAM
선택적 GPU
42TB 스토리지
Snowball Edge - Storage Optimized
40vCPU, 80GB 의 RAM
객체 스토리지 클러스터링 가능
모든 장치들은 내부 EC2 인스턴스나 람다 함수를 실행할 수 있다.
AWS IoT Greengrass 에서 가능
장치를 1년에서 3년 빌리면 가격 할인이 들어간다.
AWS OpsHub
옛날에는 CLI
편리성을 위해 OpsHub 가 생겼음.
컴퓨터나 노트북에 설치하여 사용하는 프로그램이다.
연결이 되면 그래픽 인터페이스를 통해 Snow 장치에 연결해서 구성 및 사용할 수 있으니 아주 손쉬운 방법이다 .
단일 장치와 클러스터 장치를 잠금 해제하고 구성할 수 있으며
파일 전송이 가능해지고 Snow 장치에서 실행되는 Ec2 인스턴스를 시작 및 관리할 수 있게 된다.
장치 메트릭 모니터링과 aws 호환 서비스 실행이 가능하다.
ec2 인스턴스 , DataSync 혹은 네트워크 파일 시스템
165. Snow Family 실습
166. 아키텍처 : Snowball 에서 Glacier 까지
Solution Architecture: Snowball into Glacier
Snowball 은 Glacier에 데이터를 직접 보낼 수 없다.
snowball cannot import tom Glacier directly
먼저 S3 수명 주기 정책을 생성해서 Amazon Glacier 객체로 전환할 수 있다.
Snowball 이 데이터를 S3로 가져오면 S3의 수명 주기 정책을 통해 해당 데이터가 Amazon Glacier 로 전환된다.
Snowball -> S3 -> Amazon Glacier
167. Amazon FSx 개요
Amazon FSx - Overview
AWS에서 완전 관리형 서비스로 타사 고성능 파일 시스템을 실행시킨다.
(RDS 에서 MySQL, Postgres 를 실행하는 느낌)
FSx for Lustre
FSx for NetApp ONTAP
FSx for Windows File Server
FSx for OpenZFS
FSx 로 여러 파일 시스템을 이용할 수 있다.
Amazon FSx for Windows( File Server)
완전 관리형 Windows 파일 서버 공유 드라이버
Windows 를 사용하기 때문에 SMB 프로토콜과 Window NTFS 를 지원한다.
Microsoft Active Directory 통합을 지원하므로 사용자 보안, ACL, 사용자 할당량을 추가 등 액세스 제어 가능
Linux EC2 인스턴스에 마운트 가능
온프레미스 등에 Windows 파일 서버가 있는 경우 Microsoft 분산 파일 시스템인 DFS 기능을 이용해서 파일 시스템을 그룹화 할 수 있다. ( windows 파일 서버와 FSx for Windows File Server 를 결합할 수 있다.)
성능
초당 수십 GB에 수백만 IOPS 그리고 수백 PB의 데이터까지 확장될 수 있으며
FSx for Windows File Server의 스토리지 옵션으로는
SSD로 지연 시간이 짧아야 하는 워크로드를 저장할 수 있다. (DB, 미디어 처리 데이터 분석)
HHD 넓은 스펙트럼의 워크로드를 저장할 수 있다. (홈 디렉터리 , CMS)
프라이빗 연결로 온프레미스 인프라에서 액세스 할 수 이싸.
다중 AZ 구성 가능
재해 복구 목적으로 S3 에 백업
Amazon FSx for Lustre
Lustre는 원래 분산 파일 시스템으로 대형 연산에 쓰였다.
Linux, cluster의 줄임말
머신러닝, HPC, 고성능 연산에 쓰였다.
동여상 처리, 금융 모델링 전자 설계 자동화, 확장성이 상당히 높다 .
초당 수백 GB의 데이터에 수백만 IOPS로 확장되고 밀리초보다 짧은 지연 시간을 자랑한다.
스토리지 옵션
SSD 낮은 지연 시간, 워크로드가 많거나 크기가 작은 무작위 파일 작업이 많으면 IOPS 도 사용 가능
HDD 처리량이 많은 워크로드나 크기가 큰 시퀀스 파일 작업
S3 와 무결절성 통합이 가능 Seamless integration with S3
FSx 로 S3를 파일 시스템처럼 읽어들일 수 있다.
FSx 의 연산 출력값을 다시 S3에 쓸 수 있다.
VPN 과 직접 연결을 통해 온프레미스 서버에서 사용 가능
FSx File System Deployment Options
FSx 파일 시스템 배포옵션 - 스크래치 파일 시스템, 영구 파일 시스템
스크래치 파일 시스템 Scratch File System
스크래치 파일 시스템은 임시 스토리지로 데이터가 복제되지 않는다 . Temporary storage
기저서버가 오작동하면 파일이 모두 유실된다. Data is not replicated ( Doesn't persist if file server fails)
초과 버스트 사용 가능 ( High burst) 영구 파일 시스템 보다 6배 높은 성능을 낼 수 있다.
TiB 처리량당 초당 200mb의 속도가 나온다.
단기 처리 데이터 short-term processing, 데이터 복제가 없으므로 비용 최적화 optimize costs
FSx 와 EC2 가 연결 되는데 스크래치 파일 시스템을 사용하면 데이터 사본이 하나만 존재한다.
S3 버킷을 추가해서 데이터복제도 가능하다.
영구 파일 시스템 Persistent File System
장기 스토리지로 동일한 가용 영역에 데이터가 복제 된다
AZ 간은 아니라 동일한 AZ 내에서만 복제된다.
기저 서버가 오작동 했을 때 파일이 대체된다.
장기 처리 데이터 Long-term processing, 민감 데이터 sensitive data
FSx for Lustre 는 단일 AZ 에만 있다.
영구 모드에선느 데이터 사본이 2개 생기는데 첫 번째 데이터 볼륨에 하나, 두 번째 데이터 볼륨에 하나가 있다.
Amazon FSx for NetApp ONTAP
AWS의 관리형 NetApp ONTAP 파일 시스템으로
NFS,SMB,iSCSI 프로토콜과 호환된다.
온프레미스 시스템의 ONTAP 이나 NAS에서 실행 중인 워크로드를 AWS 로 옮길 수 있다.
다양한 운영체제 지원
Linux , Windows, MacOS AWS의 VMware Cloud, Workspaces, Appstream, EC2, ECS, 그리고 EKS
스토리지는 자동으로 확장 및 축소된다. 오토스케일링
복제와 스냅샷 지원 , 데이터 압축, 데이터 중복 제거
지정 시간 복제 ( Point-in-time instantaneous cloning ( helpful for testing new workloads)
새 워크로드 등을 테스트할 때 상당히 유용함.
파일 시스템에서 신속히 복제가 가능하고 스테이징 파일 시스템을 둘 수 있다.
Amazon FSx for OpenZFS
Aws 의 관리형 OpenZFS 파일 시스템
여러 버전의 NFS 프로토콜과 호환 ( v3,v4,v4.1,v4.2)
ZFS 의 워크로드를 내부 AWS로 옮길 때 사용된다.
백만 IOPS 까지 확장 가능
지연 시간은 0.5 밀리초
스냅샷, 압축을 지원 비용이 적지만 데이터 중복 제거 기능은 없다.
지정 시간 복제 지원
새 워크로드 테스트 시 유용함
168. Amazon FSx - 실습
169. 스토리지 Gateway 개요
Hybrid Cloud for Storage
Aws 에서는 하이브리드 클라우드를 권장한다.
클라우드와 온프레미스 공존
- 마이그레이션이 오래 걸리거나
- 보안 요구 사항
- 규정 준수 요건
- 전략적 상
S3 독점 스토리지 기술로 (proprietary storage) NFS, EFS 규정 준수가 다르다.
S3 데이터를 온프레미스에 두려면 어떻게 해야할까 ?
AWS Storage Gateway 가 가교의 역할을 한다 .
AWS Storage Cloud Native Options
클라우드 네이트브 옵션으로 EBS, EC2 인스턴스 같은 블록 스토리지가 있다.
EFS 파일 시스템
S3나 Glacier 같은 객체 수준 스토리지도 있다.
AWS Storage Gateway
온프레미스 데이터를 클라우드로 이동시킨다.
Bridge between on-opremise data and cloud data
재해 복구
백업, 복구,
온프레미스에 웜 & 클라우드에는 콜드 데이터
S3 File Gateway
FSx File Gateway
Volume Gateway
Tape Gateway
Amazon S3 File Gateway
S3 standard, IA, one zone-IA, S3 intelligent-Tiering
s3 버킷에 원하는 스토리지 클래스를 임의로 사용할 수 있다. (Glacier 제외) Glacier 를 쓰려면 수명 주기 정책을 수정해야한다.
해당 버킷을 온프레미스의 서버에 연결하려고 하면 표준 네트워크 파일 시스템을 통과해야한다.
S3 파일 게이트웨이를 생성하여 애플리케이션 서버가 NFS 나 SMB 프로토콜을 사용하도록 한다.
해당 프로토콜을 통해 S3 파일 게이트 웨이는 해당 요청을 HTTPS 요청으로 반환 시켜 버킷으로 보낸다.
버킷에 액세스 하려면 각 파일 게이트웨이 마다 IAM 역할을 생성해야한다.
Windows 파일 시스템 네이티브인 SMB 프로토콜을 사용하는 경우에는 사용자 인증을 위해 Active Directory 와 통합해야한다.
Amazon FSx File Gateway
Amazon FSx for Windows File Server에 네이티브 액세스를 제공한다.
aws 클라우드에 Amazon FSx for Windows File Server 를 사용하고 클라이언트에서 SMB 프로토콜을 사용한다면
FSx File Gateway 없이도 액세스 가능하다
파일 게이트 웨이는 왜 ?
게이트 웨이를 생성하면 자주 액세스하는 데이터의 로컬 캐시를 확보할 수 있다.
로컬 캐시가 회사 데이터 센터에 쌓이고 액세스 시 지연 시간을 단축 시킬 수 있다.
SMB,NTFS, Active Directory 와 호환된다.
그룹 파일 공유나 온프레미스를 연결할 홈 디렉토리로 사용할 수 있다.
Volume Gateway
블록 스토리지로 S3 가 백업하는 iSCI 프로토콜을 사용한다.
볼륨이 EBS 스냅샷으로 저장되어 필요에 따라 온프레미스 볼륨을 복구할 수 있다.
볼륨 게이트
캐시 볼륨
지연 시간이 낮다
저장 볼륨
온프레미스에 전체 데이터셋이 있으면 s3 백업 주기를 따른다.
서버 백업이 필요한 경우 iSCSI 프로토콜로 볼륨 게이트웨이를 생성하고 이 볼륨 게이트웨이가 S3에 저장되는 EBS 스냅샷을 생성한다 .
Tape Gateway
물리적으로 테이프를 쓰는 회사가 클라우드를 활용해 데이터를 백업할 수 있게 해주는 가상 테이프 라이브러리 (VTL)
S3와 Glacier 를 이용한다.
iSCSI 프로토콜 사용
게이트 웨이는 회사에 설치해야한다.
게이트 웨이를 실행할 하드웨어가 없는 경우 Storage Gateway 하드웨어 어플라이언스를 사용할 수 있다.
Storage Gateway - Hardware appliance
하드웨어 설치, 파일 게이트웨이, 볼륨 게이트웨이, 테이프 게이트웨이 설정
AWS Storage Gateway
170. 스토리지 Gateway 실습
171. AWS 전송 제품군
S3, EFS 를 제외한.
FTP 프로토콜을 사용하여 데이터를 옮기고 싶을때 aws 전송 제품군을 사용한다.
FTP : File Transfer Protocol
FTPS: File Transfer Protocol over SSL
SFTP: Secure File Transfer Protocol
완전 관리형 인프라, 확장성, 안정성, 가용성 또한 높다 .
비용 : 엔드포인트 비용 + 전송된 데이터의 GB 당 요금
서비스 내에서 사용자 자격 증명을 저장 및 관리할 수 있다.
microsoft Active Directory 또는 LDAP Okta, Amazon Coginito 도는 사용자 지정 소스와 사용 가능
CRM, ERP
사용자는 FTP 의 엔드 포인트를 통해 직접 액세스 하거나 선택적으로 Route 53 의 DNS 를 사용
iam 역할을 통해서 SW,EFS 파일을 읽거나 보내도록 한다.
172. DataSync - 개요
AWS DataSync
데이터 동기화
대용량의 데이터를 한 곳에서 다른 곳으로 옮길 수 있다.
온프레미스 -> 다른 다른 클라우드 (NFS, SMB, HDFS, S3 API ) 등 | 에이전트가 필요하다.
aws ->aws 에이전트가 필요 없음
S3 ( glacier 포함)
efs
amazon FSx 등 동기화 가능
복제 작업은 계속 이루어지지 않고 일정을 지정하여 dataSync 가 매 시간, 매일 ,혹은 매주 실행되도록 할 수 있다.
파일 권한과 메타데이터 저장 기능이 있다. (NFS POSIX, SMB 권한을 준수한다. )
이를 이용하여 파일을 한 곳에서 다른 곳으로 옮길 때 이를 이용하여 파일의 메타 데이터를 보존할 수 있다.
에이전트는 매우 강력하다.
하나의 태스크가 초당 10Gb 까지 사용할 수 있으며 네트워크 성능을 초과하고 싶지 않은 경우 대역폭에 제한을 걸 수 있다.
AWS DataSync NFS/ SMB to AWS (S3, EFS, FSx)
온프레미스에슨 datasync 에이전트 리전에는 데이터 싱크를 설치한다 .
온프레미스 -> aws
aws-> 온프레미스
양방향 동기화 가능
datasync 에이전트의 네트워크 용량이 따라 주지 못하는 경우 ?
aws snowcone 장치를 사용한다 .
snowcone에는 datasync 가 설치 되어있다.
AWS DataSync Transfer between AWS storage services
서로 다른 AWS 스토리지 서비스간 메타데이터 또한 유지 된다.
dataSync 는 지속적이지 않고 일정에 따라 움직인다 .
173. 모든 AWS 스토리지 옵션 비교
Quiz 13: AWS 스토리지 추가 퀴즈
1. 수백 TB의 데이터를 Amazon S3로 이전한 후, EC2 인스턴스 플릿을 사용해 처리해야 합니다. 광대역은 1Gbit/초입니다. 여러분은 데이터를 더 빠르게 이전하고, 가능하면 전송 중에 데이터를 처리했으면 합니다. 어떤 방법을 추천할 수 있을까요?7
Snowball Edge는 컴퓨팅 능력을 갖추고 있으며, 데이터가 Snowball로 이동하는 동안 데이터를 사전에 처리할 수 있도록 해주므로 정답입니다.
2. 테이프 백업에 가상 인피니트 스토리지를 노출하려고 합니다. 여러분은 사용 중인 것과 동일한 소프트웨어를 유지하고, iSCSI와 호환 가능한 인터페이스를 사용하려 합니다. 어떤 방법을 사용해야 할까요?
3. 여러분의 EC2 Windows 서버는 Windows의 보안 메커니즘을 준수하며, Microsoft Active Directory와 통합된 네트워크 파일 시스템을 마운트하여 일부 데이터를 공유해야 합니다. 어떤 방법을 추천할 수 있을까요?
4. 여러분은 수백 TB의 데이터를 AWS S3로 최대한 빨리 이전시켜야 합니다. 여러분의 네트워크 대역폭을 사용해보려 했으나, 업로드 프로세스가 완료되기까지 약 3주가 소요됩니다. 이런 경우 어떤 접근법이 권장될까요?
5. S3에 대규모의 데이터셋이 저장되어 있습니다. 여러분은 NFS, 혹은 SMB 프로토콜을 사용해 온프레미스 서버를 통해 이 데이터셋에 액세스하려 합니다. 또한, 온프레미스 Microsoft AD를 통해 이러한 파일에 대한 액세스를 인증하고자 합니다. 무엇을 사용해야 할까요?
6. 기업의 인프라를 온프레미스에서 AWS Cloud로 이전시킬 계획을 가지고 있습니다. 여러분은 이전시키려는 온프레미스 Microsoft Windows 파일 서버를 갖고 있습니다. 어떤 AWS 서비스를 사용하는 것이 가장 적절할까요?
7. 고성능 컴퓨팅(HPC)과 전산 유전학 연구를 수행하기 위해 IOPS를 최대화해 줄 분산 POSIX 준수 파일 시스템이 필요한 상황입니다. 이 파일 시스템은 수백만 개의 IOPS로 손쉽게 스케일링할 수 있어야 합니다. 어떤 방법을 추천할 수 있을까요?
8. FSx 파일 시스템에 있는 다음 배포 옵션 중에서 AZ 내에 복사된 장기 스토리지를 제공하는 것은 무엇인가요?
이는 데이터가 동일한 AZ 내에서 복제되는 장기 스토리지를 제공합니다. 실패한 파일들은 수 분 내로 교체됩니다.
9. 다음 중 AWS 전송 제품군이 지원하지 "않는" 프로토콜은 무엇인가요?
AWS 전송 제품군은 FTP 프로토콜을 사용해 S3, 혹은 EFS 내부/외부로 파일을 전송하는 관리 서비스입니다. 따라서 TLS를 지원하지 않습니다.