데이터사이언스 (8) 썸네일형 리스트형 A/B 테스트의 결과가 통계적으로 유의하나 효과의 차이 자체는 매우 작은 경우 어떤 의사결정을 할 수 있을지 사례를 통한 설명:상황: 한 이커머스 회사에서 상품 상세 페이지의 '장바구니 담기' 버튼 색상을 기존 파란색에서 초록색으로 변경하는 A/B 테스트를 진행했습니다. 목표 지표는 '장바구니 담기 전환율'입니다.테스트 결과:페이지 A (파란색 버튼): 1,000,000명 노출, 100,000명 장바구니 담기 -> 전환율 10.00%페이지 B (초록색 버튼): 1,000,000명 노출, 100,100명 장바구니 담기 -> 전환율 10.01%결론: 두 그룹 간 전환율 차이는 0.01%p 증가 (상대적 개선율 0.1%). A/B 테스트 결과, p-value가 0.05보다 작게 나와 통계적으로는 유의미하다는 결과가 나왔습니다 (방대한 표본 크기 때문에 미미한 차이도 유의미하게 나옴).A.. 배움의 길과 마지막 돗대 3월 24일이 첫 수업이었으니, 얼추 한 달이 지났다. 말년에 무슨 큰일이라도 낼 것처럼 고민하고, 검색을 거듭한 끝에내게 맞는 길이 "데이터 사이언티스트"라는 신학문(?)임을 깨달았다.그 순간, 유레카! 외치며 이렇게 결심했다.그래, 이걸 해보자. 그리고는 조심스레 배움의 길로 들어섰다. 처음엔 그냥 막연했다.챗GPT가 앞으로 수요가 많을 거라며 은근한 강요(?)도 있었고,부트캠프들의 광고 문구는 "앞으로 2년 내에 3만 명이 필요할 것"이라더라.‘그럼 나도 우리 사회에 필요한 인간이 되는 거구나...ㅋㅋ’혼잣말로 그렇게 웃으며 시작했다. 보통은 이틀에 한 갑 정도 담배를 피웠다.백수라서 하루 한 갑은 무리였고, 건강에도 안 좋은 걸 알면서도‘끊어야지’보다는 ‘줄여야지’라는 생각,‘담배마저 끊으면 무슨.. 비정제 데이터 처리하기 비정제 데이터 처리하기: 데이터 분석의 첫걸음현실의 데이터는 대부분 정제되지 않은 상태로 존재합니다. 오타, 누락, 이상값, 형식 불일치 등 다양한 문제가 섞여 있어, 분석 전에 반드시 손질이 필요하답니다.. 1. 결측값(Missing Values) 처리데이터에서 값이 비어 있는 경우, 해당 행을 제거하거나 평균, 중위값 등으로 대체하는 방식이 일반적입니다. 상황에 따라 비워두는 것이 더 적절한 경우도 있으니, 데이터의 맥락을 고려해야 함2. 중복 제거같은 정보가 여러 번 들어가 있는 중복 행은 분석 결과에 과도한 영향을 줄 수 있습니다. drop_duplicates() 같은 함수로 손쉽게 제거할 수 있으며, 중복 기준 열을 잘 설정하는 것이 중요함.3. 이상값(Outliers) 탐지예를 들어 구매 횟.. SQL 이란 무엇인가? SQL(Structured Query Language, 구조화된 질의 언어)은 관계형 데이터베이스(RDB, Relational Database)에서 데이터를 저장, 조회, 수정, 삭제하는 데 사용되는 프로그래밍 언어입니다. SQL의 주요 기능데이터 조회(SELECT)데이터베이스에서 원하는 데이터를 검색할 수 있습니다.예시:sql복사편집SELECT * FROM employees WHERE age > 30;데이터 삽입(INSERT)새로운 데이터를 추가할 수 있습니다.예시:sql복사편집INSERT INTO employees (name, age, department) VALUES ('John Doe', 35, 'Engineering'); 데이터 수정(UPDATE)기존 데이터를 변경할 수 있습니다.예시:sql복사.. 변수 우선순위 (LEGB Rule) ✅ 변수의 범위(Scope)전역 변수 name = "인유" → 함수 내부에서는 사용되지 않음.매개변수 name = "AIFFEL" → hello()에서 받았지만 printer()에서는 사용되지 않음.지역 변수 name = "파이썬" → printer() 안에서 선언된 새로운 변수 → 이 값이 사용됨!✅ 변수 우선순위 (LEGB Rule) 파이썬에서는 변수를 찾을 때 LEGB 규칙을 따릅니다.L (Local, 지역 범위) → printer() 내부에서 선언된 name = "파이썬"E (Enclosing, 중첩 함수 범위) → hello(name)의 name = "AIFFEL" (사용되지 않음)G (Global, 전역 범위) → name = "인유" (사용되지 않음)B (Built-in, 내장 범위) → p.. Git과 GitHub: 개발자 필수 도구 소프트웨어 개발을 하다 보면 코드의 버전을 관리하고 여러 개발자와 협업할 일이 자주 생깁니다. 이런 작업을 쉽게 해주는 도구가 바로 Git과 GitHub입니다. 이 두 도구는 매우 중요한 역할을 하며, 개발자가 효율적으로 작업을 진행할 수 있도록 돕습니다. 이번 글에서는 Git과 GitHub의 기본 개념과 차이점을 간단히 설명해드리겠습니다. 1. Git이란 무엇인가? Git은 **버전 관리 시스템(VCS)**으로, 개발자가 코드의 변경 사항을 기록하고 관리할 수 있게 해줍니다. 개발자가 작업을 하면서 코드에 변경을 가할 때마다 Git은 그 내역을 저장합니다. 이를 통해 언제든지 특정 시점으로 돌아가거나, 이전 버전과 비교할 수 있습니다. Git은 로컬에서만 작업할 수 있는 도구로, 주로 개인 프로젝트나 .. 데이타 사이언스로 가는 첫걸음(터미널로 배우는 리눅스 운영체제) 리눅스 기본 개요 리눅스는 오픈소스 운영체제이며 다양한 배포판(우분투, 페도라, 데비안 등)이 있음커널(kernel)과 쉘(shell)로 구성됨CLI(Command Line Interface) 환경에서 명령어로 시스템을 제어터미널 기본 사용법pwd → 현재 작업 디렉터리 확인ls → 디렉터리 내 파일 및 폴더 목록 확인cd → 디렉터리 이동mkdir → 새 디렉터리 생성rm → 파일 및 디렉터리 삭제파일 및 디렉터리 관리cp → 파일 복사mv → 파일 이동 및 이름 변경cat, less → 파일 내용 보기사용자 및 권한 관리whoami → 현재 사용자 확인sudo → 관리자 권한 명령 실행chmod → 파일 권한 변경chown → 파일 소유자 변경프로세스 및 시스템 관리ps → 실행 중인 프로세스 확인t.. 데이터사이언스를 배우며 지반공학자를 위한 데이터사이언스지반공학은 건설 프로젝트에서 중요한 역할을 하며, 다양한 기술들이 결합되어 보다 정교한 분석이 이루어집니다. 데이터사이언스가 지반공학 분야에 큰 영향을 미칠 것으로 판단됩니다. 데이터사이언스를 활용하면 정확한 예측과 효율적인 의사결정을 가능하게 하며, 특히 지반조사 데이터의 분석에 중요한 역할을 할 것으로 기대합니다.1. 지반공학에서 다루는 데이터지반공학에서는 다양한 종류의 데이터가 활용됩니다. 그 중에서 시추 데이터와 지질 데이터가 대표적입니다. 시추 데이터는 땅속을 파고 얻은 정보를 기반으로 지반의 성질을 파악하는 데 사용됩니다. 예를 들어, 토양의 종류, 깊이에 따른 변화 등을 알 수 있습니다. 또한, 지질 데이터는 땅속의 구조나 암석의 특성, 수분 함량 등을 포함하며.. 이전 1 다음