상세 컨텐츠

본문 제목

2024.12.30 월요일 1일차..빅데이터 기초

Data School

by 넨! 2024. 12. 30. 17:43

본문

빅데이터 기초

 

빅데이터 (Big Data)란?

내가 원하는 데이터가 많이 있을 때를 '빅데이터'라고 한다. 

목적에 맞게 분석함으로써 해당 분야의 필요 지식을 추출

이를 조직의 전략적 의사결정에 활용하거나 시스템화하여 상시적으로 생산성 향상에 활용하거나 새로운 비즈니스 모델의 창출에 활용하고자 하는 패러다임.

 

지식을 탐색하는 방법들

연역과 귀납

연역: 합리적인 방법

- 이미 알고 있는 일반적 지식, 법칙, 원리로부터 논리적인 규칙에 따라 필연적 결론을 이끌어 내는 것

 

귀납: 경험주의 방법

- 과거의 사례가 있어야 한다는 점이 단점이다.

추천시스템에서 가장 힘든 건 '콜드 시스템'이다.

- '유효 시간'을 활용해서 알고리즘 e.g. Youtube

 

빅데이터의 출현 배경?

  • (정보 환경의 변화) 클라우드 컴퓨팅 기술의 발전

데이터 증가와 수집 비용의 감소

 


오래된 역사 (빅데이터)

나이팅게일이 크림 전쟁에서 사용했던 데이터 분석

  • 전투로 인한 사망보다 전염병으로 인한 사망자 수가 많다는 사실을 밝혀 냄
  • 병원 위생상태 개선으로 많은 생명을 구함

데이터 분석은 미래 예측이기 때문에 효과가 오랜 시간 뒤에 나옴

데이터 분석 방법은 계속 바뀌기 때문에 계속 노력해야 한다.

흑사병 해결

데이터 분석은 "왜 그럴까?"부터 시작한다.

어떻게 문제를 정의하느냐 가 중요하다.

사람의 직관력이 상당히 사용된다.

 

 

데이터 분석과 비즈니스 인텔리전스 (Business Intelligence)

빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.

 

 

전통적인 데이터 분석과 빅데이터 분석의 차이

3V: 크기, 다양성, 속도

답이 정해져 있는 데이터: 정형 데이터

  • 패턴을 파악

답이 없는 경우: 비정형 데이터 (e.g. 언어, 음악, 영상)

  • 평가하기 어려움

데이터가 많아지면서 우리에게 친숙해지고 있는 것은 사실이다.

개념적 지식화 모델: 사실-가공된데이터-정보에 기반해 찾아진 규칙-지식에 유연성을 더한 것 => 새로운 가치(Value)

빅데이터 분석 모델: 어떻게 해야 합니까? 가 제일 어렵다. (규범 분석)

5V: 크기, 생성 속도, 다양성, 가치, 정확성

 

빅데이터의 주요 요소 3가지

자원, 기술, 인력

빅 데이터, 빅데이터 플랫폼, 데이터 사이언티스트

연관 분석: 월마트의 기저귀와 맥주 배치

 

빅데이터의 주요 요소

1. 인재, 조직: 데이터 사이언티스트 등 빅데이터에서 의미 있는 정보를 도출하는 인재나 조직

2. 데이터 처리, 축적, 분석 기술: 대량의 데이터를 효율적으로 처리, 분석하는 기술

3. 데이터: 비정형 데이터, 정형 데이터

[전략적 요소]

1. Digital Transformaiton 전략: 디지털 기술과 물리적인 요소들을 결합하여, 경영의 제반 분야를 근본적으로 변화시키는 것

2. Data Technology 활용 기획: 조직의 문제해결을 위해서 목표를 정의

3. 빅 데이터 분석 및 활용 기회의 탐색

4. 빅 데이터 분석 및 활용 시나리오의 도출

[인적 요소]

1. 전문인력

2. 전문조직

3. 교육/변화관리

 

빅데이터와 인공지능

데이터 중심사회

 

인공지능

지능(Intelligence): 생각하여 이해하고 행동하는 능력

인공지능(Artificial intelligence)

  • 기계로부터 인공적으로 만든 지능
  • 튜링테스트
    • 측정할 수 있는 조건으로 어떤 속성을 기술
  • 사람이 하면 더 잘 할 수 있는 일을 컴퓨터가 하도록 하는 방법을 찾는 학문

강한 인공지능

약한 인공지능

  • 중국인의 방 사고 실험
  • 알파고

 

AI 황금기와 암흑기

 

인공지능의 붐 (1980년대)

  • 지식 기반 시스템(Knowlege-based system)
  • 컴퓨터 비전(Computer Vision)
    • 시각적 세계를 해석하고 이해하도록 컴퓨터를 학습
    • 기술적 한계; 자율운행, 가상인간, 딥페이크, 생성형 AI(소라)
  • 자연어 처리(Natural Language Processing): 사람이 사용하는 일반언어로 작성된 문서를 처리하고 이해하는 분야
    • 글을 새롭게 창조(ChatGPT)
      • 사람처럼 생성하고 상호작용
      • 스스로의 학습을 기반으로 사용자의 답변
    • 우리가 명확하지 않은 것은 AI도 하지 못한다. 논리는 우리가 갖추어야 한다.
      • 우리가 알면, 학습을 시킬 수 있으니까 나중에 인공지능도 할 수 있는 것이다.
    • 음성인식(Text-to Speech)
    • 지능 로봇

 

인공지능의 한계점

픽셀을 인식하기 때문에 노이즈가 끼얹어지면, 그것을 이해하지 못함 (시각인지)

아이폰은 홍채 사이의 거리로 마스크를 끼고 나서도 FaceID 인식가능하다

 

인공지능의 윤리

가이드가 없음, 기억에 맡기기 때문에 어렵다.

 


 

Word Wide Web

사람들이 정보를 공유할 수 있는 전세계적인 정보 공간

하이퍼텍스트 형식으로 표현된 인터넷 상의 다양한 정보를 효과적으로 검색하는 시스템

*하이퍼텍스트(Hypertext): 참고(하이퍼링크)를 통해 독자가 한 문서에서 한 문서에서 다른 문서로 즉시 접근할 수 있는 텍스트

 

웹 프로그래밍

사용자가 요청, 서버에서 응답(Response)

404 Error: 서버에서 오는 응답에서 오류

  • 프론트엔드: 웹 브라우저 단에서 동작하는 HTML, CSS, JavaScript언어 - 앞에서 꾸며지는 것 (클라이언트)
  • 백엔드: 서버 컴퓨터 쪽에서 동작하는 파이썬, Ruby, PHP, Java 언어 등 - 뒤에서 보이지 않는 무언가가 작동하는 것
    • 사용자에게 보이지 않는 파트, 데이터베이스, 정보 처리 (서버)
  • 프로그래밍은 컴퓨터와 내가 규칙을 가지고 이야기 하는 것

 

정적 페이지 VS 동적 페이지

정적: 서버에 미리 저장된 파일이 그래도 전달되는 페이지

  • 가변 공간을 비허용

동적: URL만으로는 들어갈 수 없는 웹페이지, 경로의 이동이 있음 (로그인 하는 것)

  • 가변 공간을 허용

 

HTML, CSS, JS

HTML: 문장의 구조를 만드는 것, 뼈

CSS: HTML 요소의 스타일을 선택적으로 지정, 피부와 근육

JS: 웹 브라우저 내 동적인 요소를 구현하는 객체 기반의 스크립트 언어, 장기

 

HTML

문서 간의 이동이 가능한 문서의 문서 형식을 정의하는데 사용하는 언어

  • HTML 태그: 문서의 모양과 행동양식을 정해주는 명령어 이름
  • < > 속에 HTML 태그 명령어의 이름을 작성하는 형태로 사용
  • 계층적 구조로 구성. e.g. 가족관계 (부모님과 나)
  • HTML은 태그들로 이루어져 있고, 태그에는 정보가 들어 있다
  • *하이퍼 텍스트를 누르면 정보가 유출될 수 있다
  • 태그 = <시작태그> + 하위태그(or Text) + </끝태그>
  • 시작태그 = 이름 + 속성
  • 태그의 속성 = 태그의 세부 정보

 

HTML 기본

*Visual Studio Code 사용

1. <html> </html>

: html 문서임을 알리는 태그, 웹 문서의 시작과 끝에 위치할 수 있다.

: html 태그는 마치 사람처럼 머리 <head> 태그와 몸통에 해당되는 <body> 태그를 가짐

2. <head> </head>

: 문서의 머리말, head 태그 영역에 작성된 내용은 웹브라우저 창에 표시되지 않음.

: head 태그 영역 안에 들어갈 수 있는 태그로는 <title>, <meta>, <script>, <style> 태그 등이 있음.

3. <body> </body>

: html 문서에서 문서의 작성자가 실제로 원하는 내용이 담기는 곳, 브라우저의 창 부분에 표시

 

**태그 정리**

!+[Enter} => 문서의 구성을 알려줌

시작을 했으면 항상 닫아야 한다.

a 앵커(위치), 영역을 표시할 때 사용

herf 하이퍼텍스트레퍼런스 (링크)

br: break; 단순히 HTML에서 줄바꿈을 할 때 사용됨

img src: 이미지 파일 경로 alt="대체용 텍스트"

./ -> 현재 경로

현재 경로 = test.html=상대경로

절대 경로 = 변하지 않음, 속성에서 경로 복사 *역슬래시와 슬래시 주의

"C:\Users\user\Downloads\google_PNG19644.png"

  • 이미지 파일은 Explorer로 보내 놓아야 한다
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>하이퍼링크</title>
</head>
<body>
    <a href="https://www.naver.com"> 네이버 
    <img src="./Naver_Logotype.svg.png"></a>
    <br> <!--br: break-- 단순히 HTML에서 줄바꿈을 할 때 사용된다.-->

    <a href="https://www.google.com"> 구글
    <img src="./google_PNG19644.png"></a>
</body>
</html>

 

  • h1 태그와 p 태그
  • *h1과 hl 진짜 비슷하게 생김;
<!DOCTYPE html>
<html lang="ko">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>간단한 HTML</title>
</head>
<body>
    <h1>안녕하세요, HTML!</h1>
    <h2>안녕하세요, HTML!</h2>
    <h3>안녕하세요, HTML!</h3>
    <h4>안녕하세요, HTML!</h4>
    <h5>안녕하세요, HTML!</h5>
    <h6>안녕하세요, HTML!</h6>
    <p>이 페이지는 p태그와 hl태그만 포함되어 있습니다.</p>
</body>
</html>

 

  • em태그와 i태그
<!DOCTYPE html>
<html lang="ko">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>em과 i태그 예시시</title>
</head>
<body>
    <h1>em태크와 i태그와 차이</h1>
    
    <h2>1. em 태그</h2>
    <p>HTML에서 <em>강조</em>하고 싶은 텍스트를 표현할 때 사용합니다.</p>
    <p>예를 들어, <em>중요한 메시지</em>를 강조해야 할 때 유용합니다.</p>

    <h2>2. i 태그</h2>
    <p>HTML에서 단순히 <i>기울임꼴</i>을 적용하고 싶을 때 사용합니다.</p>
    <p>예를 들어, 책 제목 <i>데미안</i>또는 라틴어 단어 <i>et cetera</i>를 표시할 때 적합합니다.</p>
</body>
</html>

 

  • ol태그와 li태그
  • OL태그는 순서 있는 목록을 만들 때 사용 되고, 목록을 번호나 알파벳 등으로 표시
  • LI태그도 순서 있는 목록을 만들 때 사용되지만, 목록 내의 각 항목을 나타낸다.
  • type="A"
  • li태그가 많이 쓰임
<!DOCTYPE html>
<html lang="ko">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>OL과 LI 태그 예시</title>
</head>
<body>
    <h1>순서가 있는 목록 예시</h1>

    <h2>1. 기본 순서 있는 목록</h2>
    <ol>
        <li>HTML 배우기</li>
        <li>CSS 배우기</li>
        <li>JavaScript 배우기</li>
    </ol>

    <h2>2. 중첩된 순서 있는 목록</h2>
    <ol>
        <li>프로그래밍 언어
            <ol>
                <li>파이썬</li>
                <li>자바스크립트</li>
                <li>자바</li>
            </ol>
        </li>
        <li>데이터베이스
            <ol>
                <li>MySQL</li>
                <li>MangoDB</li>
            </ol>
        </li>
    </ol>

    <h2>3. 순서 스타일 변경</h2>
    <ol type="A">
        <li>첫 번째 항목</li>
        <li>두 번째 항목</li>
        <li>세 번째 항목목</li>
    </ol>
</body>
</html>

 

  • dl태그와 dt태그와 dd태그
<!DOCTYPE html>
<html lang="ko">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>DL, DT, DD 태그 예시</title>
</head>
<body>
    <h1>DL, DT, DD 태그 예시</h1>

    <h2>1. 기본 설명 목록</h2>
    <dl>
        <dt>HTML</dt>
        <dd>웹 페이지의 구조를 정의하는 마크업 언어입니다.</dd>
        <dt>CSS</dt>
        <dd>HTML 요소를 꾸미기 위한 스타일 언어입니다.</dd>
        <dt>JavaScript</dt>
        <dd>웹 페이지에 동적인 기능을 추가하는 프로그래밍 언어입니다.</dd>
    </dl>

    <h2>2. 중점 설명 목록</h2>
    <dd>
        <dl>
            <dt>파이썬</dt>
            <dd>데이터 분석, 인공지능 등에 사용되는 범용 프로그래밍 언어입니다.</dd>
            <dt>자바스크립트</dt>
            <dd>웹 개발에서 가장 많이 사용되는 스크립트 언어입니다.</dd>
        </dl>
    </dd>
    <dt>데이터베이스</dt>
    <dd>
        <dl>
            <dt>MySQL</dt>
            <dd>관계형 데이터베이스 관리 시스템(RDBMS)입니다.</dd>
            <dt>MongoDB</dt>
            <dd>NaSQL 데이터베이스로, 문서 지향형 데이터 저장 방식을 사용합니다.</dd>
        </dl>
    </dd>
</body>
</html>

 

  • table, caption, tr, th, td태그
  • table: 표를 정의함
  • caption: 표의 제목을 정의하며, <table> 내부에 첫 번째 태그로 위치
  • tr: 표의 행(row)을 정의함
  • th: 표의 헤더 셀을 정의함. 기본적으로 텍스트가 굵게 표시, 가운데 정렬
  • td: 표의 데이터를 정의함. 일반적인 셀 데이터.
  • 컴퓨터는 열부터 쌓기 때문에 열을 먼저 생성하는 것이 좋다.
  • 헥스컬러
  • padding: 콘텐츠 영역과 테두리 사이의 여백
<!DOCTYPE html>
<html lang="ko">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Table과 Caption 태그 예시</title>
    <style>
        table {
            width: 50%;
            border-collapse: collaspe;
            margin: 20px auto;
        }
        th, td {
            border: 1px solid #ddd;
            padding: 10px;
            text-align: center;
        }
        th {
            background-color: #f4f4f4;
        }
        caption {
            font-weight: bold;
            margin-bottom: 10px;
        }
    </style>
</head>
<body>
    <h1>Table과 Caption 태그 예시</h1>

    <table>
        <caption>2024년 IT 교육 과정</caption>
        <tr>
            <td>과정명</td>
            <td>기간</td>
            <td>수강 인원</td>
        </tr>
        <tr>
            <td>HTML/CSS</td>
            <td>4주</td>
            <td>25명</td>
        </tr>
        <tr>
            <td>Python</td>
            <td>8주</td>
            <td>20명</td>
        </tr>
    </table>
</body>
</html>

 

'Data School' 카테고리의 다른 글

2025.01.07 화요일 꺅!  (0) 2025.01.07
2025.01.06 월 요 일...........  (0) 2025.01.07
2025.01.03 금요일!!!!4일차  (1) 2025.01.03
25.01.02 목요일 3회차........................  (0) 2025.01.03
2024.12.31 화요일 2일차악!  (2) 2024.12.31

관련글 더보기