The 5 questions data science answers
- Is this A or B? : 분류 알고리즘
- Is this weird? anomaly detection algorithms 이상탐지 알고리즘
- How much – or – How many? regression algorithms 숫자에 관련된 예측을 함
- How is this organized? clustering algorithms
- What should I do next? reinforcement learning algorithms 강화 학습 알고리즘
알고리즘 = 레시피
데이타 = 재료
컴퓨터 = 믹서기
결과 = 스무디
Is your data ready for data science?
- Relevant
- Connected : 데이터가 다 연결되어 있어야 함. 빈 데이터가 너무 많으면 안됨.
- Accurate
- Enough to work with : 뭔지 알아볼수 없는 데이터로는 진행하기 어렵다.
이 위의 조건을 충적하면 데이터사이언스를 진행하기 위한 퀄리티를 만족한다.
Ask a question you can answer with data
모호한 질문이 아닌 정확한 질문을해야지 정확한 값을 얻을 수 있다.
Target data를 갖고있어야 한다.
데이터가 분류에 관한 것인지 값에 관한 것인지에 대해 알아야한다. 그리고 이에 따라 데이터를 다루는 방법(알고리즘) 이 달라지게 된다.
Predict an answer with a simple model
데이터를 가지고 그래프를 그리는데 이러한 일직선의 선을 사용하므로 이거를 linear regression 이라고 함.
위의 그림과 같이 오차에 관하여 포괄적으로 포함할 수 있도록 핑크색 선으로 넓게 칠하게되면 원하는 값에 대한 간격에 관한 값을 알 수 있다.
위의 그림처럼 어떠한 x값에 대해 위의 핑크색 선의 값 아래의 핑크색 선의 값 즉 2개의 y값을 갖게되고 이건 범위가 되게된다.
Copy other people's work to do data science
Azure Machine Learning Studio (classic)
위의 사이트에서 사람들의 프로젝트를 확인할 수 있다.
데이터에 어떠한 알고리즘을 사용했고 어떠한 결과를 얻었는지 확인할 수 있다.