티스토리 뷰

반응형

백준 2108번 통계학

 

알고리즘 분류: 구현, 정렬

 

링크: www.acmicpc.net/problem/2108

 

 

2108번: 통계학

첫째 줄에 수의 개수 N(1 ≤ N ≤ 500,000)이 주어진다. 그 다음 N개의 줄에는 정수들이 주어진다. 입력되는 정수의 절댓값은 4,000을 넘지 않는다.

www.acmicpc.net

문제

수를 처리하는 것은 통계학에서 상당히 중요한 일이다. 통계학에서 N개의 수를 대표하는 기본 통계값에는 다음과 같은 것들이 있다. 단, N은 홀수라고 가정하자.

  1. 산술평균 : N개의 수들의 합을 N으로 나눈 값
  2. 중앙값 : N개의 수들을 증가하는 순서로 나열했을 경우 그 중앙에 위치하는 값
  3. 최빈값 : N개의 수들 중 가장 많이 나타나는 값
  4. 범위 : N개의 수들 중 최댓값과 최솟값의 차이

N개의 수가 주어졌을 때, 네 가지 기본 통계값을 구하는 프로그램을 작성하시오.

입력

첫째 줄에 수의 개수 N(1 ≤ N ≤ 500,000)이 주어진다. 그 다음 N개의 줄에는 정수들이 주어진다. 입력되는 정수의 절댓값은 4,000을 넘지 않는다.

출력

첫째 줄에는 산술평균을 출력한다. 소수점 이하 첫째 자리에서 반올림한 값을 출력한다.

둘째 줄에는 중앙값을 출력한다.

셋째 줄에는 최빈값을 출력한다. 여러 개 있을 때에는 최빈값 중 두 번째로 작은 값을 출력한다.

넷째 줄에는 범위를 출력한다.

 

 

문제 파악

 

이 문제는 간단한 통계학을 적용하는 문제이다.

 

산술평균은 우리가 흔히 쓰는 모든 수들을 더해서 수의 개수만큼 나눠주는것이고

 

중앙값은 말 그대로 정렬해놓은 상태에서 중앙에 있는 값

 

최빈값은 가장 높은빈도수로 나타나는 값

 

범위는 최대값과 최소값의 차이라고 나와있다.

 

각각 함수로 만들어놓고 풀면 될거같다.

 

 

코드

# 2108번

from collections import Counter
import sys

def Arithmetic_mean(some_list):
    list_sum = 0
    for i in some_list:
        list_sum += i

    return round(list_sum / len(some_list))


def median(some_list):
    sorted_list = sorted(some_list)
    center = len(sorted_list) // 2

    return sorted_list[center]


def mode(some_list):
    count = Counter(some_list)
    count_order = count.most_common()
    maximum = count_order[0][1]

    modes = []
    for i in count_order:
        if i[1] == maximum:
            modes.append(i[0])

    sorted_modes = sorted(modes)
    if len(sorted_modes) > 1:
        return sorted_modes[1]
    else:
        return sorted_modes[0]


def difference(some_list): 
    sorted_list = sorted(some_list)
    diff = sorted_list[-1] - sorted_list[0]
    return diff


n = int(sys.stdin.readline())
num_list = []

for _ in range(n):
    num_list.append(int(sys.stdin.readline()))

print(Arithmetic_mean(num_list))
print(median(num_list))
print(mode(num_list))
print(difference(num_list))

변수명이나 함수명을 지을 때 좀 더 잘지어보려고 구글 번역기를 통해서 바꿔보았다.

 

Arithmetic_mean : 산술평균

median : 중앙값

mode : 최빈값

difference : 범위 (range를 쓸 수없어서 일단 이렇게 지었다.)

 

다른 함수들은 다 간단하게 처리할 수 있고 최빈값은 조금 번거로운 과정을 거쳐야한다.

 

일단 최빈값을 쉽게 구하기 위해 파이썬 모듈을 사용하였다.

 

from collections import Counter를 통해 최빈값을 쉽게 구할 수 있는 모듈을 import하였다.

 

Counter함수를 쓰면 각 리스트의 인덱스가 몇번 나왔는지를 딕셔너리 형태로 나타낸다.

 

이를 most_common() 함수를 쓰면 리스트안에 튜플형식으로 내림차순으로 정리해준다.

 

문제에서 조건이 최빈값이 같은 수가 여러 개 있을 때는 두 번째로 작은 값을 출력하라했으니

 

최빈값만 나타내는 리스트를 다시 만들어서 여러 개있다면 두 번째로 작은 값을 리턴할 것이다.

 

maximum을 count_order[0][1]로 설정한 이유는 내림차순으로 정렬되있기 때문에

 

[0]은 어떤수 [1]은 몇번나왔는지 이런식으로 되있기 때문에 초기값으로 설정해놓고

 

for문에서 반복문을 돌면서 최빈값이 같다면 modes 라는 리스트에 추가해준다.

 

modes의 길이가 1보다 크면 두 번째로 작은 값을 리턴해주고 그렇지 않을 경우에는

 

그냥 0번 인덱스를 리턴해주면 된다.

 

또 이 문제는 sys.stdin.readlin()을 사용안하고 그냥 input()을 사용할 시에 시간초과가 나기 때문에

 

백준 문제를 풀 때는 시간초과가 날 경우 이런 점을 먼저 고려해 주는 것이 좋다.

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함