jasu's blog
블로그 메뉴글
구글, HDD 10만개를 테스트하다.
Miscellaneous/Etc
2007. 2. 21. 11:10
“과도한 사용이나 고온의 작업 환경이 하드디스크 고장을 증가시킨다는 것은 다소 과장된 것 같습니다. 그리고 고장 점검 기술인 ‘SMART(Self Monitoring, Analysis, Reporting, Technology)’ 기능은 개인 사용자들의 하드디스크 고장을 탐지해내는데 그다지 효과적이지 못합니다.”
수십만 대 서버를 중심으로 2001년부터 80GB~400GB까지 10만 여개 하드디스크를 테스트 한 구글 서버 관리자들의 결론이다.
지난 13일부터 16일까지 캘리포니아 산호세에서 열린 저장장치 콘퍼런스 ‘USENIX FAST 2007(File And Storage Technologies 2007, http://www.usenix.org/events/fast07)’에서 공개된 구글 논문이 인터넷에 공개됐다.
에듀아도 핀헤이로(Eduardo Pinheiro), 울프 디트리히 웨버(Wolf-Dietrich Weber), 루이스 안드레 바로소(Luiz Andre Barroso) 세 명의 구글 엔지니어가 공동 작성한 이 논문은 하드디스크 고장의 원인을 사용량, 온도, SMART 기능 등을 중심으로 분석한 자료를 담았다.
구글는 일단 고장이 발생한 하드디스크들은 ‘failed’로 분류된 뒤, 웹페이지 캐시 저장용으로 사용하고 있는 것으로 알려져 있다.
[클릭 : PDF 논문 원본 - Failure Trends in a Large Disk Drive Population]
◆고온 환경과 하드디스크 고장은 무관 = 우선 구글 엔지니어들은 제조사들이 제시하는 ‘평균 고장 간격(Mean Time Between Failure)’에 대해 의문을 제기했다. MTBF란 수리 가능한 장치의 어떤 고장과 다음 고장 사이, 즉 수리 완료로부터 다음 고장까지 무고장으로 작동하는 시간의 평균값이다.
이들은 논문에서 “기존 사용자들이 주장한 것 보다 사용률(utilisation levels)과 고장 사이에는 상관관계가 약하다”고 주장했다. 일반적으로 하드디스크는 많이 사용하면, 온도가 높을수록 고장이 날 가능성이 높다고 알려져 있다.
조사 자료에 따르면 사용한 지 3년 이하인 하드디스크의 경우 많은 작업을 수행한 하드디스크가 부정기적으로 사용한 하드디스크에 비해 고장 발생비율이 적었다. 이러한 사용 행태는 ‘최적화 이론’으로 풀이할 수 있다. 초기에 일찌감치 고장이 발생한 하드디스크들은 제거되기 때문에 전체 하드디스크 샘플이 점점 더 수명이 길어지게 되는 것이다.
또한 저자들은 “테스트 결과 높은 온도는 하드디스크 고장과 큰 상관관계가 없으며, 오히려 낮은 온도가 고장 발생 비율을 높였다”고 설명했다. 일정 수준에 이르면 온도가 더 상승한다고 하더라도 오류 발생 비율은 늘어나지 않는다는 주장이다. 다만 논문은 “3년 이상 지난 하드디스크의 경우 더 높은 온도 환경에서 계속 사용할 경우 고장 발생 비율이 높아졌다”고 덧붙였다.
저자들은 “이것은 매우 놀라운 결과”라며 “데이터센터나 서버 설계자들은 과거의 온도 설계 방식에서 좀 더 자유로워 질 수 있을 것”이라고 말했다.
◆고장 점검 기능 ‘SMART’ 기대이하 = 이 논문은 SMART 기능을 중심으로 ‘검사 오류(scan errors)’에 대해서도 집중적으로 다뤘다.
저자들은 “검사 오류가 발생한 하드디스크 그룹은 검사 오류가 발생하지 않은 그룹에 비해 10애 이상 고장이 많이 발생했다”며 “첫 번째 검사 오류가 발생한 후 해당 하드디스크는 검사오류가 없는 하드디스크에 비해 60일 이내 고장날 확률이 39배나 높았다”고 설명했다.
엔지니어들은 이에 따라 “SMART 기능이 개인 사용자들의 하드디스크 오류를 추출해 낼 때에는 유용할 것 같지 않다”며 “다만 대량으로 하드디스크를 관리할 때 고장 패턴을 분석하는 데 더 유용할 것”이라고 지적했다.
이 밖에도 구글은 어느 회사의 하드디스크가 더 수명이 긴 것인지 별도의 통계 자료를 가지고 있지만, “하드디스크 수명과 고장 상관관계를 이해하는데 도움이 되지 않는다”는 자체 판단에 따라 논문에 싣지 않았다.
인터넷뉴스부 서명덕기자
수십만 대 서버를 중심으로 2001년부터 80GB~400GB까지 10만 여개 하드디스크를 테스트 한 구글 서버 관리자들의 결론이다.
지난 13일부터 16일까지 캘리포니아 산호세에서 열린 저장장치 콘퍼런스 ‘USENIX FAST 2007(File And Storage Technologies 2007, http://www.usenix.org/events/fast07)’에서 공개된 구글 논문이 인터넷에 공개됐다.
에듀아도 핀헤이로(Eduardo Pinheiro), 울프 디트리히 웨버(Wolf-Dietrich Weber), 루이스 안드레 바로소(Luiz Andre Barroso) 세 명의 구글 엔지니어가 공동 작성한 이 논문은 하드디스크 고장의 원인을 사용량, 온도, SMART 기능 등을 중심으로 분석한 자료를 담았다.
구글는 일단 고장이 발생한 하드디스크들은 ‘failed’로 분류된 뒤, 웹페이지 캐시 저장용으로 사용하고 있는 것으로 알려져 있다.
[클릭 : PDF 논문 원본 - Failure Trends in a Large Disk Drive Population]
◆고온 환경과 하드디스크 고장은 무관 = 우선 구글 엔지니어들은 제조사들이 제시하는 ‘평균 고장 간격(Mean Time Between Failure)’에 대해 의문을 제기했다. MTBF란 수리 가능한 장치의 어떤 고장과 다음 고장 사이, 즉 수리 완료로부터 다음 고장까지 무고장으로 작동하는 시간의 평균값이다.
이들은 논문에서 “기존 사용자들이 주장한 것 보다 사용률(utilisation levels)과 고장 사이에는 상관관계가 약하다”고 주장했다. 일반적으로 하드디스크는 많이 사용하면, 온도가 높을수록 고장이 날 가능성이 높다고 알려져 있다.
조사 자료에 따르면 사용한 지 3년 이하인 하드디스크의 경우 많은 작업을 수행한 하드디스크가 부정기적으로 사용한 하드디스크에 비해 고장 발생비율이 적었다. 이러한 사용 행태는 ‘최적화 이론’으로 풀이할 수 있다. 초기에 일찌감치 고장이 발생한 하드디스크들은 제거되기 때문에 전체 하드디스크 샘플이 점점 더 수명이 길어지게 되는 것이다.
또한 저자들은 “테스트 결과 높은 온도는 하드디스크 고장과 큰 상관관계가 없으며, 오히려 낮은 온도가 고장 발생 비율을 높였다”고 설명했다. 일정 수준에 이르면 온도가 더 상승한다고 하더라도 오류 발생 비율은 늘어나지 않는다는 주장이다. 다만 논문은 “3년 이상 지난 하드디스크의 경우 더 높은 온도 환경에서 계속 사용할 경우 고장 발생 비율이 높아졌다”고 덧붙였다.
저자들은 “이것은 매우 놀라운 결과”라며 “데이터센터나 서버 설계자들은 과거의 온도 설계 방식에서 좀 더 자유로워 질 수 있을 것”이라고 말했다.
|
◆고장 점검 기능 ‘SMART’ 기대이하 = 이 논문은 SMART 기능을 중심으로 ‘검사 오류(scan errors)’에 대해서도 집중적으로 다뤘다.
저자들은 “검사 오류가 발생한 하드디스크 그룹은 검사 오류가 발생하지 않은 그룹에 비해 10애 이상 고장이 많이 발생했다”며 “첫 번째 검사 오류가 발생한 후 해당 하드디스크는 검사오류가 없는 하드디스크에 비해 60일 이내 고장날 확률이 39배나 높았다”고 설명했다.
엔지니어들은 이에 따라 “SMART 기능이 개인 사용자들의 하드디스크 오류를 추출해 낼 때에는 유용할 것 같지 않다”며 “다만 대량으로 하드디스크를 관리할 때 고장 패턴을 분석하는 데 더 유용할 것”이라고 지적했다.
이 밖에도 구글은 어느 회사의 하드디스크가 더 수명이 긴 것인지 별도의 통계 자료를 가지고 있지만, “하드디스크 수명과 고장 상관관계를 이해하는데 도움이 되지 않는다”는 자체 판단에 따라 논문에 싣지 않았다.
인터넷뉴스부 서명덕기자