Skip to main content
QUICK REVIEW

[論文レビュー] Errors in Flash-Memory-Based Solid-State Drives: Analysis, Mitigation, and Recovery

Yu Cai, Saugata Ghose|arXiv (Cornell University)|Nov 28, 2017
Advanced Data Storage Technologies参考文献 114被引用数 53
ひとこと要約

本論文はNANDフラッシュベースのSSDにおける信頼性の課題を調査し、MLC/TLCデバイスの実験的特性データを提供し、SSDの寿命を延ばすための緩和策とデータ回復技術をレビューする。

ABSTRACT

NAND flash memory is ubiquitous in everyday life today because its capacity has continuously increased and cost has continuously decreased over decades. This positive growth is a result of two key trends: (1) effective process technology scaling; and (2) multi-level (e.g., MLC, TLC) cell data coding. Unfortunately, the reliability of raw data stored in flash memory has also continued to become more difficult to ensure, because these two trends lead to (1) fewer electrons in the flash memory cell floating gate to represent the data; and (2) larger cell-to-cell interference and disturbance effects. Without mitigation, worsening reliability can reduce the lifetime of NAND flash memory. As a result, flash memory controllers in solid-state drives (SSDs) have become much more sophisticated: they incorporate many effective techniques to ensure the correct interpretation of noisy data stored in flash memory cells. In this chapter, we review recent advances in SSD error characterization, mitigation, and data recovery techniques for reliability and lifetime improvement. We provide rigorous experimental data from state-of-the-art MLC and TLC NAND flash devices on various types of flash memory errors, to motivate the need for such techniques. Based on the understanding developed by the experimental characterization, we describe several mitigation and recovery techniques, including (1) cell-tocell interference mitigation; (2) optimal multi-level cell sensing; (3) error correction using state-of-the-art algorithms and methods; and (4) data recovery when error correction fails. We quantify the reliability improvement provided by each of these techniques. Looking forward, we briefly discuss how flash memory and these techniques could evolve into the future.

研究の動機と目的

  • スケーリングとマルチレベルセルの使用がエラー率を高める中で、NANDフラッシュメモリの信頼性向上の必要性を喚起する。
  • 最先端のMLCおよびTLCデバイスからの実験データを用いて、フラッシュメモリエラーの根本原因を特徴づける。
  • 干渉緩和、最適センサ、ECC、データ回復の流れを含む緩和技術を説明・定量化する。
  • SSDの寿命を延ばすコントローラレベルの戦略(ガーベジコレクション、ウェアレベリング、ブロック不良管理)を説明する。
  • フラッシュメモリの信頼性および関連メモリの今後の方向性を概説する。

提案手法

  • 最新のSSDのアーキテクチャと構成をレビューし、信頼性機構をシステム要素に関連付ける。
  • 実際のNANDフラッシュデバイスからの実験的特性データを提示し、緩和技術を動機づける。
  • セル間干渉緩和、最適マルチレベルセンシング、ECCアプローチ、データ回復手法など一連の緩和技術を説明する。
  • 信頼性の文脈で、バス/ホストインターフェースとコントローラの責務(FTL、ガーベジコレクション、ウェアレベリング)を説明する。
  • SSDコントローラ内のデータパス保護とメタデータ保護戦略を詳述する。
  • 信頼性戦略としてのブロック不良管理とスーパーページレベルのパリティを議論する。

実験結果

リサーチクエスチョン

  • RQ1SSDで使用されるNANDフラッシュメモリの根本的なエラー源は何か?
  • RQ2実世界のMLCおよびTLC NANDデバイスはどのようにエラーを示し、それを支持する定量データは何か?
  • RQ3SSDのフラッシュエラーを効果的に低減または許容する緩和技術は何か?
  • RQ4エラー訂正が失敗した場合、データ回復はどのように行われるか?
  • RQ5SSDの信頼性と寿命に影響を与えうる将来の方向性と技術は何か?

主な発見

  • NANDフラッシュの信頼性は製造プロセスのスケーリングと高レベルのセルコード化(MLC/TLC)に伴い低下し、Rawエラー率が増加する。
  • ウェアレベリング、ガーベージコレクション最適化、ブロック不良管理などのコントローラレベルの技術は、SSDの寿命を延ばすうえで中心的な役割を果たす。
  • 高いRawエラー率の存在下で、読み出し後のデータを訂正・検証するためにはECC(BCH/LDPC)とCRCチェックが不可欠である。
  • データスクランブリングはデータ依存のエラーパターンを低減し、暗号化(SEDs)は信頼性を損なうことなく追加のデータセキュリティを提供する。
  • コントローラ内のデータパス保護とメタデータ保護は SRAM/DRAMのエラーを緩和し、ホストデータとマッピングの整合性を保証する。
  • スーパーページレベルのパリティや他のRAID風戦略はブロックレベルのエラーに対する追加の耐性を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。