~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to DESIGN

  • Committer: John Arbash Meinel
  • Date: 2009-03-04 16:56:05 UTC
  • mto: (0.17.34 trunk)
  • mto: This revision was merged to the branch mainline in revision 4280.
  • Revision ID: john@arbash-meinel.com-20090304165605-zbap3q69laok4o6p
fully remove the eq table for now.

Show diffs side-by-side

added added

removed removed

Lines of Context:
62
62
a generic compression engine is less python code. One advantage of
63
63
preprocessing line based deltas is that we reduce the window size for the
64
64
text repeated within lines, and that will help compression by a simple
65
 
entropy compressor as a post processor.
 
65
entropy compressor as a post processor. 
66
66
lzma appears fantastic at compression - 420MB of NEWS files down to 200KB.
67
 
so window size appears to be a key determiner for efficiency.
 
67
so window size appears to be a key determiner for efficiency. 
68
68
 
69
69
Delta strategy
70
70
++++++++++++++
100
100
the lower bound for IO (and how much to read is an open question - what byte
101
101
offset of compressed data is sufficient to ensue that the delta-stream contents
102
102
we need are reconstructable. Flushing, while possible, degrades compression(and
103
 
adds overhead - we'd be paying 4 bytes per record guaranteed). Again - tests
 
103
adds overhead - we'd be paying 4 bytes per record guaranteed). Again - tests 
104
104
will be needed.
105
105
 
106
106
A nice possibility is to output mpdiff compatible records, which might enable