~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/pack.py

  • Committer: Andrew Bennetts
  • Date: 2010-10-08 08:15:14 UTC
  • mto: This revision was merged to the branch mainline in revision 5498.
  • Revision ID: andrew.bennetts@canonical.com-20101008081514-dviqzrdfwyzsqbz2
Split NEWS into per-release doc/en/release-notes/bzr-*.txt

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2007 Canonical Ltd
 
1
# Copyright (C) 2007, 2009, 2010 Canonical Ltd
2
2
#
3
3
# This program is free software; you can redistribute it and/or modify
4
4
# it under the terms of the GNU General Public License as published by
12
12
#
13
13
# You should have received a copy of the GNU General Public License
14
14
# along with this program; if not, write to the Free Software
15
 
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
 
15
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
16
16
 
17
17
"""Container format for Bazaar data.
18
18
 
19
 
"Containers" and "records" are described in doc/developers/container-format.txt.
 
19
"Containers" and "records" are described in
 
20
doc/developers/container-format.txt.
20
21
"""
21
22
 
22
23
from cStringIO import StringIO
33
34
 
34
35
def _check_name(name):
35
36
    """Do some basic checking of 'name'.
36
 
    
 
37
 
37
38
    At the moment, this just checks that there are no whitespace characters in a
38
39
    name.
39
40
 
46
47
 
47
48
def _check_name_encoding(name):
48
49
    """Check that 'name' is valid UTF-8.
49
 
    
 
50
 
50
51
    This is separate from _check_name because UTF-8 decoding is relatively
51
52
    expensive, and we usually want to avoid it.
52
53
 
58
59
        raise errors.InvalidRecordError(str(e))
59
60
 
60
61
 
 
62
class ContainerSerialiser(object):
 
63
    """A helper class for serialising containers.
 
64
 
 
65
    It simply returns bytes from method calls to 'begin', 'end' and
 
66
    'bytes_record'.  You may find ContainerWriter to be a more convenient
 
67
    interface.
 
68
    """
 
69
 
 
70
    def begin(self):
 
71
        """Return the bytes to begin a container."""
 
72
        return FORMAT_ONE + "\n"
 
73
 
 
74
    def end(self):
 
75
        """Return the bytes to finish a container."""
 
76
        return "E"
 
77
 
 
78
    def bytes_record(self, bytes, names):
 
79
        """Return the bytes for a Bytes record with the given name and
 
80
        contents.
 
81
        """
 
82
        # Kind marker
 
83
        byte_sections = ["B"]
 
84
        # Length
 
85
        byte_sections.append(str(len(bytes)) + "\n")
 
86
        # Names
 
87
        for name_tuple in names:
 
88
            # Make sure we're writing valid names.  Note that we will leave a
 
89
            # half-written record if a name is bad!
 
90
            for name in name_tuple:
 
91
                _check_name(name)
 
92
            byte_sections.append('\x00'.join(name_tuple) + "\n")
 
93
        # End of headers
 
94
        byte_sections.append("\n")
 
95
        # Finally, the contents.
 
96
        byte_sections.append(bytes)
 
97
        # XXX: This causes a memory copy of bytes in size, but is usually
 
98
        # faster than two write calls (12 vs 13 seconds to output a gig of
 
99
        # 1k records.) - results may differ on significantly larger records
 
100
        # like .iso's but as they should be rare in any case and thus not
 
101
        # likely to be the common case. The biggest issue is causing extreme
 
102
        # memory pressure in that case. One possibly improvement here is to
 
103
        # check the size of the content before deciding to join here vs call
 
104
        # write twice.
 
105
        return ''.join(byte_sections)
 
106
 
 
107
 
61
108
class ContainerWriter(object):
62
 
    """A class for writing containers.
 
109
    """A class for writing containers to a file.
63
110
 
64
111
    :attribute records_written: The number of user records added to the
65
112
        container. This does not count the prelude or suffix of the container
75
122
        self._write_func = write_func
76
123
        self.current_offset = 0
77
124
        self.records_written = 0
 
125
        self._serialiser = ContainerSerialiser()
78
126
 
79
127
    def begin(self):
80
128
        """Begin writing a container."""
81
 
        self.write_func(FORMAT_ONE + "\n")
 
129
        self.write_func(self._serialiser.begin())
82
130
 
83
131
    def write_func(self, bytes):
84
132
        self._write_func(bytes)
86
134
 
87
135
    def end(self):
88
136
        """Finish writing a container."""
89
 
        self.write_func("E")
 
137
        self.write_func(self._serialiser.end())
90
138
 
91
139
    def add_bytes_record(self, bytes, names):
92
140
        """Add a Bytes record with the given names.
93
 
        
 
141
 
94
142
        :param bytes: The bytes to insert.
95
143
        :param names: The names to give the inserted bytes. Each name is
96
144
            a tuple of bytestrings. The bytestrings may not contain
103
151
            and thus are only suitable for use by a ContainerReader.
104
152
        """
105
153
        current_offset = self.current_offset
106
 
        # Kind marker
107
 
        self.write_func("B")
108
 
        # Length
109
 
        self.write_func(str(len(bytes)) + "\n")
110
 
        # Names
111
 
        for name_tuple in names:
112
 
            # Make sure we're writing valid names.  Note that we will leave a
113
 
            # half-written record if a name is bad!
114
 
            for name in name_tuple:
115
 
                _check_name(name)
116
 
            self.write_func('\x00'.join(name_tuple) + "\n")
117
 
        # End of headers
118
 
        self.write_func("\n")
119
 
        # Finally, the contents.
120
 
        self.write_func(bytes)
 
154
        serialised_record = self._serialiser.bytes_record(bytes, names)
 
155
        self.write_func(serialised_record)
121
156
        self.records_written += 1
122
157
        # return a memo of where we wrote data to allow random access.
123
158
        return current_offset, self.current_offset - current_offset
124
159
 
125
160
 
126
161
class ReadVFile(object):
127
 
    """Adapt a readv result iterator to a file like protocol."""
 
162
    """Adapt a readv result iterator to a file like protocol.
 
163
    
 
164
    The readv result must support the iterator protocol returning (offset,
 
165
    data_bytes) pairs.
 
166
    """
 
167
 
 
168
    # XXX: This could be a generic transport class, as other code may want to
 
169
    # gradually consume the readv result.
128
170
 
129
171
    def __init__(self, readv_result):
 
172
        """Construct a new ReadVFile wrapper.
 
173
 
 
174
        :seealso: make_readv_reader
 
175
 
 
176
        :param readv_result: the most recent readv result - list or generator
 
177
        """
 
178
        # readv can return a sequence or an iterator, but we require an
 
179
        # iterator to know how much has been consumed.
 
180
        readv_result = iter(readv_result)
130
181
        self.readv_result = readv_result
131
 
        # the most recent readv result block
132
182
        self._string = None
133
183
 
134
184
    def _next(self):
135
185
        if (self._string is None or
136
186
            self._string.tell() == self._string_length):
137
 
            length, data = self.readv_result.next()
 
187
            offset, data = self.readv_result.next()
138
188
            self._string_length = len(data)
139
189
            self._string = StringIO(data)
140
190
 
142
192
        self._next()
143
193
        result = self._string.read(length)
144
194
        if len(result) < length:
145
 
            raise errors.BzrError('request for too much data from a readv hunk.')
 
195
            raise errors.BzrError('wanted %d bytes but next '
 
196
                'hunk only contains %d: %r...' %
 
197
                (length, len(result), result[:20]))
146
198
        return result
147
199
 
148
200
    def readline(self):
150
202
        self._next()
151
203
        result = self._string.readline()
152
204
        if self._string.tell() == self._string_length and result[-1] != '\n':
153
 
            raise errors.BzrError('short readline in the readvfile hunk.')
 
205
            raise errors.BzrError('short readline in the readvfile hunk: %r'
 
206
                % (result, ))
154
207
        return result
155
208
 
156
209
 
199
252
        is a ``list`` and bytes is a function that takes one argument,
200
253
        ``max_length``.
201
254
 
202
 
        You **must not** call the callable after advancing the interator to the
 
255
        You **must not** call the callable after advancing the iterator to the
203
256
        next record.  That is, this code is invalid::
204
257
 
205
258
            record_iter = container.iter_records()
206
259
            names1, callable1 = record_iter.next()
207
260
            names2, callable2 = record_iter.next()
208
261
            bytes1 = callable1(None)
209
 
        
 
262
 
210
263
        As it will give incorrect results and invalidate the state of the
211
264
        ContainerReader.
212
265
 
213
 
        :raises ContainerError: if any sort of containter corruption is
 
266
        :raises ContainerError: if any sort of container corruption is
214
267
            detected, e.g. UnknownContainerFormatError is the format of the
215
268
            container is unrecognised.
216
269
        :seealso: ContainerReader.read
217
270
        """
218
271
        self._read_format()
219
272
        return self._iter_records()
220
 
    
 
273
 
221
274
    def iter_record_objects(self):
222
275
        """Iterate over the container, yielding each record as it is read.
223
276
 
225
278
        methods.  Like with iter_records, it is not safe to use a record object
226
279
        after advancing the iterator to yield next record.
227
280
 
228
 
        :raises ContainerError: if any sort of containter corruption is
 
281
        :raises ContainerError: if any sort of container corruption is
229
282
            detected, e.g. UnknownContainerFormatError is the format of the
230
283
            container is unrecognised.
231
284
        :seealso: iter_records
232
285
        """
233
286
        self._read_format()
234
287
        return self._iter_record_objects()
235
 
    
 
288
 
236
289
    def _iter_records(self):
237
290
        for record in self._iter_record_objects():
238
291
            yield record.read()
307
360
        except ValueError:
308
361
            raise errors.InvalidRecordError(
309
362
                "%r is not a valid length." % (length_line,))
310
 
        
 
363
 
311
364
        # Read the list of names.
312
365
        names = []
313
366
        while True:
346
399
                _check_name_encoding(name)
347
400
        read_bytes(None)
348
401
 
 
402
 
 
403
class ContainerPushParser(object):
 
404
    """A "push" parser for container format 1.
 
405
 
 
406
    It accepts bytes via the ``accept_bytes`` method, and parses them into
 
407
    records which can be retrieved via the ``read_pending_records`` method.
 
408
    """
 
409
 
 
410
    def __init__(self):
 
411
        self._buffer = ''
 
412
        self._state_handler = self._state_expecting_format_line
 
413
        self._parsed_records = []
 
414
        self._reset_current_record()
 
415
        self.finished = False
 
416
 
 
417
    def _reset_current_record(self):
 
418
        self._current_record_length = None
 
419
        self._current_record_names = []
 
420
 
 
421
    def accept_bytes(self, bytes):
 
422
        self._buffer += bytes
 
423
        # Keep iterating the state machine until it stops consuming bytes from
 
424
        # the buffer.
 
425
        last_buffer_length = None
 
426
        cur_buffer_length = len(self._buffer)
 
427
        last_state_handler = None
 
428
        while (cur_buffer_length != last_buffer_length
 
429
               or last_state_handler != self._state_handler):
 
430
            last_buffer_length = cur_buffer_length
 
431
            last_state_handler = self._state_handler
 
432
            self._state_handler()
 
433
            cur_buffer_length = len(self._buffer)
 
434
 
 
435
    def read_pending_records(self, max=None):
 
436
        if max:
 
437
            records = self._parsed_records[:max]
 
438
            del self._parsed_records[:max]
 
439
            return records
 
440
        else:
 
441
            records = self._parsed_records
 
442
            self._parsed_records = []
 
443
            return records
 
444
 
 
445
    def _consume_line(self):
 
446
        """Take a line out of the buffer, and return the line.
 
447
 
 
448
        If a newline byte is not found in the buffer, the buffer is
 
449
        unchanged and this returns None instead.
 
450
        """
 
451
        newline_pos = self._buffer.find('\n')
 
452
        if newline_pos != -1:
 
453
            line = self._buffer[:newline_pos]
 
454
            self._buffer = self._buffer[newline_pos+1:]
 
455
            return line
 
456
        else:
 
457
            return None
 
458
 
 
459
    def _state_expecting_format_line(self):
 
460
        line = self._consume_line()
 
461
        if line is not None:
 
462
            if line != FORMAT_ONE:
 
463
                raise errors.UnknownContainerFormatError(line)
 
464
            self._state_handler = self._state_expecting_record_type
 
465
 
 
466
    def _state_expecting_record_type(self):
 
467
        if len(self._buffer) >= 1:
 
468
            record_type = self._buffer[0]
 
469
            self._buffer = self._buffer[1:]
 
470
            if record_type == 'B':
 
471
                self._state_handler = self._state_expecting_length
 
472
            elif record_type == 'E':
 
473
                self.finished = True
 
474
                self._state_handler = self._state_expecting_nothing
 
475
            else:
 
476
                raise errors.UnknownRecordTypeError(record_type)
 
477
 
 
478
    def _state_expecting_length(self):
 
479
        line = self._consume_line()
 
480
        if line is not None:
 
481
            try:
 
482
                self._current_record_length = int(line)
 
483
            except ValueError:
 
484
                raise errors.InvalidRecordError(
 
485
                    "%r is not a valid length." % (line,))
 
486
            self._state_handler = self._state_expecting_name
 
487
 
 
488
    def _state_expecting_name(self):
 
489
        encoded_name_parts = self._consume_line()
 
490
        if encoded_name_parts == '':
 
491
            self._state_handler = self._state_expecting_body
 
492
        elif encoded_name_parts:
 
493
            name_parts = tuple(encoded_name_parts.split('\x00'))
 
494
            for name_part in name_parts:
 
495
                _check_name(name_part)
 
496
            self._current_record_names.append(name_parts)
 
497
 
 
498
    def _state_expecting_body(self):
 
499
        if len(self._buffer) >= self._current_record_length:
 
500
            body_bytes = self._buffer[:self._current_record_length]
 
501
            self._buffer = self._buffer[self._current_record_length:]
 
502
            record = (self._current_record_names, body_bytes)
 
503
            self._parsed_records.append(record)
 
504
            self._reset_current_record()
 
505
            self._state_handler = self._state_expecting_record_type
 
506
 
 
507
    def _state_expecting_nothing(self):
 
508
        pass
 
509
 
 
510
    def read_size_hint(self):
 
511
        hint = 16384
 
512
        if self._state_handler == self._state_expecting_body:
 
513
            remaining = self._current_record_length - len(self._buffer)
 
514
            if remaining < 0:
 
515
                remaining = 0
 
516
            return max(hint, remaining)
 
517
        return hint
 
518
 
 
519
 
 
520
def iter_records_from_file(source_file):
 
521
    parser = ContainerPushParser()
 
522
    while True:
 
523
        bytes = source_file.read(parser.read_size_hint())
 
524
        parser.accept_bytes(bytes)
 
525
        for record in parser.read_pending_records():
 
526
            yield record
 
527
        if parser.finished:
 
528
            break
 
529