~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/smart/repository.py

  • Committer: Canonical.com Patch Queue Manager
  • Date: 2009-03-17 07:05:37 UTC
  • mfrom: (4152.1.2 branch.stacked.streams)
  • Revision ID: pqm@pqm.ubuntu.com-20090317070537-zaud24vjs2szna87
(robertc) Add client-side streaming from stacked branches (over
        bzr:// protocols) when the sort order is compatible with doing
        that. (Robert Collins, Andrew Bennetts)

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2006-2010 Canonical Ltd
 
1
# Copyright (C) 2006, 2007 Canonical Ltd
2
2
#
3
3
# This program is free software; you can redistribute it and/or modify
4
4
# it under the terms of the GNU General Public License as published by
12
12
#
13
13
# You should have received a copy of the GNU General Public License
14
14
# along with this program; if not, write to the Free Software
15
 
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 
15
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
16
16
 
17
17
"""Server-side repository related request implmentations."""
18
18
 
19
19
import bz2
20
20
import os
21
21
import Queue
 
22
import struct
22
23
import sys
 
24
import tarfile
23
25
import tempfile
24
26
import threading
25
27
 
26
28
from bzrlib import (
27
 
    bencode,
28
29
    errors,
29
30
    graph,
30
31
    osutils,
31
32
    pack,
32
 
    ui,
33
 
    versionedfile,
34
33
    )
35
34
from bzrlib.bzrdir import BzrDir
36
35
from bzrlib.smart.request import (
39
38
    SuccessfulSmartServerResponse,
40
39
    )
41
40
from bzrlib.repository import _strip_NULL_ghosts, network_format_registry
42
 
from bzrlib.recordcounter import RecordCounter
43
41
from bzrlib import revision as _mod_revision
44
 
from bzrlib.versionedfile import (
45
 
    NetworkRecordStream,
46
 
    record_to_fulltext_bytes,
47
 
    )
 
42
from bzrlib.util import bencode
 
43
from bzrlib.versionedfile import NetworkRecordStream, record_to_fulltext_bytes
48
44
 
49
45
 
50
46
class SmartServerRepositoryRequest(SmartServerRequest):
75
71
        # is expected)
76
72
        return None
77
73
 
78
 
    def recreate_search(self, repository, search_bytes, discard_excess=False):
79
 
        """Recreate a search from its serialised form.
80
 
 
81
 
        :param discard_excess: If True, and the search refers to data we don't
82
 
            have, just silently accept that fact - the verb calling
83
 
            recreate_search trusts that clients will look for missing things
84
 
            they expected and get it from elsewhere.
85
 
        """
 
74
    def recreate_search(self, repository, search_bytes):
86
75
        lines = search_bytes.split('\n')
87
76
        if lines[0] == 'ancestry-of':
88
77
            heads = lines[1:]
89
78
            search_result = graph.PendingAncestryResult(heads, repository)
90
79
            return search_result, None
91
80
        elif lines[0] == 'search':
92
 
            return self.recreate_search_from_recipe(repository, lines[1:],
93
 
                discard_excess=discard_excess)
 
81
            return self.recreate_search_from_recipe(repository, lines[1:])
94
82
        else:
95
83
            return (None, FailedSmartServerResponse(('BadSearch',)))
96
84
 
97
 
    def recreate_search_from_recipe(self, repository, lines,
98
 
        discard_excess=False):
99
 
        """Recreate a specific revision search (vs a from-tip search).
100
 
 
101
 
        :param discard_excess: If True, and the search refers to data we don't
102
 
            have, just silently accept that fact - the verb calling
103
 
            recreate_search trusts that clients will look for missing things
104
 
            they expected and get it from elsewhere.
105
 
        """
 
85
    def recreate_search_from_recipe(self, repository, lines):
106
86
        start_keys = set(lines[0].split(' '))
107
87
        exclude_keys = set(lines[1].split(' '))
108
88
        revision_count = int(lines[2])
117
97
                    break
118
98
                search.stop_searching_any(exclude_keys.intersection(next_revs))
119
99
            search_result = search.get_result()
120
 
            if (not discard_excess and
121
 
                search_result.get_recipe()[3] != revision_count):
 
100
            if search_result.get_recipe()[3] != revision_count:
122
101
                # we got back a different amount of data than expected, this
123
102
                # gets reported as NoSuchRevision, because less revisions
124
103
                # indicates missing revisions, and more should never happen as
155
134
        from revision_ids is returned. The verb takes a body containing the
156
135
        current search state, see do_body for details.
157
136
 
158
 
        If 'include-missing:' is in revision_ids, ghosts encountered in the
159
 
        graph traversal for getting parent data are included in the result with
160
 
        a prefix of 'missing:'.
161
 
 
162
137
        :param repository: The repository to query in.
163
138
        :param revision_ids: The utf8 encoded revision_id to answer for.
164
139
        """
183
158
    def _do_repository_request(self, body_bytes):
184
159
        repository = self._repository
185
160
        revision_ids = set(self._revision_ids)
186
 
        include_missing = 'include-missing:' in revision_ids
187
 
        if include_missing:
188
 
            revision_ids.remove('include-missing:')
189
161
        body_lines = body_bytes.split('\n')
190
162
        search_result, error = self.recreate_search_from_recipe(
191
163
            repository, body_lines)
206
178
        while next_revs:
207
179
            queried_revs.update(next_revs)
208
180
            parent_map = repo_graph.get_parent_map(next_revs)
209
 
            current_revs = next_revs
210
181
            next_revs = set()
211
 
            for revision_id in current_revs:
212
 
                missing_rev = False
213
 
                parents = parent_map.get(revision_id)
214
 
                if parents is not None:
215
 
                    # adjust for the wire
216
 
                    if parents == (_mod_revision.NULL_REVISION,):
217
 
                        parents = ()
218
 
                    # prepare the next query
219
 
                    next_revs.update(parents)
220
 
                    encoded_id = revision_id
221
 
                else:
222
 
                    missing_rev = True
223
 
                    encoded_id = "missing:" + revision_id
224
 
                    parents = []
225
 
                if (revision_id not in client_seen_revs and
226
 
                    (not missing_rev or include_missing)):
 
182
            for revision_id, parents in parent_map.iteritems():
 
183
                # adjust for the wire
 
184
                if parents == (_mod_revision.NULL_REVISION,):
 
185
                    parents = ()
 
186
                # prepare the next query
 
187
                next_revs.update(parents)
 
188
                if revision_id not in client_seen_revs:
227
189
                    # Client does not have this revision, give it to it.
228
190
                    # add parents to the result
229
 
                    result[encoded_id] = parents
 
191
                    result[revision_id] = parents
230
192
                    # Approximate the serialized cost of this revision_id.
231
 
                    size_so_far += 2 + len(encoded_id) + sum(map(len, parents))
 
193
                    size_so_far += 2 + len(revision_id) + sum(map(len, parents))
232
194
            # get all the directly asked for parents, and then flesh out to
233
195
            # 64K (compressed) or so. We do one level of depth at a time to
234
196
            # stay in sync with the client. The 250000 magic number is
288
250
        return SuccessfulSmartServerResponse(('ok', ), '\n'.join(lines))
289
251
 
290
252
 
291
 
class SmartServerRepositoryGetRevIdForRevno(SmartServerRepositoryReadLocked):
292
 
 
293
 
    def do_readlocked_repository_request(self, repository, revno,
294
 
            known_pair):
295
 
        """Find the revid for a given revno, given a known revno/revid pair.
296
 
        
297
 
        New in 1.17.
298
 
        """
299
 
        try:
300
 
            found_flag, result = repository.get_rev_id_for_revno(revno, known_pair)
301
 
        except errors.RevisionNotPresent, err:
302
 
            if err.revision_id != known_pair[1]:
303
 
                raise AssertionError(
304
 
                    'get_rev_id_for_revno raised RevisionNotPresent for '
305
 
                    'non-initial revision: ' + err.revision_id)
306
 
            return FailedSmartServerResponse(
307
 
                ('nosuchrevision', err.revision_id))
308
 
        if found_flag:
309
 
            return SuccessfulSmartServerResponse(('ok', result))
310
 
        else:
311
 
            earliest_revno, earliest_revid = result
312
 
            return SuccessfulSmartServerResponse(
313
 
                ('history-incomplete', earliest_revno, earliest_revid))
314
 
 
315
 
 
316
253
class SmartServerRequestHasRevision(SmartServerRepositoryRequest):
317
254
 
318
255
    def do_repository_request(self, repository, revision_id):
393
330
        if token == '':
394
331
            token = None
395
332
        try:
396
 
            token = repository.lock_write(token=token).repository_token
 
333
            token = repository.lock_write(token=token)
397
334
        except errors.LockContention, e:
398
335
            return FailedSmartServerResponse(('LockContention',))
399
336
        except errors.UnlockableTransport:
419
356
            repository.
420
357
        """
421
358
        self._to_format = network_format_registry.get(to_network_name)
422
 
        if self._should_fake_unknown():
423
 
            return FailedSmartServerResponse(
424
 
                ('UnknownMethod', 'Repository.get_stream'))
425
359
        return None # Signal that we want a body.
426
360
 
427
 
    def _should_fake_unknown(self):
428
 
        """Return True if we should return UnknownMethod to the client.
429
 
        
430
 
        This is a workaround for bugs in pre-1.19 clients that claim to
431
 
        support receiving streams of CHK repositories.  The pre-1.19 client
432
 
        expects inventory records to be serialized in the format defined by
433
 
        to_network_name, but in pre-1.19 (at least) that format definition
434
 
        tries to use the xml5 serializer, which does not correctly handle
435
 
        rich-roots.  After 1.19 the client can also accept inventory-deltas
436
 
        (which avoids this issue), and those clients will use the
437
 
        Repository.get_stream_1.19 verb instead of this one.
438
 
        So: if this repository is CHK, and the to_format doesn't match,
439
 
        we should just fake an UnknownSmartMethod error so that the client
440
 
        will fallback to VFS, rather than sending it a stream we know it
441
 
        cannot handle.
442
 
        """
443
 
        from_format = self._repository._format
444
 
        to_format = self._to_format
445
 
        if not from_format.supports_chks:
446
 
            # Source not CHK: that's ok
447
 
            return False
448
 
        if (to_format.supports_chks and
449
 
            from_format.repository_class is to_format.repository_class and
450
 
            from_format._serializer == to_format._serializer):
451
 
            # Source is CHK, but target matches: that's ok
452
 
            # (e.g. 2a->2a, or CHK2->2a)
453
 
            return False
454
 
        # Source is CHK, and target is not CHK or incompatible CHK.  We can't
455
 
        # generate a compatible stream.
456
 
        return True
457
 
 
458
361
    def do_body(self, body_bytes):
459
362
        repository = self._repository
460
363
        repository.lock_read()
461
364
        try:
462
 
            search_result, error = self.recreate_search(repository, body_bytes,
463
 
                discard_excess=True)
 
365
            search_result, error = self.recreate_search(repository, body_bytes)
464
366
            if error is not None:
465
367
                repository.unlock()
466
368
                return error
490
392
            repository.unlock()
491
393
 
492
394
 
493
 
class SmartServerRepositoryGetStream_1_19(SmartServerRepositoryGetStream):
494
 
 
495
 
    def _should_fake_unknown(self):
496
 
        """Returns False; we don't need to workaround bugs in 1.19+ clients."""
497
 
        return False
498
 
 
499
 
 
500
395
def _stream_to_byte_stream(stream, src_format):
501
396
    """Convert a record stream to a self delimited byte stream."""
502
397
    pack_writer = pack.ContainerSerialiser()
506
401
        for record in substream:
507
402
            if record.storage_kind in ('chunked', 'fulltext'):
508
403
                serialised = record_to_fulltext_bytes(record)
509
 
            elif record.storage_kind == 'inventory-delta':
510
 
                serialised = record_to_inventory_delta_bytes(record)
511
 
            elif record.storage_kind == 'absent':
512
 
                raise ValueError("Absent factory for %s" % (record.key,))
513
404
            else:
514
405
                serialised = record.get_bytes_as(record.storage_kind)
515
406
            if serialised:
520
411
    yield pack_writer.end()
521
412
 
522
413
 
523
 
class _ByteStreamDecoder(object):
524
 
    """Helper for _byte_stream_to_stream.
525
 
 
526
 
    The expected usage of this class is via the function _byte_stream_to_stream
527
 
    which creates a _ByteStreamDecoder, pops off the stream format and then
528
 
    yields the output of record_stream(), the main entry point to
529
 
    _ByteStreamDecoder.
530
 
 
531
 
    Broadly this class has to unwrap two layers of iterators:
532
 
    (type, substream)
533
 
    (substream details)
534
 
 
535
 
    This is complicated by wishing to return type, iterator_for_type, but
536
 
    getting the data for iterator_for_type when we find out type: we can't
537
 
    simply pass a generator down to the NetworkRecordStream parser, instead
538
 
    we have a little local state to seed each NetworkRecordStream instance,
539
 
    and gather the type that we'll be yielding.
540
 
 
541
 
    :ivar byte_stream: The byte stream being decoded.
542
 
    :ivar stream_decoder: A pack parser used to decode the bytestream
543
 
    :ivar current_type: The current type, used to join adjacent records of the
544
 
        same type into a single stream.
545
 
    :ivar first_bytes: The first bytes to give the next NetworkRecordStream.
 
414
def _byte_stream_to_stream(byte_stream):
 
415
    """Convert a byte stream into a format and a stream.
 
416
 
 
417
    :param byte_stream: A bytes iterator, as output by _stream_to_byte_stream.
 
418
    :return: (RepositoryFormat, stream_generator)
546
419
    """
547
 
 
548
 
    def __init__(self, byte_stream, record_counter):
549
 
        """Create a _ByteStreamDecoder."""
550
 
        self.stream_decoder = pack.ContainerPushParser()
551
 
        self.current_type = None
552
 
        self.first_bytes = None
553
 
        self.byte_stream = byte_stream
554
 
        self._record_counter = record_counter
555
 
        self.key_count = 0
556
 
 
557
 
    def iter_stream_decoder(self):
558
 
        """Iterate the contents of the pack from stream_decoder."""
559
 
        # dequeue pending items
560
 
        for record in self.stream_decoder.read_pending_records():
561
 
            yield record
562
 
        # Pull bytes of the wire, decode them to records, yield those records.
563
 
        for bytes in self.byte_stream:
564
 
            self.stream_decoder.accept_bytes(bytes)
565
 
            for record in self.stream_decoder.read_pending_records():
566
 
                yield record
567
 
 
568
 
    def iter_substream_bytes(self):
569
 
        if self.first_bytes is not None:
570
 
            yield self.first_bytes
571
 
            # If we run out of pack records, single the outer layer to stop.
572
 
            self.first_bytes = None
573
 
        for record in self.iter_pack_records:
 
420
    stream_decoder = pack.ContainerPushParser()
 
421
    def record_stream():
 
422
        """Closure to return the substreams."""
 
423
        # May have fully parsed records already.
 
424
        for record in stream_decoder.read_pending_records():
574
425
            record_names, record_bytes = record
575
426
            record_name, = record_names
576
427
            substream_type = record_name[0]
577
 
            if substream_type != self.current_type:
578
 
                # end of a substream, seed the next substream.
579
 
                self.current_type = substream_type
580
 
                self.first_bytes = record_bytes
581
 
                return
582
 
            yield record_bytes
583
 
 
584
 
    def record_stream(self):
585
 
        """Yield substream_type, substream from the byte stream."""
586
 
        def wrap_and_count(pb, rc, substream):
587
 
            """Yield records from stream while showing progress."""
588
 
            counter = 0
589
 
            if rc:
590
 
                if self.current_type != 'revisions' and self.key_count != 0:
591
 
                    # As we know the number of revisions now (in self.key_count)
592
 
                    # we can setup and use record_counter (rc).
593
 
                    if not rc.is_initialized():
594
 
                        rc.setup(self.key_count, self.key_count)
595
 
            for record in substream.read():
596
 
                if rc:
597
 
                    if rc.is_initialized() and counter == rc.STEP:
598
 
                        rc.increment(counter)
599
 
                        pb.update('Estimate', rc.current, rc.max)
600
 
                        counter = 0
601
 
                    if self.current_type == 'revisions':
602
 
                        # Total records is proportional to number of revs
603
 
                        # to fetch. With remote, we used self.key_count to
604
 
                        # track the number of revs. Once we have the revs
605
 
                        # counts in self.key_count, the progress bar changes
606
 
                        # from 'Estimating..' to 'Estimate' above.
607
 
                        self.key_count += 1
608
 
                        if counter == rc.STEP:
609
 
                            pb.update('Estimating..', self.key_count)
610
 
                            counter = 0
611
 
                counter += 1
612
 
                yield record
613
 
 
614
 
        self.seed_state()
615
 
        pb = ui.ui_factory.nested_progress_bar()
616
 
        rc = self._record_counter
617
 
        # Make and consume sub generators, one per substream type:
618
 
        while self.first_bytes is not None:
619
 
            substream = NetworkRecordStream(self.iter_substream_bytes())
620
 
            # after substream is fully consumed, self.current_type is set to
621
 
            # the next type, and self.first_bytes is set to the matching bytes.
622
 
            yield self.current_type, wrap_and_count(pb, rc, substream)
623
 
        if rc:
624
 
            pb.update('Done', rc.max, rc.max)
625
 
        pb.finished()
626
 
 
627
 
    def seed_state(self):
628
 
        """Prepare the _ByteStreamDecoder to decode from the pack stream."""
629
 
        # Set a single generator we can use to get data from the pack stream.
630
 
        self.iter_pack_records = self.iter_stream_decoder()
631
 
        # Seed the very first subiterator with content; after this each one
632
 
        # seeds the next.
633
 
        list(self.iter_substream_bytes())
634
 
 
635
 
 
636
 
def _byte_stream_to_stream(byte_stream, record_counter=None):
637
 
    """Convert a byte stream into a format and a stream.
638
 
 
639
 
    :param byte_stream: A bytes iterator, as output by _stream_to_byte_stream.
640
 
    :return: (RepositoryFormat, stream_generator)
641
 
    """
642
 
    decoder = _ByteStreamDecoder(byte_stream, record_counter)
 
428
            substream = NetworkRecordStream([record_bytes])
 
429
            yield substream_type, substream.read()
 
430
        for bytes in byte_stream:
 
431
            stream_decoder.accept_bytes(bytes)
 
432
            for record in stream_decoder.read_pending_records():
 
433
                record_names, record_bytes = record
 
434
                record_name, = record_names
 
435
                substream_type = record_name[0]
 
436
                substream = NetworkRecordStream([record_bytes])
 
437
                yield substream_type, substream.read()
643
438
    for bytes in byte_stream:
644
 
        decoder.stream_decoder.accept_bytes(bytes)
645
 
        for record in decoder.stream_decoder.read_pending_records(max=1):
 
439
        stream_decoder.accept_bytes(bytes)
 
440
        for record in stream_decoder.read_pending_records(max=1):
646
441
            record_names, src_format_name = record
647
442
            src_format = network_format_registry.get(src_format_name)
648
 
            return src_format, decoder.record_stream()
 
443
            return src_format, record_stream()
649
444
 
650
445
 
651
446
class SmartServerRepositoryUnlock(SmartServerRepositoryRequest):
711
506
            temp.close()
712
507
 
713
508
    def _tarball_of_dir(self, dirname, compression, ofile):
714
 
        import tarfile
715
509
        filename = os.path.basename(ofile.name)
716
510
        tarball = tarfile.open(fileobj=ofile, name=filename,
717
511
            mode='w|' + compression)
795
589
            return SuccessfulSmartServerResponse(('ok', ))
796
590
 
797
591
 
798
 
class SmartServerRepositoryInsertStream_1_19(SmartServerRepositoryInsertStreamLocked):
799
 
    """Insert a record stream from a RemoteSink into a repository.
800
 
 
801
 
    Same as SmartServerRepositoryInsertStreamLocked, except:
802
 
     - the lock token argument is optional
803
 
     - servers that implement this verb accept 'inventory-delta' records in the
804
 
       stream.
805
 
 
806
 
    New in 1.19.
807
 
    """
808
 
 
809
 
    def do_repository_request(self, repository, resume_tokens, lock_token=None):
810
 
        """StreamSink.insert_stream for a remote repository."""
811
 
        SmartServerRepositoryInsertStreamLocked.do_repository_request(
812
 
            self, repository, resume_tokens, lock_token)
813
 
 
814
 
 
815
592
class SmartServerRepositoryInsertStream(SmartServerRepositoryInsertStreamLocked):
816
593
    """Insert a record stream from a RemoteSink into an unlocked repository.
817
594