~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/fetch.py

  • Committer: Jelmer Vernooij
  • Date: 2009-06-09 00:59:51 UTC
  • mto: (4443.1.1 bzr.dev)
  • mto: This revision was merged to the branch mainline in revision 4444.
  • Revision ID: jelmer@samba.org-20090609005951-apv900cdk35o2ygh
Move squashing of XML-invalid characters to XMLSerializer.

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2005-2011 Canonical Ltd
 
1
# Copyright (C) 2005, 2006, 2008, 2009 Canonical Ltd
2
2
#
3
3
# This program is free software; you can redistribute it and/or modify
4
4
# it under the terms of the GNU General Public License as published by
25
25
 
26
26
import operator
27
27
 
28
 
from bzrlib.lazy_import import lazy_import
29
 
lazy_import(globals(), """
30
 
from bzrlib import (
31
 
    graph as _mod_graph,
32
 
    tsort,
33
 
    versionedfile,
34
 
    )
35
 
""")
 
28
import bzrlib
36
29
from bzrlib import (
37
30
    errors,
38
 
    ui,
 
31
    symbol_versioning,
39
32
    )
40
33
from bzrlib.revision import NULL_REVISION
 
34
from bzrlib.tsort import topo_sort
41
35
from bzrlib.trace import mutter
 
36
import bzrlib.ui
 
37
from bzrlib.versionedfile import FulltextContentFactory
42
38
 
43
39
 
44
40
class RepoFetcher(object):
49
45
    """
50
46
 
51
47
    def __init__(self, to_repository, from_repository, last_revision=None,
52
 
        find_ghosts=True, fetch_spec=None):
 
48
        pb=None, find_ghosts=True, fetch_spec=None):
53
49
        """Create a repo fetcher.
54
50
 
55
51
        :param last_revision: If set, try to limit to the data this revision
56
52
            references.
57
 
        :param fetch_spec: A SearchResult specifying which revisions to fetch.
58
 
            If set, this overrides last_revision.
59
53
        :param find_ghosts: If True search the entire history for ghosts.
 
54
        :param _write_group_acquired_callable: Don't use; this parameter only
 
55
            exists to facilitate a hack done in InterPackRepo.fetch.  We would
 
56
            like to remove this parameter.
 
57
        :param pb: ProgressBar object to use; deprecated and ignored.
 
58
            This method will just create one on top of the stack.
60
59
        """
61
 
        # repository.fetch has the responsibility for short-circuiting
62
 
        # attempts to copy between a repository and itself.
 
60
        if pb is not None:
 
61
            symbol_versioning.warn(
 
62
                symbol_versioning.deprecated_in((1, 14, 0))
 
63
                % "pb parameter to RepoFetcher.__init__")
 
64
            # and for simplicity it is in fact ignored
 
65
        if to_repository.has_same_location(from_repository):
 
66
            # repository.fetch should be taking care of this case.
 
67
            raise errors.BzrError('RepoFetcher run '
 
68
                    'between two objects at the same location: '
 
69
                    '%r and %r' % (to_repository, from_repository))
63
70
        self.to_repository = to_repository
64
71
        self.from_repository = from_repository
65
72
        self.sink = to_repository._get_sink()
90
97
        # assert not missing
91
98
        self.count_total = 0
92
99
        self.file_ids_names = {}
93
 
        pb = ui.ui_factory.nested_progress_bar()
 
100
        pb = bzrlib.ui.ui_factory.nested_progress_bar()
94
101
        pb.show_pct = pb.show_count = False
95
102
        try:
96
103
            pb.update("Finding revisions", 0, 2)
97
 
            search_result = self._revids_to_fetch()
98
 
            mutter('fetching: %s', search_result)
99
 
            if search_result.is_empty():
 
104
            search = self._revids_to_fetch()
 
105
            if search is None:
100
106
                return
101
107
            pb.update("Fetching revisions", 1, 2)
102
 
            self._fetch_everything_for_search(search_result)
 
108
            self._fetch_everything_for_search(search)
103
109
        finally:
104
110
            pb.finished()
105
111
 
118
124
            raise errors.IncompatibleRepositories(
119
125
                self.from_repository, self.to_repository,
120
126
                "different rich-root support")
121
 
        pb = ui.ui_factory.nested_progress_bar()
 
127
        pb = bzrlib.ui.ui_factory.nested_progress_bar()
122
128
        try:
123
129
            pb.update("Get stream source")
124
130
            source = self.from_repository._get_source(
128
134
            pb.update("Inserting stream")
129
135
            resume_tokens, missing_keys = self.sink.insert_stream(
130
136
                stream, from_format, [])
 
137
            if self.to_repository._fallback_repositories:
 
138
                missing_keys.update(
 
139
                    self._parent_inventories(search.get_keys()))
131
140
            if missing_keys:
132
141
                pb.update("Missing keys")
133
142
                stream = source.get_stream_for_missing_keys(missing_keys)
151
160
        """Determines the exact revisions needed from self.from_repository to
152
161
        install self._last_revision in self.to_repository.
153
162
 
154
 
        :returns: A SearchResult of some sort.  (Possibly a
155
 
            PendingAncestryResult, EmptySearchResult, etc.)
 
163
        If no revisions need to be fetched, then this just returns None.
156
164
        """
157
165
        if self._fetch_spec is not None:
158
 
            # The fetch spec is already a concrete search result.
159
166
            return self._fetch_spec
160
 
        elif self._last_revision == NULL_REVISION:
161
 
            # fetch_spec is None + last_revision is null => empty fetch.
 
167
        mutter('fetch up to rev {%s}', self._last_revision)
 
168
        if self._last_revision is NULL_REVISION:
162
169
            # explicit limit of no revisions needed
163
 
            return _mod_graph.EmptySearchResult()
164
 
        elif self._last_revision is not None:
165
 
            return _mod_graph.NotInOtherForRevs(self.to_repository,
166
 
                self.from_repository, [self._last_revision],
167
 
                find_ghosts=self.find_ghosts).execute()
168
 
        else: # self._last_revision is None:
169
 
            return _mod_graph.EverythingNotInOther(self.to_repository,
170
 
                self.from_repository,
171
 
                find_ghosts=self.find_ghosts).execute()
 
170
            return None
 
171
        return self.to_repository.search_missing_revision_ids(
 
172
            self.from_repository, self._last_revision,
 
173
            find_ghosts=self.find_ghosts)
 
174
 
 
175
    def _parent_inventories(self, revision_ids):
 
176
        # Find all the parent revisions referenced by the stream, but
 
177
        # not present in the stream, and make sure we send their
 
178
        # inventories.
 
179
        parent_maps = self.to_repository.get_parent_map(revision_ids)
 
180
        parents = set()
 
181
        map(parents.update, parent_maps.itervalues())
 
182
        parents.discard(NULL_REVISION)
 
183
        parents.difference_update(revision_ids)
 
184
        missing_keys = set(('inventories', rev_id) for rev_id in parents)
 
185
        return missing_keys
172
186
 
173
187
 
174
188
class Inter1and2Helper(object):
177
191
    This is for use by fetchers and converters.
178
192
    """
179
193
 
180
 
    # This is a class variable so that the test suite can override it.
181
 
    known_graph_threshold = 100
182
 
 
183
194
    def __init__(self, source):
184
195
        """Constructor.
185
196
 
208
219
 
209
220
    def _find_root_ids(self, revs, parent_map, graph):
210
221
        revision_root = {}
 
222
        planned_versions = {}
211
223
        for tree in self.iter_rev_trees(revs):
212
224
            revision_id = tree.inventory.root.revision
213
225
            root_id = tree.get_root_id()
 
226
            planned_versions.setdefault(root_id, []).append(revision_id)
214
227
            revision_root[revision_id] = root_id
215
228
        # Find out which parents we don't already know root ids for
216
229
        parents = set()
222
235
        for tree in self.iter_rev_trees(parents):
223
236
            root_id = tree.get_root_id()
224
237
            revision_root[tree.get_revision_id()] = root_id
225
 
        return revision_root
 
238
        return revision_root, planned_versions
226
239
 
227
240
    def generate_root_texts(self, revs):
228
241
        """Generate VersionedFiles for all root ids.
231
244
        """
232
245
        graph = self.source.get_graph()
233
246
        parent_map = graph.get_parent_map(revs)
234
 
        rev_order = tsort.topo_sort(parent_map)
235
 
        rev_id_to_root_id = self._find_root_ids(revs, parent_map, graph)
 
247
        rev_order = topo_sort(parent_map)
 
248
        rev_id_to_root_id, root_id_to_rev_ids = self._find_root_ids(
 
249
            revs, parent_map, graph)
236
250
        root_id_order = [(rev_id_to_root_id[rev_id], rev_id) for rev_id in
237
251
            rev_order]
238
252
        # Guaranteed stable, this groups all the file id operations together
241
255
        # yet, and are unlikely to in non-rich-root environments anyway.
242
256
        root_id_order.sort(key=operator.itemgetter(0))
243
257
        # Create a record stream containing the roots to create.
244
 
        if len(revs) > self.known_graph_threshold:
245
 
            graph = self.source.get_known_graph_ancestry(revs)
246
 
        new_roots_stream = _new_root_data_stream(
247
 
            root_id_order, rev_id_to_root_id, parent_map, self.source, graph)
248
 
        return [('texts', new_roots_stream)]
249
 
 
250
 
 
251
 
def _new_root_data_stream(
252
 
    root_keys_to_create, rev_id_to_root_id_map, parent_map, repo, graph=None):
253
 
    """Generate a texts substream of synthesised root entries.
254
 
 
255
 
    Used in fetches that do rich-root upgrades.
256
 
    
257
 
    :param root_keys_to_create: iterable of (root_id, rev_id) pairs describing
258
 
        the root entries to create.
259
 
    :param rev_id_to_root_id_map: dict of known rev_id -> root_id mappings for
260
 
        calculating the parents.  If a parent rev_id is not found here then it
261
 
        will be recalculated.
262
 
    :param parent_map: a parent map for all the revisions in
263
 
        root_keys_to_create.
264
 
    :param graph: a graph to use instead of repo.get_graph().
265
 
    """
266
 
    for root_key in root_keys_to_create:
267
 
        root_id, rev_id = root_key
268
 
        parent_keys = _parent_keys_for_root_version(
269
 
            root_id, rev_id, rev_id_to_root_id_map, parent_map, repo, graph)
270
 
        yield versionedfile.FulltextContentFactory(
271
 
            root_key, parent_keys, None, '')
272
 
 
273
 
 
274
 
def _parent_keys_for_root_version(
275
 
    root_id, rev_id, rev_id_to_root_id_map, parent_map, repo, graph=None):
276
 
    """Get the parent keys for a given root id.
277
 
    
278
 
    A helper function for _new_root_data_stream.
279
 
    """
280
 
    # Include direct parents of the revision, but only if they used the same
281
 
    # root_id and are heads.
282
 
    rev_parents = parent_map[rev_id]
283
 
    parent_ids = []
284
 
    for parent_id in rev_parents:
285
 
        if parent_id == NULL_REVISION:
286
 
            continue
287
 
        if parent_id not in rev_id_to_root_id_map:
288
 
            # We probably didn't read this revision, go spend the extra effort
289
 
            # to actually check
290
 
            try:
291
 
                tree = repo.revision_tree(parent_id)
292
 
            except errors.NoSuchRevision:
293
 
                # Ghost, fill out rev_id_to_root_id in case we encounter this
294
 
                # again.
295
 
                # But set parent_root_id to None since we don't really know
296
 
                parent_root_id = None
297
 
            else:
298
 
                parent_root_id = tree.get_root_id()
299
 
            rev_id_to_root_id_map[parent_id] = None
300
 
            # XXX: why not:
301
 
            #   rev_id_to_root_id_map[parent_id] = parent_root_id
302
 
            # memory consumption maybe?
303
 
        else:
304
 
            parent_root_id = rev_id_to_root_id_map[parent_id]
305
 
        if root_id == parent_root_id:
306
 
            # With stacking we _might_ want to refer to a non-local revision,
307
 
            # but this code path only applies when we have the full content
308
 
            # available, so ghosts really are ghosts, not just the edge of
309
 
            # local data.
310
 
            parent_ids.append(parent_id)
311
 
        else:
312
 
            # root_id may be in the parent anyway.
313
 
            try:
314
 
                tree = repo.revision_tree(parent_id)
315
 
            except errors.NoSuchRevision:
316
 
                # ghost, can't refer to it.
317
 
                pass
318
 
            else:
319
 
                try:
320
 
                    parent_ids.append(tree.get_file_revision(root_id))
321
 
                except errors.NoSuchId:
322
 
                    # not in the tree
323
 
                    pass
324
 
    # Drop non-head parents
325
 
    if graph is None:
326
 
        graph = repo.get_graph()
327
 
    heads = graph.heads(parent_ids)
328
 
    selected_ids = []
329
 
    for parent_id in parent_ids:
330
 
        if parent_id in heads and parent_id not in selected_ids:
331
 
            selected_ids.append(parent_id)
332
 
    parent_keys = [(root_id, parent_id) for parent_id in selected_ids]
333
 
    return parent_keys
334
 
 
335
 
 
336
 
class TargetRepoKinds(object):
337
 
    """An enum-like set of constants.
338
 
    
339
 
    They are the possible values of FetchSpecFactory.target_repo_kinds.
340
 
    """
341
 
    
342
 
    PREEXISTING = 'preexisting'
343
 
    STACKED = 'stacked'
344
 
    EMPTY = 'empty'
345
 
 
346
 
 
347
 
class FetchSpecFactory(object):
348
 
    """A helper for building the best fetch spec for a sprout call.
349
 
 
350
 
    Factors that go into determining the sort of fetch to perform:
351
 
     * did the caller specify any revision IDs?
352
 
     * did the caller specify a source branch (need to fetch its
353
 
       heads_to_fetch(), usually the tip + tags)
354
 
     * is there an existing target repo (don't need to refetch revs it
355
 
       already has)
356
 
     * target is stacked?  (similar to pre-existing target repo: even if
357
 
       the target itself is new don't want to refetch existing revs)
358
 
 
359
 
    :ivar source_branch: the source branch if one specified, else None.
360
 
    :ivar source_branch_stop_revision_id: fetch up to this revision of
361
 
        source_branch, rather than its tip.
362
 
    :ivar source_repo: the source repository if one found, else None.
363
 
    :ivar target_repo: the target repository acquired by sprout.
364
 
    :ivar target_repo_kind: one of the TargetRepoKinds constants.
365
 
    """
366
 
 
367
 
    def __init__(self):
368
 
        self._explicit_rev_ids = set()
369
 
        self.source_branch = None
370
 
        self.source_branch_stop_revision_id = None
371
 
        self.source_repo = None
372
 
        self.target_repo = None
373
 
        self.target_repo_kind = None
374
 
        self.limit = None
375
 
 
376
 
    def add_revision_ids(self, revision_ids):
377
 
        """Add revision_ids to the set of revision_ids to be fetched."""
378
 
        self._explicit_rev_ids.update(revision_ids)
379
 
 
380
 
    def make_fetch_spec(self):
381
 
        """Build a SearchResult or PendingAncestryResult or etc."""
382
 
        if self.target_repo_kind is None or self.source_repo is None:
383
 
            raise AssertionError(
384
 
                'Incomplete FetchSpecFactory: %r' % (self.__dict__,))
385
 
        if len(self._explicit_rev_ids) == 0 and self.source_branch is None:
386
 
            if self.limit is not None:
387
 
                raise NotImplementedError(
388
 
                    "limit is only supported with a source branch set")
389
 
            # Caller hasn't specified any revisions or source branch
390
 
            if self.target_repo_kind == TargetRepoKinds.EMPTY:
391
 
                return _mod_graph.EverythingResult(self.source_repo)
392
 
            else:
393
 
                # We want everything not already in the target (or target's
394
 
                # fallbacks).
395
 
                return _mod_graph.EverythingNotInOther(
396
 
                    self.target_repo, self.source_repo).execute()
397
 
        heads_to_fetch = set(self._explicit_rev_ids)
398
 
        if self.source_branch is not None:
399
 
            must_fetch, if_present_fetch = self.source_branch.heads_to_fetch()
400
 
            if self.source_branch_stop_revision_id is not None:
401
 
                # Replace the tip rev from must_fetch with the stop revision
402
 
                # XXX: this might be wrong if the tip rev is also in the
403
 
                # must_fetch set for other reasons (e.g. it's the tip of
404
 
                # multiple loom threads?), but then it's pretty unclear what it
405
 
                # should mean to specify a stop_revision in that case anyway.
406
 
                must_fetch.discard(self.source_branch.last_revision())
407
 
                must_fetch.add(self.source_branch_stop_revision_id)
408
 
            heads_to_fetch.update(must_fetch)
409
 
        else:
410
 
            if_present_fetch = set()
411
 
        if self.target_repo_kind == TargetRepoKinds.EMPTY:
412
 
            # PendingAncestryResult does not raise errors if a requested head
413
 
            # is absent.  Ideally it would support the
414
 
            # required_ids/if_present_ids distinction, but in practice
415
 
            # heads_to_fetch will almost certainly be present so this doesn't
416
 
            # matter much.
417
 
            all_heads = heads_to_fetch.union(if_present_fetch)
418
 
            ret = _mod_graph.PendingAncestryResult(all_heads, self.source_repo)
419
 
            if self.limit is not None:
420
 
                graph = self.source_repo.get_graph()
421
 
                topo_order = list(graph.iter_topo_order(ret.get_keys()))
422
 
                result_set = topo_order[:self.limit]
423
 
                ret = self.source_repo.revision_ids_to_search_result(result_set)
424
 
            return ret
425
 
        else:
426
 
            return _mod_graph.NotInOtherForRevs(self.target_repo, self.source_repo,
427
 
                required_ids=heads_to_fetch, if_present_ids=if_present_fetch,
428
 
                limit=self.limit).execute()
 
258
        def yield_roots():
 
259
            for key in root_id_order:
 
260
                root_id, rev_id = key
 
261
                rev_parents = parent_map[rev_id]
 
262
                # We drop revision parents with different file-ids, because
 
263
                # that represents a rename of the root to a different location
 
264
                # - its not actually a parent for us. (We could look for that
 
265
                # file id in the revision tree at considerably more expense,
 
266
                # but for now this is sufficient (and reconcile will catch and
 
267
                # correct this anyway).
 
268
                # When a parent revision is a ghost, we guess that its root id
 
269
                # was unchanged (rather than trimming it from the parent list).
 
270
                parent_keys = tuple((root_id, parent) for parent in rev_parents
 
271
                    if parent != NULL_REVISION and
 
272
                        rev_id_to_root_id.get(parent, root_id) == root_id)
 
273
                yield FulltextContentFactory(key, parent_keys, None, '')
 
274
        return [('texts', yield_roots())]