~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/reconcile.py

  • Committer: Canonical.com Patch Queue Manager
  • Date: 2008-04-07 07:52:50 UTC
  • mfrom: (3340.1.1 208418-1.4)
  • Revision ID: pqm@pqm.ubuntu.com-20080407075250-phs53xnslo8boaeo
Return the correct knit serialisation method in _StreamAccess.
        (Andrew Bennetts, Martin Pool, Robert Collins)

Show diffs side-by-side

added added

removed removed

Lines of Context:
17
17
"""Reconcilers are able to fix some potential data errors in a branch."""
18
18
 
19
19
 
20
 
__all__ = ['reconcile', 'Reconciler', 'RepoReconciler', 'KnitReconciler']
21
 
 
22
 
 
23
 
from bzrlib import ui
24
 
from bzrlib.trace import mutter
 
20
__all__ = [
 
21
    'KnitReconciler',
 
22
    'PackReconciler',
 
23
    'reconcile',
 
24
    'Reconciler',
 
25
    'RepoReconciler',
 
26
    ]
 
27
 
 
28
 
 
29
from bzrlib import (
 
30
    errors,
 
31
    ui,
 
32
    repository,
 
33
    repofmt,
 
34
    )
 
35
from bzrlib.trace import mutter, note
25
36
from bzrlib.tsort import TopoSorter
26
37
 
27
38
 
68
79
        self.repo = self.bzrdir.find_repository()
69
80
        self.pb.note('Reconciling repository %s',
70
81
                     self.repo.bzrdir.root_transport.base)
 
82
        self.pb.update("Reconciling repository", 0, 1)
71
83
        repo_reconciler = self.repo.reconcile(thorough=True)
72
84
        self.inconsistent_parents = repo_reconciler.inconsistent_parents
73
85
        self.garbage_inventories = repo_reconciler.garbage_inventories
74
 
        self.pb.note('Reconciliation complete.')
 
86
        if repo_reconciler.aborted:
 
87
            self.pb.note(
 
88
                'Reconcile aborted: revision index has inconsistent parents.')
 
89
            self.pb.note(
 
90
                'Run "bzr check" for more details.')
 
91
        else:
 
92
            self.pb.note('Reconciliation complete.')
75
93
 
76
94
 
77
95
class RepoReconciler(object):
78
96
    """Reconciler that reconciles a repository.
79
97
 
 
98
    The goal of repository reconciliation is to make any derived data
 
99
    consistent with the core data committed by a user. This can involve 
 
100
    reindexing, or removing unreferenced data if that can interfere with
 
101
    queries in a given repository.
 
102
 
80
103
    Currently this consists of an inventory reweave with revision cross-checks.
81
104
    """
82
105
 
89
112
        """
90
113
        self.garbage_inventories = 0
91
114
        self.inconsistent_parents = 0
 
115
        self.aborted = False
92
116
        self.repo = repo
93
117
        self.thorough = thorough
94
118
 
170
194
                # This is done to avoid a revision_count * time-to-write additional overhead on 
171
195
                # reconcile.
172
196
                new_inventory_vf._check_write_ok()
173
 
                Weave._add_lines(new_inventory_vf, rev_id, parents, self.inventory.get_lines(rev_id),
174
 
                                 None)
 
197
                Weave._add_lines(new_inventory_vf, rev_id, parents,
 
198
                    self.inventory.get_lines(rev_id), None, None, None, False, True)
175
199
            else:
176
200
                new_inventory_vf.add_lines(rev_id, parents, self.inventory.get_lines(rev_id))
177
201
 
204
228
                parents.append(parent)
205
229
            else:
206
230
                mutter('found ghost %s', parent)
207
 
        self._rev_graph[rev_id] = parents   
 
231
        self._rev_graph[rev_id] = parents
208
232
        if self._parents_are_inconsistent(rev_id, parents):
209
233
            self.inconsistent_parents += 1
210
234
            mutter('Inconsistent inventory parents: id {%s} '
211
235
                   'inventory claims %r, '
212
236
                   'available parents are %r, '
213
237
                   'unavailable parents are %r',
214
 
                   rev_id, 
215
 
                   set(self.inventory.get_parents(rev_id)),
 
238
                   rev_id,
 
239
                   set(self.inventory.get_parent_map([rev_id])[rev_id]),
216
240
                   set(parents),
217
241
                   set(rev.parent_ids).difference(set(parents)))
218
242
 
224
248
        differences.
225
249
        Otherwise only the ghost differences are evaluated.
226
250
        """
227
 
        weave_parents = self.inventory.get_parents(rev_id)
 
251
        weave_parents = self.inventory.get_parent_map([rev_id])[rev_id]
228
252
        weave_missing_old_ghosts = set(weave_parents) != set(parents)
229
253
        first_parent_is_wrong = (
230
254
            len(weave_parents) and len(parents) and
267
291
class KnitReconciler(RepoReconciler):
268
292
    """Reconciler that reconciles a knit format repository.
269
293
 
270
 
    This will detect garbage inventories and remove them.
271
 
 
272
 
    Inconsistent parentage is checked for in the revision weave.
 
294
    This will detect garbage inventories and remove them in thorough mode.
273
295
    """
274
296
 
275
297
    def _reconcile_steps(self):
276
298
        """Perform the steps to reconcile this repository."""
277
299
        if self.thorough:
278
 
            self._load_indexes()
 
300
            try:
 
301
                self._load_indexes()
 
302
            except errors.BzrCheckError:
 
303
                self.aborted = True
 
304
                return
279
305
            # knits never suffer this
280
306
            self._gc_inventory()
 
307
            self._fix_text_parents()
281
308
 
282
309
    def _load_indexes(self):
283
310
        """Load indexes for the reconciliation."""
285
312
        self.pb.update('Reading indexes.', 0, 2)
286
313
        self.inventory = self.repo.get_inventory_weave()
287
314
        self.pb.update('Reading indexes.', 1, 2)
 
315
        self.repo._check_for_inconsistent_revision_parents()
288
316
        self.revisions = self.repo._revision_store.get_revision_file(self.transaction)
289
317
        self.pb.update('Reading indexes.', 2, 2)
290
318
 
305
333
 
306
334
        # we have topological order of revisions and non ghost parents ready.
307
335
        self._setup_steps(len(self.revisions))
308
 
        for rev_id in TopoSorter(self.revisions.get_graph().items()).iter_topo_order():
309
 
            parents = self.revisions.get_parents(rev_id)
310
 
            # double check this really is in topological order.
311
 
            unavailable = [p for p in parents if p not in new_inventory_vf]
 
336
        revision_ids = self.revisions.versions()
 
337
        graph = self.revisions.get_parent_map(revision_ids)
 
338
        for rev_id in TopoSorter(graph.items()).iter_topo_order():
 
339
            parents = graph[rev_id]
 
340
            # double check this really is in topological order, ignoring existing ghosts.
 
341
            unavailable = [p for p in parents if p not in new_inventory_vf and
 
342
                p in self.revisions]
312
343
            assert len(unavailable) == 0
313
344
            # this entry has all the non ghost parents in the inventory
314
345
            # file already.
315
346
            self._reweave_step('adding inventories')
316
347
            # ugly but needed, weaves are just way tooooo slow else.
317
 
            new_inventory_vf.add_lines(rev_id, parents, self.inventory.get_lines(rev_id))
 
348
            new_inventory_vf.add_lines_with_ghosts(rev_id, parents,
 
349
                self.inventory.get_lines(rev_id))
318
350
 
319
351
        # if this worked, the set of new_inventory_vf.names should equal
320
352
        # self.pending
337
369
        self.garbage_inventories = len(garbage)
338
370
        for revision_id in garbage:
339
371
            mutter('Garbage inventory {%s} found.', revision_id)
 
372
 
 
373
    def _fix_text_parents(self):
 
374
        """Fix bad versionedfile parent entries.
 
375
 
 
376
        It is possible for the parents entry in a versionedfile entry to be
 
377
        inconsistent with the values in the revision and inventory.
 
378
 
 
379
        This method finds entries with such inconsistencies, corrects their
 
380
        parent lists, and replaces the versionedfile with a corrected version.
 
381
        """
 
382
        transaction = self.repo.get_transaction()
 
383
        versions = self.revisions.versions()
 
384
        mutter('Prepopulating revision text cache with %d revisions',
 
385
                len(versions))
 
386
        vf_checker = self.repo._get_versioned_file_checker()
 
387
        # List all weaves before altering, to avoid race conditions when we
 
388
        # delete unused weaves.
 
389
        weaves = list(enumerate(self.repo.weave_store))
 
390
        for num, file_id in weaves:
 
391
            self.pb.update('Fixing text parents', num,
 
392
                           len(self.repo.weave_store))
 
393
            vf = self.repo.weave_store.get_weave(file_id, transaction)
 
394
            versions_with_bad_parents, unused_versions = \
 
395
                vf_checker.check_file_version_parents(vf, file_id)
 
396
            if (len(versions_with_bad_parents) == 0 and
 
397
                len(unused_versions) == 0):
 
398
                continue
 
399
            full_text_versions = set()
 
400
            self._fix_text_parent(file_id, vf, versions_with_bad_parents,
 
401
                full_text_versions, unused_versions)
 
402
 
 
403
    def _fix_text_parent(self, file_id, vf, versions_with_bad_parents,
 
404
            full_text_versions, unused_versions):
 
405
        """Fix bad versionedfile entries in a single versioned file."""
 
406
        mutter('fixing text parent: %r (%d versions)', file_id,
 
407
                len(versions_with_bad_parents))
 
408
        mutter('(%d need to be full texts, %d are unused)',
 
409
                len(full_text_versions), len(unused_versions))
 
410
        new_vf = self.repo.weave_store.get_empty('temp:%s' % file_id,
 
411
            self.transaction)
 
412
        new_parents = {}
 
413
        for version in vf.versions():
 
414
            if version in unused_versions:
 
415
                continue
 
416
            elif version in versions_with_bad_parents:
 
417
                parents = versions_with_bad_parents[version][1]
 
418
            else:
 
419
                parents = vf.get_parent_map([version])[version]
 
420
            new_parents[version] = parents
 
421
        if not len(new_parents):
 
422
            # No used versions, remove the VF.
 
423
            self.repo.weave_store.delete(file_id, self.transaction)
 
424
            return
 
425
        for version in TopoSorter(new_parents.items()).iter_topo_order():
 
426
            lines = vf.get_lines(version)
 
427
            parents = new_parents[version]
 
428
            if parents and (parents[0] in full_text_versions):
 
429
                # Force this record to be a fulltext, not a delta.
 
430
                new_vf._add(version, lines, parents, False,
 
431
                    None, None, None, False)
 
432
            else:
 
433
                new_vf.add_lines(version, parents, lines)
 
434
        self.repo.weave_store.copy(new_vf, file_id, self.transaction)
 
435
        self.repo.weave_store.delete('temp:%s' % file_id, self.transaction)
 
436
 
 
437
 
 
438
class PackReconciler(RepoReconciler):
 
439
    """Reconciler that reconciles a pack based repository.
 
440
 
 
441
    Garbage inventories do not affect ancestry queries, and removal is
 
442
    considerably more expensive as there is no separate versioned file for
 
443
    them, so they are not cleaned. In short it is currently a no-op.
 
444
 
 
445
    In future this may be a good place to hook in annotation cache checking,
 
446
    index recreation etc.
 
447
    """
 
448
 
 
449
    # XXX: The index corruption that _fix_text_parents performs is needed for
 
450
    # packs, but not yet implemented. The basic approach is to:
 
451
    #  - lock the names list
 
452
    #  - perform a customised pack() that regenerates data as needed
 
453
    #  - unlock the names list
 
454
    # https://bugs.edge.launchpad.net/bzr/+bug/154173
 
455
 
 
456
    def _reconcile_steps(self):
 
457
        """Perform the steps to reconcile this repository."""
 
458
        if not self.thorough:
 
459
            return
 
460
        collection = self.repo._pack_collection
 
461
        collection.ensure_loaded()
 
462
        collection.lock_names()
 
463
        try:
 
464
            packs = collection.all_packs()
 
465
            all_revisions = self.repo.all_revision_ids()
 
466
            total_inventories = len(list(
 
467
                collection.inventory_index.combined_index.iter_all_entries()))
 
468
            if len(all_revisions):
 
469
                self._packer = repofmt.pack_repo.ReconcilePacker(
 
470
                    collection, packs, ".reconcile", all_revisions)
 
471
                new_pack = self._packer.pack(pb=self.pb)
 
472
                if new_pack is not None:
 
473
                    self._discard_and_save(packs)
 
474
            else:
 
475
                # only make a new pack when there is data to copy.
 
476
                self._discard_and_save(packs)
 
477
            self.garbage_inventories = total_inventories - len(list(
 
478
                collection.inventory_index.combined_index.iter_all_entries()))
 
479
        finally:
 
480
            collection._unlock_names()
 
481
 
 
482
    def _discard_and_save(self, packs):
 
483
        """Discard some packs from the repository.
 
484
 
 
485
        This removes them from the memory index, saves the in-memory index
 
486
        which makes the newly reconciled pack visible and hides the packs to be
 
487
        discarded, and finally renames the packs being discarded into the
 
488
        obsolete packs directory.
 
489
 
 
490
        :param packs: The packs to discard.
 
491
        """
 
492
        for pack in packs:
 
493
            self.repo._pack_collection._remove_pack_from_memory(pack)
 
494
        self.repo._pack_collection._save_pack_names()
 
495
        self.repo._pack_collection._obsolete_packs(packs)